Управление проблемами

редактировать

Управление проблемами это процесс, отвечающий за управление жизненным циклом всех проблем, которые происходят или могут произойти в ИТ-службе. Основные цели управления проблемами - предотвратить возникновение проблем и связанных с ними инцидентов, устранить повторяющиеся инциденты и минимизировать влияние инцидентов, которые невозможно предотвратить. Библиотека инфраструктуры информационных технологий определяет проблему как причину одного или нескольких инцидентов.

Содержание

  • 1 Область действия
  • 2 Ценность для бизнеса
  • 3 Действия процесса, методы и методы
  • 4 Обнаружение проблем
  • 5 Регистрация проблем
  • 6 Приоритизация проблем
  • 7 Исследование и диагностика проблем
  • 8 Запись известных ошибок
  • 9 Обзор основных проблем
  • 10 См. также
  • 11 Ссылки

Объем

Управление проблемами включает в себя действия, необходимые для диагностики основной причины инцидентов, выявленных в процессе Управление инцидентами, и определения решения те проблемы. Он также отвечает за обеспечение того, чтобы решение было реализовано с помощью соответствующих процедур контроля, особенно Управление изменениями и Управление выпуском.

Управление проблемами также будет поддерживать информацию о проблемах и соответствующих обходных путях и решениях, чтобы организация могла со временем уменьшить количество и влияние инцидентов. В этом отношении Управление проблемами имеет надежный интерфейс с Управлением знаниями, и для обоих будут использоваться такие инструменты, как База данных известных ошибок. Хотя управление инцидентами и управление проблемами являются отдельными процессами, они тесно связаны и обычно используют одни и те же инструменты, а также могут использовать аналогичные системы категоризации, воздействия и кодирования приоритета. Это обеспечит эффективное общение при рассмотрении связанных инцидентов и проблем.

Ценность для бизнеса

Управление проблемами работает вместе с Управлением инцидентами и Управлением изменениями, чтобы обеспечить повышение доступности и качества ИТ-услуг. Когда инциденты разрешены, информация о разрешении записывается. Со временем эта информация используется для ускорения времени разрешения и определения постоянных решений, сокращая количество и время разрешения инцидентов. Это приводит к сокращению времени простоя и прерывания работы критически важных для бизнеса систем.

Действия, методы и приемы процессов

Управление проблемами состоит из двух основных процессов:

Обнаружение проблем

  • Подозрение или обнаружение причины одного или нескольких инцидентов со стороны Служба поддержки, в результате чего возникла проблема - Служба поддержки могла разрешить инцидент, но не определила окончательную причину и подозревает, что она может повториться.
  • Анализ инцидента группой технической поддержки, который показывает, что основная проблема существует или может существовать.
  • Автоматическое обнаружение сбоя инфраструктуры или приложения с использованием инструментов событий / предупреждений, автоматически вызывающих инцидент, который может выявить необходимость в.
  • уведомление от поставщика или подрядчика о том, что проблема существует sts, которые необходимо разрешить.
  • Анализ инцидентов как часть упреждающего управления проблемами: контрольные бюллетени, выпуски, соответствующие документы

Регистрация проблем

Все важные детали проблемы должны должны быть записаны так, чтобы существовала полная историческая запись. Это должно быть отмечено датой и временем, чтобы обеспечить соответствующий контроль и эскалацию. Перекрестная ссылка должна быть сделана на инцидент (ы), который инициировал «Запись о проблеме»:

  • Сведения об услуге
  • Сведения об оборудовании
  • Первоначальная дата / время регистрируется
  • Сведения о приоритетах и ​​категоризации
  • Описание инцидента
  • Подробная информация обо всех предпринятых действиях по диагностике или попытках восстановления.

Приоритизация проблем

Проблемы могут быть разделены на категории в соответствии с их серьезностью и приоритетностью так же, как и инциденты, чтобы облегчить их отслеживание, принимая во внимание влияние связанных инцидентов и их частоту возникновения. С точки зрения инфраструктуры можно спросить:

  • Можно ли восстановить систему или ее нужно заменить?
  • Сколько это будет стоить?
  • Сколько человек будет требуется для устранения проблемы?
  • Сколько времени потребуется, чтобы решить проблему?
  • Сколько дополнительных ресурсов потребуется?
  • Какое влияние окажет не устраняет проблему?

Исследование и диагностика проблемы

Результатом исследования проблемы будет диагностика основной причины или отчет о RCA. Решение должно быть суммой соответствующего уровня ресурсов и навыков, используемых для его поиска. Существует ряд полезных методов решения проблем, которые можно использовать для диагностики и решения проблем.

  • Система управления конфигурацией (CMS) должна использоваться, чтобы помочь определить уровень воздействия и помочь в выявлении точки отказа.
  • База данных известных ошибок или KEDB должны быть доступны и проверены, чтобы узнать, возникала ли проблема в прошлом, если да, то решение должно быть уже на месте.
  • Хронологический анализ, события, вызвавшие проблему, будут быть отмеченными в хронологическом порядке, чтобы иметь график событий. Цель состоит в том, чтобы увидеть, какое событие запускает следующее событие и так далее, или исключить некоторые возможные события.

Анализ значения боли содержит более широкий взгляд на влияние инцидента или проблемы на бизнес. Вместо анализа количества инцидентов / проблем определенного типа в конкретном временном интервале метод фокусируется на глубоком анализе того, какой уровень боли был причинен бизнесу этими инцидентами / проблемами. Формула для расчета уровня боли должна учитывать:

  • количество людей, пострадавших
  • продолжительность простоя вызвала
  • расходы для бизнеса

Метод Кепнера и Трегое используется для исследования более глубоких проблем. Они определили следующие этапы:

  • определение проблемы
  • описание проблемы с точки зрения личности, местоположения, времени (продолжительности) и размера (воздействия)
  • установление возможных причин
  • проверка наиболее вероятной причины
  • проверка истинной причины

анализ Парето или диаграмма Парето - это метод отделения важных потенциальных причин от незначительных проблем. Необходимо предпринять следующие шаги:

  1. Сформируйте таблицу, в которой перечислены причины и их частота в процентах
  2. Расположите строки в порядке убывания важности причин (сначала самая важная причина)
  3. Добавьте в таблицу столбец совокупного процента
  4. Создайте гистограмму с причинами в порядке их процентного соотношения от общего количества
  5. Нарисуйте линию с 80% по оси Y, затем опустите линию в точке пересечения с осью X. На диаграмме вы можете увидеть основные причины сбоев в сети. Они должны быть нацелены в первую очередь.
Сбои сети
ПричиныПроцент от общего числаВычислений%
Сетевой контроллер350 + 35% = 35%
Повреждение файла2635% + 26% = 61%
Серверная ОС661% + 6% = 67%

Запись об известной ошибке

После завершения расследования и временного решения ( или даже постоянное решение), необходимо создать запись об известной ошибке и поместить ее в базу данных известных ошибок, чтобы выявить и устранить подобные проблемы в дальнейшем. Основная цель - как можно скорее восстановить поврежденный сервис с минимальным влиянием на бизнес.

Хорошей практикой было бы поднять запись об известной ошибке как можно раньше в ходе расследования; после успешного тестирования обходного пути или определения основной причины.

Обзор основных проблем

Хорошей практикой является проверка всех основных проблем. Но это требует затрат. В ходе проверки необходимо изучить:

  • Предпринятые правильные шаги
  • Проблемы, возникшие при реализации решения
  • Необходимость улучшения
  • Предотвратить повторение подобных инцидентов в будущем.
  • Сторонний поставщик / поставщик / поставщик, участвовавший во внедрении

Знания, полученные в результате проверки, должны быть включены в обзор услуг с бизнес-заказчиком, чтобы убедиться, что заказчик осведомлен о предпринятых действиях и планах по предотвращению подобных инцидентов в будущем. Это помогает повысить удовлетворенность клиентов и обеспечить бизнесу уверенность в том, что отдел обслуживания ответственно обрабатывает серьезные инциденты и активно работает над предотвращением их повторения в будущем.

См. Также

Ссылки

  • Новый Rational Manager - описывает решение проблем и принятие решений KT (PSDM)
  • Оффорд, Пол (2011). RPR: метод диагностики проблем для ИТ-специалистов. Эссекс, Англия: Advance Seven Limited. ISBN 978-1-4478-4443-3.
Последняя правка сделана 2021-06-02 07:18:28
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте