Управление проблемами

редактировать

Управление проблемами это процесс, отвечающий за управление жизненным циклом всех проблем, которые происходят или могут произойти в ИТ-службе. Основные цели управления проблемами - предотвратить возникновение проблем и связанных с ними инцидентов, устранить повторяющиеся инциденты и минимизировать влияние инцидентов, которые невозможно предотвратить. Библиотека инфраструктуры информационных технологий определяет проблему как причину одного или нескольких инцидентов.

Содержание

1 Область действия
2 Ценность для бизнеса
3 Действия процесса, методы и методы
4 Обнаружение проблем
5 Регистрация проблем
6 Приоритизация проблем
7 Исследование и диагностика проблем
8 Запись известных ошибок
9 Обзор основных проблем
10 См. также
11 Ссылки

Объем

Управление проблемами включает в себя действия, необходимые для диагностики основной причины инцидентов, выявленных в процессе Управление инцидентами, и определения решения те проблемы. Он также отвечает за обеспечение того, чтобы решение было реализовано с помощью соответствующих процедур контроля, особенно Управление изменениями и Управление выпуском.

Управление проблемами также будет поддерживать информацию о проблемах и соответствующих обходных путях и решениях, чтобы организация могла со временем уменьшить количество и влияние инцидентов. В этом отношении Управление проблемами имеет надежный интерфейс с Управлением знаниями, и для обоих будут использоваться такие инструменты, как База данных известных ошибок. Хотя управление инцидентами и управление проблемами являются отдельными процессами, они тесно связаны и обычно используют одни и те же инструменты, а также могут использовать аналогичные системы категоризации, воздействия и кодирования приоритета. Это обеспечит эффективное общение при рассмотрении связанных инцидентов и проблем.

Ценность для бизнеса

Управление проблемами работает вместе с Управлением инцидентами и Управлением изменениями, чтобы обеспечить повышение доступности и качества ИТ-услуг. Когда инциденты разрешены, информация о разрешении записывается. Со временем эта информация используется для ускорения времени разрешения и определения постоянных решений, сокращая количество и время разрешения инцидентов. Это приводит к сокращению времени простоя и прерывания работы критически важных для бизнеса систем.

Действия, методы и приемы процессов

Управление проблемами состоит из двух основных процессов:

Реактивное управление проблемами, которое обычно выполняется как часть Операции обслуживания
Проактивная проблема Управление, которое инициируется в Операции обслуживания, но обычно осуществляется как часть Постоянного улучшения обслуживания (CSI).

Обнаружение проблем

Подозрение или обнаружение причины одного или нескольких инцидентов со стороны Служба поддержки, в результате чего возникла проблема - Служба поддержки могла разрешить инцидент, но не определила окончательную причину и подозревает, что она может повториться.
Анализ инцидента группой технической поддержки, который показывает, что основная проблема существует или может существовать.
Автоматическое обнаружение сбоя инфраструктуры или приложения с использованием инструментов событий / предупреждений, автоматически вызывающих инцидент, который может выявить необходимость в.
уведомление от поставщика или подрядчика о том, что проблема существует sts, которые необходимо разрешить.
Анализ инцидентов как часть упреждающего управления проблемами: контрольные бюллетени, выпуски, соответствующие документы

Регистрация проблем

Все важные детали проблемы должны должны быть записаны так, чтобы существовала полная историческая запись. Это должно быть отмечено датой и временем, чтобы обеспечить соответствующий контроль и эскалацию. Перекрестная ссылка должна быть сделана на инцидент (ы), который инициировал «Запись о проблеме»:

Сведения об услуге
Сведения об оборудовании
Первоначальная дата / время регистрируется
Сведения о приоритетах и категоризации
Описание инцидента
Подробная информация обо всех предпринятых действиях по диагностике или попытках восстановления.

Приоритизация проблем

Проблемы могут быть разделены на категории в соответствии с их серьезностью и приоритетностью так же, как и инциденты, чтобы облегчить их отслеживание, принимая во внимание влияние связанных инцидентов и их частоту возникновения. С точки зрения инфраструктуры можно спросить:

Можно ли восстановить систему или ее нужно заменить?
Сколько это будет стоить?
Сколько человек будет требуется для устранения проблемы?
Сколько времени потребуется, чтобы решить проблему?
Сколько дополнительных ресурсов потребуется?
Какое влияние окажет не устраняет проблему?

Исследование и диагностика проблемы

Результатом исследования проблемы будет диагностика основной причины или отчет о RCA. Решение должно быть суммой соответствующего уровня ресурсов и навыков, используемых для его поиска. Существует ряд полезных методов решения проблем, которые можно использовать для диагностики и решения проблем.

Система управления конфигурацией (CMS) должна использоваться, чтобы помочь определить уровень воздействия и помочь в выявлении точки отказа.
База данных известных ошибок или KEDB должны быть доступны и проверены, чтобы узнать, возникала ли проблема в прошлом, если да, то решение должно быть уже на месте.
Хронологический анализ, события, вызвавшие проблему, будут быть отмеченными в хронологическом порядке, чтобы иметь график событий. Цель состоит в том, чтобы увидеть, какое событие запускает следующее событие и так далее, или исключить некоторые возможные события.

Анализ значения боли содержит более широкий взгляд на влияние инцидента или проблемы на бизнес. Вместо анализа количества инцидентов / проблем определенного типа в конкретном временном интервале метод фокусируется на глубоком анализе того, какой уровень боли был причинен бизнесу этими инцидентами / проблемами. Формула для расчета уровня боли должна учитывать:

количество людей, пострадавших
продолжительность простоя вызвала
расходы для бизнеса

Метод Кепнера и Трегое используется для исследования более глубоких проблем. Они определили следующие этапы:

определение проблемы
описание проблемы с точки зрения личности, местоположения, времени (продолжительности) и размера (воздействия)
установление возможных причин
проверка наиболее вероятной причины
проверка истинной причины

анализ Парето или диаграмма Парето - это метод отделения важных потенциальных причин от незначительных проблем. Необходимо предпринять следующие шаги:

Сформируйте таблицу, в которой перечислены причины и их частота в процентах
Расположите строки в порядке убывания важности причин (сначала самая важная причина)
Добавьте в таблицу столбец совокупного процента
Создайте гистограмму с причинами в порядке их процентного соотношения от общего количества
Нарисуйте линию с 80% по оси Y, затем опустите линию в точке пересечения с осью X. На диаграмме вы можете увидеть основные причины сбоев в сети. Они должны быть нацелены в первую очередь.

Сбои сети
Причины	Процент от общего числа	Вычислений%
Сетевой контроллер	35	0 + 35% = 35%
Повреждение файла	26	35% + 26% = 61%
Серверная ОС	6	61% + 6% = 67%

Запись об известной ошибке

После завершения расследования и временного решения ( или даже постоянное решение), необходимо создать запись об известной ошибке и поместить ее в базу данных известных ошибок, чтобы выявить и устранить подобные проблемы в дальнейшем. Основная цель - как можно скорее восстановить поврежденный сервис с минимальным влиянием на бизнес.

Хорошей практикой было бы поднять запись об известной ошибке как можно раньше в ходе расследования; после успешного тестирования обходного пути или определения основной причины.

Обзор основных проблем

Хорошей практикой является проверка всех основных проблем. Но это требует затрат. В ходе проверки необходимо изучить:

Предпринятые правильные шаги
Проблемы, возникшие при реализации решения
Необходимость улучшения
Предотвратить повторение подобных инцидентов в будущем.
Сторонний поставщик / поставщик / поставщик, участвовавший во внедрении

Знания, полученные в результате проверки, должны быть включены в обзор услуг с бизнес-заказчиком, чтобы убедиться, что заказчик осведомлен о предпринятых действиях и планах по предотвращению подобных инцидентов в будущем. Это помогает повысить удовлетворенность клиентов и обеспечить бизнесу уверенность в том, что отдел обслуживания ответственно обрабатывает серьезные инциденты и активно работает над предотвращением их повторения в будущем.

См. Также

Ссылки

Новый Rational Manager - описывает решение проблем и принятие решений KT (PSDM)
Оффорд, Пол (2011). RPR: метод диагностики проблем для ИТ-специалистов. Эссекс, Англия: Advance Seven Limited. ISBN 978-1-4478-4443-3.