'Устранение неполадок - это форма решение проблем, часто применяется для ремонта неисправных продуктов или процессов в машине или системе. Это логический, систематический поиск источника проблемы с целью ее решения и восстановления работоспособности продукта или процесса. Устранение неполадок необходимо для выявления симптомов. Определение наиболее вероятной причины - это процесс устранения - устранение потенциальных причин проблемы. Наконец, для устранения неполадок требуется подтверждение того, что решение восстанавливает продукт или процесс до рабочего состояния.
В общем, устранение неполадок - это идентификация или диагностика «неисправности» в потоке управления системы, вызванной каким-либо сбоями. Первоначально проблема описывается как симптомы неисправности, а устранение неполадок - это процесс определения и устранения причин этих симптомов.
Система может быть описана в терминах ее ожидаемого, желаемого или предполагаемого поведения (обычно для искусственных систем - ее цели). Ожидается, что события или входы в систему приведут к определенным результатам или выходным данным. (Например, выбор опции «печать» в различных компьютерных приложениях предназначен для того, чтобы получить печатную копию на каком-то конкретном устройстве). Любое неожиданное или нежелательное поведение - это симптом. Устранение неполадок - это процесс выявления конкретной причины или причин симптома. Часто симптомом является неспособность продукта или процесса дать какие-либо результаты. (Например, ничего не печаталось). Затем можно предпринять корректирующие действия для предотвращения подобных отказов в будущем.
Методы криминалистической экспертизы полезны при отслеживании проблем в продуктах или процессах, а также доступен широкий спектр аналитических методов для определения причины или причин конкретных сбоев. Затем можно предпринять корректирующие действия, чтобы предотвратить дальнейшие отказы подобного рода. Превентивные действия возможны с использованием видов и последствий отказов (FMEA) и анализа дерева отказов (FTA) до полномасштабного производства, и эти методы также могут использоваться для анализа отказов.
Обычно устранение неполадок применяется к чему-то, что внезапно перестало работать, поскольку его ранее работающее состояние формирует ожидания относительно его дальнейшего поведения. Таким образом, первоначальное внимание часто уделяется недавним изменениям в системе или среде, в которой она существует. (Например, принтер, который «работал, когда его воткнули в розетку»). Однако существует хорошо известный принцип, согласно которому корреляция не подразумевает причинно-следственной связи. (Например, сбой устройства вскоре после того, как оно было подключено к другой розетке, не обязательно означает, что события были связаны. Сбой мог быть вопросом совпадения.) Следовательно, устранение неполадок требует критического мышления, а не магического мышления.
Полезно рассмотреть наш общий опыт с лампочками. Лампочки «перегорают» более-менее случайно; в конечном итоге повторное нагревание и охлаждение его нити и колебания мощности, подаваемой на него, вызывают растрескивание или испарение нити. Тот же принцип применим к большинству других электронных устройств, аналогичные принципы применимы к механическим устройствам. Некоторые отказы являются частью нормального износа компонентов системы.
Основной принцип при поиске и устранении неисправностей - сначала начать с самых простых и вероятных возможных проблем. Это иллюстрируется старой поговоркой: «Когда видишь следы копыт, ищи лошадей, а не зебр», или, если воспользоваться другим изречением, использовать принцип KISS. Этот принцип приводит к распространенной жалобе на или руководства, которые иногда сначала спрашивают: «Включен ли он в розетку и есть ли в этой розетке питание?», Но это не следует воспринимать как оскорбление, а, скорее, он должен служить напоминанием или условием всегда проверять простые вещи, прежде чем обращаться за помощью.
Средство устранения неполадок может проверять каждый компонент в системе один за другим, заменяя заведомо исправные компоненты на каждый потенциально подозрительный. Однако этот процесс «последовательной замены» можно считать дегенеративным, когда компоненты заменяются без учета гипотезы о том, как их отказ может привести к диагностированию симптомов.
Простые и промежуточные системы характеризуются списками или деревьями зависимостей между их компонентами или подсистемами. Более сложные системы содержат циклические зависимости или взаимодействия (петли обратной связи ). Такие системы менее поддаются методам устранения неполадок "пополам".
Это также помогает начать с заведомо исправного состояния, лучшим примером которого является перезагрузка компьютера . Познавательное пошаговое руководство тоже стоит попробовать. Подробная документация, подготовленная опытными техническими писателями, очень полезна, особенно если она дает теорию работы для рассматриваемого устройства или системы.
Распространенной причиной проблем является плохой дизайн, например, плохой человеческий фактор дизайн, когда устройство может быть вставлено назад или вверх дном из-за отсутствия соответствующая функция принуждения (ограничение формирования поведения ) или отсутствие устойчивой к ошибкам конструкции. Это особенно плохо, если сопровождается привыканием, когда пользователь просто не замечает неправильного использования, например, если две части имеют разные функции, но имеют общий случай, так что это не очевидно при случайном осмотре. какая часть используется.
Устранение неполадок также может принимать форму систематического контрольного списка, процедуры устранения неполадок, блок-схемы или таблицы, которые составляются до возникновения проблемы. Заблаговременная разработка процедур устранения неполадок позволяет достаточно хорошо продумать шаги, которые необходимо предпринять при устранении неполадок, и организовать поиск и устранение неполадок в наиболее эффективном процессе устранения неполадок. Таблицы устранения неполадок можно компьютеризировать, чтобы сделать их более эффективными для пользователей.
Некоторые компьютеризированные службы устранения неполадок (например, Primefax, позже переименованный в MaxServ) сразу показывают 10 лучших решений с наибольшей вероятностью устранения основной проблемы. Технический специалист может либо ответить на дополнительные вопросы, чтобы продвинуться по процедуре устранения неполадок, каждый шаг сужая список решений, либо немедленно внедрить решение, которое, по его мнению, устранит проблему. Эти услуги предоставляют скидку, если технический специалист предпримет дополнительный шаг после решения проблемы: отправит отчет о решении, которое фактически устранило проблему. Компьютер использует эти отчеты для обновления своих оценок того, какие решения с наибольшей вероятностью устранят этот конкретный набор симптомов.
Эффективное методическое устранение неполадок начинается с четкого понимания проблемы ожидаемое поведение системы и наблюдаемые симптомы. На основании этого специалист по устранению неполадок формирует гипотезы о потенциальных причинах и разрабатывает (или, возможно, ссылается на стандартизованный контрольный список) тестов для устранения этих предполагаемых причин. Такой подход часто называют «разделяй и властвуй ».
Специалисты по устранению неполадок используют две общие стратегии: сначала проверить часто встречающиеся или легко проверяемые условия (например, проверять, горит ли индикатор принтера и что его кабель надежно закреплен на обоих концах). Это часто называют «доением передней панели».
Затем «разделите» систему пополам (например, в системе сетевой печати, проверяя, дошло ли задание до сервера, чтобы определить, существует ли проблема. в подсистемах «в сторону» пользователя или «в сторону» устройства).
Этот последний метод может быть особенно эффективным в системах с длинными цепочками сериализованных зависимостей или взаимодействий между его компонентами. Это просто применение бинарного поиска по диапазону зависимостей, которое часто называют «половинным разбиением».
Одно из основных Принципы поиска и устранения неисправностей заключаются в том, что воспроизводимые проблемы могут быть надежно изолированы и решены. Часто значительные усилия и упор при поиске и устранении неисправностей делается на воспроизводимость... поиску процедуры, которая надежно вызовет появление симптома.
Некоторые из наиболее сложных проблем по устранению неполадок связаны с симптомами, которые возникают периодически. В электронике это часто является результатом термочувствительных компонентов (поскольку сопротивление цепи зависит от температуры проводников в ней). Сжатый воздух можно использовать для охлаждения определенных участков на печатной плате, а тепловую пушку можно использовать для повышения температуры; таким образом, устранение неисправностей электронных систем часто влечет за собой применение этих инструментов для воспроизведения проблемы.
В компьютерном программировании состояния гонки часто приводят к прерывистым симптомам, которые чрезвычайно трудно воспроизвести; могут использоваться различные методы, чтобы заставить конкретную функцию или модуль вызываться быстрее, чем это было бы при нормальной работе (аналогично «нагреву» компонента в аппаратной схеме), в то время как другие методы могут использоваться для введения больших задержек, или принудительная синхронизация между другими модулями или взаимодействующими процессами.
Периодические проблемы могут быть определены таким образом:
Периодические проблемы - это проблема, для которой не существует известной процедуры для последовательного воспроизведения ее симптома.
— Стивен Литт,В частности, он утверждает, что существует различие между частотой возникновения и «известной процедурой последовательного воспроизведения» проблемы. Например, зная, что периодическая проблема возникает «в течение» часа после определенного стимула или события... но иногда это происходит через пять минут, а в других случаях это занимает почти час... не представляют собой «известную процедуру», даже если стимул действительно увеличивает частоту наблюдаемых проявлений симптома.
Тем не менее, иногда специалисты по устранению неполадок должны прибегать к статистическим методам... и могут найти процедуры только для увеличения частоты появления симптома до точки, при которой возможна последовательная замена или какой-либо другой метод. В таких случаях, даже когда кажется, что симптом исчезает на значительно более длительные периоды времени, существует низкая уверенность в том, что основная причина найдена и проблема действительно решена.
Кроме того, могут проводиться тесты для нагрузки определенных компонентов, чтобы определить, не вышли ли из строя эти компоненты.
Выявление отказов отдельных компонентов, которые вызывают воспроизводимые симптомы, относительно несложно.
Однако многие проблемы возникают только в результате нескольких сбоев или ошибок. Это особенно верно для отказоустойчивых систем или систем со встроенным резервированием. Функции, которые добавляют в систему избыточность, обнаружение сбоев и аварийное переключение, также могут быть подвержены сбоям, и достаточное количество сбоев различных компонентов в любой системе «выведет ее из строя».
Даже в простых системах специалист по устранению неполадок всегда должен учитывать возможность наличия нескольких неисправностей. (Замена каждого компонента с использованием последовательной замены, а затем замена каждого нового компонента обратно на старый, когда обнаруживается, что симптом сохраняется, может не решить такие случаи. Что еще более важно, замена любого компонента на неисправный может фактически увеличить количество проблем, а не их устранение).
Обратите внимание, что, хотя мы говорим о «замене компонентов», решение многих проблем включает корректировку или настройку, а не «замену». Например, периодические обрывы проводов или «грязные или ослабленные контакты» могут просто нуждаться в очистке и / или подтяжке. Все обсуждения «замены» следует понимать как «замену, корректировку или другие модификации».