Отказоустойчивость

редактировать

(Перенаправлено из отказоустойчивой компьютерной системы )

Отказоустойчивость - это свойство, которое позволяет системе продолжать работать должным образом в случае отказа (или одного или нескольких отказов внутри) некоторых из ее компонентов. Если его рабочее качество вообще снижается, это снижение пропорционально серьезности сбоя по сравнению с наивно спроектированной системой, в которой даже небольшой сбой может вызвать полную поломку. Отказоустойчивость особенно востребована в высоконадежных или жизненно важных системах. Возможность поддерживать функциональность при выходе из строя частей системы называется постепенной деградацией.

Конструкция отказоустойчивой позволяет системе продолжать свою намеченную операцию, возможно, на более низком уровне, а не провал полностью, когда какая - то часть системы не удается. Этот термин чаще всего используется для описания компьютерных систем, предназначенных для продолжения более или менее полной работоспособности, возможно, с уменьшением пропускной способности или увеличением времени отклика в случае некоторого частичного отказа. То есть система в целом не останавливается из-за проблем ни в оборудовании, ни в программном обеспечении. Примером в другой области является автомобиль, спроектированный таким образом, что он будет продолжать ездить, если одна из шин будет проколота, или конструкция, которая способна сохранить свою целостность при наличии повреждений, вызванных такими причинами, как усталость, коррозия, изготовление недостатки или влияние.

В рамках отдельной системы отказоустойчивость может быть достигнута путем прогнозирования исключительных условий и построения системы, которая справляется с ними, и, в целом, стремления к самостабилизации, чтобы система приближалась к безошибочному состоянию. Однако, если последствия отказа системы катастрофичны или если стоимость обеспечения ее достаточной надежности очень высока, лучшим решением может быть использование некоторой формы дублирования. В любом случае, если последствия отказа системы настолько катастрофичны, система должна иметь возможность использовать возврат, чтобы вернуться в безопасный режим. Это похоже на восстановление с откатом, но может выполняться человеком, если в цикле присутствуют люди.

Содержание

1 История
2 Терминология
- 2.1 Состояние единичной неисправности
3 Резервирование
4 критерия
5 Требования
6 методы отказоустойчивости
- 6.1 Репликация
- 6.2 Вычисления без ошибок
- 6.3 Восстановление пастырства
- 6.4 Автоматический выключатель
7 Недостатки
8 Примеры
9 Связанные термины
10 См. Также
11 ссылки

История

Первый известный отказоустойчивая компьютер был SAPO, построенный в 1951 году в Чехословакии по Антонин Svoboda. Его основной конструкцией были магнитные барабаны, подключенные через реле, с методом голосования для обнаружения ошибок памяти ( тройное модульное резервирование ). Несколько других машин были разработаны в этом направлении, в основном для военного использования. В конце концов, они разделились на три отдельные категории: машины, которые прослужат долгое время без какого-либо обслуживания, такие как те, которые используются на космических зондах и спутниках НАСА ; компьютеры, которые были очень надежными, но требовали постоянного мониторинга, например, те, которые используются для мониторинга и управления атомными электростанциями или экспериментов с суперколлайдерами ; и, наконец, компьютеры с большим объемом времени выполнения, которые будут интенсивно использоваться, например, многие суперкомпьютеры, используемые страховыми компаниями для мониторинга вероятности.

Большая часть разработки так называемых вычислений LLNM (Long Life, No Maintenance) была выполнена НАСА в 1960-х годах в рамках подготовки к проекту Apollo и другим аспектам исследований. Первая машина НАСА вошла в космическую обсерваторию, а вторая попытка, компьютер JSTAR, использовалась в « Вояджере». Этот компьютер имел резервную копию массивов памяти для использования методов восстановления памяти, и поэтому он был назван компьютером JPL Self-Testing-And-Repairing. Он мог обнаруживать собственные ошибки и исправлять их или при необходимости вызывать избыточные модули. Компьютер все еще работает сегодня.

Сверхнадежные компьютеры впервые были изобретены производителями самолетов, атомными компаниями и железнодорожной отраслью США. Этим потребовались компьютеры с огромным временем безотказной работы, которые могли бы выйти из строя достаточно изящно с неисправностью, чтобы обеспечить продолжение работы, полагаясь на тот факт, что выходные данные компьютера будут постоянно контролироваться людьми для обнаружения неисправностей. И снова IBM разработала первый компьютер такого типа для НАСА для управления ракетами Saturn V, но позже BNSF, Unisys и General Electric построили свой собственный.

В 1970-е годы в этой области было проделано много работы. Например, F14 CADC имеет встроенное самотестирование и резервирование.

В общем, первые усилия по созданию отказоустойчивых конструкций были сосредоточены в основном на внутренней диагностике, когда неисправность указывала на то, что что-то вышло из строя, и работник мог ее заменить. У SAPO, например, был метод, с помощью которого неисправные барабаны памяти издавали шум перед тем, как выйти из строя. Дальнейшие усилия показали, что для полной эффективности система должна быть самовосстанавливающейся и диагностируемой - локализацией неисправности и последующим резервным резервированием с одновременным предупреждением о необходимости ремонта. Это известно как избыточность N-модели, когда сбои вызывают автоматические отказоустойчивые системы и предупреждают оператора, и это все еще наиболее распространенная форма отказоустойчивой конструкции первого уровня, используемая сегодня.

Голосование было еще одним начальным методом, как обсуждалось выше, когда несколько резервных копий работали постоянно и проверяли результаты друг друга, в результате, если, например, четыре компонента сообщили ответ 5, а один компонент сообщил ответ 6, остальные четыре "проголосовал бы", что пятый компонент неисправен, и вывести его из эксплуатации. Это называется большинством голосов M из N.

Исторически сложилось так, что движение всегда заключалось в том, чтобы двигаться дальше от N-модели и больше к M из N из-за того, что сложность систем и трудность обеспечения переходного состояния от отрицательного отказа к положительному отказу не нарушали работу..

Tandem и Stratus были одними из первых компаний, специализирующихся на разработке отказоустойчивых компьютерных систем для обработки транзакций в режиме онлайн.

Терминология

Пример изящной деградации дизайна в изображении с прозрачностью. Каждое из двух верхних изображений является результатом просмотра составного изображения в средстве просмотра, которое распознает прозрачность. Два нижних изображения отображаются в средстве просмотра без поддержки прозрачности. Поскольку маска прозрачности (центр внизу) отбрасывается, остается только наложение (центр вверху); изображение слева было разработано для изящного ухудшения, поэтому оно по-прежнему имеет смысл без информации о прозрачности.

Система с высокой отказоустойчивостью может продолжать работать на том же уровне производительности, даже если один или несколько компонентов вышли из строя. Например, здание с резервным электрическим генератором будет обеспечивать такое же напряжение для настенных розеток даже в случае сбоя электросети.

Система, предназначенная для отказоустойчивой, отказоустойчивой или корректной отказов, независимо от того, работает ли она на пониженном уровне или отказывает полностью, делает это таким образом, чтобы защитить людей, имущество или данные от травм, повреждений, вторжения или раскрытие. На компьютерах программа может обеспечить отказоустойчивость, выполнив плавный выход (в отличие от неконтролируемого сбоя), чтобы предотвратить повреждение данных после возникновения ошибки. Аналогичное различие проводится между «неудачными» и « серьезными неудачами ».

Безотказность - это противоположная стратегия, которую можно использовать в системах оружия, которые предназначены для поражения или ранения целей, даже если часть системы повреждена или разрушена.

Система, предназначенная для постепенного снижения производительности или плавного отказа (используется в вычислениях, аналогично «отказоустойчивому»), работает с пониженным уровнем производительности после сбоев некоторых компонентов. Например, в здании может работать освещение на пониженных уровнях, а лифты - на пониженной скорости в случае отказа электросети, вместо того, чтобы полностью укрывать людей в темноте или продолжать работать на полной мощности. При вычислении пример постепенной деградации заключается в том, что если пропускная способность сети недостаточна для потоковой передачи онлайн-видео, вместо версии с высоким разрешением может передаваться версия с более низким разрешением. Прогрессивное улучшение является примером в вычислительной технике, где веб-страницы доступны в базовом функциональном формате для старых браузеров с маленьким экраном или ограниченными возможностями, но в расширенной версии для браузеров, способных обрабатывать дополнительные технологии или имеющих больший дисплей. доступный.

В отказоустойчивых компьютерных системах программы, которые считаются надежными, предназначены для продолжения работы, несмотря на ошибку, исключение или недопустимый ввод, вместо полного сбоя. Хрупкость программного обеспечения противоположна устойчивости. Устойчивые сети продолжают передавать данные, несмотря на отказ некоторых каналов или узлов; также ожидается, что устойчивые здания и инфраструктура предотвратят полный отказ в таких ситуациях, как землетрясения, наводнения или столкновения.

Система с высокой прозрачностью отказов будет предупреждать пользователей о том, что произошел отказ компонента, даже если она продолжает работать с полной производительностью, так что отказ может быть устранен или ожидается неминуемый полный отказ. Аналогичным образом, отказоустойчивый компонент предназначен для сообщения в первой точке отказа, а не для того, чтобы позволить компонентам нижестоящего уровня выходить из строя и затем генерировать отчеты. Это упрощает диагностику основной проблемы и может предотвратить неправильную работу в неисправном состоянии.

Состояние одиночной неисправности

Состояние единичной неисправности - это ситуация, когда одно средство защиты от опасности неисправно. Если одно состояние отказа неизбежно приводит к другому состоянию отдельного отказа, два отказа рассматриваются как одно состояние одиночного отказа. Источник предлагает следующий пример:

Состояние единичного отказа - это состояние, когда одно средство защиты от опасности в оборудовании неисправно или присутствует единичное внешнее ненормальное состояние, например, короткое замыкание между токоведущими частями и рабочей частью.

Резервирование

Основная статья: Резервирование (инженерия)

Избыточность - это предоставление функциональных возможностей, которые не нужны в безотказной среде. Он может состоять из компонентов резервного копирования, которые автоматически «включаются» при выходе из строя одного из компонентов. Например, большие грузовые автомобили могут потерять шину без каких-либо серьезных последствий. У них много шин, и ни одна из них не является критичной (за исключением передних шин, которые используются для управления, но обычно несут меньшую нагрузку каждая и в целом, чем остальные четыре - 16, поэтому вероятность выхода из строя ниже.). Идея включения избыточности для повышения надежности системы была впервые предложена Джоном фон Нейманом в 1950-х годах.

Возможны два вида резервирования: резервирование пространства и резервирование времени. Резервирование пространства обеспечивает дополнительные компоненты, функции или элементы данных, которые не нужны для безотказной работы. Избыточность пространства далее подразделяется на избыточность оборудования, программного обеспечения и информации, в зависимости от типа избыточных ресурсов, добавленных в систему. При избыточности времени вычисление или передача данных повторяются, и результат сравнивается с сохраненной копией предыдущего результата. Текущая терминология для этого вида тестирования называется «Тестирование на отказоустойчивость при эксплуатации» или сокращенно ISFTT.

Критерии

Обеспечение отказоустойчивой конструкции для каждого компонента обычно не вариант. Связанное резервирование влечет за собой ряд штрафов: увеличение веса, размера, энергопотребления, стоимости, а также времени на проектирование, проверку и тестирование. Следовательно, необходимо изучить ряд вариантов, чтобы определить, какие компоненты должны быть отказоустойчивыми:

Насколько важен компонент? В автомобиле радио не критично, поэтому этому компоненту меньше требуется отказоустойчивость.
Насколько вероятно, что компонент выйдет из строя? Некоторые компоненты, такие как приводной вал в автомобиле, вряд ли выйдут из строя, поэтому отказоустойчивость не требуется.
Насколько дорого обходится отказоустойчивый компонент? Например, требование резервного автомобильного двигателя было бы слишком дорогим как с экономической точки зрения, так и с точки зрения веса и места, чтобы его можно было рассматривать.

Примером компонента, прошедшего все тесты, является удерживающая система автомобиля. Хотя мы обычно не думаем об основной удерживающей системе для пассажиров, это сила тяжести. Если автомобиль опрокидывается или подвергается сильным перегрузкам, этот основной метод удержания пассажиров может не сработать. Сдерживание пассажиров во время такой аварии абсолютно необходимо для безопасности, поэтому мы прошли первое испытание. До появления ремней безопасности аварии, приводящие к катапультированию пассажиров, были довольно частыми, поэтому мы прошли второй тест. Стоимость избыточного метода удерживания, такого как ремни безопасности, довольно низкая как с экономической точки зрения, так и с точки зрения веса и места, поэтому мы прошли третий тест. Поэтому установка ремней безопасности на все автомобили - отличная идея. Другие «дополнительные удерживающие системы», такие как подушки безопасности, более дороги и поэтому проходят этот тест с меньшим запасом.

Еще одним прекрасным и долгосрочным примером применения этого принципа на практике является тормозная система: хотя фактические тормозные механизмы имеют решающее значение, они не особенно подвержены внезапному (а не прогрессирующему) отказу и в любом случае обязательно дублируются, чтобы позволить равномерное и сбалансированное приложение тормозного усилия ко всем колесам. Также было бы непомерно дорого удваивать основные компоненты, и они добавляли бы значительный вес. Однако такие же важные системы для приведения в действие тормозов под управлением водителя по своей природе менее надежны, обычно с использованием кабеля (может ржаветь, растягиваться, заклинивать, ломаться) или гидравлической жидкости (может протекать, закипать и образовывать пузыри, поглощать воду и, таким образом, терять эффективность.). Таким образом, в большинстве современных автомобилей гидравлический тормозной контур ножного тормоза разделен по диагонали, чтобы дать две меньшие точки отказа, потеря либо только снижения тормозной мощности на 50%, но не вызывающего такой опасный дисбаланс тормозной силы, как прямой передний-задний или лево-правый разделены, и в случае полного выхода из строя гидравлического контура (относительно очень редкое явление) существует отказоустойчивый стояночный тормоз с тросовым приводом, который приводит в действие относительно слабые задние тормоза, но все же может привести автомобиль к безопасной остановке. в сочетании с торможением трансмиссией / двигателем, если требования к нему соответствуют нормальному транспортному потоку. Совокупное маловероятное сочетание полного отказа ножного тормоза с необходимостью резкого торможения в аварийной ситуации, скорее всего, приведет к столкновению, но все же на более низкой скорости, чем было бы в противном случае.

По сравнению с рабочим тормозом, приводимым в действие педалью, стояночный тормоз сам по себе является менее важным элементом, и, если он не используется в качестве единовременного резервного тормоза для ножного тормоза, не вызовет непосредственной опасности, если обнаружится, что он нефункционален на месте. момент подачи заявки. Следовательно, в нем отсутствует резервирование как таковое (и обычно используется более дешевая, легкая, но менее износостойкая система срабатывания троса), и, если это происходит на холме, может быть достаточно использовать ножной тормоз, чтобы на мгновение удержать автомобиль в неподвижном состоянии., прежде чем поехать, чтобы найти ровный участок дороги, на котором нужно остановиться. В качестве альтернативы, на пологих уклонах трансмиссия может быть переключена на парковочную, реверсивную или первую передачу, а блокировка трансмиссии / сжатие двигателя используется для удержания ее в неподвижном состоянии, так как им нет необходимости включать изощренность, чтобы сначала остановить ее..

На мотоциклах аналогичный уровень отказоустойчивости обеспечивается более простыми методами; во-первых, передняя и задняя тормозные системы полностью разделены, независимо от метода их активации (тросовой, стержневой или гидравлической), что позволяет одной полностью выйти из строя, не затрагивая другую. Во-вторых, задний тормоз относительно силен по сравнению со своим автомобильным собратом, даже если он является мощным диском на спортивных моделях, хотя обычно передняя система предназначена для обеспечения подавляющего большинства тормозного усилия; поскольку общий вес транспортного средства более центральный, задняя шина, как правило, больше и более цепкая, и гонщик может откинуться назад, чтобы приложить к ней больший вес, что позволяет приложить большее тормозное усилие до того, как колесо заблокируется. На более дешевых, более медленных машинах утилитарного класса, даже если переднее колесо должно использовать гидравлический диск для дополнительного тормозного усилия и упрощения упаковки, заднее колесо обычно будет примитивным, несколько неэффективным, но исключительно надежным барабаном с приводом от штанг благодаря легкости. соединения педали с колесом таким образом и, что еще более важно, почти невозможность катастрофического отказа, даже если остальная часть машины, как и многие недорогие велосипеды после первых нескольких лет использования, находится на грани отказа крах из-за запущенного обслуживания.

Требования

Основные характеристики отказоустойчивости требуют:

Отсутствие единой точки отказа - если в системе происходит сбой, она должна продолжать работать без перебоев в процессе ремонта.
Изоляция неисправности для отказавшего компонента - при возникновении отказа система должна быть способна изолировать отказ от неисправного компонента. Это требует добавления специальных механизмов обнаружения отказов, которые существуют только для локализации отказов. Восстановление после неисправности требует классификации неисправности или отказавшего компонента. Национальный институт стандартов и технологии (NIST) классифицируют неисправности на основе местности, причины, продолжительность и эффект.
Сдерживание отказов для предотвращения распространения отказа - некоторые механизмы отказа могут вызвать отказ системы, распространяя отказ на остальную часть системы. Примером такого отказа является «мошеннический передатчик», который может заблокировать законную связь в системе и вызвать общий отказ системы. Требуются межсетевые экраны или другие механизмы, которые изолируют несанкционированный передатчик или отказавший компонент для защиты системы.
Наличие режимов реверсии

Кроме того, отказоустойчивые системы характеризуются как плановыми отключениями обслуживания, так и незапланированными отключениями обслуживания. Обычно они измеряются на уровне приложения, а не только на уровне оборудования. Показатель качества называется доступностью и выражается в процентах. Например, система пяти девяток статистически обеспечит доступность 99,999%.

Отказоустойчивые системы обычно основаны на концепции избыточности.

Методы отказоустойчивости

Исследование видов допусков, необходимых для критических систем, требует большой междисциплинарной работы. Чем сложнее система, тем более тщательно должны быть рассмотрены и подготовлены все возможные взаимодействия. Учитывая важность дорогостоящих систем на транспорте, в коммунальном хозяйстве и в армии, область исследований, связанных с исследованиями, очень широка: она может включать такие очевидные темы, как моделирование и надежность программного обеспечения или проектирование оборудования, до загадочных элементов, таких как стохастические модели, теория графов, формальная логика или логика исключения, параллельная обработка, удаленная передача данных и многое другое.

Репликация

Запасные компоненты обращаются к первой фундаментальной характеристике отказоустойчивости тремя способами:

Репликация : предоставление нескольких идентичных экземпляров одной и той же системы или подсистемы, направление задач или запросов всем им параллельно и выбор правильного результата на основе кворума ;
Резервирование : предоставление нескольких идентичных экземпляров одной и той же системы и переключение на один из оставшихся экземпляров в случае сбоя ( аварийное переключение );
Разнообразие: предоставление нескольких различных реализаций одной и той же спецификации и использование их как реплицированных систем для устранения ошибок в конкретной реализации.

Все реализации RAID, избыточного массива независимых дисков, за исключением RAID 0, являются примерами отказоустойчивого запоминающего устройства, использующего избыточность данных.

A Lockstep отказоустойчивой машина использует реплицируются элементы, работающих параллельно. В любой момент все репликации каждого элемента должны быть в одном и том же состоянии. Для каждой репликации предоставляются одинаковые входные данные и ожидаются одинаковые выходные данные. Выходы репликаций сравниваются с помощью схемы голосования. Машина с двумя копиями каждого элемента называется двойным модульным резервированием (DMR). Тогда схема голосования может обнаруживать только несоответствие, а восстановление зависит от других методов. Машина с тремя копиями каждого элемента называется тройным модульным резервированием (TMR). Схема голосования может определить, какая репликация является ошибочной, когда наблюдается голос "два к одному". В этом случае схема голосования может выдать правильный результат и отбросить ошибочную версию. После этого предполагается, что внутреннее состояние ошибочной репликации отличается от состояния двух других, и схема голосования может переключиться в режим DMR. Эта модель может быть применена к любому большему количеству репликаций.

Отказоустойчивые машины Lockstep проще всего сделать полностью синхронными, когда каждый логический элемент каждой репликации совершает одинаковый переход состояния на одном фронте тактового сигнала, а тактовые импульсы репликации находятся точно в фазе. Тем не менее, без этого требования можно создавать системы с замком.

Синхронизация репликаций требует, чтобы их внутренние сохраненные состояния были одинаковыми. Их можно запустить из фиксированного начального состояния, например, из состояния сброса. В качестве альтернативы внутреннее состояние одной реплики может быть скопировано на другую реплику.

Один из вариантов DMR - это пара и резерв. Два реплицированных элемента работают синхронно как пара, со схемой голосования, которая обнаруживает любое несоответствие между их операциями и выдает сигнал, указывающий на наличие ошибки. Другая пара действует точно так же. Последняя схема выбирает выход пары, который не объявляет об ошибке. Для функции Pair-and-Spare требуется четыре реплики, а не три из TMR, но она уже используется в коммерческих целях.

Безотказные вычисления

Вычисления без учета сбоев - это метод, который позволяет компьютерным программам продолжать выполнение, несмотря на ошибки памяти. Этот метод обрабатывает попытки чтения недействительной памяти, возвращая произведенное значение программе, которая, в свою очередь, использует произведенное значение и игнорирует предыдущее значение памяти, к которому она пыталась получить доступ. Это большой контраст с типичными программами проверки памяти, которые сообщают программе об ошибке или прерывают выполнение программы. В вычислениях с игнорированием сбоев не делается попыток сообщить программе, что произошла ошибка. Более того, бывает, что выполнение модифицируется несколько раз подряд, чтобы предотвратить каскадные сбои.

Такой подход требует производительности: поскольку метод переписывает код для вставки динамических проверок правильности адреса, время выполнения увеличивается от 80% до 500%.

Восстановление пастырства

Пастеринг восстановления - это упрощенный метод, позволяющий программам восстанавливаться после фатальных ошибок, таких как разыменование нулевого указателя и деление на ноль. По сравнению с вычислительной техникой, не обращающей внимания на отказ, восстановление работает непосредственно с двоичным кодом скомпилированной программы и не требует перекомпиляции для программы.

Он использует своевременную двоичную инструментальную платформу Pin. Он присоединяется к процессу приложения при возникновении ошибки, исправляет выполнение, отслеживает эффекты исправления по мере продолжения выполнения, содержит эффекты исправления в процессе приложения и отключается от процесса после того, как все эффекты исправления сброшены из состояния процесса. Это не мешает нормальному выполнению программы и, следовательно, вызывает незначительные накладные расходы. Для 17 из 18 систематически собираемых реальных ошибок разыменования нуля и деления на ноль реализация прототипа позволяет приложению продолжать выполнение, обеспечивая приемлемый вывод и обслуживание пользователей на входах, вызывающих ошибки.

Автоматический выключатель

Основная статья: Схема проектирования выключателя

Шаблон проектирования выключателя представляет собой метод, чтобы избежать катастрофических отказов в распределенных системах.

Недостатки

Преимущества отказоустойчивой конструкции очевидны, а многие ее недостатки - нет:

Помехи при обнаружении неисправности в том же компоненте. Продолжая приведенный выше пример с пассажирским транспортным средством, с любой из отказоустойчивых систем водителю может быть не очевидно, когда шина была проколота. Обычно это выполняется с помощью отдельной «автоматизированной системы обнаружения неисправностей». В случае с шиной монитор давления воздуха обнаруживает потерю давления и уведомляет водителя. Альтернативой является «ручная система обнаружения неисправностей», например, проверка всех шин вручную при каждой остановке.
Помехи при обнаружении неисправности в другом компоненте. Другой вариант этой проблемы - отказоустойчивость одного компонента предотвращает обнаружение сбоев в другом компоненте. Например, если компонент B выполняет некоторую операцию на основе выходных данных компонента A, то отказоустойчивость в B может скрыть проблему с A. Если компонент B позже будет изменен (на менее отказоустойчивую конструкцию), система может внезапно выйти из строя, создавая впечатление, что проблема заключается в новом компоненте B. Только после того, как система будет тщательно исследована, станет ясно, что основная проблема на самом деле связана с компонентом A.
Снижение приоритета устранения неисправностей. Даже если оператор знает о неисправности, наличие отказоустойчивой системы может снизить важность устранения неисправности. Если неисправности не исправить, это в конечном итоге приведет к отказу системы, когда отказоустойчивый компонент выйдет из строя полностью или когда все резервные компоненты также вышли из строя.
Сложность теста. Для некоторых критически важных отказоустойчивых систем, таких как ядерный реактор, нет простого способа проверить работоспособность резервных компонентов. Самым печально известным примером этого является Чернобыль, где операторы протестировали аварийное резервное охлаждение, отключив первичное и вторичное охлаждение. Резервное копирование не удалось, что привело к расплавлению активной зоны и массовому выбросу радиации.
Стоимость. И отказоустойчивые компоненты, и резервные компоненты имеют тенденцию к увеличению стоимости. Это может быть чисто экономическая стоимость или может включать другие меры, например вес. У пилотируемых космических кораблей, например, так много избыточных и отказоустойчивых компонентов, что их вес значительно увеличивается по сравнению с беспилотными системами, которые не требуют такого же уровня безопасности.
Низкие компоненты. Отказоустойчивая конструкция может позволить использовать компоненты более низкого качества, которые в противном случае сделали бы систему неработоспособной. Хотя такая практика может снизить рост стоимости, использование нескольких низкокачественных компонентов может снизить надежность системы до уровня, равного или даже хуже, чем у сопоставимой безотказной системы.

Примеры

Отказоустойчивость оборудования иногда требует, чтобы сломанные части были удалены и заменены новыми частями, пока система все еще находится в рабочем состоянии (в вычислительной технике, известной как горячая замена ). Такая система, реализованная с одним резервным копированием, известна как одноточечная устойчивость и представляет собой подавляющее большинство отказоустойчивых систем. В таких системах среднее время наработки на отказ должно быть достаточно большим, чтобы операторы успели починить неисправные устройства ( среднее время на ремонт ) до того, как произойдет сбой резервного копирования. Это помогает, если время наработки на отказ как можно больше, но это не требуется специально для отказоустойчивой системы.

Отказоустойчивость особенно успешна в компьютерных приложениях. Компания Tandem Computers построила весь свой бизнес на таких машинах, которые использовали одноточечный допуск для создания своих систем NonStop с временем безотказной работы, измеряемым годами.

Отказоустойчивые архитектуры могут включать также компьютерное программное обеспечение, например, путем репликации процессов.

Форматы данных также могут быть разработаны для постепенного ухудшения качества. HTML, например, разработан для обеспечения прямой совместимости, что позволяет игнорировать новые объекты HTML веб-браузерами, которые их не понимают, не делая документ непригодным для использования.

Связанные термины

Есть разница между отказоустойчивостью и системами, в которых редко возникают проблемы. Например, системы перекладин Western Electric имели интенсивность отказов два часа за сорок лет и, следовательно, были очень устойчивы к сбоям. Но когда все же происходил сбой, они все равно полностью прекращали работу и поэтому не были отказоустойчивыми.