Надежность, доступность и удобство обслуживания

редактировать

Надежность, доступность и удобство обслуживания (RAS ), также известная как надежность, доступность и ремонтопригодность (RAM ), является компьютерное оборудование технический термин, включающий проектирование надежности, высокую доступность и проектирование удобства обслуживания. Эта фраза первоначально использовалась компанией International Business Machines (IBM ) как термин для описания надежности своих мэйнфреймов.

Компьютеры, разработанные с более высокими уровнями RAS, имеют множество функций, которые защищают целостность данных и помочь им оставаться доступными в течение длительного времени без сбоев Такая целостность данных и время безотказной работы - особый аргумент в пользу мэйнфреймов и отказоустойчивых систем.

Содержание
  • 1 Определения
  • 2 Типы сбоев
  • 3 Реакции на сбой
  • 4 Аппаратные функции
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки
Определения

В то время как RAS возникла как термин, ориентированный на оборудование, системное мышление распространило понятие надежности-доступности-удобства обслуживания на системы в целом, включая программное обеспечение.

  • Reliabilit. y можно определить как вероятность того, что система будет производить правильные выходные данные до некоторого заданного времени t. Надежность повышается за счет функций, которые помогают избегать, обнаруживать и устранять неисправности оборудования. Надежная система не продолжает молча и не дает результатов, которые включают неисправленные поврежденные данные. Вместо этого он обнаруживает и, если возможно, исправляет повреждение, например: повторяя операцию для временных (программных ) или прерывистых ошибок, или, в случае неисправимых ошибок, выделяя неисправность и сообщая о ней вышестоящей -уровневые механизмы восстановления (которые могут переключить на резервное заменяющее оборудование и т. д.), либо путем остановки затронутой программы или всей системы и сообщения о повреждении. Надежность можно охарактеризовать как среднее время наработки на отказ (MTBF), где надежность = exp (-t / MTBF).
  • Доступность означает вероятность того, что система будет работать при заданном время, то есть количество времени, в течение которого устройство фактически работает, как процент от общего времени, в течение которого оно должно работать. Системы высокой доступности могут сообщать о доступности в минутах или часах простоя в год. Функции доступности позволяют системе оставаться в рабочем состоянии даже при возникновении неисправностей. Система с высокой доступностью отключит неисправную часть и продолжит работу с уменьшенной мощностью. Напротив, менее способная система может выйти из строя и полностью перестать работать. Доступность обычно выражается в процентах от ожидаемого срока доступности системы, например 99,999 процента («пять девяток »).
  • Удобство обслуживания или ремонтопригодность - это простота и скорость с какую систему можно ремонтировать или обслуживать; если время на ремонт отказавшей системы увеличивается, доступность снижается. Удобство обслуживания включает в себя различные методы простой диагностики системы при возникновении проблем. Раннее обнаружение неисправностей может уменьшить или избежать простоя системы. Например, некоторые корпоративные системы могут автоматически вызывать сервисный центр (без вмешательства человека), когда в системе возникает сбой. Традиционно основное внимание уделялось правильному ремонту с минимальным нарушением нормальной работы.

Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы функционировать правильно, включая предотвращение повреждения данных, тогда как степень доступности измеряет как часто система доступна для использования, даже если она может работать некорректно. Например, сервер может работать вечно и поэтому иметь идеальную доступность, но может быть ненадежным из-за частого повреждения данных.

Типы сбоев

Физические сбои могут быть временными или постоянными.

  • Постоянные неисправности приводят к продолжающейся ошибке и обычно возникают из-за некоторого физического отказа, такого как металлическая электромиграция или пробой диэлектрика.
  • К временным неисправностям относятся переходные и прерывистые неисправности.
    • Переходные (так называемые «мягкие») сбои приводят к независимым разовым ошибкам и не связаны с постоянными сбоями оборудования: примеры включают альфа-частицы, переворачивающие бит памяти, электромагнитный шум или колебания источника питания.
    • Периодические неисправности возникают из-за слабого компонента системы, например параметры схемы ухудшаются, что приводит к ошибкам, которые могут повторяться.
Отклики на сбой

Переходные и прерывистые сбои обычно могут обрабатываться путем обнаружения и исправления, например, с помощью кодов ECC или воспроизведения команд (см. ниже). Постоянные сбои приведут к неисправимым ошибкам, которые могут быть обработаны заменой дублирующим оборудованием, например, резервированием процессора или передачей неисправимой ошибки механизмам восстановления высокого уровня. Об успешно исправленном прерывистом сбое также можно сообщить в операционную систему (ОС), чтобы предоставить информацию для прогнозного анализа сбоев.

Аппаратные функции

Примеры аппаратных функций для улучшения RAS включают следующие, перечисленные по подсистемам:

Отказоустойчивые конструкции расширили идею, сделав RAS определяющей особенностью своих компьютеров для таких приложений, как фондовый рынок биржи или управление воздушным движением, где системные сбои были бы катастрофическими. Отказоустойчивые компьютеры (например, см. Тандемные компьютеры и Stratus Technologies ), которые, как правило, имеют дублирующиеся компоненты, работающие синхронно для обеспечения надежности, стали меньше популярны, в связи с их дороговизной. Системы высокой доступности, использующие методы распределенных вычислений, такие как компьютерные кластеры, часто используются как более дешевые альтернативы.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-03 12:20:36
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте