Надежность, доступность и удобство обслуживания

редактировать

Надежность, доступность и удобство обслуживания ( RAS ), также известная как надежность, доступность и ремонтопригодность ( RAM ), - это термин компьютерного аппаратного обеспечения, включающий проектирование надежности, высокой доступности и удобства обслуживания. Эта фраза изначально использовалась International Business Machines ( IBM ) как термин для описания надежности своих мэйнфреймов.

Компьютеры, разработанные с более высокими уровнями RAS, обладают множеством функций, которые защищают целостность данных и помогают им оставаться доступными в течение длительных периодов времени без сбоев. Такая целостность данных и время безотказной работы являются особым преимуществом для мэйнфреймов и отказоустойчивых систем.

СОДЕРЖАНИЕ
  • 1 Определения
  • 2 типа отказов
  • 3 реакции на отказ
  • 4 Аппаратные особенности
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки
Определения

В то время как RAS возникла как термин, ориентированный на оборудование, системное мышление распространило концепцию надежности-доступности-удобства обслуживания на системы в целом, включая программное обеспечение.

  • Надежность можно определить как вероятность того, что система будет производить правильные выходные данные до некоторого заданного времени t. Надежность повышается за счет функций, которые помогают избегать, обнаруживать и устранять неисправности оборудования. Надежная система не продолжает молча и не дает результатов, которые включают неисправленные поврежденные данные. Вместо этого он обнаруживает и, если возможно, исправляет повреждение, например: повторяя операцию для временных ( мягких ) или прерывистых ошибок, или, в случае неисправимых ошибок, выделяя неисправность и сообщая о ней механизмам восстановления более высокого уровня (которые может переключиться на резервное заменяющее оборудование и т. д.), либо путем остановки затронутой программы или всей системы и сообщения о повреждении. Надежность можно охарактеризовать как среднее время наработки на отказ (MTBF), где надежность = exp (-t / MTBF).
  • Доступность означает вероятность того, что система находится в рабочем состоянии в данный момент времени, т. Е. Количество времени, в течение которого устройство фактически работает, как процент от общего времени, в течение которого оно должно работать. Системы высокой доступности могут сообщать о доступности в минутах или часах простоя в год. Функции доступности позволяют системе оставаться в рабочем состоянии даже при возникновении неисправностей. Система с высокой доступностью отключит неисправную часть и продолжит работу с пониженной мощностью. Напротив, менее функциональная система может дать сбой и полностью перестать работать. Доступность обычно выражается в процентах от ожидаемого срока доступности системы, например 99,999 процентов (« пять девяток »).
  • Удобство обслуживания или ремонтопригодность - это простота и скорость, с которой систему можно ремонтировать или обслуживать; если время на ремонт отказавшей системы увеличивается, доступность снижается. Удобство обслуживания включает в себя различные методы простой диагностики системы при возникновении проблем. Раннее обнаружение неисправностей может уменьшить или избежать простоя системы. Например, некоторые корпоративные системы могут автоматически вызывать сервисный центр (без вмешательства человека), когда в системе возникает системный сбой. Традиционно основное внимание уделялось правильному ремонту с минимальным нарушением нормальной работы.

Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы работать правильно, включая предотвращение повреждения данных, тогда как доступность измеряет, как часто система доступна для использования, даже если она может работать некорректно. Например, сервер может работать вечно и поэтому иметь идеальную доступность, но может быть ненадежным из-за частого повреждения данных.

Типы отказов

Физические неисправности могут быть временными или постоянными.

  • Постоянные неисправности приводят к продолжающейся ошибке и обычно возникают из-за некоторого физического отказа, такого как электромиграция металла или пробой диэлектрика.
  • К временным сбоям относятся кратковременные и прерывистые сбои.
    • Временные (так называемые « мягкие» ) сбои приводят к независимым разовым ошибкам и не связаны с постоянными сбоями оборудования: примеры включают альфа-частицы, переворачивающие бит памяти, электромагнитный шум или колебания источника питания.
    • Периодические сбои возникают из-за слабого компонента системы, например, из-за ухудшения параметров цепи, что приводит к ошибкам, которые могут повторяться.
Отклики при сбоях

Переходные и прерывистые сбои обычно можно обрабатывать путем обнаружения и исправления, например, с помощью кодов ЕСС или воспроизведения команд (см. Ниже). Постоянные сбои приведут к неисправимым ошибкам, которые могут быть обработаны заменой дублирующим оборудованием, например резервированием процессора, или передачей неисправимой ошибки механизмам восстановления высокого уровня. Об успешно исправленном периодическом сбое также можно сообщить в операционную систему (ОС), чтобы предоставить информацию для прогнозирующего анализа сбоев.

Аппаратные особенности

Примеры аппаратных функций для улучшения RAS включают следующее, перечисленное по подсистемам:

Отказоустойчивые конструкции расширили идею, сделав RAS определяющей особенностью их компьютеров для таких приложений, как биржи фондовых бирж или управление воздушным движением, где сбои системы были бы катастрофическими. Отказоустойчивые компьютеры (например, см. Тандемные компьютеры и Stratus Technologies ), которые, как правило, имеют дублирующиеся компоненты, работающие с синхронизацией для обеспечения надежности, стали менее популярными из-за их высокой стоимости. Системы высокой доступности, использующие методы распределенных вычислений, такие как компьютерные кластеры, часто используются как более дешевые альтернативы.

Смотрите также
использованная литература
внешние ссылки
Последняя правка сделана 2024-01-08 06:50:04
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте