Надежность, доступность и удобство обслуживания

редактировать

Надежность, доступность и удобство обслуживания ( RAS ), также известная как надежность, доступность и ремонтопригодность ( RAM ), - это термин компьютерного аппаратного обеспечения, включающий проектирование надежности, высокой доступности и удобства обслуживания. Эта фраза изначально использовалась International Business Machines ( IBM ) как термин для описания надежности своих мэйнфреймов.

Компьютеры, разработанные с более высокими уровнями RAS, обладают множеством функций, которые защищают целостность данных и помогают им оставаться доступными в течение длительных периодов времени без сбоев. Такая целостность данных и время безотказной работы являются особым преимуществом для мэйнфреймов и отказоустойчивых систем.

СОДЕРЖАНИЕ

1 Определения
2 типа отказов
3 реакции на отказ
4 Аппаратные особенности
5 См. Также
6 Ссылки
7 Внешние ссылки

Определения

В то время как RAS возникла как термин, ориентированный на оборудование, системное мышление распространило концепцию надежности-доступности-удобства обслуживания на системы в целом, включая программное обеспечение.

Надежность можно определить как вероятность того, что система будет производить правильные выходные данные до некоторого заданного времени t. Надежность повышается за счет функций, которые помогают избегать, обнаруживать и устранять неисправности оборудования. Надежная система не продолжает молча и не дает результатов, которые включают неисправленные поврежденные данные. Вместо этого он обнаруживает и, если возможно, исправляет повреждение, например: повторяя операцию для временных ( мягких ) или прерывистых ошибок, или, в случае неисправимых ошибок, выделяя неисправность и сообщая о ней механизмам восстановления более высокого уровня (которые может переключиться на резервное заменяющее оборудование и т. д.), либо путем остановки затронутой программы или всей системы и сообщения о повреждении. Надежность можно охарактеризовать как среднее время наработки на отказ (MTBF), где надежность = exp (-t / MTBF).
Доступность означает вероятность того, что система находится в рабочем состоянии в данный момент времени, т. Е. Количество времени, в течение которого устройство фактически работает, как процент от общего времени, в течение которого оно должно работать. Системы высокой доступности могут сообщать о доступности в минутах или часах простоя в год. Функции доступности позволяют системе оставаться в рабочем состоянии даже при возникновении неисправностей. Система с высокой доступностью отключит неисправную часть и продолжит работу с пониженной мощностью. Напротив, менее функциональная система может дать сбой и полностью перестать работать. Доступность обычно выражается в процентах от ожидаемого срока доступности системы, например 99,999 процентов (« пять девяток »).
Удобство обслуживания или ремонтопригодность - это простота и скорость, с которой систему можно ремонтировать или обслуживать; если время на ремонт отказавшей системы увеличивается, доступность снижается. Удобство обслуживания включает в себя различные методы простой диагностики системы при возникновении проблем. Раннее обнаружение неисправностей может уменьшить или избежать простоя системы. Например, некоторые корпоративные системы могут автоматически вызывать сервисный центр (без вмешательства человека), когда в системе возникает системный сбой. Традиционно основное внимание уделялось правильному ремонту с минимальным нарушением нормальной работы.

Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы работать правильно, включая предотвращение повреждения данных, тогда как доступность измеряет, как часто система доступна для использования, даже если она может работать некорректно. Например, сервер может работать вечно и поэтому иметь идеальную доступность, но может быть ненадежным из-за частого повреждения данных.

Типы отказов

Физические неисправности могут быть временными или постоянными.

Постоянные неисправности приводят к продолжающейся ошибке и обычно возникают из-за некоторого физического отказа, такого как электромиграция металла или пробой диэлектрика.
К временным сбоям относятся кратковременные и прерывистые сбои.
- Временные (так называемые « мягкие» ) сбои приводят к независимым разовым ошибкам и не связаны с постоянными сбоями оборудования: примеры включают альфа-частицы, переворачивающие бит памяти, электромагнитный шум или колебания источника питания.
- Периодические сбои возникают из-за слабого компонента системы, например, из-за ухудшения параметров цепи, что приводит к ошибкам, которые могут повторяться.

Отклики при сбоях

Переходные и прерывистые сбои обычно можно обрабатывать путем обнаружения и исправления, например, с помощью кодов ЕСС или воспроизведения команд (см. Ниже). Постоянные сбои приведут к неисправимым ошибкам, которые могут быть обработаны заменой дублирующим оборудованием, например резервированием процессора, или передачей неисправимой ошибки механизмам восстановления высокого уровня. Об успешно исправленном периодическом сбое также можно сообщить в операционную систему (ОС), чтобы предоставить информацию для прогнозирующего анализа сбоев.

Аппаратные особенности

Примеры аппаратных функций для улучшения RAS включают следующее, перечисленное по подсистемам:

Процессор :
- Обнаружение ошибок команд процессора (например, проверка остатков результатов) с повтором выполнения команд, например, альтернативное восстановление процессора в мэйнфреймах IBM или «технология воспроизведения команд» в системах Itanium.
- Процессоры, работающие в режиме блокировки, для выполнения основной проверки или схем голосования.
- Архитектура машинной проверки и интерфейс ошибок платформы ACPI для сообщения об ошибках в ОС.
Память :
- Защита компонентов памяти ( кеш-память и основная память ) с помощью четности или ECC (включая коррекцию отдельного устройства ); отключение плохой строки кеша; очистка памяти ; сохранение памяти, зеркалирование памяти; плохая офлайн-страница; резервное управление долотами ; избыточный массив независимой памяти (RAIM).
Ввод / вывод :
- Контрольные суммы циклического контроля избыточности для передачи / повторных попыток и хранения данных, например PCI Express (PCIe) Advanced Error Reporting (AER), резервные пути ввода / вывода.
Хранение :
- Конфигурации RAID для жесткого диска и твердотельного накопителя.
- Журналирование файловых систем для восстановления файлов после сбоев.
- Контрольные суммы для данных и метаданных, а также очистка фона.
- Технология SMART для жестких дисков и твердотельных накопителей.
Питание / охлаждение:
- Дублирование компонентов, чтобы избежать единой точки отказа, например, источников питания.
- Перепроектирование системы для заданных рабочих диапазонов тактовой частоты, температуры, напряжения, вибрации.
- Датчики температуры для снижения рабочей частоты, когда температура выходит за пределы спецификации.
- Сетевой фильтр, источник бесперебойного питания, вспомогательное питание.
Система:
- Горячая замена компонентов: ЦП, ОЗУ, жесткие диски и твердотельные накопители.
- Прогнозирующий анализ отказов для прогнозирования того, какие периодически исправляемые ошибки приведут в конечном итоге к трудно исправляемым ошибкам.
- Разделение компонентов компьютера на разделы, позволяющее одной большой системе действовать как несколько меньших систем.
- Виртуальные машины для снижения серьезности ошибок программного обеспечения операционной системы.
- Избыточные домены ввода-вывода или разделы ввода-вывода для обеспечения виртуального ввода-вывода для гостевых виртуальных машин.
- Возможность кластеризации компьютеров с возможностью аварийного переключения для полного резервирования оборудования и программного обеспечения.
- Динамическое обновление программного обеспечения, чтобы избежать необходимости перезагружать систему для обновления программного обеспечения ядра, например Ksplice под Linux.
- Независимый процессор управления для удобства обслуживания: удаленный мониторинг, оповещение и контроль.

Отказоустойчивые конструкции расширили идею, сделав RAS определяющей особенностью их компьютеров для таких приложений, как биржи фондовых бирж или управление воздушным движением, где сбои системы были бы катастрофическими. Отказоустойчивые компьютеры (например, см. Тандемные компьютеры и Stratus Technologies ), которые, как правило, имеют дублирующиеся компоненты, работающие с синхронизацией для обеспечения надежности, стали менее популярными из-за их высокой стоимости. Системы высокой доступности, использующие методы распределенных вычислений, такие как компьютерные кластеры, часто используются как более дешевые альтернативы.

Смотрите также

использованная литература

внешние ссылки

Функции обеспечения надежности, доступности и удобства обслуживания (RAS) Itanium Обзор общих функций RAS и конкретных характеристик процессора Itanium.
POWER7 System RAS Ключевые аспекты надежности, доступности и удобства обслуживания энергосистем. Дэниел Хендерсон, Джим Митчелл и Джордж Аренс. 10 февраля 2012 г. Обзор функций RAS в процессорах POWER.
Корпорация Intel. Надежность, доступность и удобство обслуживания для Always-on Enterprise (приложение B) и семейство процессоров Intel Xeon E7: поддержка серверов RAS нового поколения. Белая бумага. Обзор функций RAS в процессорах Xeon.
zEnterprise 196 Обзор системы. IBM Corp. (Глава 10) Обзор функций RAS процессора IBM z196 и сервера zEnterprise 196.
Максимальное повышение надежности и доступности приложений с помощью функций RAS сервера SPARC M5-32 сервера Oracle SPARC M5-32