Время простоя

редактировать

Термин время простоя используется для обозначения периодов, когда система недоступна. Время простоя или продолжительность простоя относится к периоду времени, в течение которого система не может обеспечить или выполнить свою основную функцию. Надежность, доступность, восстановление и недоступность являются взаимосвязанными понятиями. недоступность - это доля промежутка времени, в течение которого система недоступна или отключена. Обычно это результат того, что система не функционирует из-за незапланированного события или из-за планового обслуживания (запланированное событие).

Этот термин обычно применяется к сетям и серверам. Распространенными причинами незапланированных отключений являются системные сбои (например, сбой ) или сбои связи (обычно известные как сбой сети ).

Этот термин также обычно применяется в промышленных условиях в отношении отказов промышленного производственного оборудования. На некоторых предприятиях измеряется время простоя во время рабочей смены или в течение 12- или 24-часового периода. Другой распространенной практикой является определение каждого простоя как имеющего операционную, электрическую или механическую причину.

Противоположностью простоя является время безотказной работы.

Содержание

1 Типы
2 Характеристики
- 2.1 Классификация сбоев электросвязи
3 Воздействие
4 Известные сбои
5 Уровни обслуживания
6 Реагирование и снижение воздействия
7 Планирование
8 Предотвращение
9 Другое использование
10 Измерение времени простоя
11 См. Также
12 Ссылки

Типы

Отраслевые стандарты для терминов «Продолжительность простоя» или «Продолжительность технического обслуживания» могут иметь разные точки начала и завершения, поэтому необходимо использовать следующие пояснения, чтобы избежать конфликтов при выполнении контракта:

«Под ключ» это самый захватывающий из всех типов простоев. Отключение или обслуживание начинается с того, что оператор установки или оборудования нажимает кнопку выключения или остановки, чтобы инициировать остановку работы. Если не указано иное, отключение или техническое обслуживание считаются завершенными, когда завод или оборудование вернулись в нормальный режим работы, готовые начать производство, или готовы быть синхронизированными с системой или сетью, или готовы выполнять обязанности в качестве насоса или компрессора.
"Прерыватель к выключателю "Этот отказ или техническое обслуживание начинается с того, что оператор установки или оборудования отключает цепь питания (главный выключатель питания находится в состоянии" выключено "," отключено "или" включено-охлаждение "), а не цепь управления из работы. Это по-прежнему позволит охлаждать оборудование или довести его до температуры окружающей среды, чтобы можно было подготовить или начать работы по отключению / техническому обслуживанию. В зависимости от типа оборудования отключение «от выключателя к выключателю» может быть выгодным при заключении контракта на техническое обслуживание, связанное с управлением, поскольку этот тип работ по техническому обслуживанию может выполняться, пока основное оборудование все еще находится в режиме охлаждения или в режиме ожидания. Если не указано иное, этот тип отключения считается завершенным, когда в силовую цепь повторно включается питание посредством включения силового выключателя.
«Завершение блокировки / отключения » Это отключение или Техническое обслуживание (иногда ошибочно принимаемое за «Off-Cooldown», но не одно и то же) начинается с того, что оператор установки или оборудования отключает силовую цепь, отключает цепь управления и выполняет другую нейтрализацию потенциальных источников энергии и опасности (обычно называемую блокировкой, Tag-Out "LOTO") Эта точка периода технического обслуживания обычно является последней фазой этапа инициирования отключения перед фактическим началом работ на объекте, заводе или оборудовании. Инструктаж по технике безопасности всегда должен следовать за деятельностью LOTO перед проведением любых работ. Если не указано иное, этот тип отключения считается завершенным, когда оборудование достигло механической готовности и готово к установке на медленное вращение для большого вращающегося оборудования, испытанию на работоспособность или проверке вращения двигателей и т. разрешение на работу в соответствии с процедурами LOTO.

Любые требуемые онлайн-тестирование, тестирование производительности и настройка не должны засчитываться в счет продолжительности простоя, поскольку эти действия обычно проводятся после завершения простоя или события технического обслуживания и находятся вне контроля большинства подрядчиков по техническому обслуживанию.

Характеристики

Незапланированный простой может быть результатом неисправности оборудования и т. Д.

Классификация сбоев электросвязи

Простои могут быть вызваны отказом оборудования ( физическое оборудование), (оборудование логического управления), соединительное оборудование (такое как кабели, оборудование, маршрутизаторы,...), передача (беспроводная, микроволновая, спутниковая) и / или емкость (системные ограничения).

Отказы могут возникать из-за повреждений, сбоев, дизайна, процедурных (неправильное использование людьми), инженерных (как использовать и развертывание), перегрузки (трафик или системные ресурсы превышают установленные пределы), окружающей среды (поддержка системы, такие как электроснабжение и HVAC), (сбои, предусмотренные в системе для таких целей, как обновление программного обеспечения и расширение оборудования), другие (ничего из вышеперечисленного, но известные) или неизвестные.

Ответственность за сбои может быть возложена на клиента / поставщика услуг, продавца / поставщика, коммунального предприятия, правительства, подрядчика, конечного потребителя, государственного лица, стихийное бедствие, иное (ничего из вышеперечисленного, но известно) или неизвестное.

Воздействие

Сбои, вызванные системными сбоями, могут иметь серьезные последствия для пользователей компьютерных / сетевых систем, в особенности для тех отраслей, которые полагаются на почти круглосуточное обслуживание:

Также могут пострадать пользователи интернет-провайдера и другие клиенты телекоммуникационной сети.

Корпорации могут потерять бизнес из-за сбоя сети или могут не выполнить контракт, что приведет к финансовым потерям. Согласно отчету Veeam 2019 по управлению облачными данными, организации сталкиваются с незапланированными простоями в среднем 5-10 раз в год, при этом средняя стоимость одного часа простоя составляет 102 450 долларов США.

Те люди или организации, которые страдают от простоя, могут быть более чувствительны к определенным аспектам:

на некоторых больше влияет продолжительность простоя - для них важно, сколько времени потребуется на восстановление после сбоя. проблема
другие чувствительны к срокам сбоя - перебои в работе в часы пик влияют на них больше всего

Наиболее требовательными пользователями являются те, которым требуется высокая доступность.

Известные сбои

В День матери, в воскресенье, 8 мая 1988 г., произошел пожар в главной коммутационной комнате центрального офиса Хинсдейла телефонной компании Illinois Bell. Одна из крупнейших коммутационных систем в штате, обслуживающая более 3,5 миллионов звонков каждый день, обслуживая 38 000 клиентов, включая многочисленные предприятия, больницы и аэропорты Чикаго О'Хара и Мидуэй.

Практически вся сеть ATT, состоящая из тандемных коммутаторов 4ESS, снова и снова выходила из строя 15 января 1990 года, нарушая работу междугородной связи для всех Соединенных Штатов.. Проблема исчезла сама собой, когда трафик замедлился. Обнаружена программная ошибка.

13 апреля 1998 г. ATT потеряла свою сеть Frame Relay на 26 часов. Это затронуло многие тысячи клиентов, и банковские транзакции стали одной жертвой. Компания ATT не смогла выполнить соглашение об уровне обслуживания по своим контрактам с клиентами и была вынуждена возместить 6 600 счетов клиентов на миллионы долларов.

Xbox Live периодически простаивала во время курортного сезона 2007–2008 годов, который длился тринадцать дней. Повышенный спрос со стороны покупателей Xbox 360 (самое большое количество новых пользователей в истории Xbox Live) был назван причиной простоя; чтобы исправить проблемы с обслуживанием, Microsoft предложила своим пользователям получить бесплатную игру.

Отключение Sony PlayStation Network в апреле 2011 года началось 20 апреля 2011 года, и был постепенно восстановлен 14 мая 2011 г., начиная с США. Это отключение является самым продолжительным периодом времени, в течение которого PSN находилась в автономном режиме с момента его создания в 2006 году. Sony заявила, что проблема была вызвана внешним вторжением, которое привело к конфискации личной информации. 26 апреля 2011 г. Sony сообщила, что большой объем пользовательских данных был получен тем же взломом, который привел к простоям.

Переключатель Ryde компании Telstra вышел из строя в конце 2011 года после того, как вода попала в электрический распределительный щит из-за продолжающейся влажной погоды. Коммутатор Ryde является одним из крупнейших коммутаторов в Австралии и затронул более 720 000 служб.

Центр обработки данных Майами ServerAxis отключился без предупреждения 29 февраля 2016 г. и так и не был восстановлен.. Это коснулось нескольких провайдеров и сотен веб-сайтов. Отключение повлияло на освещение турнира по баскетболу женского дивизиона I NCAA 2016, поскольку WBBState, один из затронутых сайтов, был, безусловно, наиболее полным поставщиком статистических данных по женскому баскетболу.

Уровни обслуживания

В соглашениях об уровне обслуживания обычно указывается процентное значение (за месяц или за год), которое рассчитывается путем деления суммы всех временных интервалов простоев на общее время базового времени. промежуток времени (например, месяц). 0% простоя означает, что сервер был доступен все время.

Для Интернет-серверов время простоя более 1% в год или хуже может считаться неприемлемым, поскольку это означает простой более 3 дней в году. Для электронной коммерции и другого промышленного использования любое значение выше 0,1% обычно считается неприемлемым.

Реагирование и снижение воздействия

Обязанностью разработчика сети является обеспечение того, чтобы отключение сети не бывает. Когда это все же произойдет, хорошо спроектированная система еще больше снизит последствия сбоя за счет локальных сбоев, которые можно будет обнаружить и устранить как можно скорее.

Должен существовать процесс для обнаружения неисправности - мониторинг сети - и восстановления сети до рабочего состояния - в этом обычно участвует команда который может устранить проблему, состоит из обученных инженеров; отдельная группа службы поддержки обычно необходима для ввода данных пользователем, что может быть особенно требовательным во время простоя.

A Система управления сетью может использоваться для обнаружения неисправных или выходящих из строя компонентов до подачи жалоб клиентов с упреждающим устранением неисправностей.

Методы управления рисками могут использоваться для определения влияния сбоев сети на организацию и того, какие действия могут потребоваться для минимизации риска. Риск можно свести к минимуму, используя надежные компоненты, выполняя техническое обслуживание, такое как обновления, используя избыточные системы или имея план действий в чрезвычайных ситуациях или план обеспечения непрерывности бизнеса. Технические средства могут уменьшить количество ошибок с помощью кодов исправления ошибок, повторной передачи, контрольных сумм или схемы разнесения.

Одной из основных причин простоев является неправильная конфигурация, где запланированное изменение идет не так. Обычно организации полагаются на ручное управление процессом резервного копирования конфигурации, но для этого требуются высококвалифицированные инженеры, у которых есть время для управления процессом в сети с несколькими поставщиками. Доступны инструменты автоматизации для управления резервным копированием, но существует очень мало решений, которые обрабатывают восстановление конфигурации, необходимое для минимизации общего воздействия сбоя.

В промышленных условиях простои, вызванные отказами в промышленном производственном оборудовании, могут иметь несколько форм профилактических мер для оценки обеспечения качества и мониторинга оборудования. Визуальный осмотр может проводиться с привлечением лиц, проверяющих оборудование вручную. Хотя эти проверки проводятся для сокращения «неожиданного простоя» на промышленной площадке, такая форма проверки может привести к простоям из-за длительного процесса в зависимости от размера площадки.

Датчики, системы мониторинга вибрации, регистраторы напряжения, термометры и другие системы мониторинга могут быть размещены на оборудовании или рядом с ним для измерения качества и контроля их использования. Эти датчики могут служить в качестве «постоянно включенной» формы мониторинга, которая может обнаружить существующую проблему или может предсказать будущую проблему. Эти системы рассматриваются как отличный способ сократить время простоя, поскольку многие машины могут продолжать работать, поскольку датчики собирают данные.

Робототехника играет все большую роль в процессе мониторинга с помощью роботов с глубоким обучением., дроны, мобильные роботы, среди прочего. Мониторинг и проверки, выполняемые роботами, считаются хорошим способом сократить время простоя, поскольку для многих роботов, заводов или других промышленных объектов нет необходимости прекращать работу, и они фактически могут продолжать работать во время осмотра. Уменьшение взаимодействия с человеком как в робототехнике, так и в мониторинге датчиков может снизить общие затраты за счет снижения численности персонала и сокращения времени простоя во время проверок.

Планирование

Запланированный простой является результатом запланированной деятельности системы владельцем и / или поставщиком услуг . Эти простои, часто планируемые во время окна обслуживания, могут использоваться для выполнения следующих задач:

Отложенное обслуживание, например, отложенный ремонт оборудования или отложенный перезапуск для очистки испорченной памяти
Диагностика для выявления обнаруженной неисправности
Устранение неисправности оборудования
Исправление ошибки или упущения в базе данных конфигурации или упущения в недавнем изменении базы данных конфигурации
Исправление ошибки ошибка в базе данных приложения или ошибка в недавнем изменении базы данных приложения
Установка исправлений / обновлений программного обеспечения для исправления ошибки программного обеспечения.

Сбои также могут быть запланированы в результате предсказуемого естественного события, такого как Выход из строя Sun.

В отраслях, где используются компьютерные системы, необходимо тщательно планировать простои на техническое обслуживание. Во многих случаях общесистемные простои можно предотвратить с помощью так называемого «последовательного обновления» - процесса постепенного отключения частей системы для обновления без ущерба для общей функциональности.

Избегание

Для большинства веб-сайтов доступен мониторинг веб-сайтов. Мониторинг веб-сайтов (синтетический или пассивный) - это услуга, которая «отслеживает» время простоя и пользователей на сайте.

Другое использование

Время простоя также может относиться к времени, когда человеческий капитал или другие активы падают. Например, если сотрудники находятся на собраниях или не могут выполнять свою работу из-за другого ограничения, они не работают. Это может быть так же дорого и может быть результатом отказа другого актива (например, компьютера / системы). Это также широко известно как «мертвое время ».

Время простоя также обобщается в личном смысле и используется для обозначения периода сна или отдыха.

. Этот термин также используется на заводах или в промышленности. См. полное продуктивное обслуживание (TPM).

Измерение времени простоя

Существует множество внешних сервисов, которые можно использовать для отслеживания времени безотказной работы и простоя, а также доступности службы или хоста.

См. Также

Ссылки

Время простоя веб-сайта Введение и советы

Почему машина имеет значение отслеживание простоев?