Що таке MTTR та як він відрізняється від інших показників управління інцидентами?

Зміст статті:
● Що означає управління інцидентами?● Які є відмінності між усіма визначеннями MTTR?- Середній час для відповіді- Середній час для ремонту- Середній час для вирішення або виправлення- Середній час для відновлення● Різниця між MTTR та іншими метриками DevOps- Середній час виявлення (MTTD)- Середній час для визнання (MTTA)- Середній час до відмови (MTTF)- Середній час між відмовами (MTBF)● Як виміряти MTTR і скоротити час реакції на інцидент за допомогою AI та автоматизації? 

Підтримувати мережеву систему в робочому стані⁠ — критичне завдання. Для його виконання DevOps та ITOps команди покладаються на показники управління інцидентами, такі як середній час для ремонту (mean time to repair, або MTTR), час безвідмовної роботи, час простою, кількість інцидентів, проміжок між інцидентами та час для відповіді та вирішення проблеми.
У звіті про аналіз збоїв за 2022 рік було виявлено, що підприємствам важко досягти відчутного зниження рівня та серйозності збоїв. Вони також виявили, що фінансові наслідки відключень постійно зростають. Такі обставини підвищують ставки на MTTR та інші показники управління інцидентами.
MTTR найчастіше означає середній час ремонту, але це також може означати середній час для відповіді, вирішення та відновлення. Усі ці визначення є різними та важливими. Однак не менш важливо, як MTTR поєднується з іншими показниками управління інцидентами?
Давайте розглянемо, що означають показники управління інцидентами та як вони пов’язані з іншими показниками DevOps, такими як MTTA, MTTF і MTBF.

Що означає управління інцидентами?

ІТ-інцидент — це непередбачувана або неочікувана подія, яка спричиняє збій або відключення у роботі служби, що перериває бізнес-операції. Він має чотири основні етапи:
● Ідентифікація: виявлення та запис подробиць того, що сталося, визначення пріоритетності інцидентів з точки зору впливу та терміновості та оцінка рівень впливу на клієнтів і бізнес. Для ідентифікації потрібні показники середнього часу виявлення — MTTD і середнього часу підтвердження — MTTA.● Карантин: виконання дій для захисту постраждалих систем, швидке вирішення інцидентів та передача події іншим командам, коли це необхідно. Для цього етапу потрібні показники середнього часу відповіді та середнього часу ремонту.● Вирішення: завершення виправлення та визначення, коли поточний вплив на бізнес закінчився. У цьому випадку показником є час вирішення.● Технічне обслуговування: зменшення ризику повторного виникнення інциденту за допомогою аналізу першопричини та постійного вдосконалення системи. Тут показниками є інтервал між інцидентами, тобто середній час між відмовами — MTBF і середній час до відмови — MTTF.
Для оптимального клієнтського сервісу, більшість систем керування ІТ-інцидентами використовують певну форму наведених показників для ефективної обробки інцидентів і підтримки безперебійного обслуговування.

Illustration

Які є відмінності між усіма визначеннями MTTR?

MTTR може означати середній час для відповіді (response), ремонту (repair), вирішення (resolve) та відновлення (recover). Кожне з них відрізняється і займає своє місце в системі управління інцидентами.

  • Середній час для відповіді

    Середній час для відповіді (mean time to respond) — це той час, який потрібен командам DevOps для відповіді після отримання сповіщення.
    Команди часто використовують цей показник для вимірювання часу між виявленням інциденту та складанням плану виправлення. Деколи до нього записують і час, потрібний для усунення проблеми, але не час затримки в системі оповіщення.
    Замір MTTR відбувається від моменту виявлення інциденту командою до моменту запуску (або завершення) плану ремонту або виправлення. Далі, цей час ділять на кількість сповіщень, на які команда відповіла за певний проміжок часу.
    MTTR часто використовується в кібербезпеці разом із середнім часом виявлення (mean time to detect, або MTTD). Це дозволяє вимірювати успіх команди в нейтралізації системних атак, а також здатність передбачати та запобігати майбутнім порушенням безпеки.

  • Середній час для ремонту

    Середній час для ремонту (mean time to repair) — це середній час, необхідний для відновлення несправного компонента, програми або служби.
    Замір включає час, витрачений на тестування, доки служба знову не стане повністю функціональною. Точніше лише той проміжок, який потрібен команді для впровадження ремонту після діагностики проблеми.
    Щоб розрахувати цей показник, поділіть загальний час, який ваша команда витрачає на усунення несправностей, на кількість виконаних ремонтів. Якщо для усунення п’яти проблем потрібно 30 годин, показник буде дорівнювати шести. Збирайте ці дані регулярно і з часом можна буде обчислити середній бал MTTR.
    Організації часто включають MTTR в контракт на технічне обслуговування або угоду про рівень обслуговування (SLA). Якщо з однаковим часом між відмовами одна система має MTTR 24 години, а інша — три дні, перша система є більш цінною, оскільки її доступність вища.

  • Середній час для вирішення або виправлення

    Середній час для вирішення/виправлення (mean time to resolve/remediate) — це час, необхідний для повної діагностики та усунення несправності у системі.
    Показник включає термін усунення першопричини проблеми, щоб вона не повторювалася. Він відображає наскільки швидко та ефективно ваша команда DevOps діагностує проблему та впроваджує рішення. А також, наскільки добре команда передбачає та планує несправності.
    Щоб розрахувати показник, додайте час, потрібний для діагностики та вирішення інцидентів протягом певного періоду часу, а потім поділіть його на кількість інцидентів. Якщо системи не працювали протягом двох годин протягом 24-годинного періоду, а команди витратили дві години на діагностику та усунення збою, час для вирішення становить чотири години.
    Показник також відображає час, який ваша команда витрачає на дослідження, ремонт і тестування. Таймер не зупиняється, доки система не запрацює повністю і ваша команда не вирішить основну проблему, щоб уникнути майбутніх збоїв.

  • Середній час для відновлення

    Середній час для відновлення (mean time to recovery) показує весь час, потрібний для відновлення працездатності ураженої мережі або системи.
    Замір часу починається, коли вперше спрацьовує попередження, і закінчується, коли всі уражені системи функціонують у звичайному режимі.
    Щоб виміряти цей показник, потрібно поділи час простою за певний період на кількість інцидентів. Якщо у вас було 20 хвилин простою, спричиненого двома різними подіями протягом двох днів, середній час відновлення становитиме десять хвилин.
    MTTR вимірює ефективність усіх ваших можливостей реагування на інциденти. Він охоплює весь період простою, від моменту несправності системи або продукту до відновлення нормального функціонування. MTTR дає вам уявлення про те, як швидко ваша команда реагування на інциденти може повернути ваш бізнес і всіх постраждалих клієнтів до нормального життя. Це хороший сукупний показник для вимірювання загальної ефективності всіх аспектів ваших протоколів реагування на інциденти.

Різниця між MTTR та іншими метриками DevOps

Життєвий цикл середнього часу для відновлення включає більше вимірювань на початку та в кінці процесу. Це також показники швидкості виявлення проблеми командою та загальна статистика несправностей для визначення надійність і ефективність ремонту з часом.

  • Середній час виявлення (MTTD)

    Середній час виявлення (mean time to detect) вимірює, скільки часу проблема існує до того як проявиться. MTTD є ключовим показником ефективності для DevOps та IT-команд.
    MTTD також називають середнім часом ідентифікації (mean time to identify, MTTI). Це проміжок, необхідний для виявлення інциденту або отримання сповіщення про нього.
    Щоб обчислити MTTD, потрібно виміряти середній час, необхідний для виявлення інцидентів за встановлений період, а потім розділити його на кількість інцидентів.
    Важливо, щоб MTTD був низьким, оскільки чим швидше ви виявите проблему, тим менше потенційної шкоди вона завдасть вашим системам і тим дешевше її усунення.

  • Середній час для визнання (MTTA)

    Середній час до підтвердження (mean time to acknowledge) — це проміжок часу між тим, коли система генерує сповіщення, і коли член команди відповідає.
    MTTA відображає скільки часу потрібно члену команди, щоб розпочати роботу над проблемою після отримання сповіщення.
    Низький MTTA показує, що команда швидко реагує, віддаючи пріоритет сповіщенням із високим ризиком, які можуть мати найбільш критичні простої та збої.
    MTTA корисний для вимірювання ефективності вашої системи сповіщень і допомагає команді виконувати свої KPI оперативності реагування. Низький MTTA вказує на спосіб мислення «виправити це», щоб запобігти будь-якій втраті обслуговування, що є критично важливою для керування цифровим досвідом.

  • Середній час до відмови (MTTF)

    Середній час до відмови (mean time to failure) відображає проміжок, у який актив, що не підлягає ремонту, ще функціонує до повної відмови. Коли актив виходить з ладу, команда замінює його.
    MTTF вимірює надійність мережі та довговічність її апаратного забезпечення. Коротший MTTF вказує на більший потенційний час простою, оскільки система не працює поки її замінюють. MTTF вимірює робочу фазу компонентів і є частиною циклу технічного обслуговування.

  • Середній час між відмовами (MTBF)

    Середній час між відмовами (mean time between failures) вимірює середній інтервал між відмовами систем, що підлягають ремонту. MTBF – це також спосіб вимірювання надійності системи.
    Менший MTBF вказує на більший потенційний час простою, оскільки збої потребують заходів з виявлення, стримування та усунення. Як і MTTF, MTBF є частиною циклу технічного обслуговування та вимірює робочу стадію компонентів.

Як виміряти MTTR і скоротити час реакції на інцидент за допомогою AI та автоматизації?

Вимірювання MTTR залежить від докладних метрик усіх моніторингових систем. У традиційних локальних середовищах це досить складно. Але для ефективного управління реагуванням на інциденти в масштабі сучасних багатохмарних середовищ потрібен платформний підхід, який використовує штучний інтелект для ІТ-процесів (AIOps) і автоматизації.
Платформа Dynatrace Software Intelligence відстежує увесь багатохмарний стек. Dynatrace автоматично визначає проблеми та враховує контекст при визначенні їх першопричин, використовуючи аналіз дерева відмов.
Таке автоматичне виявлення скорочує час збору показників і аналізу першопричин майже до нуля для всіх етапів управління інцидентами, включаючи MTTD, MTTA, MTTR і MTBF. Автоматичний інтелектуальний аналіз від Dynatrace забезпечує раннє виявлення та автоматичне реагування, що запобігає переростанню проблем у збій.
Ваша команда DevOps може встановити будь-який із показників керування інцидентами як ціль рівня обслуговування (service level objective, або SLO), щоб автоматизувати реагування на інциденти та скоротити MTTR. Скористайтеся формою нижче, щоб отримати доступ до платформи Dynatrace, щоб випробувати всі можливості моніторингу систем і автоматизації виявлення проблем.

Дізнайтесь більше про Dynatrace

Illustration

2 роки з Dynatrace - політ нормальний. Досвід OTP Bank Ukraine

Як влаштований IT-моніторинг: про завдання, проблеми, підрядники, поганий код, моніторинг, нові технології та "Кривавий enterprise" на практиці від Артема Логвиненка, Head Of IT Operations Department, OTP Bank.

Illustration

Автоматизація рутини в ІТ з допомогою AI

У перекладеному на російську мові посібнику розглянуті питання виявлення та автовиправлення помилок, пошуку першопричин за допомогою AI, комплексного моніторингу та автоматизації повторюваних процесів.

Illustration

Моніторинг Dynatrace в Kapital Bank: історія успіху

Запис вебінару про те, як найбільший банк Азербайджану реалізував моніторинг складних програм на базі Dynatrace.

Illustration

12-й раз підряд лідер Gartner Magic Quadrant for APM & Observability 2022

Платформа Dynatrace є рішенням, яке дає вичерпну інформацію про продуктивність у гібридній інфраструктурі.
Аналітики Gartner® виділили такі конкурентні переваги Dynatrace:● Потужна аналітика на основі штучного інтелекту на рівні коду● Об'єднання Application Monitoring та Application Security● Унікальна архітектура та простота розгортання Dynatrace OneAgent

Протестуйте пробну версію Dynatrace у вашій інфраструктурі

● 15 днів абсолютно безкоштовно● Не потрібно вводити дані карти● Встановіть та почніть використовувати рішення менш ніж через 5 хвилин