Статья

От observability к действиям:

автоматизация с Dynatrace

  • Illustration

    Автор: Yevhenii Volkohon, Service Engineer, BAKOTECH

Современные IT-среды чрезвычайно сложны. Мультиоблако, микросервисы и распределенные архитектуры генерируют огромные объемы логов, метрик, трассировок и событий безопасности — гораздо больше, чем может обработать традиционная операционная деятельность.
Фактически 88% компаний сообщают о росте сложности систем, а 86% утверждают, что облачные стеки (cloud-native stacks) производят больше данных, чем могут обработать люди. [1]. На практике команды часто «тонут» в уведомлениях и устранении неисправностей, что замедляет процесс реагирования и сдерживает инновации.

Ключевое решение состоит в тесном сочетании observability с автоматизацией. Как отмечает Dynatrace, согласование этих двух компонентов позволяет системам «четко видеть, уверенно принимать решения и действовать автономно» [2]. Другими словами, платформа Dynatrace на основе искусственного интеллекта превращает телеметрию в ценные данные, а затем передает эти ответы в автоматизированные рабочие процессы — замыкая цикл между обнаружением и исправлением. 
Предлагаю разобраться подробнее. 

Почему автоматизация важна для современных сред

Полагаться только на ручные процессы больше нельзя. Обратите внимание на факты: облачные архитектуры охватывают десятки технологий, и 88% организаций заявляют, что сложность их стеков выросла в прошлом году [1]. Среднестатистическое предприятие использует около 10 различных инструментов мониторинга, что добавляет командам еще больше фрагментации и изнурительной работы. [3].

Согласно глобальному опросу, 81% технологических лидеров признают, что ручной анализ логов и устаревший мониторинг не успевают за темпами изменений в их технологическом стеке и за объемами данных. [4]. Команды тратят много времени на работу с информационными панелями и тикетами, и из-за этого страдают инновации. Эти факторы давления — перегрузка данными, быстрые изменения и человеческие ограничения — объясняют, почему 72% организаций внедряют автоматизацию на основе ИИ (AI-driven automation) для восстановления контроля. [5][6]. Проще говоря, автоматизация обязательна: она позволяет IT-отделу масштабироваться в соответствии с потребностями бизнеса.

Среди ключевых причин:

    Перегрузка данными. Объем телеметрии стремительно растет, создавая чрезмерную нагрузку на команды. 86% технических лидеров говорят, что облачные стеки производят данные, «превышающие возможности людей по управлению ими» [7]. Тысячи уведомлений и логов поступают непрерывно, создавая шум и усталость от них. 

    Рост уровня сложности. Современные системы работают в облачных и контейнеризированных средах. При условии, что 51% организаций ожидает дальнейшего роста сложности, определение первопричин инцидентов без применения ИИ становится практически невозможным [1]. 

    Распространение инструментов. Оперирование многочисленными инструментами мониторинга и безопасности (в среднем 10) добавляет путаницы. 85% лидеров соглашаются, что увеличение количества информационных панелей только повышает накладные расходы на управление [3]. 

    «Узкие места», связанные с мануальной работой. 81% компаний сообщают, что аналитика, созданная вручную, и устаревшие системы управления производительностью приложений (APM) просто не успевают за темпом [4]. SRE-инженеры теряют часы на подготовку данных и настройку информационных панелей, которые можно было бы потратить на разработку функций. 

Эти проблемы делают автоматизацию жизненно необходимой. Observability на основе ИИ гарантирует, что команды получают правильные ответы в контексте. Двигатели автоматизации затем внедряют поправку со скоростью машины. В совокупности они превращают IT-деятельность из реактивного «тушения пожаров» в проактивные операции с замкнутым циклом. [6][8]. 

Преимущества Dynatrace SaaS и AutomationEngine

Платформа Dynatrace на основе искусственного интеллекта разработана именно для этой эпохи автоматизированных операций. Как полностью управляемое SaaS-решение (Software as a Service), Dynatrace собирает все ваши данные observability и безопасности в единую, насыщенную контекстом среду. Последние инновации платформы — Grail, AppEngine и AutomationEngine — придают решению Dynatrace SaaS «сверхмощную» способность предоставлять ответы и управлять автоматизацией на основе ваших данных. [9]. Результат прост: предотвращать проблемы, автоматизировать рабочие процессы и быстрее предоставлять лучшее программное обеспечение [10].

Среди ключевых преимуществ:

    Инсайты и действия на основе ИИ. Причинно-следственный ИИ от Dynatrace, известный как Davis, анализирует телеметрию, чтобы точно определить первопричины (например, сервис, релиз кода или процесс, вызвавший проблему). Эти точные ответы становятся триггерами для AutomationEngine. По словам специалистов Dynatrace, вы можете «превратить точные ответы в интеллектуальные, расширяемые средства автоматизации, которые освободят время для инноваций» [11]. Например, уведомление о сбое сервиса, обогащенное полным контекстом стека вызовов, может автоматически запустить сценарий исправления или рабочий процесс тикетов. 

    Создание рабочих процессов без кода или с минимальным кодом. AutomationEngine позволяет командам графически создавать рабочие процессы или определять их как код. Вы можете перетаскивать задачи (запросы, оповещения, вызовы API и т.д.) и связывать их с триггерами (уведомления, расписания, REST-вызовы) [12]. Предварительно определенные действия включают типичные операции (такие как перезапуск сервисов, масштабирование инфраструктуры или создание тикетов), чтобы командам не приходилось начинать с нуля. Эта визуальная, «управляемая ответами» модель означает, что DevOps и SRE-инженеры могут автоматизировать процессы без написания громоздких сценариев, ускоряя развертывание. 

    Широкая интеграция и масштабируемость. Как SaaS-решение, Dynatrace мгновенно масштабируется для обработки больших размеров данных, потому автоматизация надежно работает в масштабах облака. Кроме того, AutomationEngine поставляется с защищенными интеграциями в рамках всей вашей экосистемы. [13]. Например, он может двунаправленно подключаться к ITSM-системам, контейнерным платформам или пользовательским API. Таким образом, обнаруженная аномалия может автоматически открыть инцидент в ServiceNow или запустить горизонтальное масштабирование Kubernetes — и все в контексте. Это позволяет избежать «интеграционной мороки» и позволяет командам разумнее использовать свои имеющиеся инструменты. 

На практике такие способности приводят к большой экономии времени. Как отмечает один пользователь Dynatrace, сочетание AIOps от Dynatrace и low-code автоматизации «упрощает автоматизацию задач, когда-то требовавших участия инженеров» [14]. Используя Dynatrace SaaS, организации объединяют мониторинг, ИИ и автоматизированные рабочие процессы на одной платформе, устраняя разрозненность и ручные передачи. 

Реальные сценарии использования

Платформа Dynatrace предлагает много готовых (out-of-the-box) вариантов использования, демонстрирующих автоматизацию, управляемую observability. Вот несколько иллюстративных примеров:

    Умная маршрутизация уведомлений и уязвимостей. Dynatrace автоматически обогащает проблемы точным контекстом (код, топология сервиса, влияние на бизнес), а затем использует метаданные о владельце, чтобы маршрутизировать уведомления. Рабочие процессы гарантируют, что каждое уведомление о проблеме или уязвимости попадает непосредственно к нужному инженеру. Например, когда выходит из строя критический процесс Apache или обнаруживается новая уязвимость, Dynatrace генерирует уведомление, насыщенное контекстом, и «эскалирует [его] к нужному владельцу для быстрого решения» [15]. Такая целевая маршрутизация помогает побороть усталость от уведомлений: нужный человек мгновенно видит нужную информацию. 

    Автоматизированные «ворота качества» CI/CD. Интегрируясь в конвейеры релиза, Dynatrace обеспечивает принудительное автоматизированное проведение проверок качества и безопасности для каждой сборки. AutomationEngine может автоматически оценивать новое развертывание на соответствие целям уровня обслуживания (показатели производительности, частота ошибок) и известным уязвимости безопасности. Если релиз не проходит эти проверки, конвейер останавливается или производится откат. По определению Dynatrace, «каждый push автоматически проходит через ворота качества и безопасности, что приводит к высококачественным, безопасным и надежным релизам» [16]. Это гарантирует, что в производство попадает только безопасный и производительный код.  

    Прогнозируемое автомасштабирование. Dynatrace использует ИИ для прогнозирования узких мест ресурсов, прежде чем они возникнут. К примеру, рабочий процесс может запустить ИИ Davis для прогнозирования исчерпания ресурсов ЦП или памяти (CPU or memory exhaustion) в развертывании Kubernetes, а затем автоматически скорректировать его реплики или лимиты ресурсов. Как объясняет Dynatrace, вы можете «прогнозировать дефицит ресурсов и автоматически открывать запросы на масштабирование приложений» [17]. Это проактивное масштабирование минимизирует время простоя и оптимизирует затраты, добавляя мощности именно тогда, когда она необходима. 

Другие варианты использования (такие как автоматизированное исправление инцидентов, оптимизация облачных расходов или развертывание самообслуживания) могут быть реализованы аналогично — и все они работают на той же модели данных Dynatrace и рабочих процессах AutomationEngine. 

Заключение

В современном стремительном мире одного лишь observability недостаточно — нужна автоматизация, управляемая observability.

Dynatrace SaaS тесно сочетает эти два элемента, обеспечивая обратную связь на основе ИИ, которая превращает видимость в действие. Благодаря AutomationEngine задачи, начиная от сортировки уведомлений и заканчивая контролем развертывания и масштабирования, выполняются автоматически, позволяя IT-командам сосредоточиться на инновациях, а не на «тушении пожаров». Как обещает Dynatrace, вы можете «ускорить цифровую трансформацию с помощью простых, но мощных средств автоматизации, управляемых инсайтами в области observability и безопасности» [18].

Если ваша команда «тонет» в уведомлениях или рутинной работе, познакомьтесь с AutomationEngine от Dynatrace поближе. Наша команда поможет вам разработать и внедрить автоматизацию в ваши процессы.

Ресурсы

Dynatrace industry reports and documentation[1][19][17][9][12].
[1] [3] [4] [5] [7] Annual Global CIO Report Reveals Cloud-Native Technologies Produce Explosion of Data Beyond Humans' Ability to Manage https://www.dynatrace.com/news/press-release/annual-global-cio-report-reveals-cloud-native-technologies-produce-explosion-of-data-beyond-humans-ability-to-manage/ [2] How Dynatrace and ServiceNow are powering autonomous IT https://www.dynatrace.com/news/blog/how-dynatrace-and-servicenow-are-powering-autonomous-it/ [6] [8] What is observability? Not just logs, metrics, and traces https://www.dynatrace.com/news/blog/what-is-observability-2/ [9] Drive Innovation, Speed, and Agility by Upgrading to Dynatrace SaaS | Dynatrace https://info.dynatrace.com/noram-southeast-vdh-saas-webinar-22647-registration.html [10] [11] Dynatrace | Observability built for the age of AI https://www.dynatrace.com/ [12] [13] [14] AutomationEngine https://www.dynatrace.com/platform/automationengine/ [15] [16] [19] Platform engineering: Empowering key Kubernetes use cases https://www.dynatrace.com/news/blog/platform-engineering-empowering-key-kubernetes-use-cases/ [17] Predict and autoscale Kubernetes workloads — Dynatrace Docs https://docs.dynatrace.com/docs/deliver/self-service-kubernetes-use-case [18] Software Delivery https://www.dynatrace.com/platform/software-delivery/