Как оптимизировать сбор метрик OpenTelemetry для контекстной AI-аналитики? 

Содержание статьи:
● Почему компаниям трудно реализовать потенциал OpenTelemetry?● Поддержка протокола OTLP в Dynatrace● Проведение разведывательного анализа с применением соответствующих сигналов в контексте

Расширенная поддержка Dynatrace для экспортеров метрик OpenTelemetry, поступающих от облачных рабочих нагрузок, упрощает их анализ. Решение также выявляет контекстные взаимосвязи между блоками, сервисами, узлами и кластерами Kubernetes.

После конференции Kubecon в Валенсии в начале 2022 года, многие организации приняли
OpenTelemetry Protocol (OTLP) как универсальный протокол для сигналов наблюдаемости, включая метрики, трассировку и логи. Однако, его реализация проходит не без вызовов.

Почему компаниям трудно реализовать потенциал OpenTelemetry?
Многим организациям трудно внедрить фреймворк OpenTelemetry по ряду причин. Рассмотрим несколько примеров:
● Анализ сигналов OpenTelemetry часто происходит изолированно. Без контекста и взаимосвязей между данными и базовой топологией приходится тратить много времени, чтобы вручную присвоить данным метки или создать перекрестные ссылки между информационными панелями несовместимых инструментов. ● Улучшение мониторинговых данных часто требует изменений в коде. Инженеры, ответственные за надежность сайта, побуждают разработчиков добавить в исходный код больше атрибутов ресурсов, конечных точек и токенов. Таким образом, много сил тратится на координацию между командами. ● Трудно выбрать, где и как собирать данные. Kubernetes-командам нужны простые и последовательные, независимые от вендора, архитектуры для анализа сигналов наблюдаемости. Это приводит к появлению кастомных решений, которые приходится собирать как конструктор каждый раз, когда добавляется или удаляется определенный компонент.
Из этих примеров очевидны две проблемы. Во-первых, командам нужно простое решение для настройки стандартных экспортеров, агентов и коллекторов. Во-вторых, чтобы реализовать сбор сигналов OpenTelemetry, нужны гарантии, что внедрение фреймворка окупится — организация получит аналитическую информацию, которая поможет улучшить эффективность бизнеса.
Эти проблемы может решить Dynatrace. Платформа начала поддерживать OTLP с начала 2023 года, поскольку это упрощает сбор и анализ метрик телеметрии с рабочей нагрузки облака. Решение определяет контекстные взаимосвязи между блоками, сервисами, узлами и кластерами Kubernetes.
Далее рассмотрим, как поддержка протокола OTLP в Dynatrace упрощает процессы, обеспечивает понимание контекста и предоставляет доступ к инсайтам Davis® AI.
Поддержка протокола OTLP в Dynatrace
Большинство современных языков программирования, таких как C++, Go, Java, JavaScript и Python (смотрите полный список), поддерживают OpenTelemetry SDK. Поэтому, можно использовать оператор OpenTelemetry для автоматического измерения или добавлять метрики и ресурсы с помощью библиотек с открытым кодом для каждого языка.
Начиная с 1.254 версии Dynatrace, организации могут использовать стандартные OTLP-экспортеры, чтобы отправлять трассировку и метрики в свою среду Dynatrace. Сочетание этих сигналов с Dynatrace Operator позволяет автоматически определять контекст, например, информацию о блоке, пространстве имен, узле или кластере. Такие измерения автоматически добавляются к метрикам и трассировке OpenTelemetry, что расширяет возможности Davis AI для анализа и выявления первопричин проблем.
Снимок с экрана ниже показывает информационную панель Dynatrace, где по определенным метрикам OpenTelemetry измеряется выполнение заказов. Также на панели есть метрики SLO, которые поступают с рабочей нагрузки Kubernetes. То есть она показывает отклонение в — 1.31.3% от цели с одной стороны и контекст этого отклонения — с другой.
Используем этот пример, как отправную точку для разведывательного анализа с учетом контекста с помощью Dynatrace Davis.

Illustration

Проведение разведывательного анализа с применением соответствующих сигналов в контексте

Dynatrace обеспечивает высокий уровень разведывательного анализа как для OneAgent, так и для других источников данных. На иллюстрации ниже показано, как метрики OpenTelemetry для счетчиков выполнения заказов отправляются из рабочей нагрузки Python в Kubernetes через конечные точки OTLP. 

Illustration

Мы можем проанализировать отклонения от целевого SLO и улучшить результат с помощью инсайтов Davis по готовому обзору рабочей нагрузки Kubernetes. Обзор содержит анализ ресурсов, список сервисов, блоки, ивенты и логи. Дополнительно, в конце страницы с обзором, метрики выполнения заказов автоматически связываются с рабочей нагрузкой с помощью топологической модели Dynatrace Smartscape®
Davis может коррелировать все сигналы на странице рабочей нагрузки Kubernetes вместе с метриками OpenTelemetry. Следующий снимок экрана показывает, что Davis сопоставил значительное замедление CPU с уменьшением выполнения заказов, которое привело к отклонению от цели SLO. 

Illustration

Страница с обзором также предоставляет дальнейший анализ логов и событий. Dynatrace обнаружил, что произошло изменение в спецификации развертывания в то же время как CPU резко замедлился, а показатель выполнения заказов уменьшился.

Еще один кусочек пазла — инструмент для просмотра логов. Он показывает сообщения о сбоях в проведении платежей, которое получает из рабочей нагрузки Kubernetes, вместе со ссылками на распределенные трассировки. Их можно рассмотреть подробнее, нажав View trace. 

Illustration

Dynatrace автоматически объединяет трассировку и логи. Сбой в проведении оплаты был зафиксирован в 04:22:26 утра. Трассировка начинается с рабочей нагрузки фронтенда. Она показывает ошибку HTTP 500, задержки во времени и 750-кратное увеличение времени ответа по сравнению с нормальным промежутком. Показатели текущего и нормального времени ответа показаны рядом, для сравнения: 

Illustration

Таким образом, разведывательный анализ начался с отклонения от цели SLO. Davis установил связь между замедлением рабочей нагрузки Kubernetes CPU и выполнением заказов. А вызвано это было событием развертывания. Dynatrace определил, что проблема в конкретном методе, который функционировал нормально до события.

Завершить анализ удалось быстро и без осложнений. Это благодаря уникальной способности Dynatrace предоставлять сигналы наблюдаемости в контексте и соотносить их с открытыми источниками данных, такими как метрики и трассировки OpenTelemetry. 

Узнайте больше про Dynatrace

Illustration

2 года с Dynatrace - полет нормальный. Опыт OTP Bank Ukraine

Как устроен IT-мониторинг: о задачах, проблемах, подрядчиках, плохом коде, мониторинге, новых технологиях и "Кровавом enterprise" на практике от Артема Логвиненко, Head Of IT Operations Department, OTP Bank.

Illustration

Автоматизация рутины в ИТ с помощью AI

В переведенном на русский язык руководстве рассмотрены вопросы обнаружения и автоисправления ошибок, поиска первопричин с помощью AI, комплексного мониторинга и автоматизации повторяющихся процессов.

Illustration

Мониторинг Dynatrace в Kapital Bank: история успеха

Запись вебинара о том, как крупнейший банк Азербайджана реализовалмониторинг сложных приложений на базе Dynatrace.

Клиенты в регионе

Illustration
Illustration
Illustration
Illustration
Illustration
Illustration
Illustration
Illustration
Illustration
Illustration

12-й раз подряд Лидер Gartner Magic Quadrant for APM & Observability 2022

Платформа Dynatrace является решением, которое дает наиболее исчерпывающую информацию о производительности в гибридной инфраструктуре.
Аналитики Gartner® в этом году выделили следующие конкурентные преимущества Dynatrace:● Мощная аналитика на базе искусственного интеллекта на уровне кода● Объединение Application Monitoring и Application Security● Уникальная архитектура и простота развертывания Dynatrace OneAgent