Как Bank of Georgia реализовал полную видимость в своей инфраструктуре

Содержание:
● Диджитализация в Bank of Georgia ● Что побуждает нас к изменениям ● Как выбрать решение APM ● Dynatrace: важность внедрения решения● Как мы работаем с обнаружением проблем● Какой результат мы получили ● Выводы

Bank of Georgia — систематически важный и ведущий банк Грузии. Он лидер в сфере платежного бизнеса и финансовых мобильных приложений с сильными розничными и корпоративными банковскими франшизами. Согласно цифровой стратегии, банк сосредотачивается на расширении технологических и передовых возможностей анализа данных, чтобы предлагать клиентам более персонализированные решения и безупречный опыт.
52% всех платежных сделок в стране проходят через Bank of Georgia. 1 000 000 клиентов ежемесячно активно пользуются основным цифровым продуктом банка, а половина клиентов используют приложение каждый день. Bank of Georgia также обслуживает около 44% кредитов и 40% депозитов в стране.
Руководство банка придерживается идеи, что лучший способ создать современную и сильную компанию — быть технологичными и клиентоориентированными.
Как Bank of Georgia проходил процесс диджитализации и реализовал полную видимость — читайте ниже.

Важа Мантуа - Заместитель CIO, ИТ-операции. Про диджитализацию, влияние и неизбежные изменения.

Диджитализация в Bank of Georgia

Из-за пандемии COVID, компании по всему миру начали массово приобщаться к цифровой трансформации, но мы сделали это гораздо раньше. Сейчас мы укрепляем свои позиции на рынке, поскольку уже имеем уникальные продукты и функции на наших цифровых платформах.
Банкинг — не единственный продукт, который предлагает наша платформа. К примеру, у нас есть платформа фондовой биржи, где вы можете в один клик купить или продать акции известных компаний. В будущем мы внедрим в наш мобильный банкинг криптобиржу. 
Наши главные вызовы — это масштабируемость, высокая производительность, безопасность, доступность и несложные бизнес-процессы. Мы можем говорить о вызовах в трех направлениях: люди, процессы и платформы.

ЛюдиТри роки тому у нас був дуже агресивний кадровий процес. Після цього перед нами постали нові виклики. Наприклад, виявилось, що коли наймаєш нових співробітників, процеси онбордингу мають бути досконалими. Ще ми зробили важливе відкриття: коли компанія збільшується в три-чотири рази, це може негативно вплинути на якість послуг, оскільки вона здебільшого залежить від персоналу. Ось чому ми робимо процеси адаптації максимально ефективними, включаючи в них наставництво, перевірку коду та командну роботу. 
ПроцессыУ нас были стандартные каскадные процессы, но потом мы перешли на agile. Это был больше, чем просто переход в другую систему — мы изменились ментально и стали мыслить более глобально. 
Мы начали использовать новые KPI — технологические API (Application Programming Interfaces), которые можно измерять. Кроме того, в нашей компании растет культура обратной связи, потому что важно прислушиваться к сотрудникам и пытаться устранить все недостатки. Довольный сотрудник — это жизненно важный фактор успеха.

ПлатформыНаши платформы стали сложнее, а количество клиентов резко возросло. Это означает, что мы должны иметь гибкую и современную архитектуру, микросервисы и легкие процессы, помогающие нам достичь прямой масштабируемости.

Что побуждает нас к изменениям

Среднестатистические компании подстраиваются под поведение клиентов, а прогрессивные могут сами влиять на него и устанавливать тренды. И я твердо верю, что Bank of Georgia принадлежит именно ко второму типу. В то же время, наши клиенты побуждают нас к модификациям при использовании наших цифровых платформ.
Если у вас монолитная архитектура, вам следует обновлять мультиархитектуру каждые два года. Однако это очень длительные и дорогостоящие процессы: когда каждый процесс выполняется в одной программе и платформе, трудно их обновлять ежегодно. Вот почему мы начали использовать микросервисную архитектуру, которую можно легко масштабировать. Кроме того, такая архитектура поможет нам в нашей будущей миграции в облако: мы заявили, что через пять лет будем полностью облачной организацией, и все наши платформы будут работать в публичном облаке — Amazon, Azure или Google.
Переход на микросервисы привел к разветвлению и расширению инфраструктуры. В таком случае компании должны обеспечить полную видимость для контроля масштабирования, изменений процессов и архитектуры, иначе они не выдержат веса собственных проблем при переходе на микросервисы, облако или куда-то еще. Решения APM постоянно проверяют «здоровье» процессов и инфраструктуры, а также влияние изменений на пользователя и работу сервисов. В результате полная видимость инфраструктуры упрощает работу специалистов и параллельно ускоряет ИТ-трансформацию всех процессов.

Как выбрать решение APM

В поисках нового технического решения мы обычно используем два подхода: внутренний поиск и советы наших партнеров.
У нас есть специальная команда архитекторов в ИТ-организации для внутреннего поиска. Они проводят исследования, находят технические решения для разных задач, а также проводят первичное оценивание. Иногда мы выбираем решение, опираясь на советы наших местных партнеров. У нас около 6 партнеров, которым мы можем доверять. 
Исходя из нашего опыта, я хочу дать вам несколько советов:
● Определитесь, что именно вам нужно;● Сформируйте список требований и начните исследование;● Найдя вариант, проверьте, соответствует ли платформа вашим требованиям;● Примите окончательное решение. 
Вы должны четко понимать роли и обязанности. Иначе вы будете недовольны, потому что технологии не дают вам того, что вы хотите. 
Вот как это работает у нас: обычно мы берём 4-5 известных на рынке платформ и проводим исследования. Затем мы получаем приблизительную стоимость проекта и смотрим, сможет ли наш бюджет покрыть ее. Наконец, когда мы знаем, что подтверждение концепции успешно завершено, мы решаем инвестировать в платформу. 
Выбирая инструменты мониторинга, мы задавались множеством вопросов: кто будет отвечать за полное внедрение, создание и отслеживание метрик, а также системы оповещения? 
В нашем случае Dynatrace соответствовал всем запросам и задачам. По-моему, это лучший инструмент мониторинга программ. Основными причинами, почему мы остановились на Dynatrace, были технические возможности платформы, те показатели, которые она могла давать по сравнению с конкурентами, и стоимость. Как правило, лучшие решения на рынке всегда стоят дорого. На практике мы обнаружили, что решение идеально вписывается в наш бюджет и нет необходимости идти на компромисс в поисках. Отдельно отмечу, что политика Dynatrace гибка к потребностям и пожеланиям клиента, а это очень важно для нас.
В нашем ИТ-отделе 800 человек, и я думаю, что кооперация ролей и обязанностей в ИТ-организации с преимуществами платформы может принести только отличные результаты.

Давид Лапиашвили — руководитель отдела мобильных и веб-разработок. О внедрении решения и технических проблемах

Dynatrace: важность внедрения решения

В 2017 году мы создали новое мобильное приложение для наших пользователей. Оно оказалось успешным — у нас было около 90 000 установок. Но эта программа поставила перед нами новые вызовы, поскольку мы не были готовы к такой нагрузке. Мы решали проблемы вручную, анализировали и собирали данные, чтобы понять, с какими службами возникают проблемы.
Наша новая цель заключалась в том, чтобы клиенты остались довольны мобильным приложением, и это было приоритетом номер один. Тогда и появился Dynatrace. Сначала мы использовали его именно для мониторинга back-end в нашем мобильном приложении (написан на Java). Это дало нам большие возможности для устранения всех неисправностей в наших программах.
Когда мы перешли от нашей платформы (стандартная инфраструктура VMware) к нынешней VMWare плюс Kubernetes, мы были готовы к определенным проблемам с мониторингом. Но Dynatrace очень прост в работе с новыми платформами и Kubernetes. Так что у нас не осталось открытых вопросов по миграции лицензий со стандартной платформы VMWare на Kubernetes.
Использование было непростым, но нам очень помогла документация Dynatrace. У нас были все системы оповещения, критические системы и некоторые бизнес-индикаторы. Нам понадобилось около месяца, чтобы создать информационные панели, модели атрибуции и все, что необходимо для мониторинга наших критически важных систем.
Dynatrace — инструмент мониторинга и устранения неполадок. Вместе с тем у нас много диаграмм KPI и графиков, небольших платформ или некритических процессов. Для них мы используем решения с открытым кодом — например, Prometheus.
Dynatrace также умеет измерять SLA. Люди совершают разные платежи в мобильном банкинге, и Dynatrace измеряет устойчивость услуг — не только для Bank of Georgia, но и для других компаний, имеющих связанные услуги. 

Как мы работаем с обнаружением проблем

Сейчас у нас есть два типа обнаружения. Первый — когда клиенты не знают о существовании проблемы, и Dynatrace показывает нам, что что-то ненормально. Тогда мы оперативно реагируем, и в этом наибольшее преимущество.
Второй — когда мы пропускаем какую-то неисправность или появляются внешние факторы (например, изменения нового поставщика). Это также создает некоторые колебания в нашей системе и часто влияет на всю инфраструктуру. Dynatrace позволяет нам обнаружить эту проблему за несколько минут и исправить ее до того, как она приведет к чему-то действительно серьезному.
Dynatrace полезно использовать даже когда все выходит из строя одновременно, поскольку решение помогает точно определить, где есть проблема, а следовательно, и быстро отреагировать. Все проблемы в вашей инфраструктуре упорядочены по времени, но вы можете просмотреть более подробную информацию, кликнув одну конкретную программу.
Мы не используем автоматический откат, поскольку у нас есть несколько компонентов почти в каждом развертывании, и это непросто организовать. Но Dynatrace помогает понять, было ли несколько развертываний приложений и в какой службе есть неполадки.

Какой результат мы получили 

Когда мы начали работать с Dynatrace, мы исследовали некоторые проблемы, о которых не знали раньше. К примеру, мы анализировали новые пути, исключения и прочее. Еще мы создали несколько новых уведомлений — это дало нам больше прозрачности для мониторинга.
До Dynatrace наши клиенты время от времени жаловались на системные сбои и серьезное влияние. Теперь мы получаем мгновенные уведомления, чтобы понять, где проблема. Благодаря этому значительно выросли показатели удовлетворенности клиентов. Например, мы получили 90 баллов в оценке мобильных приложений и индивидуальных клиентов, более 80 для бизнес-клиентов и также более 80 для индивидуальных веб-приложений. Все это говорит об улучшении качества продукции, которая влияет на показатели удовлетворенности потребителей.
Теперь мы измеряем время простоя для каждой системы, а Dynatrace — это инструмент для понимания проблемы и реагирования на нее. Он помогает нам найти проблему еще до того, как клиент ее увидит, устранить первопричину и благодаря этому сократить время ответа.
Подытожим — внеплановые простои уменьшились вдвое, что для нас отличный результат. Используя APM-решения, мы значительно повысили качество наших услуг. Мы собираемся увеличить нагрузку и покрыть мониторингом еще больше инфраструктуры и ключевых систем.

Выводы

Наш вердикт — мы точно можем рекомендовать Dynatrace.
По нашему опыту, мониторинг каждой критической системы с Dynatrace является крайне важным шагом. Платформа содержит большое количество инструментов, которые существенно облегчают работу по поиску и идентификации проблем. Мы настоятельно рекомендуем использовать их для обеспечения высокого уровня стабильности ключевых систем.
Dynatrace — это не просто APM, а решение для наблюдения, и сейчас мы изучаем все возможности Dynatrace, такие как мониторинг пользователей, AppSec, мониторинг облачных сред и т.д. Возможно, в будущем мы расширим нашу подписку.
Прежде чем внедрять Dynatrace, вы можете протестировать, так сказать, собственноручно созданное observability-решение. Создайте цепочку приложений от интерфейса к серверной части, базе данных и всему, что вы используете для одной службы. Таким образом, вы получите полное представление о возможностях Dynatrace и его основных преимуществах. 
У небольших компаний нет возможности для глубокого анализа программного обеспечения. Поэтому мы хотим быть для них примером компании, которая улучшила все процессы и может гарантировать стабильную работу программ благодаря платформе мониторинга.