КОНСПЕКТ

Анализ данных в банковском секторе: скоринг, BI, продвинутая аналитика

СЕЗОН 1, ВЫПУСК 3
Привет! Это команда Ресурса. Мы запустили подкаст — о данных, бизнесе и данных для бизнеса. Вместе с экспертами обсуждаем, как и зачем бизнесу работать с данными, делимся источниками, свежими аналитическими отчетами и своими инсайтами.

Главное будем фиксировать в удобном формате конспекта — ищите ссылки на конспекты всех выпусков в телеграм-канале Ресурса.

Это конспект третьего выпуска об аналитике в банковском секторе. В гостях — Александр Папруга, руководитель проектов развития аналитических средств по работе с данными платформы Кибербезопасности Сбера.

О том, как работает скоринг

Скоринг (англ. score — личный счёт, рейтинг) — это способ максимально оперативно оценить потенциального заемщика, рассчитать риски и принять решение о том, какое предложение можно сделать для конкретного клиента. Идея скоринга — в скорости, экономии и автоматизации.

Простейший пример скоринга — балльная система в школе. Это оценивание по определенной шкале: промежуточная и результирующая оценки выводятся при помощи алгоритма. Это пример усредненного скоринга: общий (средний) балл складывается из оценок по разным предметам — такой скоринг не совсем эффективен.

В банковском секторе применяется интеллектуальный скоринг: производится комплексная оценка факторов, на основе которых затем принимается решение. Скоринг — это пример того, как математическая модель позволяет оператору быстро принять какое-то решение.

Преимущество системы скоринга в том, что она позволяет максимально уйти от субъективизма. Алгоритм всегда честен. Если бы решение принимал отдельный специалист, то могла бы сложиться ситуация предвзятой оценки в отношении объекта исследования (в нашем случае — клиента банка). И всё же в большинстве ситуаций для принятия решения только модели будет недостаточно.

Чем сложнее модель — тем точнее она предсказывает ответ, тем более качественный результат выдаёт. Но, вместе с тем, её сложнее интерпретировать, объяснить аудитору. Поэтому часто рынку и специалистам приходится использовать более простые решения с потерей в результирующем качестве.

Любая модель скоринга в кредитных системах используется для того, чтобы банк получил максимальную прибыль и взял на себя минимальный риск. На результаты скоринга влияют конкретные действия клиента.

Среди таких факторов влияния:
Своевременное погашение квартплаты;
Своевременное внесение обязательных платежей;
Своевременные выплаты по кредитам.

Об эволюции средств обработки данных в финансовом секторе

Раньше специалисты-аналитики в большей степени работали с подготовкой и представлением данных. Теперь на рынке наблюдаются новые тенденции — им нужно становиться настройщиками, постановщиками задач.

Системы развиваются и совершенствуются, в них внедряются элементы искусственного интеллекта и машинного обучения — с этим нужно уметь работать. Это рынок услуг и алгоритмов которые частично умеют работать самостоятельно. Тем не менее, они должны настраиваться и корректироваться специалистами.

Происходит эволюция с точки зрения средств и методологий. Рынок отходит от простой аналитики и двигается в сторону развития средств, которые помогают находить инсайты, внутренние зависимости и скрытые закономерности в данных. Для этого нужен методологический аппарат.

Проблема с ростом объёма данных остаётся одной из ключевых. Это основная задача, которую решают современные специалисты-аналитики. Однако подходы, позволяющие находить инсайты, работают именно на больших объемах данных, которые, на первый взгляд, могут показаться не связанными между собой.

Не бывает слишком много данных — просто с ними нужно уметь работать. Через большой объём данных мы получаем всё больше возможных выводов и решений.

О подходах к аналитике данных

Современную аналитику (средства обработки данных) можно поделить на 2 основных типа:
Работа с потоковыми данными
Это данные, которые необходимо собирать в больших количествах в режиме реального времени — и обрабатывать сразу же, оперативно принимая решения. Потоковая обработка актуальна в ситуациях, когда решение необходимо принять прямо сейчас. Такая модель часто используется, например, в системах безопасности;
Работа с пакетными данными
Это данные, которые собираются и хранятся для дальнейшей аналитики. Они нужны, чтобы проводить исследования, делать выводы, строить новые модели для аналитики (в т. ч. потоковой.) Работа с пакетными данными — это более классический, простой и дешевый вариант. Пакетная обработка — это ретроспектива.

О BI-аналитике

BI (Business Intelligence) — средство бизнес-аналитики. Это система, которая позволяет пользователю (не очень продвинутому в IT-направлении) проанализировать и визуализировать большие объемы информации. Преимущество этого инструмента — в возможности строить красивые, интерактивные отчёты.

BI-системы ориентируются скорее не на топ-менеджеров, а на специалистов уровня middle/middle+. Они дают возможность:
Легко подключиться к большим данным;
Быстро и легко проанализировать полученные данные;
Красиво и наглядно представить, визуализировать данные;
Быстро и легко отправить отчёт получателю/заказчику;
Быстро и незаметно для конечного пользователя обновлять данные.
BI-аналитика может применяться в любом бизнесе для анализа разных типов данных:
Объемы продаж;
Выручка;
Количество клиентов.
Но наиболее интересным и ценным оказывается понимание совокупности этих факторов. На основе этих данных можно обнаружить неочевидные зависимости и найти инсайты.

Все средства бизнес-аналитики зависят от данных, которые они получают на вход. Это скорее средства визуализации и удобного представления развернутой аналитики. Поэтому так важно понимать, какие задачи обработки данных стоят перед нами и какие задачи решает непосредственно наш бизнес.

Следующий шаг после BI — использование средств продвинутой аналитики: средств машинного обучения и дополненной аналитики.

О ресурсах и командах для продвинутой аналитики

Классификация специалистов и квалификаций (состав команды):
IT-специалисты
Разрабатывают системы хранения и анализа данных. Организовывают и подготавливают весь набор инструментария;
Data-инженеры
Работают с потоками данных. Знают, как забрать, переложить и трансформировать данные, чтобы ими можно было пользоваться;
Data Scientist
Извлекают из данных скрытые закономерности и моделируемые, прогнозируемые выводы;
Аналитики BI-системы/пользователи/заказчики
Принимают бизнес-решения на основе данных. Также должны уметь правильно работать с инструментом.

О Data-Driven подходе и Data Science

Все управленческие решения должны быть основаны на данных.

Data-Driven решения — подход, при котором под все бизнес-решения подкладываются результаты аналитики, произведённые прежде. Чтобы эти данные появились, необходима соответствующая автоматизация. Такой подход экономит ресурсы компании и позволяет ей быстрее реагировать на изменения.

Data Science — свод навыков и направлений деятельности, включающий:
умение получать, очищать и подготавливать данные;
умение работать с современными средствами анализа данных;
умение строить модели машинного обучения.
Машинное обучение — это способ моделирования, задача которого — при помощи определенных алгоритмов заставить компьютер проанализировать ту или иную информацию и найти зависимости в ней. На основе этих зависимостей в дальнейшем составляется предсказание.

Есть 2 типа обучения:
Обучение с учителем
Особенность этого типа в том, что, помимо входных данных, которые анализирует алгоритм, мы также предоставляем ему возможные результаты по каждому из наблюдений. Система видит и запоминает ответы, получающиеся при определенном наборе факторов. Со временем модель обучается, а после её обучения появляется возможность получать готовые предсказания на основе входных параметров;
Обучение без учителя
В этом случае алгоритм работает только со входящими факторами, без готовых ответов. Модель никак не приоритезирует факторы и не знает о том, что какие-то из них имеют большее значение, чем другие. Этот тип обучения позволяет обнаружить зависимость определенных факторов между собой: понять, что и с чем связано. Далее уже из этой зависимости мы получаем результат.
Подписывайтесь на Телеграм-канал Ресурса: