Андрей Суставов, SAS: работа с большими данными приносит организациям прибыль

Интервью с Андреем Суставовым, генеральным директором представительства компании SAS Institute, об использовании больших данных и о трендах относительно Big Data в Казахстане.

31 августа 2016 09:00, Татьяна Киселева, Profit.kz

Рубрики: Интервью, Бизнес, Софт

Анализ больших данных в Казахстане только начинает набирать обороты. Еще не многие казахстанские компании осознают, какое колоссальное влияние на их бизнес может оказать анализ накопленной за долгие годы информации. О том, как можно использовать большие данные и какие тренды относительно Big Data сегодня присутствуют в Казахстане, Profit.kz рассказал Андрей Суставов, генеральный директор представительства компании SAS Institute в Казахстане (американская компания SAS имеет годовой оборот более 3 млрд долларов и уже сорок лет занимается разработкой и внедрением инструментов для анализа данных).

Суставов Андрей

— Андрей, дискуссии о «больших данных» ведутся уже несколько лет, это мировой тренд. Однако не раз отмечалось, что Казахстан в вопросе технологического развития значительно отстает. Насколько актуален вопрос по Big Data у нас?

— Для начала нужно определиться, что же такое Big Data. Как мы понимаем из названия, это большие объемы структурированной и неструктурированной информации и методы работы с этими данными для получения интерпретированного результата. В Казахстане накопили достаточно данных. А если добавить новые источники информации, которых еще не было в организации, то количество данных возрастает в разы.

К примеру, какой-нибудь банк работает в течение 20 лет. За это время он накопил сотни гигабайт структурированной информации по своим клиентам, физическим и юридическим лицам. Эта информация включает в себя контактные данные, историю взаимодействия, историю обращений, историю транзакций и т.д. В какой-то момент банк понимает, что, несмотря на существенный объем информации по клиенту, у него отсутствуют детальные знания, что именно представляет собой клиент, чем он живет, что его интересует. Тогда банк начинает изучать своих клиентов, чтобы плотнее взаимодействовать с ними, и подключает данные из внешних источников. Например, это может быть информация из кредитного бюро или из государственных баз данных, данные колл-центра, а также из социальных сетей и истории запросов в поисковиках.

Для интерпретации и анализа такого большого объема данных требуются новые методы, позволяющие повысить эффективность бизнеса банка. Наши инструменты помогают эти данные проанализировать и предсказать поведение текущих и будущих клиентов на основе статистики.

На сегодняшний день большие данные есть у банков, телеком-операторов, предприятий государственного сектора — каждая из таких компаний имеет в своем арсенале огромные объемы накопленной информации. А при подключении новых источников данных количество информации возрастает многократно. После того, как предприятия научатся работать с большими данными, аппетит к добыче информации будет только расти, ведь уже ни для кого не секрет, что понимание поведения своего клиента напрямую влияет на прибыль. Понять, чем живет ваш клиент, можно только изучая и анализируя его поведение и сопоставляя всю возможную информацию из различных источников.

— Как бы вы оценили степень востребованности этих технологий в финансовом секторе Казахстана?

— Востребованность возникает из потребности. Традиционно банки используют наши решения для систем анализа рисков и противодействия мошенничеству. Некоторые казахстанские банки используют эти решения уже с 2008 года. Кроме этого, для банков и финансовых институтов актуальным становится понимание поведения своих клиентов: кто из клиентов является надежным, кто и когда может уйти в просрочку, а кто из них потенциально может оказаться мошенником. Наши инструменты позволяют получить ответы на все эти вопросы с высокой долей вероятности.

— Как же удается понять порядочный ли человек перед вами или мошенник?

— Как известно, людей можно условно разделить на социальные группы. И на основе их поведения можно сделать предиктивный анализ, к примеру, вернет человек кредит или нет. Выявить это позволяют именно математические методы статического анализа.

Суставов Андрей

— Рост объемов данных требует пересмотра и оптимизации IT-инфраструктуры. Что SAS может предложить с точки зрения управления данными?

— После того, как мы подключаем новые источники информации и количество данных возрастает, возникает вопрос о производительности ИТ-инфраструктуры. На первый взгляд, лучшее, что можно сделать в этой ситуации, — это купить новое оборудование или расширить возможности существующего. Возможно, на первом этапе работы с большими данными это действительно поможет решить вопрос производительности. Но с ростом количества данных такой вопрос будет возникать постоянно.

На наш взгляд, правильнее было бы критически посмотреть на ИТ-архитектуру предприятия, определив в ней место для больших данных и их аналитики. Также необходимо понять процесс работы с большими данными и определить те бизнес-задачи, которые будут решаться при помощи исследования закономерностей и интерпретации получаемых результатов.

В свою очередь, мы можем предложить решение под ключ — SAS High Performance Analytics. Это класс решений, который позволяет настроить процесс работы с данными под жесткие бизнес-требования и учесть ИТ-ограничения. Управление ИТ-инфраструктурой можно выстроить оптимальным образом и предоставить для бизнес-пользователей и аналитиков инструмент для анализа данных с хорошей скоростью вычислений. Архитектура решения обеспечивает параллельную обработку данных, это означает, что вы можете развертывать прогнозные модели и получать результаты анализа значительно быстрее. Решение позволяет экономично масштабировать ИТ-инфраструктуру.

За счет появления новых высокопроизводительных специализированных аппаратных платформ (для приложений SAS это возможность развертывания на базе решений IBM Netezza, IBM DB2, Cloudera, EMC Pivotal (ранее Greenplum), Teradata Aster, Teradata, Oracle Exadata, SAS SPDS), скорость обработки BA/BI запросов повысилась в десятки и сотни раз. На смену классической ETL-интеграции (Extract Transform Load — процесс взятия данных из источника, их преобразование и отправка в хранилище компании) приходит федеративный доступ к данным, позволяющий «на лету», без дублирования данных в хранилище получать нужную информацию из первичных источников. Появление новых технологий (аппаратных и программных) дало возможность работы с огромными массивами данных уровня петабайт в режиме, приближенном к реальному времени. В наших решениях для больших данных, помимо более высокой доступности и отказоустойчивости, теперь появились возможности их развертывания как локально, так и в облаке, а также использования High Performance компонента отдельно, что сделало решения более демократичными с точки зрения ценовой доступности.

Реализация этих тенденций позволяет в значительной степени упростить управление качеством исходных данных, повысить конкурентоспособность и прибыльность бизнеса, одновременно снижая его издержки и риски и позволяя более точно прогнозировать его развитие на долгосрочный период.

Суставов Андрей

— Данные мало хранить — их необходимо также обрабатывать и анализировать.

— После того как мы подключили новые источники данных, загрузили информацию, решили вопрос с производительностью ИТ-инфраструктуры, появляется следующий вопрос: какие алгоритмы нужно применять, чтобы разобраться в этом массиве информации и решить поставленные бизнесом задачи? Применение новых алгоритмов — это одна из основных задач работы с Big Data. Копить данные просто для того, чтобы ими обладать, очень накладно. Главная задача — не накопить большие объемы данных, а извлечь из них что-то действительно ценное. Исследование и интерпретация информации может принести прибыль или экономию даже в краткосрочной перспективе. Например, можно смотреть на просрочку у клиента и предпринимать действия, чтобы вернуть этот долг, а можно сделать анализ и выявить, какой из клиентов потенциально уйдет в просрочку, а затем сразу предпринять проактивные шаги, чтобы этого не произошло.

В последнее время, наряду с термином «Большие данные», начал применяться термин «Быстрые данные». Традиционный подход к анализу предполагает сохранение данных о всех событиях в хранилище, куда аналитическое приложение делает запросы по данным. Таким путем можно изучать огромные массивы данных, проверять гипотезы, делать прогнозы на будущее и строить предиктивные модели. Это правильный подход с точки зрения работы со статистикой. Но что делать, если событие происходит сейчас и нет времени ждать, когда информация о нем поступит в хранилище для анализа? Реакция на это событие должна быть быстрой: нельзя терять время. Появляется потребность в анализе данных до того, как они станут неактуальными. Таким образом, «быстрые данные» — это «большие данные» с непрерывным анализом событий по мере их возникновения и возможностью реагировать на них в режиме реального времени.

Потоковая обработка «больших данных» стала доступна на рынке сравнительно недавно — не более трех лет назад. В большинстве областей сейчас достаточно задач для быстрых данных. Например, для банков есть такая успешно решаемая в нашей практике задача, как выявление мошенничества в реальном времени: ведется анализ транзакций с очень низкой задержкой, «на лету» анализируется поведение каждого пользователя, подозрительные транзакции блокируются автоматически, сомнительные случаи моментально отправляются на ручное расследование.

— В первую очередь, отечественный финсектор интересуют решения по риск-менеджменту, борьбе с мошенничеством или же уже встают вопросы прямой борьбы за клиента и анализа клиентских предпочтений? Вплоть до анализа того, в чем пришел клиент в отделение?

— Традиционно банки покупают наши решения для риск-менеджмента и противодействия мошенничеству. В части кредитного скоринга у нас самая обширная практика в регионе. В Казахстане у нас много клиентов, которые используют SAS, и это не только банки. Но в последние годы компании стали активнее работать с клиентами, и постепенно мы становимся чуть ли не отраслевым стандартом для банков в сфере клиентской аналитики — анализа поведения клиентов, клиентских предпочтений и потребностей. Банки активно используют аналитику для создания целевых маркетинговых кампаний, которые строятся на базе исследования поведения клиентов, их предпочтений, ожиданий и потребностей. Использование клиентской аналитики позволило банкам увеличить эффективность работы с клиентами, а, следовательно, и прибыль.

Аналитика помогает маркетологам в полной мере использовать возможности больших данных, чтобы разрабатывать нужные клиенту персональные предложения и повышать окупаемость кампаний. Мы умеем это делать. За нашими плечами уже десятки проектов в СНГ. Есть реализованные проекты и в Казахстане: например, в Kaspi Bank и Банк Хоум Кредит, а также в других банках и у мобильных операторов.

Нужно ли знать, в какой одежде или обуви пришел клиент для открытия карточки? — не знаю. Возможно, это важно и данные атрибуты успешно дополнят сотни других показателей в аналитических витринах. Это уже вопрос к маркетологам. Стоит отметить, что в данный момент наблюдается тенденция перехода от классической схемы работы через отделения на работу с клиентами через цифровые каналы.

Суставов Андрей

— Можете рассказать, над какими проектами в Казахстане сейчас работает ваша компания?

— Помимо решений по риск-менеджменту, клиентской аналитике, противодействию мошенничеству есть еще интересные решения визуализации больших данных. Когда ваши данные оживают с помощью графиков и схем, вы видите то, чего не видели раньше. Вы можете играть с большими данными «на лету». Расчеты и представления данных происходят мгновенно, и не требуется ждать их обработки. Визуализация позволяет пользователям изучать большие объемы данных, анализировать факторы влияния, создавать описательные и прогнозные модели в интерактивном режиме. Решения SAS Visual Analytics, Visual Statistics представляют целостную платформу, позволяющую выявлять неочевидные, на первый взгляд, закономерности и взаимосвязи в данных.

Есть еще интересное решение для текстовой аналитики. Текста у наших предприятий достаточно. Бизнес ставит задачи, например, по исследованию мнений или оценок компании или продукта, который выпущен на рынок. Инструменты, позволяющие провести такие исследования, нацелены на выделение из текста терминов и оборотов, наиболее сильно подчеркивающих определенное эмоциональное отношение автора к заранее отобранным объектам. При этом объекты идентифицируются с помощью набора лингвистических правил, а шкала эмоций может состоять не только из «позитива» и «негатива», но и из промежуточных вариантов. Сами правила оценки эмоциональной окраски могут строиться как полностью автоматически, так и при помощи экспертных лингвистических правил.

Мы предлагаем решение, которое переводит неструктурированный текст в структурированное числовое описание по нашей методологии Text Mining. Этот инструментарий служит связующим звеном между компьютерной лингвистикой и инструментами Data Mining. Данный подход предназначен для решения таких задач, как частотный анализ терминов в коллекции документов, выделение наиболее значимых слов, автоматическое извлечение наиболее важных тем, кластеризация документов на основе сходства их содержания, автоматическое построение логических правил категоризации.

И еще один из проектов, над которым мы работаем, это проект аналитики из облака. В России такое решение мы уже предлагаем. У нас, в Казахстане, пока делаем пилотный проект. Надеюсь, он завершится успешно, и мы выйдем на рынок облачных сервисов.

— Какие основные проблемы наблюдаются в финсекторе Казахстана, если говорить о работе с большими данными?

— В первую очередь, это присущий финансовому сектору консерватизм. Удивительно, но еще не все банки осознают, что мир меняется очень быстро. Тем не менее, появляются совершенно новые компании в финансовом секторе, которые используют преимущества аналитики в полной мере. Многие из них сразу переводят все процессы в ИТ, и это позволяет им при минимальных затратах и минимальном штате конкурировать с компаниями, которые работают традиционно для финансового сектора.

— Какие основные тенденции, присущие проектам Big Data в Казахстане, вы бы могли отметить?

— В Казахстане проекты Big Data стартуют в банках, у мобильных операторов, в госсекторе. Сейчас решаются первичные задачи по поиску новых источников данных, загрузке этих данных и нейтрализации проблем производительности. Решение бизнес-задач при помощи исследования новых данных и их анализа только начинается. Менталитет в организациях начинает меняться. Большинство думает, что данные в их организации — это какой-то значимый и ценный актив, который позволит бизнесу развиваться. Но для многих пока остается загадкой, как использовать этот актив. Пугает отсутствие опыта, возможные сложности и недостаток квалифицированных аналитиков. И, как всегда, те, кто правильно использует инновации, получают конкурентные преимущества.

Суставов Андрей

Подписывайтесь на каналы Profit.kz в Facebook и Telegram.