Следите за новостями

Цифра дня

4,7 млрд тг. потратят на ПК в Карагандинской области

Андрей Остафичук, Beeline: мы поможем узнать, какова ваша вероятность заразиться

Многие крупные ИТ-компании сегодня создают свои «индексы самоизоляции».

9 июля 2020 15:19, Profit.kz

Кроме помощи властям и информирования самих людей, это еще и масштабная обкатка аналитических платформ, реальные кейсы по работе с большими данными, которые видят потенциальные клиенты. С руководителем Службы Big Data аналитики Beeline Казахстан Андреем Остафичук мы поговорили о том, как свою версию индекса самоизоляции построил Beeline и какие примеры работы с большими данными сейчас особенно впечатляют профессионалов.

Андрей Остафичук, Beeline

— Андрей, расскажите, какие у вас в компании есть инициативы, связанные с большими данными?

— Мы активно взаимодействуем с акиматами и государством в целом. Сделали огромное количество карт, где давали динамику по изменению индекса миграции людей внутри населенных пунктов. Это некий индекс самоизоляции, который показывает, насколько люди выполняют требования карантина. Плюс мы делали большое количество отчетов и предоставляли информацию по людям, которые приезжали из заграницы, фиксируя это по использованию услуги роуминга. А также запустили в нашем приложении Мой Beeline индекс самоизоляции Index Covid, который рассчитывает вероятность того, встретитесь ли вы с человеком, который может болеть коронавирусом.

— Каким образом?

— Индекс строится на нескольких показателях. Первый — находились ли вы в зоне роуминга и как давно это было. Второй — как часто вы нарушали режим самоизоляции и как много контактируете с другими людьми. Третий — находитесь ли вы в тех районах, где регистрировались заражения коронавирусом или контактные лица. И в итоге складывается определенный балл, который отражает риски контактирования с зараженными коронавирусом. Это, конечно же, не тест на коронавирус, но такой рейтинг помогает избежать мест и действий, которые могут быть опасны в условиях пандемии. Это сервис, который работает по запросу клиента. Ну и, соответственно, это абсолютно конфиденциальная информация, которая будет раскрыта только клиенту.

— Насколько плотно вы работаете с властями?

— С госсектором мы активно взаимодействуем. Данные, конечно, все обезличенные. Речь идет о неких статистических данных, которые в первую очередь агрегируют информацию по нагрузке на базовые станции. Мы понимаем, сколько клиентов живет в зоне действия этой базовой станции, а дальше смотрим на то, действительно ли люди оставались дома и рассчитываем, какой процент нарушает карантин. Ну, то есть, это тоже индекс самоизоляции.

Похожие отчеты мы делали в части геоаналитики, потому что у нас существует подобный сервис по геоанализу. Мы сами его применяем, например, для открытия собственных точек продаж. Поэтому нам было сравнительно легко переориентировать наш алгоритм на несколько дополнительных критериев, чтобы быстро предоставить все необходимые данные по запросу акимата. Власти нам не платят — это некая социальная нагрузка, которую мы на себя взяли, чтобы можно было ускорить выход из карантина и сократить ущерб.

— Может быть, вы встречали примеры использования больших данных в эти дни в других странах, которые вас впечатлили?

— Самый показательный кейс — это, конечно, Китай с их индексами и QR-кодами. В КНР каждому жителю присвоили категорию — зеленый, желтый или красный — в зависимости от риска заражения. Если ты контактировал с человеком с красной категорией, у тебя автоматически ухудшается рейтинг. И если он становится красным, то ты не имеешь права выйти из подъезда, тебя не пустят в общественный транспорт, магазин. Таким образом снижается риск распространения инфекции. Здесь используется распознавание лиц камерами для слежения, чтобы не только использовать данные GPS, которые поступают со смартфона. К примеру, в Москве реализовали все по китайскому сценарию, но чуть мягче. Еще один показательный пример — это Южная Корея. Там реализовали массовое оповещение через мобильные телефоны, объявляя места, посещенные зараженными пациентами, и разработали приложение для отслеживания, установленное на телефоне любого человека, который был изолирован. Именно такие меры помогают снизить распространение вируса

— Какие решения вы используете для анализа данных в компании? Применяете ли ПО с открытым кодом?

—  Мы используем только программное обеспечение с открытым исходным кодом. У нас используется связка Hadoop + Spark, это одни из наиболее эффективных платформ для работы с большими данными. В нашей группе компаний мы одни из первых, кто развернул самые последние версии Hadoop со всеми вытекающими. Сделали мы это еще в прошлом году. На миграцию потратили где-то полгода. Новая версия — это более высокая скорость, лучшие библиотеки. В общем, гораздо больше плюсов. В то время никто в мире не знал, как синхронизируется между собой разный софт. Наши ребята задали огромное количество вопросов разработчикам программных платформ. Я считаю, что наша команда приобрела уникальные знания, когда проходила весь этот путь.

— Вы принципиально не обращаетесь к вендорам?

— Вендорские решения стоят довольно серьезных денег. Кроме того, они чаще всего нуждаются в кастомизации, а на это уходит много времени. А при использовании ПО с открытым исходным кодом достаточно удобных инструментов, которые позволяют закрыть любую бизнес-потребность. Тут просто нужна хорошая команда. У нас она есть, поэтому мы можем все делать своими силами. Мне нравится, что у нас очень инициативные и деятельные ребята, которые сами рвутся все изучать и уже в боевых условиях какие-то вещи тестируют, обкатывают. И так получают экспертизу. Их профессионализм растет, в итоге у нас появляется гибкая и независимая ни от кого инфраструктура.

— Все специалисты по большим данным говорят о нехватке профессионалов как об одной из ключевых проблем. Испытываете ли вы дефицит кадров? Если да, то как решаете проблему?

— Чтобы у тебя был проект по работе с большими данными, нужно три типа специалистов. Первый — это менеджер. Второй — аналитики. Третий — разработчики. Понятно, что менеджеров с опытом в этой сфере не очень много. Но я не вижу здесь большой проблемы, потому что тут нужны люди, прежде всего, с гибким мышлением, которые могут генерировать большое количество гипотез, обладать аналитическим складом ума и хотят работать с данными. Если все это есть, то, в принципе, любой человек через 2-3 месяца может стать неплохим управленцем в направлении больших данных. По аналитикам дефицита никакого на самом деле нет. Потому что для того, чтобы стать хорошим дата-сайентистом, надо просто иметь хорошую матбазу и получить диплом, допустим, на Coursera или другой подобной платформе. Есть проблемы с тимлидами аналитиков, с менеджерами, которые руководили бы командами. Ну это просто потому, что кейсов пока немного, опыта набраться было особо негде.

Если говорить про разработчиков, так как мы были одними из первых в Казахстане, кто полноценно развернул Hadoop кластер и начал с ним работать, таких специалистов в Казахстане не было. И понятно, что ребята переквалицифровались, обучались сами. Дефицит, конечно, был. Поэтому в ноябре прошлого года мы запустили «Big Data школу» и обучили 20 человек. Из них 6 мы взяли по итогам в штат и таким образом закрыли свои потребности.

— Очевидно, что вслед за снятием карантина страна столкнется с экономическим кризисом. Как анализ больших данных, в том числе и вашей компанией, мог бы помочь малым, средним, крупным компаниям в этой ситуации?

— У нас в Big Data три основные направления: финтех — это кредитный скоринг и верификация заемщиков; продукты digital-рекламы, позволяющие бизнесу привлекать свою целевую аудиторию по социально-демографическим признакам и интересам; а также продукты геоаналитики, оценка проходимости места, точек притяжения клиентов и оценка путей миграции. То есть, наши инструменты позволяют владельцам бизнеса снижать риски, понимать свою аудиторию, где она находится, в какие места ходит, какой имеет режим дня.

— Какие еще проекты вы разрабатываете?

— Наша компания сейчас активно развивает направление AI — искусственный интеллект. Это сервисы аудио- и видео-аналитики, позволяющие оценивать работу колл-центров и точек продаж, отслеживать соблюдение масочного режима, использовать для сбора и анализа биометрических данных. У этого направления большие перспективы.

Подписывайтесь на каналы Profit.kz в Яндекс Дзене, Facebook и Telegram.