Казахстан достигает новых вершин в Big Data
Говорим про Big Data, про то, как будет взращиваться в Казахстане экспертиза в этом направлении, и в целом об экосистеме Hadoop.
В этом материале, помимо интервьюера, два спикера: Канат Абиров — генеральный директор компании DIS Group KZ, которая предлагает продукты Informatica на территории Казахстана, и Сергей Золотарев — управляющий партнер российской компании Arenadata. С ноября 2018 года DIS Group KZ предлагает на казахстанском рынке продукты Arenadata: Arenadata Hadoop и Arenadata DB.
И говорим мы про Big Data, про то, как будет взращиваться в Казахстане экспертиза в этом направлении, и в целом об экосистеме Hadoop.
— Хотел бы предложить начать разговор с Big Data. Как вы оцениваете зрелость использования технологий, входящих в это понятие, в Казахстане?
— Канат Абиров: Тестировать технологии Big Data компании в Казахстане начали еще несколько лет назад. В одном из крупных банков нашей страны внедрением таких технологий озадачились еще лет 5 назад. С тех пор интерес только вырос.
Относительно недавно мы провели бизнес-завтрак, куда пригласили представителей финансового сектора, телекоммуникационной индустрии. На нем выяснилось, что проекты Big Data, по крайней мере в пилоте, есть почти во всех крупных компаниях. И, соответственно, организации существенно продвинулись в том, что качается знаний, экспертизы и компетенций.
На встрече в очередной раз стало понятно, что многие специалисты в Казахстане сейчас прекрасно разбираются в предмете. Более того, они готовы использовать свои знания о продуктах, о «железе» в реальных проектах. И вопросы, которые звучали на бизнес-завтраке были не абстрактные, а вполне предметные.
— А насколько мы в Казахстане отстаем в этом вопросе от России?
— Сергей Золотарев: Я думаю, что речь идет об отставании в три-четыре года. В России бизнес начал заниматься Big Data еще в 2012 году. Тогда появились первые проекты в компаниях — в паре банков, и паре телекоммуникационных компаний.
Сейчас в России запускаются десятки проектов в год. Уже все банки первой двадцатки и лидеры телеком-рынка используют технологии Big Data. То есть, ведущие игроки в этих отраслях уже «в теме». То же касается медиа и интернет-компаний. И даже госсектора.
Что удивительно — одни из лидеров в части использования Big Data сегодня — это промышленные предприятия: металлургия, нефтедобывающий сектор. Это лидерство обусловлено развитием интернета вещей. Если телеком и банки работают с данными, которые генерируют люди, то реальный сектор получает данные с датчиков, установленных на оборудовании. Данных с таких датчиков можно собрать в тысячи раз больше, чем данных о людях.
Внедрять технологии Big Data начали и отрасли, которые раньше были далеки от них. Один из примеров который мы видели — крупный агропромышленный холдинг. Он использует платформу Hadoop в составе системы контроля сбора урожая. Это говорит о многом.
Мировой опыт показывает, что первыми начинают использовать Big Data компании, которые работают на высококонкурентном рынке: банки, телеком. Потом подключается промышленность, добывающий сектор. Я думаю, что примерно такой сценарий в части развития Big Data будет иметь место и в Казахстане.
— Почему именно Hadoop? Какие тенденции сейчас прослеживаются в экосистеме Hadoop? Зачем нужен еще один дистрибутив?
— Сергей Золотарев: Я начну с последнего вопроса. Hadoop это целое семейство проект с открытым исходным кодом под управлением Apache SoftwareFoundation. И именно эти открытые проекты собирательно называют Apache Hadoop. Но кроме него на рынке есть несколько корпоративных дистрибутивов. Мы в Arenadata как раз делаем один из таких дистрибутивов.
Основная наша задача — сделать для наших заказчиков проект по внедрению Hadoop предсказуемым (по срокам, стоимости, ресурсам, набору технологий), а развернутую систему — жизнеспособной и эффективной, удобной с точки зрения дальнейшей эксплуатации. Для достижения этих целей мы тестируем на совместимость все модули, вносим небольшие изменения, если это необходимо для повышения эффективности. А главное — мы все внимательно и педантично готовим русскоязычную документацию.
С 2015 года мы состоим в ассоциации Open Data Platform Initiative, которая работает в рамках крупнейшего в мире сообщества разработчиков ПО с открытым кодом Linux Foundation. Данная ассоциация как раз формирует стандарты и спецификации для создания дистрибутивов Hadoop. Мы постоянно проходим проверку и сертификацию на соответствие этим стандартам.
На сегодняшний день Hadoop — это целая комплексная экосистема, в которой сосуществует около 30 проектов. Это при том, что еще 10 лет назад в этой экосистеме было только два проекта, и они закрывали очень ограниченные потребности.
Формат экосистемы развивался из-за того, что подход, когда какой-то конкретный продукт решает задачу полностью, не работает с Big Data. Сейчас происходит очень серьезная эволюция с точки зрения разнообразия и вариативности данных, а также способов их загрузки и сценариев обработки. Ни один даже самый замечательный продукт просто не способен справиться с этим. Здесь «золотой пули» просто нет.
Hadoop эволюционирует вместе с Big Data. Поэтому он не теряет актуальности все это время. Сегодня он стал зрелой технологией.
Конечно, не все то, что было разработано в Hadoop 10 лет назад, эффективно работает сейчас. Это «наследство» приходится за собой тянуть, «допиливать». К счастью, Hadoop — это модульная система. Если вас не устраивает работа какого-либо модуля, то его можно просто отключить. И всегда из наборов модулей, которые есть в проекте, можно собрать необходимый функционал.
Корпоративные версии Hadoop имеют целый ряд преимуществ по сравнению с Open Source версией. Существует несколько дистрибутивов платформы. Еще несколько лет назад их было 6-7. Сейчас осталось 2-3. Крупные игроки перестали выпускать свои версии.
Консолидация рынка сделала этот рынок более зрелым. Технология нашла свое место она теперь четко спозиционирована. Появилось понимание, что Hadoop может, а что нет. Период неоправданных ожиданий прошел. Такая зрелость рынка стала первой предпосылкой для создания дистрибутива Arenadata Hadoop.
Второй предпосылкой стало то, что для международных производителей дистрибутивов Hadoop рынки России, СНГ (и даже Европы) неприоритетные. Поэтому достаточного числа специалистов для нашего региона не выделяется. На русском языке технической документации нет. На сегодня разработчиков Arenadata, которые работают на рынке России и СНГ — вдумайтесь — больше, чем у производителей основных дистрибутивов Hadoop на всю Европу.
Первую коммерческую версию дистрибутива Hadoop мы выпустили летом прошлого года. И сейчас у нас уже подписаны десятки контрактов в России. А в работе — еще дюжина проектов, которые будут реализованы в ближайшее время.
Важный драйвер этого процесса — то, что Arenadata обеспечивает доступность необходимых технологий и экспертизы на этапе разработки архитектуры проектов и адаптации прикладного ПО. Этот набор факторов уже сработал в России, и, очевидно, сработает в Казахстане.
— Канат, а что в Казахстане? Понимаю, что мы отстаем, но зрелость, видимо, должна проявляться уже и сейчас. Не так ли?
— Канат Абиров: Я согласен с Сергеем, что разрыв между Россией и Казахстаном в этой области есть. Но он постоянно сокращается. Мы находимся в выгодном положении: внедряем уже зрелые технологии Big Data и можем активно пользоваться опытом в других странах. В итоге те же самые этапы развития мы пройдем быстрее, чем Россия и западные страны.
Уже сейчас в нашей стране есть компании, которые четко представляют себе, зачем им нужны технологии Big Data. Прежде всего, это компании финансового сектора. Большие данные будут им полезны для того, чтобы повышать эффективность и выходить на новые для себя рынки.
Изменились и источники, из которых лидирующие казахстанские компании собирают большие данные. Раньше основными источниками были транзакционные системы (автоматизированные банковские или биллинговые системы). Сейчас появилось много внешних источников: социальные сети, интернет, организации заинтересовались какими-то поведенческими моделями. Это дает возможность создавать совершенно новые продукты. Данные из внешних источников не всегда структурированные. А это повышает необходимость внедрения платформы Hadoop, которая работает как со структурированными данными, так и с неструктурированными.
— Тогда вопрос к вам, Сергей. Какие истории вы могли бы привести в качестве иллюстрации эффективности Hadoop?
— Полагаю, истории про банки и телеком уже набили оскомину — они тиражируются десятками. Но, как я говорил, неожиданно всплеск интереса к технологии возник и в тех отраслях, которые казались ранее весьма консервативными. Например, металлургия.
И тут есть кейс одной из российских металлургических компаний, где с помощью больших данных предсказывается выгорание сопла фурмы доменной печи. Фурмы, которые обеспечивают нагрев в доменной печи, — это очень дорогостоящая вещь. По мере использования они выгорают. Если заменять их плановым образом, то часто получается так, что фурма еще не успевает выработать свой потенциал. А это — потери ресурсов компании. Для того, чтобы предсказывать оптимальное время для замены был разработан предсказательный алгоритм, который на базе анализа собранных данных предсказывает оптимальное время для замены. Анализ больших данных позволяет производить замену тогда, когда это действительно нужно. Этот проект «живой» — экономия на каждую доменную печь составила десятки миллионов рублей.
— Кейс интересный. А когда, на ваш взгляд, такие же истории появятся в Казахстане?
— Сергей Золотарев: Сейчас Казахстане происходит примерно то, же, что было в России в 2012 году. Первыми начинают работать с технологией крупнейшие банки, телеком-компании. Промышленность подключится чуть позже.
— Канат Абиров: Думаю, что истории успеха появятся уже через пару лет. Сейчас в Казахстане очень много говорят про цифровую трансформацию. Но нужно понимать, что оцифровка какой-то бизнес-функции не дает организации конкурентное преимущество. В основе успешной цифровой трансформации — то, как ты умеешь извлекать ценность из данных.
Мало собрать данные из автоматизированных систем, нужно обеспечить их достоверность, качество, безопасность, каталогизировать их. Только после этого их анализ будет успешным, а на основе этого анализа можно будет принимать бизнес-решения.
«Через тернии к звездам», мы придем к тому, что цифровизация через данные окажет сильное влияние на экономику.
— Верно ли утверждение, что Hadoop демократизирует использование технологий Big Data?
— Сергей Золотарев: Я бы сказал иначе — не Hadoop, а Open Source. Потому, что помимо самой платформы Hadoop существует целая экосистема, связанных с ним технологий. И все они Open Source. Раньше для того, чтобы работать с большими данными требовались большие по емкости СУБД. Все зрелые СУБД были коммерческие, поэтому, для того чтобы начать анализ данных требовались очень серьезные инвестиции. Сейчас такие технологии бесплатны, хотя бы на уровне тестирования. То есть, порог входа существенно снизился — нужны только специалисты.
Тут я хотел бы сказать несколько слов еще об одном интересном продукте для больших данных — Greenplum Это тоже продукт Open Source. И он работает по принципу массивно-параллельного процессинга (МПП СУБД). В отличие от традиционных СУБД, которые в основном используются для транзакционных систем (OLTP нагрузка), МПП СУБД были созданы для работы в среде аналитической нагрузки (OLAP).
Сейчас на основе данной технологии обрабатываются массивы до десятков петабайт и на очень высокой скорости. Понятно, что традиционные СУБД просто не справятся с такой нагрузкой. Greenplum позволяет проверять гипотезы в сотни, раз быстрее
Еще одна особенность Greenplum в том, что изначально это был крупный коммерческий проект с большими инвестициями, но позже стал Open Source. Сегодня на этой технологии работают крупнейшие биржи, банки и телеком-компании. Это очень зрелая технология. И, кстати, компании в Казахстане ее уже тоже используют.
Важно отметить, Arenadata является одним из крупнейших контрибуторов сообщества Greenplum. Корпоративные дистрибутивы есть и тут. Например, СУБД Arenadata DB. Мы прилагаем много усилий не только по разработке, но и по продвижению этой СУБД: участвуем в основных конференциях, посвященной теме управления данными, организуем собственные митапы, которые собирают экспертов-практиков, готовых поделиться своим опытом. И мы видим, что это сообщество постоянно растет — на Open Source переходит все больше и больше компаний разного масштаба и специализации.
— Канат, вопрос к вам о том, каким образом вы будете сотрудничать. Взять те же компетенции. Будете ли и вы их импортировать, либо взращивать здесь, прямо в Казахстане?
— Arenadata и DIS Group уже сотрудничают в России. В Казахстане DIS Group KZ будет представлять интересы компании Arenadata. Мы будем предлагать решения этой компании, прорабатывать архитектуру, оказывать техническую поддержку, пилотировать проекты для клиентов, внедрять решения и оказывать постпродажную поддержку. Все это мы будем делать совместно с Arenadata и московским офисом DIS Group, где специалисты уже давно работают с Big Data. В нашем сотрудничестве мы будем идти в сторону передачи компетенций в Казахстан.
У DIS Group KZ уже накоплен большой опыт в области обработки данных и управлениями ими. Поэтому в дополнение к Arenadata Hadoop мы предложим 4 промышленных модуля на основе продуктов Informatica. Они расширяют функционал платформы и обеспечат интеграцию, качества, каталогизацию данных и возможность самостоятельной работы бизнес-пользователей.
Мы приняли решение о таком партнерстве, потому что видим интерес среди казахстанских компаний к технологиям Big Data, в частности, к экосистеме Hadoop. В дальнейшем мы планируем расширение на рынки Центральной Азии.