Виртуализация данных
Рассматриваем преимущества платформы виртуализации данных, позволяющей расширить возможности традиционного решения для интеграции данных или полностью заменить его.
Cовременное решение для интеграции данных
Нынешняя эпоха характеризуется невероятным ростом объема данных, разнообразием их типов и форматов, постоянно увеличивающейся скоростью поступления и обработки информации. Это стало возможным, помимо прочего, благодаря развитию облачных технологий и систем работы с большими данными. Однако из-за ограничений, присущих узкоспециализированным системам, многие источники данных остаются изолированными. Сегодня даже в озерах данных можно встретить огромное количество обособленных скоплений данных. Для принятия оперативных решений бизнес-пользователям необходим мгновенный доступ к актуальной информации, но выполнение этого требования осложняется наличием разрозненных источников данных. Кроме того, без предварительной интеграции данных невозможно реализовать инициативы, связанные с переходом в облако, модернизацией приложений и аналитикой. Однако традиционные методы интеграции требуют слишком много ресурсов — и времени, и денег.
Традиционные технологии интеграции
Большинство схем интеграции данных подразумевают использование средств извлечения, преобразования и загрузки данных (ETL) или аналогичных им инструментов. Принципы ETL были предложены в 1970-х годах, и хотя за прошедшее время построенные на их основе процессы значительно усовершенствованы и разработаны во многих вариантах, они по-прежнему состоят из трех основных этапов:
— данные извлекаются из источников,
— преобразуются в структуру и формат, соответствующие целевой системе, в которую должны быть переданы (в хранилище операционных данных, витрину данных и т. п.),
— загружаются в эту целевую систему.
Универсальных решений ETL не существует: для каждого случая разрабатываются и тестируются свои скрипты, отвечающие требованиям конкретных источников данных и целевых систем.
Иногда преобразование становится заключительным этапом (тогда процесс называется ELT), но базовый принцип тот же. После написания и отладки скрипты запускаются в работу, для этого применяется принцип пакетного копирования: в заранее установленное время большие объемы данных, выбранные из одного или более источников, передаются в консолидирующую систему с одновременным выполнением необходимых преобразований.
Процессы ETL имеют определенные преимущества, ради которых они применяются по сей день:
— системы ETL очень эффективны при переносе огромных массивов данных;
— эта технология устоявшаяся, понятная и поддерживаемая многими вендорами;
— в инструменты ETL встроены развитые средства пакетного и массового перемещения данных;
— в штате большинства организаций есть специалисты по ETL.
Однако в последние годы ландшафт данных заметно усложнился, а растущая потребность в извлечении ценной информации из консолидированных данных сделала очевидными недостатки средств ETL:
— Перенос данных — не всегда лучший подход, поскольку он предполагает создание нового репозитория и его дорогостоящее сопровождение, осуществляемое большой группой специалистов.
— В крупных организациях ежедневно могут выполняться тысячи процессов ETL, синхронизированных при помощи скриптов, которые в случае необходимости трудно изменить.
— Поскольку в рамках процессов ETL данные предоставляются в пакетном режиме по расписанию, пользователям приходится какое-то время ждать их отправки. Доставку пакетов можно ускорить путем изменения настроек, но обеспечить мгновенную передачу данных по запросу все равно не удастся. Как правило, процессы ETL выполняются по ночам.
— Процессы ETL не справляются с обработкой современных гигантских объемов информации, куда входят и сложные типы данных, например поминутные сведения о транзакциях и потоки показаний всевозможных датчиков.
Виртуализация данных
Интеграционная стратегия, основанная на виртуализации данных, подразумевает совершенно иной подход: не перенос данных на новое место для их консолидации, а формирование в режиме реального времени представления консолидированных данных, которые физически остаются в своих источниках. Передовые решения для виртуализации данных формируют уровень доступа к ним, предназначенный для использования в масштабах всей организации и обеспечивающий универсальное подключение ко всем ее ключевым источникам данных. Сотрудники, нуждающиеся в доступе к информации, делают запрос к уровню виртуализации, который извлекает необходимые данные из конкретных источников. Беря на себя функции обеспечения доступа, уровень виртуализации скрывает от пользователей лишние технические подробности, в том числе местонахождение и формат данных, предоставляя возможность задавать любые вопросы, получать на них ответы и не думать том, насколько сложны низкоуровневые механизмы, применяемые для решения тех или иных задач. Работая с подобными решениями, бизнес-сотрудники, как правило, взаимодействуют с приложением, веб-порталом или иной реализацией пользовательского интерфейса, получающей нужные данные с уровня виртуализации. Архитектура подобного решения показана ниже на схеме: уровень виртуализации данных располагается между всеми источниками данных и всеми их потребителями — пользователями, приложениями и др.
Важно отметить, что при виртуализации данных репликация не производится, поэтому уровень виртуализации не содержит данных: на нем находятся только метаданные, необходимые для доступа к различным источникам. Уровень виртуализации данных отличается малой ресурсоемкостью и простотой реализации, но это далеко не все его преимущества. В частности, он позволяет легко внедрить общекорпоративную систему управления доступом к данным вместо того, чтобы реализовывать такие системы для каждого источника данных в отдельности. Кроме того, он выполняет функции центрального узла, к которому разработчики могут подключать API для доступа к различным источникам данных, имеющим разную степень структурированности. В настоящее время виртуализация является самой передовой стратегией интеграции данных. Подобно традиционным решениям для интеграции, уровень виртуализации выполняет функции преобразования и контроля качества данных, одновременно обеспечивая работу в режиме реального времени с меньшими затратами, более высокой скоростью доступа и большей гибкостью. Виртуализация позволяет либо полностью заменить традиционные процессы и системы интеграции данных на основе витрин и хранилищ данных, либо дополнить их новыми возможностями. Уровень виртуализации данных обеспечивает абстрагирование и предоставляет сервисы данных, легко интегрируемые с первоначальными и промежуточными источниками данных, процессами ETL, сервисными шинами предприятия (ESB), ПО промежуточного слоя, приложениями (облачными и локальными) и различными устройствами. Корпоративные ИТ-системы можно гибко соединять с различными пластами информации.
В заключение: десять фактов о виртуализации данных
Мы рассмотрели преимущества платформы виртуализации данных, позволяющей расширить возможности традиционного решения для интеграции данных или полностью заменить его. Подводя итоги, перечислим десять важных фактов о таких платформах.
Сопровождение платформы обходится дешевле по сравнению с традиционными средствами интеграции.
Физическая репликация, многократный перенос и хранение данных требуют больших затрат. При виртуализации данных создается уровень абстракции данных, что исключает дополнительные затраты на репликацию и хранение.
Виртуализация ускоряет процессы управления данными.
Не нужно ждать результатов в течение нескольких часов или дней: при виртуализации нужная информация предоставляется в режиме реального времени.
Платформа виртуализации способна дополнять традиционное хранилище данных.
Виртуализацию данных можно внедрять и использовать совместно с имеющимися решениями, созданными на основе хранилищ данных.
Виртуализация обеспечивает максимальную производительность.
В обычных системах производительность нередко снижается из-за ожидания передачи данных. Платформа виртуализации данных подключается непосредственно к источникам и предоставляет ценную информацию в режиме реального времени.
Виртуализация дает возможность использовать бизнес-аналитику, не прибегая к помощи ИТ-специалистов.
Физическая репликация, многократный перенос и хранение данных требуют больших затрат. При виртуализации данных создается уровень абстракции данных, который исключает необходимость дополнительных расходов на репликацию и хранение.
Платформа виртуализации предоставляет защищенную систему корпоративного управления данными.
Путем организации централизованного узла доступа ко всем видам информации и метаданных предприятия можно обеспечить управление безопасностью, корпоративное управление данными и мониторинг производительности.
Виртуализация дает массу дополнительных возможностей помимо интеграции данных.
Виртуализация данных — это технология интеграции данных, существующая уже около десяти лет. В отличие от других средств интеграции данных, платформы виртуализации, как правило, обеспечивают оптимизацию производительности и предоставляют пользователям возможности самостоятельного поиска и анализа данных.
Виртуализация обеспечивает высокую рентабельность инвестиций.
Типичный проект виртуализации данных окупается менее чем за шесть месяцев после внедрения. По сравнению с традиционными методами интеграции данных сокращение сроков окупаемости составляет 50-80%.
Виртуализация обладает большей гибкостью, чем традиционные методы.
Виртуализация данных обеспечивает легкое прототипирование, позволяя проверять новые технологические стратегии до их внедрения в масштабе предприятия.
Платформа виртуализации ― основа матрицы обработки больших данных.
Структура обработки больших данных, сформированная с использованием платформы виртуализации, интегрирует данные, обеспечивает их подготовку для прогнозной аналитики и предоставляет потребителям нужную информацию в режиме реального времени.