Следите за новостями

Цифра дня

17,9 млн абонентов сотовой связи имеют доступ к интернету

Виртуализация данных

Рассматриваем преимущества платформы виртуализации данных, позволяющей расширить возможности традиционного решения для интеграции данных или полностью заменить его.

22 декабря 2023 09:00, Profit.kz
Рубрики: Железо, Софт

Cовременное решение для интеграции данных

Нынешняя эпоха характеризуется невероятным ростом объема данных, разнообразием их типов и форматов, постоянно увеличивающейся скоростью поступления и обработки информации. Это стало возможным, помимо прочего, благодаря развитию облачных технологий и систем работы с большими данными. Однако из-за ограничений, присущих узкоспециализированным системам, многие источники данных остаются изолированными. Сегодня даже в озерах данных можно встретить огромное количество обособленных скоплений данных. Для принятия оперативных решений бизнес-пользователям необходим мгновенный доступ к актуальной информации, но выполнение этого требования осложняется наличием разрозненных источников данных. Кроме того, без предварительной интеграции данных невозможно реализовать инициативы, связанные с переходом в облако, модернизацией приложений и аналитикой. Однако традиционные методы интеграции требуют слишком много ресурсов — и времени, и денег.

Традиционные технологии интеграции

Большинство схем интеграции данных подразумевают использование средств извлечения, преобразования и загрузки данных (ETL) или аналогичных им инструментов. Принципы ETL были предложены в 1970-х годах, и хотя за прошедшее время построенные на их основе процессы значительно усовершенствованы и разработаны во многих вариантах, они по-прежнему состоят из трех основных этапов:

— данные извлекаются из источников,
— преобразуются в структуру и формат, соответствующие целевой системе, в которую должны быть переданы (в хранилище операционных данных, витрину данных и т. п.),
— загружаются в эту целевую систему.

Универсальных решений ETL не существует: для каждого случая разрабатываются и тестируются свои скрипты, отвечающие требованиям конкретных источников данных и целевых систем.

Иногда преобразование становится заключительным этапом (тогда процесс называется ELT), но базовый принцип тот же. После написания и отладки скрипты запускаются в работу, для этого применяется принцип пакетного копирования: в заранее установленное время большие объемы данных, выбранные из одного или более источников, передаются в консолидирующую систему с одновременным выполнением необходимых преобразований.

Процессы ETL имеют определенные преимущества, ради которых они применяются по сей день:

— системы ETL очень эффективны при переносе огромных массивов данных;
— эта технология устоявшаяся, понятная и поддерживаемая многими вендорами;
— в инструменты ETL встроены развитые средства пакетного и массового перемещения данных;
— в штате большинства организаций есть специалисты по ETL.

Однако в последние годы ландшафт данных заметно усложнился, а растущая потребность в извлечении ценной информации из консолидированных данных сделала очевидными недостатки средств ETL:

— Перенос данных — не всегда лучший подход, поскольку он предполагает создание нового репозитория и его дорогостоящее сопровождение, осуществляемое большой группой специалистов.
— В крупных организациях ежедневно могут выполняться тысячи процессов ETL, синхронизированных при помощи скриптов, которые в случае необходимости трудно изменить.
— Поскольку в рамках процессов ETL данные предоставляются в пакетном режиме по расписанию, пользователям приходится какое-то время ждать их отправки. Доставку пакетов можно ускорить путем изменения настроек, но обеспечить мгновенную передачу данных по запросу все равно не удастся. Как правило, процессы ETL выполняются по ночам.
— Процессы ETL не справляются с обработкой современных гигантских объемов информации, куда входят и сложные типы данных, например поминутные сведения о транзакциях и потоки показаний всевозможных датчиков.

Виртуализация данных

Интеграционная стратегия, основанная на виртуализации данных, подразумевает совершенно иной подход: не перенос данных на новое место для их консолидации, а формирование в режиме реального времени представления консолидированных данных, которые физически остаются в своих источниках. Передовые решения для виртуализации данных формируют уровень доступа к ним, предназначенный для использования в масштабах всей организации и обеспечивающий универсальное подключение ко всем ее ключевым источникам данных. Сотрудники, нуждающиеся в доступе к информации, делают запрос к уровню виртуализации, который извлекает необходимые данные из конкретных источников. Беря на себя функции обеспечения доступа, уровень виртуализации скрывает от пользователей лишние технические подробности, в том числе местонахождение и формат данных, предоставляя возможность задавать любые вопросы, получать на них ответы и не думать том, насколько сложны низкоуровневые механизмы, применяемые для решения тех или иных задач. Работая с подобными решениями, бизнес-сотрудники, как правило, взаимодействуют с приложением, веб-порталом или иной реализацией пользовательского интерфейса, получающей нужные данные с уровня виртуализации. Архитектура подобного решения показана ниже на схеме: уровень виртуализации данных располагается между всеми источниками данных и всеми их потребителями — пользователями, приложениями и др.

Важно отметить, что при виртуализации данных репликация не производится, поэтому уровень виртуализации не содержит данных: на нем находятся только метаданные, необходимые для доступа к различным источникам. Уровень виртуализации данных отличается малой ресурсоемкостью и простотой реализации, но это далеко не все его преимущества. В частности, он позволяет легко внедрить общекорпоративную систему управления доступом к данным вместо того, чтобы реализовывать такие системы для каждого источника данных в отдельности. Кроме того, он выполняет функции центрального узла, к которому разработчики могут подключать API для доступа к различным источникам данных, имеющим разную степень структурированности. В настоящее время виртуализация является самой передовой стратегией интеграции данных. Подобно традиционным решениям для интеграции, уровень виртуализации выполняет функции преобразования и контроля качества данных, одновременно обеспечивая работу в режиме реального времени с меньшими затратами, более высокой скоростью доступа и большей гибкостью. Виртуализация позволяет либо полностью заменить традиционные процессы и системы интеграции данных на основе витрин и хранилищ данных, либо дополнить их новыми возможностями. Уровень виртуализации данных обеспечивает абстрагирование и предоставляет сервисы данных, легко интегрируемые с первоначальными и промежуточными источниками данных, процессами ETL, сервисными шинами предприятия (ESB), ПО промежуточного слоя, приложениями (облачными и локальными) и различными устройствами. Корпоративные ИТ-системы можно гибко соединять с различными пластами информации.

В заключение: десять фактов о виртуализации данных

Мы рассмотрели преимущества платформы виртуализации данных, позволяющей расширить возможности традиционного решения для интеграции данных или полностью заменить его. Подводя итоги, перечислим десять важных фактов о таких платформах.

Сопровождение платформы обходится дешевле по сравнению с традиционными средствами интеграции.

Физическая репликация, многократный перенос и хранение данных требуют больших затрат. При виртуализации данных создается уровень абстракции данных, что исключает дополнительные затраты на репликацию и хранение.

Виртуализация ускоряет процессы управления данными.

Не нужно ждать результатов в течение нескольких часов или дней: при виртуализации нужная информация предоставляется в режиме реального времени.

Платформа виртуализации способна дополнять традиционное хранилище данных.

Виртуализацию данных можно внедрять и использовать совместно с имеющимися решениями, созданными на основе хранилищ данных.

Виртуализация обеспечивает максимальную производительность.

В обычных системах производительность нередко снижается из-за ожидания передачи данных. Платформа виртуализации данных подключается непосредственно к источникам и предоставляет ценную информацию в режиме реального времени.

Виртуализация дает возможность использовать бизнес-аналитику, не прибегая к помощи ИТ-специалистов.

Физическая репликация, многократный перенос и хранение данных требуют больших затрат. При виртуализации данных создается уровень абстракции данных, который исключает необходимость дополнительных расходов на репликацию и хранение.

Платформа виртуализации предоставляет защищенную систему корпоративного управления данными.

Путем организации централизованного узла доступа ко всем видам информации и метаданных предприятия можно обеспечить управление безопасностью, корпоративное управление данными и мониторинг производительности.

Виртуализация дает массу дополнительных возможностей помимо интеграции данных.

Виртуализация данных — это технология интеграции данных, существующая уже около десяти лет. В отличие от других средств интеграции данных, платформы виртуализации, как правило, обеспечивают оптимизацию производительности и предоставляют пользователям возможности самостоятельного поиска и анализа данных.

Виртуализация обеспечивает высокую рентабельность инвестиций.

Типичный проект виртуализации данных окупается менее чем за шесть месяцев после внедрения. По сравнению с традиционными методами интеграции данных сокращение сроков окупаемости составляет 50-80%.

Виртуализация обладает большей гибкостью, чем традиционные методы.

Виртуализация данных обеспечивает легкое прототипирование, позволяя проверять новые технологические стратегии до их внедрения в масштабе предприятия.

Платформа виртуализации ― основа матрицы обработки больших данных.

Структура обработки больших данных, сформированная с использованием платформы виртуализации, интегрирует данные, обеспечивает их подготовку для прогнозной аналитики и предоставляет потребителям нужную информацию в режиме реального времени.

Подписывайтесь на каналы Profit.kz в Facebook и Telegram.