Следите за новостями

Цифра дня

Ветроэлектростанцию на 100 мВт построят в Туркестанской области

    Виртуализация данных

    Рассматриваем преимущества платформы виртуализации данных, позволяющей расширить возможности традиционного решения для интеграции данных или полностью заменить его.

    22 декабря 2023 09:00, Profit.kz
    Рубрики: Железо, Софт

    Cовременное решение для интеграции данных

    Нынешняя эпоха характеризуется невероятным ростом объема данных, разнообразием их типов и форматов, постоянно увеличивающейся скоростью поступления и обработки информации. Это стало возможным, помимо прочего, благодаря развитию облачных технологий и систем работы с большими данными. Однако из-за ограничений, присущих узкоспециализированным системам, многие источники данных остаются изолированными. Сегодня даже в озерах данных можно встретить огромное количество обособленных скоплений данных. Для принятия оперативных решений бизнес-пользователям необходим мгновенный доступ к актуальной информации, но выполнение этого требования осложняется наличием разрозненных источников данных. Кроме того, без предварительной интеграции данных невозможно реализовать инициативы, связанные с переходом в облако, модернизацией приложений и аналитикой. Однако традиционные методы интеграции требуют слишком много ресурсов — и времени, и денег.

    Традиционные технологии интеграции

    Большинство схем интеграции данных подразумевают использование средств извлечения, преобразования и загрузки данных (ETL) или аналогичных им инструментов. Принципы ETL были предложены в 1970-х годах, и хотя за прошедшее время построенные на их основе процессы значительно усовершенствованы и разработаны во многих вариантах, они по-прежнему состоят из трех основных этапов:

    — данные извлекаются из источников,
    — преобразуются в структуру и формат, соответствующие целевой системе, в которую должны быть переданы (в хранилище операционных данных, витрину данных и т. п.),
    — загружаются в эту целевую систему.

    Универсальных решений ETL не существует: для каждого случая разрабатываются и тестируются свои скрипты, отвечающие требованиям конкретных источников данных и целевых систем.

    Иногда преобразование становится заключительным этапом (тогда процесс называется ELT), но базовый принцип тот же. После написания и отладки скрипты запускаются в работу, для этого применяется принцип пакетного копирования: в заранее установленное время большие объемы данных, выбранные из одного или более источников, передаются в консолидирующую систему с одновременным выполнением необходимых преобразований.

    Процессы ETL имеют определенные преимущества, ради которых они применяются по сей день:

    — системы ETL очень эффективны при переносе огромных массивов данных;
    — эта технология устоявшаяся, понятная и поддерживаемая многими вендорами;
    — в инструменты ETL встроены развитые средства пакетного и массового перемещения данных;
    — в штате большинства организаций есть специалисты по ETL.

    Однако в последние годы ландшафт данных заметно усложнился, а растущая потребность в извлечении ценной информации из консолидированных данных сделала очевидными недостатки средств ETL:

    — Перенос данных — не всегда лучший подход, поскольку он предполагает создание нового репозитория и его дорогостоящее сопровождение, осуществляемое большой группой специалистов.
    — В крупных организациях ежедневно могут выполняться тысячи процессов ETL, синхронизированных при помощи скриптов, которые в случае необходимости трудно изменить.
    — Поскольку в рамках процессов ETL данные предоставляются в пакетном режиме по расписанию, пользователям приходится какое-то время ждать их отправки. Доставку пакетов можно ускорить путем изменения настроек, но обеспечить мгновенную передачу данных по запросу все равно не удастся. Как правило, процессы ETL выполняются по ночам.
    — Процессы ETL не справляются с обработкой современных гигантских объемов информации, куда входят и сложные типы данных, например поминутные сведения о транзакциях и потоки показаний всевозможных датчиков.

    Виртуализация данных

    Интеграционная стратегия, основанная на виртуализации данных, подразумевает совершенно иной подход: не перенос данных на новое место для их консолидации, а формирование в режиме реального времени представления консолидированных данных, которые физически остаются в своих источниках. Передовые решения для виртуализации данных формируют уровень доступа к ним, предназначенный для использования в масштабах всей организации и обеспечивающий универсальное подключение ко всем ее ключевым источникам данных. Сотрудники, нуждающиеся в доступе к информации, делают запрос к уровню виртуализации, который извлекает необходимые данные из конкретных источников. Беря на себя функции обеспечения доступа, уровень виртуализации скрывает от пользователей лишние технические подробности, в том числе местонахождение и формат данных, предоставляя возможность задавать любые вопросы, получать на них ответы и не думать том, насколько сложны низкоуровневые механизмы, применяемые для решения тех или иных задач. Работая с подобными решениями, бизнес-сотрудники, как правило, взаимодействуют с приложением, веб-порталом или иной реализацией пользовательского интерфейса, получающей нужные данные с уровня виртуализации. Архитектура подобного решения показана ниже на схеме: уровень виртуализации данных располагается между всеми источниками данных и всеми их потребителями — пользователями, приложениями и др.

    Важно отметить, что при виртуализации данных репликация не производится, поэтому уровень виртуализации не содержит данных: на нем находятся только метаданные, необходимые для доступа к различным источникам. Уровень виртуализации данных отличается малой ресурсоемкостью и простотой реализации, но это далеко не все его преимущества. В частности, он позволяет легко внедрить общекорпоративную систему управления доступом к данным вместо того, чтобы реализовывать такие системы для каждого источника данных в отдельности. Кроме того, он выполняет функции центрального узла, к которому разработчики могут подключать API для доступа к различным источникам данных, имеющим разную степень структурированности. В настоящее время виртуализация является самой передовой стратегией интеграции данных. Подобно традиционным решениям для интеграции, уровень виртуализации выполняет функции преобразования и контроля качества данных, одновременно обеспечивая работу в режиме реального времени с меньшими затратами, более высокой скоростью доступа и большей гибкостью. Виртуализация позволяет либо полностью заменить традиционные процессы и системы интеграции данных на основе витрин и хранилищ данных, либо дополнить их новыми возможностями. Уровень виртуализации данных обеспечивает абстрагирование и предоставляет сервисы данных, легко интегрируемые с первоначальными и промежуточными источниками данных, процессами ETL, сервисными шинами предприятия (ESB), ПО промежуточного слоя, приложениями (облачными и локальными) и различными устройствами. Корпоративные ИТ-системы можно гибко соединять с различными пластами информации.

    В заключение: десять фактов о виртуализации данных

    Мы рассмотрели преимущества платформы виртуализации данных, позволяющей расширить возможности традиционного решения для интеграции данных или полностью заменить его. Подводя итоги, перечислим десять важных фактов о таких платформах.

    Сопровождение платформы обходится дешевле по сравнению с традиционными средствами интеграции.

    Физическая репликация, многократный перенос и хранение данных требуют больших затрат. При виртуализации данных создается уровень абстракции данных, что исключает дополнительные затраты на репликацию и хранение.

    Виртуализация ускоряет процессы управления данными.

    Не нужно ждать результатов в течение нескольких часов или дней: при виртуализации нужная информация предоставляется в режиме реального времени.

    Платформа виртуализации способна дополнять традиционное хранилище данных.

    Виртуализацию данных можно внедрять и использовать совместно с имеющимися решениями, созданными на основе хранилищ данных.

    Виртуализация обеспечивает максимальную производительность.

    В обычных системах производительность нередко снижается из-за ожидания передачи данных. Платформа виртуализации данных подключается непосредственно к источникам и предоставляет ценную информацию в режиме реального времени.

    Виртуализация дает возможность использовать бизнес-аналитику, не прибегая к помощи ИТ-специалистов.

    Физическая репликация, многократный перенос и хранение данных требуют больших затрат. При виртуализации данных создается уровень абстракции данных, который исключает необходимость дополнительных расходов на репликацию и хранение.

    Платформа виртуализации предоставляет защищенную систему корпоративного управления данными.

    Путем организации централизованного узла доступа ко всем видам информации и метаданных предприятия можно обеспечить управление безопасностью, корпоративное управление данными и мониторинг производительности.

    Виртуализация дает массу дополнительных возможностей помимо интеграции данных.

    Виртуализация данных — это технология интеграции данных, существующая уже около десяти лет. В отличие от других средств интеграции данных, платформы виртуализации, как правило, обеспечивают оптимизацию производительности и предоставляют пользователям возможности самостоятельного поиска и анализа данных.

    Виртуализация обеспечивает высокую рентабельность инвестиций.

    Типичный проект виртуализации данных окупается менее чем за шесть месяцев после внедрения. По сравнению с традиционными методами интеграции данных сокращение сроков окупаемости составляет 50-80%.

    Виртуализация обладает большей гибкостью, чем традиционные методы.

    Виртуализация данных обеспечивает легкое прототипирование, позволяя проверять новые технологические стратегии до их внедрения в масштабе предприятия.

    Платформа виртуализации ― основа матрицы обработки больших данных.

    Структура обработки больших данных, сформированная с использованием платформы виртуализации, интегрирует данные, обеспечивает их подготовку для прогнозной аналитики и предоставляет потребителям нужную информацию в режиме реального времени.

    Подписывайтесь на каналы Profit.kz в Facebook и Telegram.