Архитектура Data Mesh на основе виртуализации данных
Откажитесь от предубеждений, которые установила традиционная архитектура платформы данных.
Стать организацией, управляемой данными, остается одной из главных стратегических целей многих компаний. Клиенты хорошо осведомлены о преимуществах современной аналитики:
— обеспечение наилучшего клиентского опыта на основе данных и гиперперсонализации;
— сокращение операционных затрат и времени за счет оптимизации на основе данных;
— наделение сотрудников сверхспособностями с помощью анализа тенденций и бизнес-аналитики.
Они вкладывают значительные средства в создание таких инструментов, как платформы данных, озера и хранилища.
Несмотря на увеличение усилий и инвестиций в создание таких поддерживающих платформ, организации находят результаты средними. Действительно, организации сталкиваются с многочисленными сложностями на пути к дата-центричности — необходимость работы с десятками унаследованных систем, сопротивление устаревшей культуры и постоянно конкурирующие бизнес-приоритеты.
Однако есть интересная парадигма, лежащая в основе современной распределенной архитектуры данных. И, прежде чем продолжить чтение, временно откажитесь от предположений и предубеждений, которые установила традиционная архитектура платформы данных. Будьте открыты для возможности перехода от монолитных и централизованных озер данных к преднамеренно распределенной архитектуре. Примите реальность вездесущего, повсеместного и распределенного характера данных.
Архитектура Data Mesh
Организации постоянно стремятся использовать возможности своих ресурсов данных для принятия обоснованных решений и получения конкурентного преимущества. Вот почему архитектура Data Mesh, предложенная Zhamak Dehghani в 2019 году, стала революционным поворотом в подходе к управлению и масштабированию инфраструктуры данных.
Data Mesh представляет собой смену парадигмы, поскольку она делает акцент на децентрализации, владении данными, ориентированном на предметную область, и совместном подходе к управлению данными.
Она следует четырем основным принципам:
— Доменно-ориентированное, децентрализованное владение данными: каждый домен отвечает за управление и предоставление организации своих собственных данных.
— Данные как продукт. Продукт данных — это набор данных из определенного домена. Продукты для работы с данными должны быть легко обнаруживаемыми, понятными и доступными для остальной части организации.
— Самостоятельная инфраструктура данных как платформа, позволяющая избежать сложностей и дублирования усилий между доменами. Это также позволяет доменам создавать, развертывать, публиковать и управлять продуктами данных в режиме самообслуживания.
— Федеративное управление вычислительными данными обеспечивает взаимодействие между доменами с помощью общей семантики и соглашений для общих сущностей. При необходимости глобальные политики безопасности и управления могут быть применены ко всем доменам.
Реализация Data Mesh может быть сложной, но с помощью правильных инструментов этот процесс можно значительно упростить.
Проблемы Data Mesh
Внедрение децентрализованной архитектуры может привести к трансформационным изменениям в том, как организация управляет своими данными и использует их. Однако, как и любой серьезный сдвиг в стратегии, он может представлять собой ряд проблем, которые необходимо преодолеть, чтобы обеспечить успешную реализацию.
Сдвиг в мышлении. Переход от традиционного централизованного подхода к работе с данными к децентрализованной Data Mesh требует фундаментального изменения мышления. Он включает в себя переосмысление владения данными, совместного использования и совместной работы.
Владение доменом. Назначение прав собственности на данные отдельным командам доменов звучит просто в теории, но на практике это может быть сложно. Четкое определение владельцев, обязанностей и подотчетности для доменов данных требует тщательного планирования и коммуникации.
Управление данными: децентрализованный подход может привести к проблемам в поддержании стабильного качества данных, безопасности и соответствия требованиям. Создание структур управления, обеспечивающих автономию и целостность данных в разных доменах, представляет собой хрупкий баланс.
Обнаружение данных. Если несколько наборов данных распределены по разным доменам, может быть сложно найти соответствующие наборы данных и понять их качество, контекст и доступность. Поэтому крайне важно внедрить эффективные механизмы каталогизации и обнаружения данных.
Совместное использование данных и совместная работа. Для успешного внедрения Data Mesh важно поощрять сотрудничество между командами предметной области, чтобы они были открыты для совместного использования и использования продуктов данных. Преодоление разрозненных практик работы с данными и развитие культуры обмена данными требует четких стимулов и коммуникации.
Техническая инфраструктура. Базовая техническая инфраструктура для поддержки децентрализованной архитектуры, такой как Data Mesh, должна обеспечивать масштабируемость и хорошую производительность.
Требования к набору навыков. Для успешной реализации Data Mesh необходимо сочетание навыков из разных областей, включая инженерию данных, науку о данных и знания в конкретной предметной области. Убедиться в том, что члены команды обладают необходимыми навыками, и способствовать развитию навыков может быть непросто.
Безопасность и конфиденциальность данных. Поскольку данные распределены по доменам, обеспечение безопасности и конфиденциальности данных становится все более сложным. Внедрение надежных средств управления доступом к данным, политик и мер по обеспечению соответствия требованиям, а также обеспечение совместного использования данных требует тщательного планирования.
Вот почему необходима платформа управления данными, которая устраняет разрыв между сложными техническими процессами и практическими потребностями бизнес-пользователей.
Демократизация данных
Data Mesh построена на принципе демократизации доступа к данным и владения ими. Экспертам в предметной области, которым не хватает технических навыков (например, программирования или SQL), будет трудно взаимодействовать с экосистемой данных и вносить свой вклад в нее. Это может ограничить доступность и возможность для доменных команд создавать собственные продукты данных и управлять ими.
Таким образом, успешная реализация должна предоставить командам предметной области простые в использовании инструменты и интерфейсы, которые позволят им взаимодействовать с данными без необходимости писать сложные запросы. Решения с поддержкой виртуализации данных, такие как Denodo Platform, абстрагируют технические сложности SQL, позволяя пользователям сосредоточиться на понимании, преобразовании, проверке и использовании данных, а не на изучении нового языка. Таким образом, пользователи предметной области могут легко создавать виртуальные наборы данных, комбинируя и преобразуя данные из различных источников, не увязнув в тонкостях кодирования.
Сотрудничество между техническими и нетехническими командами имеет важное значение, поэтому необходимы возможности для совместной работы и удобный интерфейс, чтобы способствовать сотрудничеству и общему пониманию данных.
Расширение возможностей экспертов в предметной области
Демократизируя доступ к данным и манипулирование ими, организации могут развивать культуру принятия решений на основе данных, позволяя бизнес-пользователям самостоятельно изучать аналитические данные и делать осознанный выбор.
По сравнению с другими инструментами, требующими понимания SQL или сложных скриптовых языков, обучение экспертов в предметной области тому, как использовать платформу Denodo, является гораздо более гладким процессом. Учебные занятия могут быть сосредоточены на практических сценариях и манипулировании данными в режиме реального времени, а не на погружении в синтаксис и нюансы кодирования. Такой оптимизированный процесс обучения не только повышает доверие пользователей, но и ускоряет внедрение Data Mesh в организации.
Каталог Данных
Каталог данных является критически важным компонентом при реализации Data Mesh. Он служит центральным репозиторием метаданных, информации и документации о наборах данных и продуктах данных, распределенных по различным доменам в организации.
В отличие от традиционных платформ данных, которые часто требуют написания сложного кода SQL, платформа Denodo позволяет пользователям разрабатывать свои собственные продукты данных, не обладая предварительными знаниями о базовых источниках данных и языках, специфичных для исходного кода. Кроме того, пользователи смогут перемещаться и запрашивать данные с помощью визуального подхода с помощью каталога данных Denodo, который помогает техническим и нетехническим пользователям находить соответствующие наборы данных и понимать их качество.
Расширение междоменного сотрудничества
Согласование технических команд с бизнес-целями может стать еще одной проблемой при децентрализованном внедрении.
Платформа Denodo соединяет оба мира, предоставляя общую платформу, которую каждый может понять и внести свой вклад. Бизнес-пользователи могут определить свои потребности в данных, используя знакомую терминологию, в то время как технические команды могут спроектировать базовую инфраструктуру данных в соответствии с этими требованиями и применить необходимые оптимизации. Такое слаженное сотрудничество гарантирует, что продукты данных соответствуют бизнес-целям, что приводит к более эффективным аналитическим сведениям и результатам.
Меняя правила игры
В эпоху Data Mesh внедрение масштабируемой и эффективной инфраструктуры данных имеет решающее значение для успеха организации. Платформа Denodo меняет правила игры, упрощая внедрение Data Mesh благодаря удобному интерфейсу и устраняя разрыв между бизнес-пользователями и техническими командами.
Предоставляя бизнес-пользователям возможность манипулировать данными без обширных знаний в области кодирования, платформа Denodo ускоряет внедрение Data Mesh и способствует созданию среды для совместной работы, в которой аналитика легко доступна, а решения принимаются на основе данных.
По мере того, как организации начинают свой путь к Data Mesh, платформа Denodo предоставит надежный способ раскрыть истинный потенциал своих активов данных.