Les 4 principes du Data Mesh
Conceptualisé par Zhamak Dehghani (ThoughtWorks, 2019), le Data Mesh répond aux limites des architectures data centralisées : goulots d'étranglement, silos, scaling difficile. Il propose une décentralisation architecturale et organisationnelle des données.
Domain Ownership
Les domaines métiers sont responsables de leurs données en tant que propriétaires. La gouvernance est décentralisée : chaque domaine gère ses données comme un produit.
Data as a Product
Les données sont traitées comme des produits : elles ont un propriétaire, une documentation, des SLA, un versionning et sont conçues pour être consommées par d'autres.
Self-Serve Platform
Une plateforme data commune fournit les capacités d'infrastructure (stockage, compute, catalogage, accès) sans que chaque domaine ait à les reconstruire.
Federated Governance
La gouvernance est fédérée : des standards globaux (Data Contracts, qualité, sécurité) sont définis centralement et appliqués localement par chaque domaine.
Modélisation — 4 domaines SNCF fictifs
Application concrète du Data Mesh à une organisation ferroviaire complexe. Chaque domaine est propriétaire de ses data products et responsable de leur qualité.
Data Contract — Exemple complet
Un Data Contract formalise le contrat entre un producteur de données et ses consommateurs. Il définit le schéma, les SLA, les règles de qualité et les responsabilités. Format YAML — versionné dans Git comme du code.
Data Catalog — Inventaire des data products
Référentiel centralisé de tous les data products disponibles dans l'organisation. Point d'entrée unique pour découvrir, comprendre et consommer les données.