5 mythes sur la virtualisation des données

0
45

La virtualisation des données fait l’objet de cinq mythes courants, qui peuvent être source de confusion pour les utilisateurs inexpérimentés.

Dans l’environnement commercial actuel, les données prennent de plus en plus d’importance. Leur nombre et leur dispersion géographique explosent de manière exponentielle. Cette complexité remet en question les architectures d’intégration de données basées sur la centralisation physique.
 
Un environnement aussi évolutif exige une nouvelle approche : la virtualisation des données. Celle-ci intègre toutes les données de l’entreprise, quelles que soient leur nature et leur localisation. Il s’agit d’un modèle logique qui permet un accès centralisé sans nécessité de duplication des données, où seules les informations nécessaires sont mises à disposition.
 
Cependant, bien que les architectures logiques constituent une solution efficace, il peut être difficile d’identifier leurs particularités et leurs avantages réels. Voici donc les mythes à dissiper sur la virtualisation des données.
 
  1. Avec le Data Mesh, la virtualisation des données n’est pas nécessaire
Mythe : Le maillage des données repose sur l’idée de déléguer la gestion des données aux Data Domains, ceux qui en ont la meilleure compétence, en veillant à ce que les « Data Products », les données considérées comme les plus intéressantes et les plus précieuses, soient ensuite partagées, afin que l’entreprise dispose de données de haute qualité.
Réalité : Le Data Mesh est une approche organisationnelle qui envisage de nouveaux rôles et responsabilités et qui, pour être mis en œuvre de manière efficace, nécessite un support technologique capable de rendre opérationnel le modèle qui l’inspire. La virtualisation des données est une solution parfaitement cohérente avec ce paradigme, car elle permet aux différents Data Domains de disposer d’une infrastructure agile pour gérer les données internes et pour créer et exposer les Data Products. En outre, en tant que ciment entre ce qui est produit par les différents Data Domains, la virtualisation permet de créer une couche logique commune qui représente le point d’accès unique à tout ce qui est partagé.
2. Les outils de Business Intelligence et la virtualisation des données sont interchangeables
Mythe : Les outils de BI offrent des capacités de Data Blending, c’est-à-dire qu’ils permettent de combiner, traiter et analyser des données provenant de différentes sources et de créer des rapports typiquement orientés métier. En outre, certains outils disposent également de fonctions supplémentaires pour la modélisation des données.
Réalité : Les outils de BI permettent de combiner des données et de créer des rapports, mais ces fonctionnalités sont limitées et chaque outil possède son propre modèle sémantique au sein duquel les données sont combinées et modélisées. Chaque modèle devient ainsi propre à l’outil qui l’a produit, ce qui rend extrêmement complexe l’intégration à l’échelle de l’entreprise, indépendamment des outils utilisés pour l’analyse des données. De plus, en modélisant les données à l’aide d’un outil spécifique, le risque d’avoir des modèles répétés augmente. La virtualisation des données, au contraire, est capable de connecter, de modéliser et de mettre à la disposition de tous (personnes, outils et applications) des données provenant de n’importe quelle source, selon un modèle sémantique commun. C’est l’épine dorsale d’un Data Fabric au niveau de l’entreprise, où l’utilisation des données est rendue simple et sans ambiguïté et où chaque consommateur de données est assisté par des algorithmes qui fournissent des informations potentiellement intéressantes.
3. Avec un Data Lake comme point d’accès unique aux données, la virtualisation des données est inutile
Mythe : Les Data Lakes ont été conçus à l’origine pour explorer et utiliser des données, principalement à des fins analytiques, celles-ci n’étant généralement pas stockées dans des sources structurées telles que des bases de données ou des entrepôts de données. Aujourd’hui, cependant, les besoins en informations sont si importants qu’il est nécessaire de disposer de données de toute nature et pour tout usage.
Réalité : L’idée d’utiliser un Data Lake comme point d’accès unique aux ressources informationnelles se heurte à la complexité de la définition et de la gestion des procédures de chargement et d’alignement des données. En outre, un Data Lake n’est normalement pas adapté pour contenir des données hautement structurées et, bien qu’il soit intrinsèquement flexible, il est peu probable qu’il puisse garantir la même efficacité pour tous les types de données. Il est également nécessaire de considérer que les lacs de données n’envisagent pas nativement la possibilité de fournir des données selon différents protocoles de livraison. Ils ne disposent pas non plus d’outils permettant de rechercher des informations et de comprendre clairement leur signification et leur origine. La virtualisation des données, au contraire, permet d’avoir un point d’accès unique aux données où elles sont décrites et documentées dans un catalogue, sans qu’il faille en avoir une copie physique en un seul point. Cette approche permet donc de laisser chaque donnée dans le « conteneur » qui peut le mieux la gérer.
4. Les outils ETL rendent la virtualisation des données inutile
Mythe : Les entreprises peuvent utiliser des outils ETL pour extraire des données de différentes sources, les transformer, puis les charger dans une base de données, un Data Warehouse ou, en général, dans tout autre conteneur capable d’effectuer des tâches spécifiques.
Réalité : Les ETL ne sont pas des structures très résilientes, à tel point que, si une nouvelle source de données est ajoutée, il est souvent préférable de construire une nouvelle procédure d’extraction, de transformation et de chargement, plutôt que de modifier la procédure existante. Cette approche pose de sérieux problèmes de gestion et de maintenance, car elle entraîne une forte duplication des données. Des études montrent qu’une entreprise possède, en moyenne, plus de douze copies des mêmes données dispersées dans différents systèmes. Avec la virtualisation des données, au contraire, les données restent là où elles sont et ne sont représentées que dans une couche virtuelle. Cela permet d’obtenir une vue unifiée et d’économiser du temps et des ressources, avec des avantages évidents également en termes de Green Computing.
 
5. La virtualisation des données entraîne une perte de contrôle des données
Mythe : La virtualisation des données permet à tous les employés d’accéder aux données de l’entreprise afin qu’ils puissent les utiliser rapidement, facilement et de manière autonome. Cela alimente la croyance que l’entreprise perd le contrôle sur la manière dont les données sont utilisées et dont cela peut affecter, en termes de coût et de performance, les sources où les données résident.
Réalité : Les plateformes de virtualisation des données offrent un contrôle précis de qui peut utiliser quoi, ainsi que la possibilité de masquer et de filtrer les données en fonction du profil de chaque utilisateur. En outre, de nombreuses fonctions de contrôle sont disponibles pour réguler l’accès aux systèmes sources, en termes de durée, de priorité ou de quantité de résultats. Enfin, toutes les opérations relatives aux données font l’objet d’un contrôle complet, de sorte qu’un rapport instantané et précis peut être fourni au cas où l’entreprise aurait besoin de comprendre comment son écosystème de données est utilisé ou de réagir à un incident.
 
Tribune par Olivier Tijou Vice-président France, BeLux, Suisse et Afrique de Denodo

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Notifiez-moi des commentaires à venir via e-mail. Vous pouvez aussi vous abonner sans commenter.

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.