X
Que sera le Data Warehouse du futur ?
Alain Clapaud / mardi 17 juillet 2018 / Thèmes: Dossier, Infra

Que sera le Data Warehouse du futur ?

À l’heure du triomphe du Big Data, le Data Warehouse des années 90 peut sembler un dinosaure informatique. Or les éditeurs ne lâchent pas le morceau et si les entreprises communiquent beaucoup sur le Big Data et l’IA, au fond de leurs datacenters ronronne toujours leur bon vieux Data Warehouse…

Chaque année, on l’annonce mort et enterré. Le Data Warehouse, avec ses process d’alimentation batch, sa structuration hyper rigide en étoile ou en flocon, son incontournable langage SQL et ses grosses armoires dans le data center est toujours là. Bousculé par Hadoop, des bases NoSQL bien plus modernes et les capacités infinies du Cloud, l’entrepôt de données a su s’adapter et absorber toutes ces révolutions pour survivre.

Le Cloud est en train de s’imposer à tous

Leader d’un marché des bases de données estimé à 50 milliards de dollars par IDC, Oracle mise sur sa base installée et un large écosystème de partenaires pour conserver son leadership, alors que la concurrence issue de l’Open Source mais aussi du Cloud bouscule une stratégie de licencing contraignante et coûteuse pour ses clients. Face à un marché tendu, Oracle mise sur la capacité de sa base de données à porter n’importe quelles charges : « Notre base de données est multirôle », explique Éric de Smedt, directeur avant-vente des offres Cloud Data Platform et Infrastructure d’Oracle France. « Elle peut tout aussi bien supporter du transactionnel et du décisionnel en utilisant du clustering, en utilisant Exadata pour accélérer les requêtes. Avec sa licence, le client a la possibilité de déployer l’un ou l’autre modèle de base de données sur son cluster, avec la possibilité au sein d’une même machine, de dédier des nœuds au transactionnel et des nœuds pour le décisionnel. » Les clients traditionnels d’Oracle ont tout intérêt à cumuler les workloads sur des clusters Oracle facturés au nombre d’utilisateurs et surtout à la puissance de calcul totale du cluster.

Créer un Data Warehouse sur Oracle Exadata en quelques clics, c’est désormais possible avec l’offre Oracle Autonomous Data Warehouse Cloud, première base de données de la nouvelle gamme Oracle Autonomous.

Néanmoins, pour faire face à la concurrence croissante du Cloud et des entreprises qui optent de plus en plus pour les solutions de type AWS Redshift, Snowflake ou SQL Data Warehouse sur Azure, Oracle a porté sa base de données dans le Cloud et affiche désormais un vaste portefeuille d’offres. Des offres hébergées avec notamment Oracle Database Cloud Service, Oracle Database Exadata Cloud Service ; ce portefeuille vient de s’enrichir d’une nouvelle gamme baptisée Autonomous, dont le premier avatar est dédié au Data Warehouse. « Avec cette gamme Autonomous, l’idée, c’est d’aller un cran plus loin sur cette problématique datawarehouse, avec plus de fonctionnalités liées à la gestion de la base de données, d’auto-tuning des différents services. »

Autonomous Data Warehouse Cloud se veut donc une base de données optimisée pour le Datawarehouse, hébergée sur les appliances Exadata qui est à la fois auto-administrée avec un auto-tuning des paramètres de chaque base de données, auto-sécurisée avec un chiffrement automatique des données et une application automatique des patches de sécurité et enfin autoréparable. Avec un autopatching sans interruption de service, Oracle promet une disponibilité de 99,995 %, soit de 2,5 minutes d’arrêt par mois, annonce la brochure. Il suffit pour l’entreprise de choisir le nombre de CPU, la taille de la base de données en Teraoctet qu’il va créer puis charger ses données, l’argument d’Oracle étant de pouvoir décharger les DBA des tâches du quotidien afin que ceux-ci puissent se mettre au service des métiers pour les aider à créer des applications.

Les appliances spécialisées ont longtemps régné en maître dans le domaine des grands Data Warehouse. Elles cèdent maintenant le pas au Cloud.

Autre acteur historique du monde des Data Warehouses, Teradata, dont la présence dans les grandes banques françaises et acteurs de la grande distribution remonte à l’époque des armoires de stockage NCR… Aujourd’hui, l’Américain continue de proposer sa base de données SQL afin de stocker de gros volumes de données, mais il mise lui aussi sur le Cloud afin de s’assurer un relais de croissance pour les prochaines années : « Le Cloud est un sujet important pour nous, mais nous ne faisons pas du Cloud pour faire du Cloud », expliquait, lors du dernier Teradata Summit de Londres, Oliver Ratzesberger, Chief Operating Officer de Teradata : « Notre objectif est de délivrer des services analytiques avancés sur le modèle As a Service. C’est ce qui est le plus complexe à atteindre pour les entreprises. Celles-ci préfèrent se concentrer sur le Business et non plus sur les infrastructures IT qui vont porter leurs applications analytiques, de la même façon qu’elles n’assemblent pas elles-mêmes les voitures dont ont besoin leurs collaborateurs pour travailler. »

Le COO a notamment rappelé que Teradata a véritablement initié sa stratégie cloud voici trois ans avec son propre Cloud, IntelliCloud, et des offres Teradata Database, Aster Analytics et Hadoop en mode As a Service, tandis que l’éditeur adaptait ses solutions à AWS et Microsoft Azure et enfin proposait celles-ci sur VMware pour les entreprises privilégiant le Cloud privé. Oliver Ratzesberger précise : « Notre principe de design, c’est d’avoir exactement le même code où qu’il soit déployé. Quand vous prenez un datawarehouse on-premise, vous pouvez le déposer sur AWS, sur Azure, il n’y aura pratiquement pas d’adaptations à apporter. Il faudra simplement tenir compte des limitations de tel ou tel fournisseur. Notre technologie de virtualisation offre la capacité de connecter différentes instances de systèmes différents, prendre un Datamart virtuel sur un environnement et le déposer sur un autre. »

Ces briques d’infrastructure aujourd’hui disponibles selon les trois modèles de déploiements, l’Américain s’attache maintenant à monter dans la chaîne de valeur en proposant des solutions analytiques complètes qui offriront un support à diverses technologies venues du Big Data comme Spark, TensorFlow, Gluon, Theano et le support des langages SQL, SAS, Python et R.

Afin de concurrencer les éditeurs historiques du Data Warehouse, Snowflake a développé une architecture en partant d’une feuille blanche.

Les pure players  du Cloud bousculent les lignes

L’intégration du Cloud dans les roadmaps d’Oracle comme de Teradata est significatif du glissement du marché vers le Cloud et notamment vers les offres de bases de données et de Data Warehouse As a Service. En effet, la montée en puissance de Google avec son offre Cloud BigQuery et d’Amazon Web Services avec RedShift est en train de faire vaciller le marché. Même si certains ironisent sur le fait que Redshift n’a rien d’une base de données « Cloud native » comme le clame Amazon, mais n’est que le recyclage sur une formule As a Service de la base ParAccel, une start-up en déconfiture et qui a été reprise en 2013 par Actian.

Néanmoins, nombre de start-up misent sur ces solutions cloud pour créer leurs premiers entrepôts de données et des entreprises telles que le Nasdaq, NTT Docomo, Johnson&Johnson, ont aussi misé sur RedShift, tandis que BNP Paribas Fortis, Motorola, Ferrero ont pour leur part fait le choix de BigQuery. Outre les géants du Cloud, des challengers sont en train d’émerger sur ce marché du « Big Data as a Service ». Outre l’Américain Cazena, Phemi Systems a fait le choix de se positionner sur le marché de la donnée de santé.

Néanmoins, des Français font beaucoup parler d’eux dans la Valley, où ils se sont installés, ce sont Thierry Cruanes et Benoît Dageville, les fondateurs de Snowflake Computing. Ces anciens d’Oracle ont déjà levé près de 473 millions de dollars pour mener à bien leur projet de Data Warehouse as a Service de nouvelle génération. « La source de notre inspiration était la frustration que nous avions chez Oracle à ne pas pouvoir répondre aux besoins des entreprises qui souhaitent stocker d’énormes volumes de données sans devoir les structurer, non pas pour les utiliser dans l’immédiat, mais qui doivent être conservées pour plus tard », explique Thierry Cruanes. « Même si Oracle avait une technologie haute-performance avec Exadata, nous sentions bien que les entreprises n’étaient pas intéressées par ce discours. »

Considérant que les offres qui sont actuellement disponibles sur le Cloud sont essentiellement issues du portage de bases de données existantes, les deux ingénieurs décident alors de développer un moteur « from scratch » afin de répondre aux besoins analytiques modernes. « L’architecture de Snowflake est très innovante dans le sens où une base de données traditionnelle a un système de stockage, un système de protection, un système transactionnel, etc. Une même machine va avoir l’interface pour les clients, le compilateur, l’injecteur de métadata, la gestion des Buffer Caches, le Query Processing, la gestion des transactions, le tout dans la même boîte. Pour « scaler » une telle architecture, il faut répliquer cette boîte. L’architecture que nous avons imaginé pour Snowflake, c’est de prendre chacune de ces composantes et les exploser de manière horizontale sur plusieurs boîtes. Le système de stockage peut être explosé sur de multiples boîtes pour accéder à S3, de même que le système de Query Processing qui est réparti sur plusieurs clusters, idem pour la gestion des utilisateurs, la gestion des sessions, etc. »

Forts de cette architecture de type Shared Data, les concepteurs affirment pouvoir offrir des performances multipliées par 200 par rapport aux solutions traditionnelles et réduire le coût de stockage de 80 %. La solution fait beaucoup parler d’elle et de nombreuses entreprises ont tenté l’aventure Snowflake dont Adobe, Deliveroo, Capital One. Il est d’autant plus facile de vérifier que les promesses de Snowflake sont tenues que la solution est disponible sur de nombreuses régions AWS et que la start-up distribue généreusement les crédits d’usage.

Parmi les sources potentielles de données de Microsoft Power BI, les multiples services de stockage de données supportés par Azure.

Une architecture type d’alimentation d’un Data Warehouse Redshift sur Amazon Web Services.

SQL, même pas mort !

Né dans les années 70 – une éternité dans l’échelle de temps de l’informatique – le SQL semblait être amené à disparaître au moment de l’apparition de la nouvelle génération des bases de données NoSQL. Pourtant, ce bon vieux SQL est toujours bien présent dans les architectures décisionnelles et les solutions analytiques de nouvelle génération telles que Tableau ou Qlik s’appuient toujours sur le langage fossile pour requêter les sources de données. De plus, la disponibilité de bases de données SQL dans le Cloud ne fera que pérenniser sa présence dans le système d’information des entreprises à l’avenir, n’en déplaise à toutes les autres solutions NoSQL qui se clament plus performantes et mieux adaptées aux gros volumes de données.

C’est l’analyse de Vincent Heuschling, fondateur de la société de services spécialisée en Big Data et Machine Learning Affini-Tech : « Étant donné les performances obtenues aujourd’hui sur les bases de données SQL dans le Cloud, SQL ne va pas disparaître de sitôt. Cela-dit, la préaggregation au travers des schémas en étoile et les langages multidimensionnels pour faire de l’Olap auront beaucoup moins d’importance à l’avenir. » Alors qu’un traitement de plusieurs milliards de lignes ne prend que quelques secondes sur Snowflake ou BigQuery, la contrainte de structurer les données n’a plus lieu d’être.

SAP HANA a apporté les atouts du stockage in-memory auprès des utilisateurs de SAP BW.

2018, l’hybridation devient la règle

Si les start-up qui partent d’une feuille blanche vont privilégier d’emblée ce type de solutions innovantes, dans les autres entreprises, la coexistence entre les anciens et les modernes va donner naissance à des architectures parfois étonnantes. Il n’est pas rare de voir une entreprise mettre à disposition de ses analystes un self-service BI et dont les clients Power BI accèdent à des Datamarts stockés sur SQL Server eux-mêmes alimentés par le Data Lake de l’entreprise… Les lignes entre bases de données transactionnelles, Data Warehouse de la génération SQL et infrastructures Big Data sont en train de se brouiller. L’exemple de la percée du modèle de stockage in-memory dans le domaine du décisionnel en est certainement la preuve la plus évidente.

Cette technologie a été introduite sur le marché par Qlik. Désormais, tous les éditeurs l’ont intégrée à leurs bases de données et si beaucoup considèrent l’approche comme trop limitée en termes de volumétrie pour les grands Data Warehouse, avec HANA, SAP a démontré la pertinence de l’approche auprès des utilisateurs de SAP BW. SAP exploite désormais l’in-memory sur le transactionnel, offrant une alternative performante au relationnel classique pour faire de l’OLTP.

Après cette nouvelle génération cloud, peut-être que les ordinateurs photoniques de demain tels que les imagine HPE, des machines équipées de milliers de Yottaoctets de mémoire memristor signeront l’essor d’une nouvelle génération de Data Warehouse 100 % temps réel. Rendez-vous dans dix ans pour la prochaine révolution  !


« Tous les moteurs actuels  sont basés sur le même ADN »
Thierry Cruanes, co-fondateur et architecte de Snowflake Computing.

« L’idée classique du Data Warehouse, c’est qu’il y a les bases de données du monde transactionnel d’un côté et le Data Warehouse de l’autre, ce dernier étant essentiellement destiné à historiser les données des systèmes transactionnels. Cette approche a aujourd’hui complètement explosé car à l’ère du Cloud, il n’y a plus un système de production unique, il y en a cent. Dans le Cloud, il n’y a pas un partenaire qui gère l’ensemble de vos données, il y en a cent avec des systèmes très différents. Le Data warehouse doit être beaucoup plus puissant mais aussi beaucoup plus flexible. Nous sommes en avance sur le marché car nous ne sommes pas partis d’un système existant. Tous les moteurs des bases de données actuelles ont le même ADN. Toutes sont basées sur une même architecture Shared Nothing. Nous sommes les seuls à avoir eu le courage de faire cela. »


« Le gagnant de la guerre SQL vs NoSQL est… le NewSQL ! »
Stephen Brobst, Chief Technology Officer de Teradata.

« Il y aura toujours des challengers qui viendront sur le marché, c’est le cas de Google avec BigQuery, qui est une base NoSQL qui a ses cas d’usage, mais qu’en est-il du workload management, qu’en est-il de la plate-forme ? Nous devons continuer à innover afin de rester en tête. Si nous étions restés une base de données SQL seulement, nous aurions aujourd’hui perdu notre avantage compétitif. Nous sommes allés vers ce que j’appellerai une plate-forme NewSQL. Le gagnant de la guerre SQL contre NoSQL qui a agité les experts de la Silicon Valley ces dernières années, c’est le NewSQL ! C’est le SQL mais avec des capacités issues des bases NoSQL et nous sommes aujourd’hui impliqués à 100 % dans cette approche. Nous avons introduit R sur notre plate-forme, de même que Python, JsonPath, le Json Binding pour les données, etc. Nous n’introduisons pas seulement le support de ces langages, mais aussi le support de moteurs de traitement, dont Tensor Flow en est l’exemple. »


« On assiste à un changement de paradigme dans l’utilisation du Data Warehouse »
Gaëtan Mauguin, chef de produit senior Data Microsoft.

« La disruption que l’on commence à voir apparaître actuellement, c’est l’arrivée de véritables applications et pas uniquement de la Data Viz qui viennent chercher des informations dans les Data Warehouse. Ainsi, cet avionneur dont les avions sont équipés de capteurs et toutes les données générées par ces capteurs sont mises à la disposition de leurs clients via une application, et ce en temps réel, ce qui permet d’adapter l’exploitation de l’appareil en fonction de son comportement en vol. On voit beaucoup cette approche dans l’industrie afin de détecter des anomalies dans la production non plus seulement au moment où l’on analyse les données a posteriori, mais en temps réel via une application qui va générer des alertes afin d’apporter des corrections immédiatement dès qu’une dérive apparaît dans les mesures. Il s’agit d’un vrai changement de paradigme dans l’utilisation du Data Warehouse. SQL Data Warehouse dans Azure peut ainsi être attaqué par les applications sous forme d’API, de même que Transact-SQL permet la création de procédures stockées qui vont faire appel à des moteurs d’IA qui ont été préalablement entrainés. »


« Le Data Warehouse classique,  et notamment son étage ETL, est aujourd’hui remis en cause par des métiers »
Vincent Heuschling, PDG fondateur d’Affini-Tech.

« Je ne sais pas si le Data Warehouse classique n’a plus d’avenir, mais les entreprises ont besoin de data warehouse moderne, c’està-dire de données stockées sur un axe temporel et de support de l’omnicanalité pour les métiers. Le Data Warehouse classique et notamment leur étage ETL est aujourd’hui remis en cause par des métiers qui veulent disposer de reporting dans des délais extrêmement courts. Les chaînes d’ingestion de données doivent être en quasi-temps réel si bien que c’est la donnée opérationnelle qui va être structurée et utilisée pour le reporting. De plus, les entreprises doivent aujourd’hui intégrer une multiplicité de données dans cette vision alors que dans beaucoup d’organisations, le Data Warehouse reste limité à un domaine d’activité bien précis. La donnée y reste enfermée dans le paradigme de la requête SQL alors que les algorithmiques complexes que l’on souhaite aujourd’hui appliquer aux données, notamment le Machine Learning, obligent à extraire la donnée du Data Warehouse pour la mettre dans un Data Lake pour appliquer ce type de traitements pour finalement réinjecter dans le Data Lake les informations générées. »
Print
2918
Tags:cloud

x
Rechercher dans les dossiers
Actuellement à la Une...
Le patron de l’opérateur au carré rouge n’est pas franchement emballé par le bilan de la plateforme de signalement de problèmes mis en place par l’Arcep. Il l’a fait savoir lors d’une audition au Sénat, dénonçant un régulateur qui sort de son rôle et une information « erronée » et « préjudiciable ».

Pour se faire pardonner des infractions à la loi sur le littoral lors de son mariage extravagant en 2013, Sean Parker, co-fondateur de Napster et ancien dirigeant de Facebook dans sa phase de démarrage, a conçu une application gratuite dévoilée jeudi par les autorités de Californie.

Sous la pression de ses salariés, le géant joue la prudence sur l’IA. Il annonce qu’il ne commercialisera pas de produi...

Nous avions rencontré Vexata il y a un an. Nous avons profité de ce nouveau "tour" pour refaire un point sur l’activité de cette entreprise. L’architecture choisie est toujours un modèle du genre et correspond parfaitement aux charges de stockage que demandent des applications analytiques de haut niveau. Nous ne sommes pas les seuls à le croire, Fujitsu vient de placer Vexata comme une solution de référence dans le domaine dans son laboratoire nord-américain avec des architectures de référence sur ses serveurs Primergy.

Le spécialiste du stockage dans les environnements HPC a connu une belle année 2018 avec des acquisitions qui ont renforcé ses positions dans le segment haut du marché du stockage et marqué son entrée sur le marché de l’entreprise. 

Le Quai d’Orsay informe les usagers de son service Ariane du vol de leurs données. Le communiqué du ministère ne donne aucun autre détail sur le piratage dont il a été victime, sinon avoir pris des mesures sans impacter le service et que la Cnil a été saisie.

Un problème de sécurisation rendait vulnérables tous les comptes Office 365. En cause, un sous-domaine, success.office.com, dont la configuration défaillante permettait à un attaquant d’en prendre le contrôle, ayant alors accès aux données qui y étaient envoyées y compris les jetons d’identification d’ Outlook, Store et Sway.

Les acquisitions dans le secteur informatique deviennent quotidiennes et les prix s’envolent. IBM, SAP, Citrix, VMware font leur marché et, en quelques jours, ce sont des sommes comparables à un mois du déficit de la France qui changent de mains.

Les deux entreprises mettent un terme à quatre ans de conflit judiciaire par un accord financier. Condamné dans un premier temps à 500 millions de dollars d’amende, Oculus, propriété de Facebook, avait par la suite obtenu une réduction de la sanction. Les deux entreprises avaient fait appel, mais ont finalement réglé leur dispute à l’amiable.

Outre les keynotes et les sessions techniques, le forum présente aussi une exposition des solutions des sponsors de l’événement. Visite dans les allées de cette exposition avec quelques rencontres intéressantes. 

Toutes les News

LIVRES BLANCS

Tous les secteurs industriels dans le monde sont confrontés à des défis informatiques spécifiques qui conditionnent le succès ou l’échec de l’entreprise.


Au cours de la dernière année, les données volées et vulnérables se sont révélées des armes précieuses pour les adversaires de tous les horizons, dans toutes les régions, et pour toutes les motivations.


Au fur et à mesure que votre exposition à d’autres entreprises augmente, votre exposition au risque augmente également. Il ne s’agit pas uniquement de vos propres fournisseurs mais également les leurs. Comment pouvez-vous suivre toutes ces relations afin de gérer vos risques?


Pour répondre aux exigences de rapidité du modèle DevOps en conservant une cybersécurité efficace, de nouvelles approches doivent être adoptées en matière de sécurité de l'information, comme la sécurité intégrée, l’automatisation et la prévention proactive.


PROTECTION ENDPOINT NEXT-GEN : ÉVOLUTION OU RÉVOLUTION ?, un Livre Blanc SOPHOS.

Après la révolution Next-Gen Firewall de ces dernières années, une nouvelle révolution Next-Gen est cours dans le domaine de la sécurité des systèmes Endpoint. Au-delà du débat pour savoir s’il s’agit d’une révolution ou d’une simple évolution, il est certain qu’une série de nouvelles technologies est en train de rapidement émerger, en apportant une contribution significative à la lutte contre les menaces avancées.


Tous les Livres Blancs