X
Que sera le Data Warehouse du futur ?
Alain Clapaud / mardi 17 juillet 2018 / Thèmes: Dossier, Infra

Que sera le Data Warehouse du futur ?

À l’heure du triomphe du Big Data, le Data Warehouse des années 90 peut sembler un dinosaure informatique. Or les éditeurs ne lâchent pas le morceau et si les entreprises communiquent beaucoup sur le Big Data et l’IA, au fond de leurs datacenters ronronne toujours leur bon vieux Data Warehouse…

Chaque année, on l’annonce mort et enterré. Le Data Warehouse, avec ses process d’alimentation batch, sa structuration hyper rigide en étoile ou en flocon, son incontournable langage SQL et ses grosses armoires dans le data center est toujours là. Bousculé par Hadoop, des bases NoSQL bien plus modernes et les capacités infinies du Cloud, l’entrepôt de données a su s’adapter et absorber toutes ces révolutions pour survivre.

Le Cloud est en train de s’imposer à tous

Leader d’un marché des bases de données estimé à 50 milliards de dollars par IDC, Oracle mise sur sa base installée et un large écosystème de partenaires pour conserver son leadership, alors que la concurrence issue de l’Open Source mais aussi du Cloud bouscule une stratégie de licencing contraignante et coûteuse pour ses clients. Face à un marché tendu, Oracle mise sur la capacité de sa base de données à porter n’importe quelles charges : « Notre base de données est multirôle », explique Éric de Smedt, directeur avant-vente des offres Cloud Data Platform et Infrastructure d’Oracle France. « Elle peut tout aussi bien supporter du transactionnel et du décisionnel en utilisant du clustering, en utilisant Exadata pour accélérer les requêtes. Avec sa licence, le client a la possibilité de déployer l’un ou l’autre modèle de base de données sur son cluster, avec la possibilité au sein d’une même machine, de dédier des nœuds au transactionnel et des nœuds pour le décisionnel. » Les clients traditionnels d’Oracle ont tout intérêt à cumuler les workloads sur des clusters Oracle facturés au nombre d’utilisateurs et surtout à la puissance de calcul totale du cluster.

Créer un Data Warehouse sur Oracle Exadata en quelques clics, c’est désormais possible avec l’offre Oracle Autonomous Data Warehouse Cloud, première base de données de la nouvelle gamme Oracle Autonomous.

Néanmoins, pour faire face à la concurrence croissante du Cloud et des entreprises qui optent de plus en plus pour les solutions de type AWS Redshift, Snowflake ou SQL Data Warehouse sur Azure, Oracle a porté sa base de données dans le Cloud et affiche désormais un vaste portefeuille d’offres. Des offres hébergées avec notamment Oracle Database Cloud Service, Oracle Database Exadata Cloud Service ; ce portefeuille vient de s’enrichir d’une nouvelle gamme baptisée Autonomous, dont le premier avatar est dédié au Data Warehouse. « Avec cette gamme Autonomous, l’idée, c’est d’aller un cran plus loin sur cette problématique datawarehouse, avec plus de fonctionnalités liées à la gestion de la base de données, d’auto-tuning des différents services. »

Autonomous Data Warehouse Cloud se veut donc une base de données optimisée pour le Datawarehouse, hébergée sur les appliances Exadata qui est à la fois auto-administrée avec un auto-tuning des paramètres de chaque base de données, auto-sécurisée avec un chiffrement automatique des données et une application automatique des patches de sécurité et enfin autoréparable. Avec un autopatching sans interruption de service, Oracle promet une disponibilité de 99,995 %, soit de 2,5 minutes d’arrêt par mois, annonce la brochure. Il suffit pour l’entreprise de choisir le nombre de CPU, la taille de la base de données en Teraoctet qu’il va créer puis charger ses données, l’argument d’Oracle étant de pouvoir décharger les DBA des tâches du quotidien afin que ceux-ci puissent se mettre au service des métiers pour les aider à créer des applications.

Les appliances spécialisées ont longtemps régné en maître dans le domaine des grands Data Warehouse. Elles cèdent maintenant le pas au Cloud.

Autre acteur historique du monde des Data Warehouses, Teradata, dont la présence dans les grandes banques françaises et acteurs de la grande distribution remonte à l’époque des armoires de stockage NCR… Aujourd’hui, l’Américain continue de proposer sa base de données SQL afin de stocker de gros volumes de données, mais il mise lui aussi sur le Cloud afin de s’assurer un relais de croissance pour les prochaines années : « Le Cloud est un sujet important pour nous, mais nous ne faisons pas du Cloud pour faire du Cloud », expliquait, lors du dernier Teradata Summit de Londres, Oliver Ratzesberger, Chief Operating Officer de Teradata : « Notre objectif est de délivrer des services analytiques avancés sur le modèle As a Service. C’est ce qui est le plus complexe à atteindre pour les entreprises. Celles-ci préfèrent se concentrer sur le Business et non plus sur les infrastructures IT qui vont porter leurs applications analytiques, de la même façon qu’elles n’assemblent pas elles-mêmes les voitures dont ont besoin leurs collaborateurs pour travailler. »

Le COO a notamment rappelé que Teradata a véritablement initié sa stratégie cloud voici trois ans avec son propre Cloud, IntelliCloud, et des offres Teradata Database, Aster Analytics et Hadoop en mode As a Service, tandis que l’éditeur adaptait ses solutions à AWS et Microsoft Azure et enfin proposait celles-ci sur VMware pour les entreprises privilégiant le Cloud privé. Oliver Ratzesberger précise : « Notre principe de design, c’est d’avoir exactement le même code où qu’il soit déployé. Quand vous prenez un datawarehouse on-premise, vous pouvez le déposer sur AWS, sur Azure, il n’y aura pratiquement pas d’adaptations à apporter. Il faudra simplement tenir compte des limitations de tel ou tel fournisseur. Notre technologie de virtualisation offre la capacité de connecter différentes instances de systèmes différents, prendre un Datamart virtuel sur un environnement et le déposer sur un autre. »

Ces briques d’infrastructure aujourd’hui disponibles selon les trois modèles de déploiements, l’Américain s’attache maintenant à monter dans la chaîne de valeur en proposant des solutions analytiques complètes qui offriront un support à diverses technologies venues du Big Data comme Spark, TensorFlow, Gluon, Theano et le support des langages SQL, SAS, Python et R.

Afin de concurrencer les éditeurs historiques du Data Warehouse, Snowflake a développé une architecture en partant d’une feuille blanche.

Les pure players  du Cloud bousculent les lignes

L’intégration du Cloud dans les roadmaps d’Oracle comme de Teradata est significatif du glissement du marché vers le Cloud et notamment vers les offres de bases de données et de Data Warehouse As a Service. En effet, la montée en puissance de Google avec son offre Cloud BigQuery et d’Amazon Web Services avec RedShift est en train de faire vaciller le marché. Même si certains ironisent sur le fait que Redshift n’a rien d’une base de données « Cloud native » comme le clame Amazon, mais n’est que le recyclage sur une formule As a Service de la base ParAccel, une start-up en déconfiture et qui a été reprise en 2013 par Actian.

Néanmoins, nombre de start-up misent sur ces solutions cloud pour créer leurs premiers entrepôts de données et des entreprises telles que le Nasdaq, NTT Docomo, Johnson&Johnson, ont aussi misé sur RedShift, tandis que BNP Paribas Fortis, Motorola, Ferrero ont pour leur part fait le choix de BigQuery. Outre les géants du Cloud, des challengers sont en train d’émerger sur ce marché du « Big Data as a Service ». Outre l’Américain Cazena, Phemi Systems a fait le choix de se positionner sur le marché de la donnée de santé.

Néanmoins, des Français font beaucoup parler d’eux dans la Valley, où ils se sont installés, ce sont Thierry Cruanes et Benoît Dageville, les fondateurs de Snowflake Computing. Ces anciens d’Oracle ont déjà levé près de 473 millions de dollars pour mener à bien leur projet de Data Warehouse as a Service de nouvelle génération. « La source de notre inspiration était la frustration que nous avions chez Oracle à ne pas pouvoir répondre aux besoins des entreprises qui souhaitent stocker d’énormes volumes de données sans devoir les structurer, non pas pour les utiliser dans l’immédiat, mais qui doivent être conservées pour plus tard », explique Thierry Cruanes. « Même si Oracle avait une technologie haute-performance avec Exadata, nous sentions bien que les entreprises n’étaient pas intéressées par ce discours. »

Considérant que les offres qui sont actuellement disponibles sur le Cloud sont essentiellement issues du portage de bases de données existantes, les deux ingénieurs décident alors de développer un moteur « from scratch » afin de répondre aux besoins analytiques modernes. « L’architecture de Snowflake est très innovante dans le sens où une base de données traditionnelle a un système de stockage, un système de protection, un système transactionnel, etc. Une même machine va avoir l’interface pour les clients, le compilateur, l’injecteur de métadata, la gestion des Buffer Caches, le Query Processing, la gestion des transactions, le tout dans la même boîte. Pour « scaler » une telle architecture, il faut répliquer cette boîte. L’architecture que nous avons imaginé pour Snowflake, c’est de prendre chacune de ces composantes et les exploser de manière horizontale sur plusieurs boîtes. Le système de stockage peut être explosé sur de multiples boîtes pour accéder à S3, de même que le système de Query Processing qui est réparti sur plusieurs clusters, idem pour la gestion des utilisateurs, la gestion des sessions, etc. »

Forts de cette architecture de type Shared Data, les concepteurs affirment pouvoir offrir des performances multipliées par 200 par rapport aux solutions traditionnelles et réduire le coût de stockage de 80 %. La solution fait beaucoup parler d’elle et de nombreuses entreprises ont tenté l’aventure Snowflake dont Adobe, Deliveroo, Capital One. Il est d’autant plus facile de vérifier que les promesses de Snowflake sont tenues que la solution est disponible sur de nombreuses régions AWS et que la start-up distribue généreusement les crédits d’usage.

Parmi les sources potentielles de données de Microsoft Power BI, les multiples services de stockage de données supportés par Azure.

Une architecture type d’alimentation d’un Data Warehouse Redshift sur Amazon Web Services.

SQL, même pas mort !

Né dans les années 70 – une éternité dans l’échelle de temps de l’informatique – le SQL semblait être amené à disparaître au moment de l’apparition de la nouvelle génération des bases de données NoSQL. Pourtant, ce bon vieux SQL est toujours bien présent dans les architectures décisionnelles et les solutions analytiques de nouvelle génération telles que Tableau ou Qlik s’appuient toujours sur le langage fossile pour requêter les sources de données. De plus, la disponibilité de bases de données SQL dans le Cloud ne fera que pérenniser sa présence dans le système d’information des entreprises à l’avenir, n’en déplaise à toutes les autres solutions NoSQL qui se clament plus performantes et mieux adaptées aux gros volumes de données.

C’est l’analyse de Vincent Heuschling, fondateur de la société de services spécialisée en Big Data et Machine Learning Affini-Tech : « Étant donné les performances obtenues aujourd’hui sur les bases de données SQL dans le Cloud, SQL ne va pas disparaître de sitôt. Cela-dit, la préaggregation au travers des schémas en étoile et les langages multidimensionnels pour faire de l’Olap auront beaucoup moins d’importance à l’avenir. » Alors qu’un traitement de plusieurs milliards de lignes ne prend que quelques secondes sur Snowflake ou BigQuery, la contrainte de structurer les données n’a plus lieu d’être.

SAP HANA a apporté les atouts du stockage in-memory auprès des utilisateurs de SAP BW.

2018, l’hybridation devient la règle

Si les start-up qui partent d’une feuille blanche vont privilégier d’emblée ce type de solutions innovantes, dans les autres entreprises, la coexistence entre les anciens et les modernes va donner naissance à des architectures parfois étonnantes. Il n’est pas rare de voir une entreprise mettre à disposition de ses analystes un self-service BI et dont les clients Power BI accèdent à des Datamarts stockés sur SQL Server eux-mêmes alimentés par le Data Lake de l’entreprise… Les lignes entre bases de données transactionnelles, Data Warehouse de la génération SQL et infrastructures Big Data sont en train de se brouiller. L’exemple de la percée du modèle de stockage in-memory dans le domaine du décisionnel en est certainement la preuve la plus évidente.

Cette technologie a été introduite sur le marché par Qlik. Désormais, tous les éditeurs l’ont intégrée à leurs bases de données et si beaucoup considèrent l’approche comme trop limitée en termes de volumétrie pour les grands Data Warehouse, avec HANA, SAP a démontré la pertinence de l’approche auprès des utilisateurs de SAP BW. SAP exploite désormais l’in-memory sur le transactionnel, offrant une alternative performante au relationnel classique pour faire de l’OLTP.

Après cette nouvelle génération cloud, peut-être que les ordinateurs photoniques de demain tels que les imagine HPE, des machines équipées de milliers de Yottaoctets de mémoire memristor signeront l’essor d’une nouvelle génération de Data Warehouse 100 % temps réel. Rendez-vous dans dix ans pour la prochaine révolution  !


« Tous les moteurs actuels  sont basés sur le même ADN »
Thierry Cruanes, co-fondateur et architecte de Snowflake Computing.

« L’idée classique du Data Warehouse, c’est qu’il y a les bases de données du monde transactionnel d’un côté et le Data Warehouse de l’autre, ce dernier étant essentiellement destiné à historiser les données des systèmes transactionnels. Cette approche a aujourd’hui complètement explosé car à l’ère du Cloud, il n’y a plus un système de production unique, il y en a cent. Dans le Cloud, il n’y a pas un partenaire qui gère l’ensemble de vos données, il y en a cent avec des systèmes très différents. Le Data warehouse doit être beaucoup plus puissant mais aussi beaucoup plus flexible. Nous sommes en avance sur le marché car nous ne sommes pas partis d’un système existant. Tous les moteurs des bases de données actuelles ont le même ADN. Toutes sont basées sur une même architecture Shared Nothing. Nous sommes les seuls à avoir eu le courage de faire cela. »


« Le gagnant de la guerre SQL vs NoSQL est… le NewSQL ! »
Stephen Brobst, Chief Technology Officer de Teradata.

« Il y aura toujours des challengers qui viendront sur le marché, c’est le cas de Google avec BigQuery, qui est une base NoSQL qui a ses cas d’usage, mais qu’en est-il du workload management, qu’en est-il de la plate-forme ? Nous devons continuer à innover afin de rester en tête. Si nous étions restés une base de données SQL seulement, nous aurions aujourd’hui perdu notre avantage compétitif. Nous sommes allés vers ce que j’appellerai une plate-forme NewSQL. Le gagnant de la guerre SQL contre NoSQL qui a agité les experts de la Silicon Valley ces dernières années, c’est le NewSQL ! C’est le SQL mais avec des capacités issues des bases NoSQL et nous sommes aujourd’hui impliqués à 100 % dans cette approche. Nous avons introduit R sur notre plate-forme, de même que Python, JsonPath, le Json Binding pour les données, etc. Nous n’introduisons pas seulement le support de ces langages, mais aussi le support de moteurs de traitement, dont Tensor Flow en est l’exemple. »


« On assiste à un changement de paradigme dans l’utilisation du Data Warehouse »
Gaëtan Mauguin, chef de produit senior Data Microsoft.

« La disruption que l’on commence à voir apparaître actuellement, c’est l’arrivée de véritables applications et pas uniquement de la Data Viz qui viennent chercher des informations dans les Data Warehouse. Ainsi, cet avionneur dont les avions sont équipés de capteurs et toutes les données générées par ces capteurs sont mises à la disposition de leurs clients via une application, et ce en temps réel, ce qui permet d’adapter l’exploitation de l’appareil en fonction de son comportement en vol. On voit beaucoup cette approche dans l’industrie afin de détecter des anomalies dans la production non plus seulement au moment où l’on analyse les données a posteriori, mais en temps réel via une application qui va générer des alertes afin d’apporter des corrections immédiatement dès qu’une dérive apparaît dans les mesures. Il s’agit d’un vrai changement de paradigme dans l’utilisation du Data Warehouse. SQL Data Warehouse dans Azure peut ainsi être attaqué par les applications sous forme d’API, de même que Transact-SQL permet la création de procédures stockées qui vont faire appel à des moteurs d’IA qui ont été préalablement entrainés. »


« Le Data Warehouse classique,  et notamment son étage ETL, est aujourd’hui remis en cause par des métiers »
Vincent Heuschling, PDG fondateur d’Affini-Tech.

« Je ne sais pas si le Data Warehouse classique n’a plus d’avenir, mais les entreprises ont besoin de data warehouse moderne, c’està-dire de données stockées sur un axe temporel et de support de l’omnicanalité pour les métiers. Le Data Warehouse classique et notamment leur étage ETL est aujourd’hui remis en cause par des métiers qui veulent disposer de reporting dans des délais extrêmement courts. Les chaînes d’ingestion de données doivent être en quasi-temps réel si bien que c’est la donnée opérationnelle qui va être structurée et utilisée pour le reporting. De plus, les entreprises doivent aujourd’hui intégrer une multiplicité de données dans cette vision alors que dans beaucoup d’organisations, le Data Warehouse reste limité à un domaine d’activité bien précis. La donnée y reste enfermée dans le paradigme de la requête SQL alors que les algorithmiques complexes que l’on souhaite aujourd’hui appliquer aux données, notamment le Machine Learning, obligent à extraire la donnée du Data Warehouse pour la mettre dans un Data Lake pour appliquer ce type de traitements pour finalement réinjecter dans le Data Lake les informations générées. »
Print
3953
Tags:cloud

x
Rechercher dans les dossiers
Actuellement à la Une...
La plateforme de codes rachetée par Microsoft lance un outil permettant à tout-un-chacun de soutenir financièrement les développeurs de projets open source.

Panasonic, ARM ainsi que des opérateurs britanniques et japonais ont décidé de couper toutes relations avec le géant chinois. Si la perte d’Android semblait catastrophique, le retrait d’ARM a lui des airs d’apocalypse.

Accusé par la FTC de violations des règles antitrust, Qualcomm vient de perdre son procès en première instance. La juge estime que le fabricant nuit à la concurrence et exige qu’il corrige le tir, en abandonnant par exemple les clauses d’exclusivité ou encore en cessant de menacer ses co-contractants de leur couper l’approvisionnement en puces.

À l’image des sites de rencontre, les plates-formes de recrutement spécialisées dans l’IT promettent une mise en relation « sélective » et « qualitative » entre les recruteurs et les candidats. Un matching particulièrement bénéfique pour le recrutement des développeurs, en évitant la sur-sollicitation des candidats et les errements des recruteurs. Tour d’horizon de ces outils complémentaires aux Monster et autres LinkedIn. Article paru dans L'Informaticien n°176.

L’annonce du partenariat entre Qwant et Microsoft en a choqué plus d’un. Que le moteur de recherche européen, qui s’est construit autour de l’opposition avec les GAFAM, se rapproche du géant américain et annonce partager une même vision « d’un Internet ouvert et responsable », ça surprend…

Voici donc que s’avance la dernière mise à jour majeure de Windows 10. La précédente, version 1809, avait fait largement parler d’elle suite à une succession de bugs interrompant son déploiement. Six mois plus tard, Microsoft progresse prudemment.

La semaine dernière, une base contenant les données, y compris privées, de millions d’influenceurs Instagram était découverte. Un chercheur rapporte désormais que les numéros de téléphone et adresses mail, supposément privés, pouvaient être exfiltrés du réseau social. Mais l’entreprise propriétaire de cette base nie avoir obtenu ces données par des biais « non éthiques ».

Google fait l’objet d’une nouvelle enquête. Cette fois-ci, l’homologue irlandaise de la Cnil va se pencher sur les pratiques du géant en ce qui concerne les transactions publicitaires et leur conformité aux dispositions du RGPD.

La grande vague du « As a Service » s’intéresse aussi aux PC. Dignes héritiers du VDI en entreprise, de nombreux services de type « Desktop as a Service » (DaaS) sont proposés aux entreprises, mais l’économie du Cloud s’appuie encore sur le poste client dont le TCO est plus ou moins maîtrisé. Article paru dans L'Informaticien n°176.

La version 8.5 du Tor Browser vient de sortir et, pour la première fois, elle est accompagnée d’une mouture stable pour Android. Disponible via le Play Store, elle comprend la majeure partie des fonctionnalités du navigateur desktop, quoique Tor Project reconnaisse qu’il existe encore des lacunes.

Toutes les News

LIVRES BLANCS

Les datacenters sont au coeur de l'informatique des entreprises et leur parfaite fiabilité et disponibilité sont donc indispensables. Chaque arrêt de fonctionnement impacte l'image de l'entreprise et peut engendrer des pertes de revenus considérables. Les chercheurs de Rosenberger OSI ont développé en première mondiale une technologie de nettoyage issue de la botanique et plus précisément du lotus.


L’Intelligence Artificielle promet de révolutionner la perception de la cybersécurité au coeur des entreprises, mais pas uniquement. Ce changement de paradigme engage, en effet, une redéfinition complète des règles du jeu pour les DSI et les RSSI, ainsi que l’ensemble des acteurs de la sécurité.


Lorsque l'on déploie des postes de travail, ils ont généralement tous la même configuration matérielle et logicielle (avec certaines spécificités selon les services). Mais on ne peut pas toujours tout prévoir et il arrive par exemple que de nouveaux programmes doivent être installés ou n’aient pas été prévus. L’accumulation de logiciels « lourds » est susceptible de provoquer des lenteurs significatives sur un PC allant jusqu’à l’extinction nette de l’application. Ce livre blanc explique comment optimiser les performances au travers de 5 conseils rapides à mettre en place.


Ce guide est conçu pour aider les entreprises à évaluer les solutions de sécurité des terminaux. Il peut être utilisé par les membres de l'équipe de réponse aux incidents et des opérations de sécurité travaillant avec des outils de sécurité des points finaux sur une base quotidienne. Il peut également être utilisé par les responsables informatiques, les professionnels de la sécurité, les responsables de la conformité et d’autres personnes pour évaluer leurs performances. les capacités de l’entreprise en matière de cybersécurité, identifier les lacunes dans la sécurité des terminaux et sélectionner les bons produits pour combler ces lacunes.


Au cours de l'année 2018, VansonBourne a mené une enquête pour le compte de Nutanix afin de connaître les intentions des entreprises en matière d'adoption de clouds privés, hybrides et publics.

 


Tous les Livres Blancs