X

BIGDATA#4 : Des technologies en évolution constante

Les technologies pour mettre en œuvre le big data n’ont plus rien à voir  avec celles qui l’ont porté sur les fonts baptismaux il y a une dizaine d’années. Retour sur ces évolutions et description de l’état de l’art aujourd’hui.

Certains annonçaient la mort d’Hadoop et du Big Data. En réalité, c’est bien l’inverse dont il s’agit avec une évolution constante et une adaptation de la plate-forme aux besoins des utilisateurs. Mohamed Mahdi Benaissa le résume ainsi : « Hadoop a simplement changé d’identité. » Des traitements Map/Reduce de ses débuts, Hadoop a adapté sa plate-forme pour d’abord rendre les données plus interactives. C’est l’apparition des moteurs de requêtes comme Impala, qui réalisait la même chose que Hive (autre moteur de requête sur Hadoop), mais avec plus de réactivité. Dans la même veine, il existe AtScale (OLAP sur Hadoop) et LLAP (Live Long And Process). Les outils ajoutaient cet aspect interactif des données sur Hive. Maintenant les entreprises recherchent des traitements en temps réel. Ces traitements sont issus des applications qui se fondent sur l’Internet des Objets ou sur des cas où le facteur temps est essentiel comme la détection de la fraude. Le deuxième besoin vient de la possibilité d’analyser des données en flux. Streaming et temps réel ont donc fait évoluer l’écosystème d’Hadoop pour l’adapter à ces nouveaux besoins. On entend donc plus parler aujourd’hui de Spark, de Kafka ou même de Storm ou de NiFi – dont une version est devenue Hortonworks Data Flow – pour les plates-formes actuelles.

L’évolution touche l’ensemble de la plate-forme. Les entreprises ont tout d’abord refondu les entrepôts de données qui étaient en place pour des « data lakes », puis se sont tournées ensuite vers des stockages peu onéreux dans le Cloud comme Glacier ou des stockages objets de type S3 ou analogues. Certains ont choisi des NAS évolutifs horizontalement comme Qumulo. Plus récemment, du fait des coûts qu’engendrent le stockage sur ces plates-formes, les entreprises reviennent vers une approche hybride combinant un Cloud privé et les opportunités du Cloud public. La couche supérieure de l’orchestrateur a aussi connu quelques chamboulements. À l’origine, Yarn, le gestionnaire des ressources sur la plate-forme Hadoop, n’était pas conçu pour supporter les traitements en temps réel ou en streaming. Les développeurs se sont donc tournés vers les containers et Kubernetes pour exécuter ce type de tâches. Les dernières versions d’Hadoop (3.1 et 3.2, encore en Beta) apportent quelques aménagements avec la possibilité de modifier et d’optimiser par l’ajout d’attributs sur les nœuds de gestion (node manager) pour gérer une exécution sur des machines spécifiques. D’autre part le projet Hadoop Submarine, présent dans la 3.2, permet d’exécuter des traitements d’apprentissage machine ou d’apprentissage (Tensorflow) profond directement sur Yarn. Son slogan est « du Edge au Cloud ».

Quel que soit le moyen employé, les différents moteurs de traitement sur Hadoop correspondent chacun à des cas d’usage précis selon les besoins en temps de traitement, de latence, ou de volume des données à traiter. Une analyse précise est donc nécessaire pour bien choisir la plate-forme adéquate à l’adaptation des besoins du projet.

D’autres possibilités

Évidemment, il n’y a pas que Hadoop pour réaliser des projets de Big Data et nous avons commencé à l’évoquer lors des choix des plates-formes de stockage des données dans le Cloud. À la place de la plate-forme à l’Éléphant jaune, il est tout à fait possible d’utiliser un backend de stockage objet ou de scale-out NAS et d’y réaliser des traitements parallélisés sur les données pour obtenir des traitements analytiques. Microsoft, Google, AWS, IBM, Snowflake et bien d’autres l’autorisent aujourd’hui. Là encore les contraintes de latence, de temps de traitement et de coûts de la plateforme sont à prendre en compte avant de lancer le projet.

Ce que les utilisateurs attendent

Plus que les technologies, les utilisateurs de Big Data attendent certains choses de la plate-forme comme la possibilité d’intégrer les résultats des traitements dans d’autres applications. La plateforme doit de plus prendre en compte de nombreuses sources de données et des types de données différents. Des outils ou des plug-ins doivent simplifier les étapes de découverte ou d’exploration des données. Elle doit pouvoir supporter différents types de méthodes d’analyses. La plate-forme doit pouvoir s’adapter rapidement et suivre l’augmentation du volume des données tout en restant véloce et s’étendre en prenant en compte des données variables d’une source de données à l’autre. Ce dernier critère de variabilité devient d’ailleurs aujourd’hui plus important que le volume qui décrit la technologie. Cela doit permettre aussi à l’utilisateur de n’avoir à utiliser qu’une seule plate-forme pour son travail. Elle doit donc pouvoir s’intégrer facilement avec le reste du système d’information. Elle doit ainsi permettre de bien gérer les données tout en respectant les contraintes réglementaires ou de conformité à la loi comme le RGPD ou autres. La plate-forme doit être sécurisée en ce sens.

Des freins largement identifiés

Les principaux freins sont connus et restent cependant toujours présents. Le manque de ressources humaines et de spécialistes est toujours là et les data scientists ne se forment pas en un jour. Corp, dans son iconographie de présentation du Salon Big Data, parle d’un besoin de 130 000 emplois d’ici à 2020 pour des postes dont les salaires iraient de 45 000 à 65 000 € par an. Pas si mal aujourd’hui ! L’autre point noir – nous l’avons mis en exergue – porte sur la difficulté à convertir en bénéfice l’utilisation d’une plate-forme de Big Data. Les entreprises ont beaucoup de mal à identifier des retours sur investissements précis sur ces projets malgré les investissements lourds demandés. Un autre élément doit être pris en compte : l’impossibilité parfois d’expliquer les résultats des analyses en particulier dans l’utilisation de l’Intelligence artificielle créant ainsi une vision « boîte noire » qui fait reculer beaucoup de gens ou, tout du moins, renforce la résistance au changement face à ses technologies.

À l’analyse, les données vont toujours continuer à grossir et si on ne parle plus de Big Data, c’est parce qu’il est devenu la normalité dans les entreprises. En dix ans, celles-ci le maîtrise de mieux en mieux même si tout n’est pas encore parfait.

Cet article est paru dans le dossier Big Data de L'Informaticien n°175.



Inscription gratuite à la newsletter de L'Informaticien.


Noter cet article (de 1 = Nul à 5 = Excellent) Valider
Autres infos Big Data

GitLab

GitLab

Solution libre de « forge » pour le dépôt de code basé, tout comme GitHub, sur le gestionnaire de versions Git, GitLab continue son ascension. Il offre une solution intégrant parfaitement...

20 TECHNOS

20 TECHNOS

Dossier réalisé par Bertrand Garé et Guillaume Périssat avec Michel Chotard, Alain Clapaud et Bastien Lion.

CI/CD as a Service

CI/CD as a Service

L’intégration et la livraison continues sont des composantes fondamentales de la démarche DevOps. Toutefois, alors que les pipelines doivent prendre en compte les nouvelles architectures – conteneurs notamment –,...

Disque dur

Disque dur

Bousculé par la vitesse des mémoires Flash, le disque dur semble condamné. Pourtant, la demande en capacité ne faiblit pas, au contraire, elle s’envole, portée par les besoins infinis du Cloud…

RSS
Afficher tous les dossiers

BASES DE DONNÉES : le DBaaS va tout balayer - Gestion de l'information : structurer le non structuré ! - Municipales : la politique se numérise, le numérique se politise - Cybersécurité : les planètes Cyber alignées ! - DevOps : WevAssembly, langage assembleur du Web - AMP confié à OpenJS - Pénurie des formations IA - À la recherche de nouvelles compétences IT...

 

20 TECHNOS pour 2020 et au-delà... : multicloud, rpa, edge&fog, apis, quantique... - La transfo numérique exemplaire d'une PME industrielle - BYOK : chiffrer le Cloud - L'Open Source teinté d'Orange - Mettre de l'intelligence dans l'APM - Le disque dur fait de la résistance - CI/CD as a Service - Digital Campus, n°1 des écoles du numérique...

 

L'IA AU COEUR DES MÉTIERS : retours d'expérience Cemex, Lamborghini, Decathlon, HSBC - Google Cloud Platform : tout sur la migration ! - Edge Computing, chaînon manquant - Cybersécurité : lutter contre l'ennemi intérieur - Ansible, outil de prédilection des DevOps - Docker, de Montrouge à la roche tarpéienne...

 

Afficher tous les derniers numéros

Découvrez dans ce livre blanc, les avantages des toutes nouvelles solutions NETGEAR, pour simplifier et rentabiliser vos déploiements, et gérer votre réseau à distance, où que vous soyez, au bureau ou en télé-travail.


OneTrust est une plateforme logicielle innovante de gestion de la confidentialité, de la sécurité des données personnelles et des risques fournisseurs. Plus de 4 000 entreprises ont choisi de faire confiance à cette solution pour se conformer au RGPD, au CCPA, aux normes ISO 27001 et à différentes législations internationales de confidentialité et de sécurité des données personnelles.

OneTrust vous propose de télécharger le texte officiel du Règlement Général sur la Protection des Données (RGPD). Vous aurez également la possibilité de recevoir la version imprimée de ce texte, sous forme de guide pratique au format A5, spiralé, en complétant le formulaire.


Le présent guide d'achat vous aidera à améliorer l'efficacité de votre cloud hybride, en mettant l'accent sur les stratégies de gestion des données dédiées aux applications correspondantes.


Les entreprises et les organismes publics se focalisent aujourd’hui sur la transformation numérique. En conséquence, les DevOps et l’agilité sont au premier plan des discussions autour des stratégies informatiques. Pour offrir ces deux avantages, les entreprises travaillent de plus en plus avec les fournisseurs de services de cloud public et développent désormais des clouds sur site à partir d’une infrastructure qui répond à trois exigences de base:
1. Agilité sans friction des ressources physiques
2. Systèmes de contrôle optimisant l'utilisation des ressources physiques et offrant un retour sur investissement maximal
3. Intégration des divers composants de l'infrastructure pour un provisionnement et une gestion des ressources automatisés.


Pour fonctionner, votre entreprise doit pouvoir compter sur une solution de sauvegarde efficace, essentielle dans un monde marqué par une croissance exponentielle des données. Vous devez à la fois accélérer vos sauvegardes et pouvoir y accéder plus rapidement pour satisfaire les exigences actuelles de continuité d’activité, disponibilité, protection des données et conformité réglementaire. Dans cette ère de croissance effrénée, les cibles sur bande hors site et autres approches traditionnelles sont simplement dépassées.


Tous les Livres Blancs
Derniers commentaires
Le président brésilien Jair Bolsonaro lors d'une conférence de presse sur le coronavirus à Brasilia le 20 mars 2020Twitter a supprimé dimanche deux tweets provenant du compte officiel du président brésilien Jair Bolsonaro dans lesquels il remettait en cause le confinement décidé pour lutter contre le coronavirus, car il avait "enfreint les règles" de ce réseau social. [Lire la dépêche...]

Les utilisateurs des réseaux sociaux préfèrent souvent mettre en avant les contenus susceptibles d'être largement Facebook et les autres réseaux sociaux savaient que 2020, avec la présidentielle américaine, allait être une année à risque en matière de désinformation. Mais la pandémie de coronavirus a ouvert un autre front aux conséquences potentiellement mortelles.   [Lire la dépêche...]

La page d'accueil du réseau social hyperlocal Nextdoor, est devenu central dans la vie de certains quartiers où les habitants sont confinés à cause de la pandémie, le 27 mars 2020 à Washington Le réseau social ultra local Nextdoor, qui met en relation les habitants d'un même quartier, déborde soudain d'offres pour s'entraider entre voisins, des courses à faire pour les personnes âgées aux chiens à promener. [Lire la dépêche...]

Le Conseil d’État  consacre la victoire de Google sur la Cnil à propos du droit à l'oubli des internautes, reconnaissant que celui-ci ne s'appliquait pas hors d'EuropeLe Conseil d’État a consacré vendredi la victoire de Google sur la Cnil à propos du droit à l'oubli des internautes, reconnaissant que celui-ci ne s'appliquait pas hors d'Europe, contrairement à ce que voulait le gardien français de la vie privée. [Lire la dépêche...]

Tablette pour suivre à distance l'état d'un patientSuivre à distance les malades angoissés, limiter les appels au samu, trouver des bras pour les hôpitaux débordés... Face au déferlement du coronavirus, la bataille passe aussi par des outils numériques, déployés à toute vitesse sur le territoire. [Lire la dépêche...]

Des étudiants et des professeurs de l'université de Zenica, en Bosnie centrale, fabriquent à l'aide d'imprimantes 3D des masques spéciaux, plus précisément les pare-visages qui sont gratuitement distribués dans les hôpitaux et les ambulances, au sein du laboratoire iDEAlab, le 25 mars 2020Une petite communauté a organisé en Bosnie, qui est loin de figurer parmi les leaders des nouvelles technologies, l'impression en 3D de masques destinés au personnel médical, en première ligne dans la lutte contre le nouveau coronavirus. [Lire la dépêche...]

La question revient régulièrement auprès des autorités et des géants des technologies: ne dispose-t-on pas d'outils informatiques d'analyse des données qui pourraient nous permettre de mieux anticiper, gérer et contrer la pandémie de coronavirus?La question revient régulièrement auprès des autorités et des géants des technologies: ne dispose-t-on pas d'outils informatiques d'analyse des données qui pourraient nous permettre de mieux anticiper, gérer et contrer la pandémie de coronavirus? [Lire la dépêche...]

Les services funéraires s'adaptent aux contraintes du confinement et proposent désormais aux Viennois endeuillés de suivre en direct sur internet la cérémonie de funérailles de leurs prochesLes services funéraires s'adaptent aux contraintes du confinement et proposent désormais aux Viennois endeuillés de suivre en direct sur internet la cérémonie de funérailles de leurs proches. [Lire la dépêche...]

Toutes les dépêches AFP
AgendaIT

READY FOR IT

La première édition de Ready For IT se déroule du 25 au 27 mai 2020 à Monaco (Grimaldi Forum) : conférences, keynotes, ateliers et rendez-vous one-to-one. Organisé par DG Consultants.

BIG DATA

Conférences et exposition sur le Big Data les 27 et 28 mai 2020 à Paris, Palais des Congrès de la Porte Maillot. Organisé par Corp Agency.

RSS
Voir tout l'AgendaIT
0123movie