Big Data : Marché • Technologies • Retours d’expérience

Un dossier réalisé par Bertrand Garé et Alain Clapaud paru dans le magazine L'Informaticien n°175. SI LE BRUIT FAIT AUTOUR DU BIG DATA A UN PEU DIMINUÉ, C’EST AUSSI PARCE QU’IL A FRANCHI DE NOUVELLES ÉTAPES VERS DES UTILISATIONS PLUS MATURES DE LA TECHNOLOGIE. ET QUE LES CAS D’UTILISATION SE TOURNENT MAINTENANT VERS DES ANALYSES SUR LES DONNÉES COLLECTÉES EN MASSE AVEC L’INTELLIGENCE ARTIFICIELLE. On en entend moins parler. Pourtant le Big Data est la pierre angulaire sur laquelle repose la nouvelle mode autour de l’Intelligence artificielle et de l’apprentissage machine. Sans lui les algorithmes n’ont pas assez de données à analyser ou pour apprendre et apporter des résultats satisfaisants. En fait, le Big Data est passé à une nouvelle étape, celui de la maturité et d’une forte présence dans les entreprises, au moins dans les grands comptes comme nous le précise Mohamed Mahdi Benaissa, architecte des solutions Big Data chez Umanis. Contrairement à ce que l’on peut penser devant le peu d’écho dans les gazettes, le Big Data exploserait même dans les grandes entreprises. Selon une étude du Dredsner Advisory Service, un cabinet d’analyste indépendant, l’utilisation du Big Data en entreprise serait passé de 17 à 59 % et connaîtrait un taux de croissance pondéré annuellement de 36 %. Seuls 10 % des entreprises ne prévoient pas d’utiliser le Big Data selon la même source. Le secteur connaît aussi une consolidation importante comme le démontre la fusion entre Hortonworks et Cloudera. Cette tendance devrait continuer devant les moyens à mettre en œuvre pour se placer sur ce marché. Si de jeunes pousses apparaissent, elles sont rapidement happées par plus gros qu’elles ; si leurs technologies sont réellement intéressantes. L’Open Source est d’ailleurs un vivier important de ces start-up qui se développent très rapidement pour être reprises par des acteurs plus importants du marché, dont les grands du net, ou GAFA. Les plus gros utilisateurs se retrouvent dans les secteurs des télécommunications, de l’assurance et de la publicité. Viennent ensuite la santé, les services financiers et la technologie. Les entreprises des secteurs de la fabrication, de la distribution, du gouvernement, et les institutions de l’enseignement supérieur sont les moins enclines à adopter le Big Data. Précisons toutefois qu’une majorité d’entre elles prévoit de l’adopter dans le futur. Globalement le marché des services proposés par les offreurs de Big Data s’est élevé à 57 milliards de dollars en 2017. Ce chiffre devrait atteindre 210 milliards à la fin de 2020. Les États-Unis et le continent nord-américain sont les premiers utilisateurs dans le monde devant l’Europe de l’Ouest. L’Asie, Japon inclus, ne vient qu’en 3e position. Ce continent devra faire des efforts s’il veut conserver cette place sur le podium car l’Amérique du Sud connaît la croissance la plus forte annuellement avec 16,6 % de croissance selon des chiffres fournis par Corp dans une infographie pour le salon Big Data Paris. L’industrie est le premier secteur consommateur de Big Data du fait d’une rapide montée en charge de l’Internet des Objets, devant la finance et la distribution. Ces deux derniers secteurs utilisent le Big Data pour des raisons différentes comme la détection de fraude pour l’un et l’optimisation de l’expérience du client dans l’autre. Cela a un impact sur les déploiements des projets et les environnements choisis avec une rapide montée en puissance des déploiements dans le Cloud. Plus globalement, selon une étude d’EBG, le Big Data est déployé pour trouver de nouvelles opportunités business (66 %) devant une meilleure connaissance du client (65 %) et l’amélioration de l’efficacité opérationnelle (59 %). Pour ce faire, les entreprises utilisent principalement les données en interne ou collectées en interne (86 %) devant les données de logs – seulement 46 % des entreprises déclarent en utiliser. Les données issues des réseaux sociaux et autres sources externes ne viennent qu’en troisième position. Ce que démontre ces chiffres cités plus haut, revient à dire tout simplement que l’on ne parle plus du Big Data en tant que tel car il est devenu la norme pour la plupart des grandes entreprises. Elles passent à autre chose désormais.

Le Big Data, pour quel bénéfice ?

Une étude Unravel Data et Sapio Research indique que 74 % des entreprises espèrent tirer profit d’applications de Big Data d’ici à la fin de 2019.  Elles semblent très optimistes. En 2018, seules 12 % des entreprises percevaient des bénéfices à l’utilisation du Big Data. Le principal frein serait le manque de compétence et d’expérience sur le sujet. Plus de 80 % d’entreprises interrogées estiment que leur stack Big Data n’est pas encore optimale. Plus généralement, les entreprises semblent avoir du mal à faire leur mue culturelle pour devenir réellement conduites par l’analyse des données.  Le sondage 2019 Big Data and AI Executive Survey de NewVantage Partners révèle que la plupart des organisations échouent à tirer profit de leurs données. Cette étude a été menée auprès de 64 cadres de grandes entreprises comme American Express, Ford Motors, General Electric, General Motors ou encore Johnson & Johnson. Et 72 % des participants estiment qu’ils n’ont pas encore réussi à forger une culture de la donnée au sein de leur entreprise. De même, 69 % révèlent qu’ils n’ont pas encore créé une organisation s’appuyant sur les analyses de ces données.  Plus de la moitié des répondants (53 %) indiquent ne pas traiter les données pour en faire un atout métier et à peu près la même proportion ne se considère pas compétitif sur l’analyse de leurs données, et ce malgré un effort dans les investissements dans la grande majorité (92 %) des entreprises interrogées. Et 55 % d’entre elles indiquent que les investissements ont dépassé les 50 millions de dollars ! Malgré dix ans de pratique et de réflexion sur les technologies de Big Data, les entreprises sont encore à la recherche du nord magnétique en la matière et ont du mal à convertir ces outils en bénéfices. Les points les plus souvent mis en avant sur cet échec relatif : mauvais alignement entre les objectifs et les personnes et processus de l’entreprise, la résistance culturelle face au changement, haute hiérarchie de l’entreprise incluse.

Des technologies en évolution constante

Les technologies pour mettre en œuvre le big data n’ont plus rien à voir  avec celles qui l’ont porté sur les fonts baptismaux il y a une dizaine d’années. Retour sur ces évolutions et description de l’état de l’art aujourd’hui. Certains annonçaient la mort d’Hadoop et du Big Data. En réalité, c’est bien l’inverse dont il s’agit avec une évolution constante et une adaptation de la plate-forme aux besoins des utilisateurs. Mohamed Mahdi Benaissa le résume ainsi : « Hadoop a simplement changé d’identité. » Des traitements Map/Reduce de ses débuts, Hadoop a adapté sa plate-forme pour d’abord rendre les données plus interactives. C’est l’apparition des moteurs de requêtes comme Impala, qui réalisait la même chose que Hive (autre moteur de requête sur Hadoop), mais avec plus de réactivité. Dans la même veine, il existe AtScale (OLAP sur Hadoop) et LLAP (Live Long And Process). Les outils ajoutaient cet aspect interactif des données sur Hive. Maintenant les entreprises recherchent des traitements en temps réel. Ces traitements sont issus des applications qui se fondent sur l’Internet des Objets ou sur des cas où le facteur temps est essentiel comme la détection de la fraude. Le deuxième besoin vient de la possibilité d’analyser des données en flux. Streaming et temps réel ont donc fait évoluer l’écosystème d’Hadoop pour l’adapter à ces nouveaux besoins. On entend donc plus parler aujourd’hui de Spark, de Kafka ou même de Storm ou de NiFi – dont une version est devenue Hortonworks Data Flow – pour les plates-formes actuelles. L’évolution touche l’ensemble de la plate-forme. Les entreprises ont tout d’abord refondu les entrepôts de données qui étaient en place pour des « data lakes », puis se sont tournées ensuite vers des stockages peu onéreux dans le Cloud comme Glacier ou des stockages objets de type S3 ou analogues. Certains ont choisi des NAS évolutifs horizontalement comme Qumulo. Plus récemment, du fait des coûts qu’engendrent le stockage sur ces plates-formes, les entreprises reviennent vers une approche hybride combinant un Cloud privé et les opportunités du Cloud public. La couche supérieure de l’orchestrateur a aussi connu quelques chamboulements. À l’origine, Yarn, le gestionnaire des ressources sur la plate-forme Hadoop, n’était pas conçu pour supporter les traitements en temps réel ou en streaming. Les développeurs se sont donc tournés vers les containers et Kubernetes pour exécuter ce type de tâches. Les dernières versions d’Hadoop (3.1 et 3.2, encore en Beta) apportent quelques aménagements avec la possibilité de modifier et d’optimiser par l’ajout d’attributs sur les nœuds de gestion (node manager) pour gérer une exécution sur des machines spécifiques. D’autre part le projet Hadoop Submarine, présent dans la 3.2, permet d’exécuter des traitements d’apprentissage machine ou d’apprentissage (Tensorflow) profond directement sur Yarn. Son slogan est « du Edge au Cloud ». Quel que soit le moyen employé, les différents moteurs de traitement sur Hadoop correspondent chacun à des cas d’usage précis selon les besoins en temps de traitement, de latence, ou de volume des données à traiter. Une analyse précise est donc nécessaire pour bien choisir la plate-forme adéquate à l’adaptation des besoins du projet.

D’autres possibilités

Évidemment, il n’y a pas que Hadoop pour réaliser des projets de Big Data et nous avons commencé à l’évoquer lors des choix des plates-formes de stockage des données dans le Cloud. À la place de la plate-forme à l’Éléphant jaune, il est tout à fait possible d’utiliser un backend de stockage objet ou de scale-out NAS et d’y réaliser des traitements parallélisés sur les données pour obtenir des traitements analytiques. Microsoft, Google, AWS, IBM, Snowflake et bien d’autres l’autorisent aujourd’hui. Là encore les contraintes de latence, de temps de traitement et de coûts de la plateforme sont à prendre en compte avant de lancer le projet.

Ce que les utilisateurs attendent

Plus que les technologies, les utilisateurs de Big Data attendent certains choses de la plate-forme comme la possibilité d’intégrer les résultats des traitements dans d’autres applications. La plateforme doit de plus prendre en compte de nombreuses sources de données et des types de données différents. Des outils ou des plug-ins doivent simplifier les étapes de découverte ou d’exploration des données. Elle doit pouvoir supporter différents types de méthodes d’analyses. La plate-forme doit pouvoir s’adapter rapidement et suivre l’augmentation du volume des données tout en restant véloce et s’étendre en prenant en compte des données variables d’une source de données à l’autre. Ce dernier critère de variabilité devient d’ailleurs aujourd’hui plus important que le volume qui décrit la technologie. Cela doit permettre aussi à l’utilisateur de n’avoir à utiliser qu’une seule plate-forme pour son travail. Elle doit donc pouvoir s’intégrer facilement avec le reste du système d’information. Elle doit ainsi permettre de bien gérer les données tout en respectant les contraintes réglementaires ou de conformité à la loi comme le RGPD ou autres. La plate-forme doit être sécurisée en ce sens.

Des freins largement identifiés

Les principaux freins sont connus et restent cependant toujours présents. Le manque de ressources humaines et de spécialistes est toujours là et les data scientists ne se forment pas en un jour. Corp, dans son iconographie de présentation du Salon Big Data, parle d’un besoin de 130 000 emplois d’ici à 2020 pour des postes dont les salaires iraient de 45 000 à 65 000 € par an. Pas si mal aujourd’hui ! L’autre point noir – nous l’avons mis en exergue – porte sur la difficulté à convertir en bénéfice l’utilisation d’une plate-forme de Big Data. Les entreprises ont beaucoup de mal à identifier des retours sur investissements précis sur ces projets malgré les investissements lourds demandés. Un autre élément doit être pris en compte : l’impossibilité parfois d’expliquer les résultats des analyses en particulier dans l’utilisation de l’Intelligence artificielle créant ainsi une vision « boîte noire » qui fait reculer beaucoup de gens ou, tout du moins, renforce la résistance au changement face à ses technologies. À l’analyse, les données vont toujours continuer à grossir et si on ne parle plus de Big Data, c’est parce qu’il est devenu la normalité dans les entreprises. En dix ans, celles-ci le maîtrise de mieux en mieux même si tout n’est pas encore parfait.

Docker et Python pour la plateforme Data Science de BNP Paribas

Afin de fédérer ses initiatives Big Data, BNP Paribas Personal Finance s’est doté d’un datalab en 2017. Une cellule qui a fait le choix de développer sa propre plate-forme de data science en misant sur une approche 100% Python. Inauguré en 2017 à Paris, le DataLab de BNP Paribas Personal Finance compte aujourd’hui une vingtaine de personnes. À l’image des grands groupes internationaux, BNP Paribas Personal Finance, la branche spécialisée dans les financements aux particuliers s’est dotée d’un DataLab voici déjà plusieurs années. L’idée de cette structure a été émise en 2016 et le DataLab a été officiellement inauguré début 2017. Physiquement localisé à Paris, il compte actuellement une vingtaine de personnes, mais tous les Data Scientists n’y sont pas concentrés comme l’explique Jérémie Guez, responsable du DataLab : « Le parti pris a été de créer ce centre de compétences en Data Science avec des Data Scientists qui lui sont rattachés, mais aussi maintenir des Data Scientists auprès des métiers, principalement auprès du Marketing, de la gestion du Risque et des Opérations. » Directement rattaché à la DSI, ce pôle Data Science assume plusieurs missions. Il dispose de Data Scientists en propre qui mènent des projets pour les métiers qui ne disposent pas de ressources Big Data en propre. En outre, ceux-ci travaillent avec leurs alter egos dans les métiers en soutien sur tel ou tel projet si ceux-ci ont besoin de renforts. Ils interviennent également pour d’autres métiers qui ont moins de maturité ou pas la masse critique pour avoir besoin de Data Scientist permanents mais qui ont des données à analyser. Le but est de les faire gagner en maturité progressivement sur le Big Data. Enfin, sur les Data Sciences, le DataLab a pris le virage depuis un peu plus d’un an maintenant vers le traitement des données non structurées. « Même si nous faisions déjà beaucoup de Machine Learning avant, c’est le véritable début de l’Intelligence artificielle pour le DataLab », considère Jérémie Guez. « Pour moi, l’IA commence à partir du moment où l’on commence à s’intéresser à de la donnée non structurée, qu’il s’agisse de textes, d’images, de vidéos. Nous concentrons actuellement notre effort sur le volet compréhension du langage. » Enfin, la troisième activité du DataLab porte sur la problématique de la mise en production des modèles élaborés par les Data Scientists. La plate-forme mise en place permet de faire de l’exploration sur les données, mais un gros travail a été mené sur l’automatisation du flux de livraison des modèles et faire en sorte de déployer les modèles le plus rapidement possible dès lors que le modèle est validé.

Une plate-forme « maison » préférée aux solutions éditeurs

Étonnamment, plutôt que de se tourner vers l’un des (nombreux) éditeurs qui proposent des plates-formes Big Data, l’équipe de BNP Paribas Personal Finance a préféré bâtir sa propre plateforme de Data Science, Sparrow. Cette plate-forme est clé dans la stratégie Big Data de Personal Finance car c’est elle qui permet à tous les Data Scientists de BNP Paribas Personal Finance de travailler sur les données et de développer ses modèles analytiques. C’est un outil commun qui permet au DataLab d’évangéliser les métiers sur la Data et qui donne accès à tous les Data Scientists à des outils puissants. Jérémie Guez explique pourquoi ce choix de créer une plate-forme sur-mesure s’est imposé à BNP Paribas Personal Finance : « Initialement, c’est pour des raisons de sécurité que nous avons souhaité créer notre propre plateforme. Par ricochet, ce choix nous a permis de réaliser des économies et surtout d’être totalement indépendants dans nos choix vis-à-vis d’un éditeur de logiciel commercial qui aurait pu faire valoir sa propriété intellectuelle sur tel ou tel algorithme. » Ainsi, la banque garde une mainmise totale sur ses algorithmes et les packages mis à disposition de ses Data Scientists, en outre elle maîtrise totalement la sécurité des accès à ses données internes, stockées dans le Cloud privé BNP Paribas qui met en œuvre des infrastructures IBM.

Python s’est imposé sur la plate-forme

Au lancement du projet, les Data Scientists utilisaient essentiellement le langage R et le Python, mais l’équipe a décidé de capitaliser sur cette expertise Python si bien qu’aujourd’hui la plateforme est Full Python. Elle permet de développer les modèles en Python ou PySpark. En termes d’architecture technique, la plate-forme est 100 % en conteneurs Docker, ce qui permet à l’équipe du DataLab de proposer de multiples conteneurs à ses utilisateurs, en fonction de leurs besoins mais aussi de leurs préférences personnelles. « Nous leur offrons ainsi plusieurs écosystèmes de développement, selon que vous soyez un puriste qui préfère travailler en Shell avec un vim, ou le Data Scientist qui préfère les Jupyter Notebook, chacun peut avoir l’environnement de son choix en piochant dans les bons conteneurs. C’est particulièrement intéressant car notre plateforme s’adresse à différents profils de Data Scientists, et tout est parfaitement synchronisé. On peut commencer à développer un modèle en shell puis retrouver ce même modèle avec un autre outil. » L’équipe de Jérémie Guez travaille aujourd’hui à l’évolution de cette approche microservices en déployant Kubernetes. « Lorsque nous avons bâti cette infrastructure, nous ne nous attendions pas à un tel succès. A l’époque nous étions 5 utilisateurs puis 7, puis 10. Aujourd’hui nous en sommes à 200 utilisateurs. Tous ne sont pas actifs, tous ne sont pas des Data Scientists, des Data Analysts peuvent aussi réaliser des opérations sur la plate-forme. » La plate-forme bénéficie d’un GitLab privé qui permet d’offrir un écosystème IT et Data très complet aux Data Scientists et Data Analysts, notamment sur la thématique DevOps qui constitue une priorité pour ITG. Une priorité a été donnée sur le volet industrialisation des déploiements des modèles avec une chaîne d’intégration continue dans la lignée de ce que fait BNP Paribas dans le DevOps. L’architecture logicielle de la plate-forme de Data Science de BNP Paribas Personal Finance fait la part belle aux solutions open source. Elle s’appuie désormais essentiellement sur Python et Docker.

Le Data Lake, prochain chantier du DataLab Personal Finance

Actuellement, cette plate-forme Data Science n’est pas directement connectée à un Data Lake. Les données sont stockées dans les Data Warehouse historiques de BNP Paribas et l’accès aux données est un processus très cadré par le service juridique. « Nous sommes en train de construire notre Data Lake et c’est l’un de nos grands chantiers pour ce premier trimestre 2019. Demain, le Data Lake pourra, par construction, collecter les données à destination de plusieurs services, dont notre plate-forme Data Science mais aussi un service de Business Intelligence, de Data Visualization, etc. C’est cette capacité à pouvoir délivrer des données à de multiples services qui nous demande un peu plus de temps d’implémentation. Le principal frein, c’est de trouver le juste équilibre entre des technologies qui évoluent encore très vite et une DSI qui doit délivrer des services robustes. » Désormais, c’est sur le traitement du langage que l’équipe de Jérémie Guez compte faire prendre de l’avance à BNP Paribas Personal Finance. Alain Clapaud

Maisons du Monde ou la dataviz pont entre data et métiers

L’enseigne d’ameublement et de décoration mène une stratégie data ambitieuse. Après la création d’un data lake et d’une équipe data unifiée, celle-ci cherche à placer le pouvoir de la donnée entre les mains des experts métier. Maisons du Monde est l’une des entreprises françaises citées en exemple par Google pour sa stratégie Big Data. L’enseigne s’est doté depuis trois ans maintenant d’un Data Lake dans le Cloud. La direction de la stratégie Data du groupe est désormais assurée par Karim Louedec, ancien responsable de la Data Science du groupe M6. « Lorsque je suis arrivé à la tête de l’équipe Data de Maisons du monde, voici un peu plus d’un an, celle-ci comptait quatre personnes. Nous sommes aujourd’hui 25 avec une équipe Data unique pour toute l’entreprise, ce qui nous donne la capacité d’aller vite et d’être efficaces vis-à-vis des métiers. »

La stratégie Data s’est peu à peu étendue aux métiers de l’enseigne

Maisons du Monde dispose d’un certain recul sur sa stratégie Big Data puisque son Data Lake, porté par le Cloud Google est en production depuis plusieurs années maintenant. Celui-ci met notamment en œuvre les briques Compute Engine, BigQuery, Data Storage, Dataproc, CloudML et Tensorflow du GCP. « À mon arrivée, le Data Lake était déjà en place, les process d’alimentation et de réconciliation des données fonctionnaient déjà. Il fallait passer à la mise en place des use cases. Aujourd’hui, nous avons une dizaine de Data Scientists qui développent en Python en s’appuyant sur diverses technologies présentes sur la Google Cloud Platform afin de mettre en œuvre la stratégie Data de Maisons du monde. »

Business Intelligence et Big Data convergent sur une seule équipe

Sur ce volet DataViz, Maisons du Monde a fait le choix de Qliksense, une solution souvent déployée pour des besoins décisionnels et qui s’est montrée suffisamment performante lors d’un POC (Proof Of Concept) sur un cas d’usage Data pour devenir l’interface de DataViz de Maisons du Monde. « Nous avons challengé cette solution et il s’est avéré qu’elle répondait bien à notre besoin. Plutôt que d’aller vers des outils DataViz Open Source plus spécialisés comme D3.js, nous avons préféré rester sous Qlik Sense. Notre vision est, qu’à terme, les dashboards ne seront plus créés par l’équipe Data, mais par les équipes métiers directement. » Avant d’arriver à cela, un gros effort de formation doit être mené auprès des métiers pour que ceux-ci maîtrisent suffisamment l’outil. De plus, l’équipe Data doit réaliser un gros travail de mise à disposition de la donnée dans un guichet unique. Alain Clapaud

« La DataViz est le moyen de créer le lien entre Data et métiers »

Karim Louedec, directeur Data du groupe Maisons du Monde « Quand on mène une stratégie Data dans une entreprise qui a 23 ans d’existence, comme c’est le cas de Maisons du Monde, il est nécessaire de montrer aux métiers que le travail des Data Engineers et Data Scientists vise avant tout à mettre en place des leviers nouveaux pour créer de la valeur.  La DataViz est le moyen de créer le lien entre Data et métiers. »

Seb étend sa stratégie Big Data à l'IoT et aus applications «industrie 4.0»

Le fabricant de petit électroménager capitalise sur son savoir-faire en Big Data pour exploiter les données issues de ses produits et  applications mobiles. Ses données sont de plus en plus connectées comme, désormais, les données de ses sites de production. En pleine accélération digitale, le groupe SEB a fait de la Data l’un des piliers de sa transformation. Le champion français du petit électroménager estime en effet stratégique de maîtriser en interne la Data. Bernard Loiseau, responsable du domaine Data au sein de la DSI du Groupe explique pourquoi cette stratégie vient s’inscrire « dans une démarche visant à connecter tous les foyers consommateurs de produits du Groupe dans le monde. La Data doit nous permettre de mieux connaître nos consommateurs en captant des données sur nos sites, nos applications mobiles, mais aussi directement sur nos produits, dans le respect de la réglementation sur la vie privée, bien évidemment ». À l’image de son emblématique assistant culinaire Cookeo, le groupe connecte de plus en plus de ses produits et collecte des données relatives aux usages de ses clients. Outre la plate-forme Big Data elle-même, l’IT du groupe a insufflé les méthodes agiles dans sa gestion de projets afin de travailler en commun avec les métiers et va de plus en plus vers le déploiement continu et vers l’esprit DevOps. SEB dispose d’un Data Lake qui est opérationnel depuis deux ans et a créé un DataLab l’an dernier. Techniquement, ce Data Lake s’appuie essentiellement sur des solutions open source et sur la distribution Cloudera d’Hadoop. Il est aujourd’hui hébergé dans le Data Center SEB en mode on-premise, même si le responsable n’exclut pas de recourir au Cloud à l’avenir sur certains services, alors que les usages de la Data sont en train de se diversifier dans le groupe. « Nous avons déjà des produits connectés qui communiquent par Bluetooth via les tablettes et smartphones, mais demain la prochaine génération de nos produits sera connectée directement. L’IoT nous ouvrira de nouvelles opportunités, qu’il s’agisse de SAV produits ou de nouveaux services associés tels que la recommandation de recettes pour les utilisateurs de Cookeo. »

SEB capitalise sur ses compétences Data pour aller vers l’Industrie 4.0

S’il mène un gros travail sur le marketing consommateur, le groupe SEB conduit en parallèle une importante stratégie industrielle afin d’aller vers les concepts de l’industrie 4.0, l’usine du futur. Le groupe possède une quarantaine d’usines dans le monde, dont une dizaine en France avec de processus de fabrication et de maturité vis-à-vis de la Data très différents. « Notre stratégie est de fournir à ces sites une offre de services Data qui s’appuie sur les mêmes infrastructures et les mêmes outils car, finalement, si les algorithmes sont différents, ce sont souvent les mêmes outils qui peuvent être mis en œuvre. » L’équipe Data propose actuellement trois solutions aux sites industriels du groupe : d’une part une capacité à visualiser les données en temps réel grâce à des protocoles et technologies de streaming telles que Kafka et MQTT, de l’analyse de performance « à froid » permettant de vérifier des réglages et de les ajuster. Enfin, un service de consulting interne permettant de répondre à des problématiques ad hoc nécessitant beaucoup de manipulations de données et le recours au Machine Learning. « Nous avons capitalisé la maturité que nous avons acquise sur la donnée consommateur afin de nous pencher sur des problématiques industrielles. La direction de la performance industrielle et les managers de site sont extrêmement demandeurs pour des solutions Data qui leur permettent d’optimiser les temps de cycle, réduire les taux de rebus et, demain, aller vers la maintenance prédictive. » Alain Clapaud