Que deviennent les DataLabs ?

Lancés en pleine vague Big Data afin d’aider les organisations à entrer dans l’ère de la donnée, les DataLabs doivent aujourd’hui évoluer. Fini “ l’usine à poc ”, l’heure est au pragmatisme, à l’industrialisation des modèles d’IA et à leur intégration aux équipes agiles. Ce fut certainement le point d’orgue, au début de l’été, du Google Summit 2019. Amélie Oudéa-Castéra, responsable de l’e-commerce, de la Data et du digital chez Carrefour, montait sur scène afin d’annoncer l’ouverture d’un DataLab commun à Carrefour et Google. Situé symboliquement tout près de la Station-F, à Paris, cet espace d’innovation doit véritablement faire basculer le distributeur dans le siècle de la Data et des algorithmes. Une démarche plutôt tardive pour le géant français de la grande distribution alors que beaucoup d’acteurs du CAC-40 ont mis en place ce type de structure en pleine vague Big Data, dès 2012, notamment dans les grandes banques et chez les assureurs. Artefact, qui accompagne Carrefour dans la mise en place de son DataLab, a développé une bonne expérience dans ce domaine et a conseillé de nombreuses entreprises françaises dans cette démarche ces dernières années. « Nous avons commencé l’accompagnement des entreprises dans leurs projets DataLab avec Engie. Après la première phase de définition d’une stratégie et d’une roadmap des différents projets à mener, il a fallu mettre en place une organisation, les outils technologiques pour porter la donnée », explique Nikita Mestchersky, consultant senior chez Artefact. « Ce qui a pu changer des premiers projets de DataLab a été d’opérer ce passage aux méthodes agiles, mais aussi de quitter une “ vision poc ” et pouvoir faire enfin passer les projets à l’échelle. » En 2018, PSA a créé sa Data Factory au sein de sa Customer Digital Factory, sa cellule de développement agile située au cœur du site de production de Poissy (78). Une illustration du lien désormais étroit entre Data et agilité. Initialement mises en place pour défricher les nouvelles technologies Big Data ainsi que les nouveaux usages de la Data, ces petites cellules ont créé les premiers data lakes et mené les fameux proof of concept, tous ces démonstrateurs qui n’aboutissaient pas nécessairement en production. Une approche expérimentale qui a quelque peu altéré l’image de ces cellules auprès des métiers et de l’IT.

En finir avec l’image de “ l’usine à poc ”

Désormais, les PDG veulent des résultats et ceux-ci aiment à démontrer l’efficacité de leurs stratégies de transformation numérique en citant dans leurs discours le nombre de projets d’IA qu’ils ont mis en production. Quatre-vingts modèles d’IA en production à la Société Générale, dix-sept chez Generali France, sept chez Malakoff Mederic Humanis, les discours des dirigeants étaient très éloquents sur ce besoin de résultats lors de la récente conférence AI for Finance. Les technologies Big Data et d’IA sont plus matures et les équipes des DataLabs se sont étoffées. Celles-ci ne doivent plus seulement produire des poc, mais délivrer aux métiers des cas d’usage qui fonctionnent et qui sont surtout capables de monter en charge dans le contexte de la production IT de l’entreprise. Nikita Mestchersky ajoute : « Les cas d’usage seront bien évidemment différents de ceux de nos autres clients mais les méthodologies projet appliquées chez Carrefour héritent de nos projets antérieurs. Si, initialement, l’IA a été essentiellement appliquée dans les entreprises au marketing, ce n’est plus le cas aujourd’hui. Il ne faut pas dédier un DataLab à un besoin, à un métier particulier, mais bien définir un socle de gouvernance data au niveau groupe, avec une priorisation des cas d’usage des différents métiers mais également apporter une vision commune en termes d’outils technologiques. » Se débarrasser de l’image d’usine à poc est aujourd’hui le souci des responsables de ces structures. Ceux-ci sont désormais jugés non plus sur le nombre d’expérimentations menées, mais bien sur le nombre de projets qui aboutissent en production. Aldrick Zappellini, directeur Data et Analytics au Crédit Agricole affirme : « Il faut cesser d’avoir pour seule ambition de faire des poc. Notre DataLab a été créé en 2016 et le constat auquel nous sommes arrivés, c’est qu’il y a eu beaucoup d’expérimentations, or l’enjeu aujourd’hui n’est plus d’expérimenter mais de passer à l’échelle. Il faut viser des produits industriels dès le départ, ce qui implique des changements fondamentaux dans la façon de fonctionner. »

Quand le DataLab bascule dans une organisation agile

Ce changement fondamental d’approche, c’est le passage aux organisations agiles de ces structures. Les ressources du DataLab doivent travailler non plus à côté de la DSI et des métiers mais en intégration totale, au sein des mêmes équipes agiles. « Il faut mener des projets en mode squad dans lesquels l’ensemble des parties prenantes au futur passage en production devront être représentées », estime Aldrick Zappellini. « Cela signifie qu’il faut définir les métriques de performances avec les métiers qui diront s’il s’agit d’un succès ou non. Il faut que les choix de solutions qui sont faits pour construire ces solutions Data et IA permettent, in fine, de passer en production dans notre système d’information. » Dans un contexte d’agilité totale et où les métiers montent en puissance et disposent de plus en plus de leurs propres Data Scientists, le rôle d’un DataLab central au siège est quelque peu bousculé. Pour David Giblas, CDO de Malakoff Mederic Humanis, ce sont les métiers qui mènent les projets : « Ce sont les Business Units et les Product Owners [responsable du projet en terminologie agile] : c’est très important car ce sont eux qui sont responsables de la valeur du cas d’usage et de son déploiement à l’échelle. » En parallèle, l’assureur a mis en place une équipe centrale qui compte trente personnes à ce jour. Il s’agit de Data Engineers, d’architectes de données, de Data Scientists et d’experts en visualisation de données, des ressources qui sont réparties sur les cas d’usage sous la responsabilité de chaque Product Owner. Le modèle de delivery mis en place par Malakoff Mederic Humanis s’appuie donc sur les méthodes agiles et David Giblas veut privilégier la vitesse d’exécution : « Chaque cas d’usage devant être livré en moins de six mois par des “squads“ composés par les membres de l’équipe centrale, de la Business Unit, de l’IT et des ressources humaines. Ce dispositif doit livrer un MVP, pour Minimum Viable Product, que nous appelons en interne un “Minimum Viable Algo” et qui est ensuite itéré mois après mois. » Ce mode de fonctionnement a permis à l’assureur de délivrer sept cas d’usage qui sont aujourd’hui en ligne dans les domaines du marketing, du CRM, de la détection de fraude et dans la finance et l’actuaire. Lors du Google Cloud Summit 2019, Amélie Oudéa-Castéra, responsable de l’e-commerce, de la Data et du digital chez Carrefour, annonçait l’ouverture d’un DataLab avec le concours d’Artefact et Google. Même bascule vers une organisation agile à la MAIF comme l’explique Olivier Baes, responsable du DataLab de l’assureur : « Le datalab est intégré au sein de la tribu Data et il est très lié à la Data Factory, ou on trouve des squads orientés métier, des squads orientés socles techniques qui maintiennent les plates-formes et notamment notre Data Lake. » Installée au siège de la MAIF, cette structure repose sur un double sponsoring DSI/métiers et un manager responsable de la direction Pilotage, Tarification et Décisionnel. Un noyau de six ou sept personnes anime la structure en mode agile sachant que la MAIF a intégré cette structure dans sa Data Factory, son usine à logiciels : « Le même pool de ressources opère les projets de la Data Factory et du DataLab qui joue le rôle d’éclaireur sur les sujets d’innovation et de soutien à la montée en compétence au fil de l’eau. » Autre originalité de la démarche de la MAIF, sa très forte implication dans l’Open Source. « L’ADN de la MAIF est de privilégier l’ouverture, le partage et l’impact sociétal ; une vraie stratégie open source entreprise est mise en place et la Tribu Data y contribue en partageant sur le site oss.maif.fr quelques-unes de ses meilleures pratiques comme ce fut le cas récemment de Melusine, la solution open source de classification automatique des e-mails. »

Le DataLab du futur devra tisser un écosystème Data

Cette volonté d’ouverture peut passer par l’Open Source, elle peut aussi se matérialiser avec un rapprochement entre DataLab et start-up, qui sont particulièrement nombreuses dans le domaine des Data Sciences. Selon Magali Noé, Chief Digital Officer groupe chez CNP Assurances, les grands groupes doivent désormais se doter d’équipes qui vont assurer le lien avec les start-up. Pour l’assureur, cette équipe c’est Open CNP : « L’Open CNP n’intervient pas uniquement en phase d’identification des start-up et lors des premières expérimentations. En phase d’industrialisation, son rôle est d’effectuer ce passage de relais avec les équipes IT et des métiers qui sont plus légitimes pour prendre en charge. Il faut une équipe dédiée car innover avec une start-up n’entre dans aucune case dans un grand groupe. Ce n’est ni le même rythme de travail, ni la même façon de travailler, et cela pose des enjeux en termes de conformité, de ressources humaines, d’achats. L’Open CNP représente cinq personnes en tout, dont deux sont dédiées à cet accompagnement des start-up. » Aldrick Zappellini, au Crédit Agricole, rejoint Magali Noé dans cette volonté d’ouverture vers un écosystème Data : « La relation avec l’écosystème de start-up est un champ qu'il nous reste encore à investir. Notre DataLab a été construit uniquement avec des ressources internes, mais compte tenu de l’ampleur de ce qu’il est possible de faire au cours des prochaines années, nous appuyer sur des solutions nous permettra d’accélérer davantage. » Ce besoin de mettre en place des écosystèmes de services est devenu stratégique dans de nombreux domaines. Ronan Le Moal, CEO du Crédit Mutuel Arkea, en souligne l’existence dans le secteur bancaire : « Le modèle de la banque/assurance doit être un modèle ouvert, une plate-forme où il y aura sans doute un acteur central, la banque, et autour des acteurs qui vont apporter de la valeur en complément de l’activité bancaire. Si je veux un crédit immobilier, on doit m’accompagner dans la recherche du bien, son financement, son assurance, le déménagement, les travaux, etc. On devra être capables d’identifier par l’Intelligence artificielle ces moments déclencheurs de l’acquisition. Nous entrons dans l’ère de la banque immergée. » Parfois rebaptisés IA Factory ou IA Lab, les DataLabs évoluent et nul doute que ceux qui seront capables de fonctionner en écosystèmes tant avec les start-up spécialisées, qu’avec les équipes de recherche académiques et des partenaires industriels en dehors de leur domaine, auront tous les atouts pour inventer de nouvelles offres.

« 70 % du budget dans le change management »

David Giblas, CDO de Malakoff Mederic Humanis.

« Nous consacrons beaucoup de ressources dans le change management afin d’impliquer les gens dans la production de ces algorithmes. J’ai l’habitude de dire qu’en termes d’effort et de budget consacrés à un cas d’usage, 10 % sont alloués aux data sciences, 20 % vont vers la donnée elle-même et 70 % dans la gestion du changement ; qu’il s’agisse de la modification des processus existants, de la montée en compétence des collaborateurs ou de l’intégration aux systèmes legacy. Si l’on n’investit pas ces 70 % dans la conduite du changement, il est très difficile de pouvoir déployer ces cas d’usage à l’échelle. »

« Être partenaire avec d’autres acteurs »

Magali Noé, Chief Digital Officer Groupe de CNP Assurances.

« Les assureurs sont encore très autocentrés sur leur propre activité et songent uniquement à exploiter l’Intelligence artificielle sur leurs process internes. On améliore la façon dont les gens vont souscrire à un contrat, vont réaliser un rachat sur ce contrat, on va améliorer la façon dont on répond à leurs interrogations ; or je pense qu’il est maintenant temps de passer à l’étape suivante. L’assurance ne doit être qu’une partie d’une solution globale, l’assureur doit être un maillon d’un écosystème plus large et être partenaire avec des acteurs qui n’ont plus nécessairement de lien direct avec le monde de l’assurance. »

« Attention à ne pas multiplier les poc »

Olivier Baes, responsable du DataLab MAIF.

« Le DataLab MAIF a été créé voici deux ans maintenant afin de fédérer les acteurs de la Data au sens large, c’est-à-dire nos experts Data et nos métiers à la fois autour des nouvelles pratiques issues de l’agilité, de nouveaux cas d’usage et une mouvance technologique. Cela englobait les nouveaux outils Big data, les Data Sciences, ce que j’appellerais la statistique nouvelle génération, la valorisation de nos données en y intégrant également des données externe Open Data, et enfin la culture open source qui est très ancrée dans la culture d’entreprise MAIF. Ce DataLab a trois missions : acculturer et accompagner les métiers au moyen de présentations internes, animer des débats, assurer une fonction de veille et de lien avec l’extérieur via la participation à des salons, en organisant des rencontres avec les éditeurs historiques et des start-up et enfin tisser des liens avec les centres de recherche. Le troisième volet dit d’accélération consiste à mener rapidement des avant-projets, réaliser des MVP afin de vérifier la pertinence d’un cas d’usage. Un point d’attention est porté à ne pas multiplier les POC qui n’engendrent que peu de valeur à la sortie, au bénéfice des MVP qui, au final, doivent donner lieu à la mise en production. »

« Nous sommes dans un contexte de delivery »

Olivier Roy, créateur et responsable du Lab32, le DataLab de PMP Conseil.

« Entre 2012, l’année où on a commencé à parler de Big Data, et 2020, le contexte est très différent pour les DataLabs. Ils ont été créés à l’origine dans une logique de centralisation, afin de monter en maturité sur des technologies émergentes, mutualiser des ressources rares comme les data scientists. Aujourd’hui le contexte est différent. Nous ne sommes plus dans un contexte de découverte, de poc, mais de delivery. Le DataLab reste un organe qui garde son intérêt, mais celui-ci doit devenir un facilitateur dans une approche plus décentralisée auprès des métiers. Il doit pouvoir s’appuyer sur le savoir-faire des start-up et ne pas chercher à réinventer la roue à chaque projet. Il est aujourd’hui normal que les métiers aient une certaine autonomie et il faut trouver la bonne position de curseur entre centralisation et décentralisation, et savoir comment mesurer les capacités de delivery, le lead time des projets, le nombre de poc passés en production. »