X

BIGDATA#1 : Docker et Python pour la plate-forme Data Science de BNP Paribas

Afin de fédérer ses initiatives Big Data, BNP Paribas Personal Finance s’est doté d’un datalab en 2017. Une cellule qui a fait le choix de développer sa propre plate-forme de data science en misant sur une approche 100% Python.

Inauguré en 2017 à Paris, le DataLab de BNP Paribas Personal Finance compte aujourd’hui une vingtaine de personnes.

À l’image des grands groupes internationaux, BNP Paribas Personal Finance, la branche spécialisée dans les financements aux particuliers s’est dotée d’un DataLab voici déjà plusieurs années. L’idée de cette structure a été émise en 2016 et le DataLab a été officiellement inauguré début 2017. Physiquement localisé à Paris, il compte actuellement une vingtaine de personnes, mais tous les Data Scientists n’y sont pas concentrés comme l’explique Jérémie Guez, responsable du DataLab : « Le parti pris a été de créer ce centre de compétences en Data Science avec des Data Scientists qui lui sont rattachés, mais aussi maintenir des Data Scientists auprès des métiers, principalement auprès du Marketing, de la gestion du Risque et des Opérations. »

Directement rattaché à la DSI, ce pôle Data Science assume plusieurs missions. Il dispose de Data Scientists en propre qui mènent des projets pour les métiers qui ne disposent pas de ressources Big Data en propre. En outre, ceux-ci travaillent avec leurs alter egos dans les métiers en soutien sur tel ou tel projet si ceux-ci ont besoin de renforts. Ils interviennent également pour d’autres métiers qui ont moins de maturité ou pas la masse critique pour avoir besoin de Data Scientist permanents mais qui ont des données à analyser. Le but est de les faire gagner en maturité progressivement sur le Big Data. Enfin, sur les Data Sciences, le DataLab a pris le virage depuis un peu plus d’un an maintenant vers le traitement des données non structurées. « Même si nous faisions déjà beaucoup de Machine Learning avant, c’est le véritable début de l’Intelligence artificielle pour le DataLab », considère Jérémie Guez. « Pour moi, l’IA commence à partir du moment où l’on commence à s’intéresser à de la donnée non structurée, qu’il s’agisse de textes, d’images, de vidéos. Nous concentrons actuellement notre effort sur le volet compréhension du langage. »

Enfin, la troisième activité du DataLab porte sur la problématique de la mise en production des modèles élaborés par les Data Scientists. La plate-forme mise en place permet de faire de l’exploration sur les données, mais un gros travail a été mené sur l’automatisation du flux de livraison des modèles et faire en sorte de déployer les modèles le plus rapidement possible dès lors que le modèle est validé.

Une plate-forme « maison » préférée aux solutions éditeurs

Étonnamment, plutôt que de se tourner vers l’un des (nombreux) éditeurs qui proposent des plates-formes Big Data, l’équipe de BNP Paribas Personal Finance a préféré bâtir sa propre plateforme de Data Science, Sparrow. Cette plate-forme est clé dans la stratégie Big Data de Personal Finance car c’est elle qui permet à tous les Data Scientists de BNP Paribas Personal Finance de travailler sur les données et de développer ses modèles analytiques. C’est un outil commun qui permet au DataLab d’évangéliser les métiers sur la Data et qui donne accès à tous les Data Scientists à des outils puissants.

Jérémie Guez explique pourquoi ce choix de créer une plate-forme sur-mesure s’est imposé à BNP Paribas Personal Finance : « Initialement, c’est pour des raisons de sécurité que nous avons souhaité créer notre propre plateforme. Par ricochet, ce choix nous a permis de réaliser des économies et surtout d’être totalement indépendants dans nos choix vis-à-vis d’un éditeur de logiciel commercial qui aurait pu faire valoir sa propriété intellectuelle sur tel ou tel algorithme. » Ainsi, la banque garde une mainmise totale sur ses algorithmes et les packages mis à disposition de ses Data Scientists, en outre elle maîtrise totalement la sécurité des accès à ses données internes, stockées dans le Cloud privé BNP Paribas qui met en œuvre des infrastructures IBM.

Python s’est imposé sur la plate-forme

Au lancement du projet, les Data Scientists utilisaient essentiellement le langage R et le Python, mais l’équipe a décidé de capitaliser sur cette expertise Python si bien qu’aujourd’hui la plateforme est Full Python. Elle permet de développer les modèles en Python ou PySpark. En termes d’architecture technique, la plate-forme est 100 % en conteneurs Docker, ce qui permet à l’équipe du DataLab de proposer de multiples conteneurs à ses utilisateurs, en fonction de leurs besoins mais aussi de leurs préférences personnelles. « Nous leur offrons ainsi plusieurs écosystèmes de développement, selon que vous soyez un puriste qui préfère travailler en Shell avec un vim, ou le Data Scientist qui préfère les Jupyter Notebook, chacun peut avoir l’environnement de son choix en piochant dans les bons conteneurs. C’est particulièrement intéressant car notre plateforme s’adresse à différents profils de Data Scientists, et tout est parfaitement synchronisé. On peut commencer à développer un modèle en shell puis retrouver ce même modèle avec un autre outil. »

L’équipe de Jérémie Guez travaille aujourd’hui à l’évolution de cette approche microservices en déployant Kubernetes. « Lorsque nous avons bâti cette infrastructure, nous ne nous attendions pas à un tel succès. A l’époque nous étions 5 utilisateurs puis 7, puis 10. Aujourd’hui nous en sommes à 200 utilisateurs. Tous ne sont pas actifs, tous ne sont pas des Data Scientists, des Data Analysts peuvent aussi réaliser des opérations sur la plate-forme. »

La plate-forme bénéficie d’un GitLab privé qui permet d’offrir un écosystème IT et Data très complet aux Data Scientists et Data Analysts, notamment sur la thématique DevOps qui constitue une priorité pour ITG. Une priorité a été donnée sur le volet industrialisation des déploiements des modèles avec une chaîne d’intégration continue dans la lignée de ce que fait BNP Paribas dans le DevOps.

L’architecture logicielle de la plate-forme de Data Science de BNP Paribas Personal Finance fait la part belle aux solutions open source. Elle s’appuie désormais essentiellement sur Python et Docker.

Le Data Lake, prochain chantier du DataLab Personal Finance

Actuellement, cette plate-forme Data Science n’est pas directement connectée à un Data Lake. Les données sont stockées dans les Data Warehouse historiques de BNP Paribas et l’accès aux données est un processus très cadré par le service juridique. « Nous sommes en train de construire notre Data Lake et c’est l’un de nos grands chantiers pour ce premier trimestre 2019. Demain, le Data Lake pourra, par construction, collecter les données à destination de plusieurs services, dont notre plate-forme Data Science mais aussi un service de Business Intelligence, de Data Visualization, etc. C’est cette capacité à pouvoir délivrer des données à de multiples services qui nous demande un peu plus de temps d’implémentation. Le principal frein, c’est de trouver le juste équilibre entre des technologies qui évoluent encore très vite et une DSI qui doit délivrer des services robustes. »

Désormais, c’est sur le traitement du langage que l’équipe de Jérémie Guez compte faire prendre de l’avance à BNP Paribas Personal Finance.

Cet article est paru dans le dossier Big Data de L'Informaticien n°175.



Noter cet article (de 1 = Nul à 5 = Excellent) Valider
Autres infos Solutions, Big Data

Vient de paraître

Aujourd'hui, les Directeurs Comptables et Financiers ont envie de dématérialiser leurs factures fournisseurs. C'est plutôt l'idée de devoir s'intégrer à un environnement multi-ERP déjà existant qui les freine. Mais est-ce réellement une barrière ? Dans son nouveau Livre Blanc, Esker explore ce sujet. En le téléchargeant, vous découvrirez comment la dématérialisation peut être une aubaine plutôt qu'un fardeau.


Actuellement, il existe un gouffre entre les environnements informatiques traditionnels des entreprises et le cloud public. Tout diffère : les modèles de gestion, de consommation, les architectures applicatives, le stockage, les services de données.


Les avantages de l’architecture hyperconvergée étant de plus en plus reconnus, de nombreuses entreprises souhaitent l’utiliser pour des types d’applications variés. Cependant, son manque de souplesse pour une mise à niveau des ressources de calcul indépendantes de celles de stockage ne lui permet pas d’être utilisée plus largement.

Au cours de l’événement HPE Discover qui s’est tenu en juin 2019, HPE a répondu à cette préoccupation en présentant la plateforme HPE Nimble Storage dHCI.

Ce Livre Blanc IDC se penche sur les exigences du marché ayant stimulé le besoin de solutions HCI plus flexibles, puis il examine brièvement la solution HPE Nimble Storage dHCI en expliquant pourquoi elle répond à ce besoin.


Découvrez dans ce livre blanc, les avantages des toutes nouvelles solutions NETGEAR, pour simplifier et rentabiliser vos déploiements, et gérer votre réseau à distance, où que vous soyez, au bureau ou en télé-travail.


Tous les Livres Blancs
Yuka

Yuka

Près d’un quart des Français utilise cette application évaluant si un produit, alimentaire ou cosmétique, est bon pour la santé ! L’outil YuKa a changé le comportement de nombreux...

École 42

École 42

Fondée en 2013, l’École 42 s’est installée sur la plus haute marche du podium des «écoles de code», selon le classement CodinGame. Dirigée par Sophie Viger depuis la fin 2018,...

Apple préfère ARM

Apple préfère ARM

La rumeur courait depuis plusieurs années. Elle a été confirmée à l’occasion de la Conférence développeurs WWDC 2020 : Apple divorce d’avec Intel. Les futurs ordinateurs de la marque...

Culture & Numérique

Culture & Numérique

Si la culture a pu être aussi avidement consommée lors du confinement, c’est avant tout parce que le secteur n’a pas attendu la Covid-19 pour faire sa transformation numérique. Une transformation qui s’est...

Project Reunion

Project Reunion

Microsoft a dévoilé à l’occasion de sa conférence annuelle Build, dédiée aux développeurs, les tout premiers contours de Project Reunion. L’objectif recherché est de faciliter le...

RSS
hardcore black fuck malay hijab fuck big black dick
Afficher tous les dossiers

SÉCURITÉ DU SI ? UNE PRIORITÉ ! SASE, Ransomware, Cyberformation - Le cybercrime as a service -Supinfo : Pourquoi un tel naufrage ? - Comment Nvidia s'est imposé dans les datacenters - Accélérer le développement Python avec Hydra - PME et Multicloud : où en sommes-nous ? - Le Serverless s'impose dans les architectures applicatives...

 

POSTMORTEM cyberattaque région Grand Est - OUTILS : Endpoint Detection & Response, quel rôle doit jouer l'EDR pour protéger un parc informatique ? - Appliances firewall, l'essor de la virtualisation - CONFORMITÉ : Quelles conséquences pour les entreprises après l'annulation du Privacy Shield ? TECHNO : ORC, outil open source de collecte de données forensiques - TRIBUNE : Comment protéger les données à caractère personnel de ses collaborateurs tout en favorisant le télétravail ? - PROJETS : Campus Cyber, ça se précise !...

 

QUELLE IT POUR DEMAIN ? SaaS, Hybride, Shadow IT, Green IT... - Collaboration dans le Cloud : quelles alternatives à Office 365 ? - Intégration continue : les meilleurs outils et pratiques CI/CD - École 42 : le peer to peer learning ça fonctionne ! - Startups : les bonnes recettes de Yuka - 2010-2019 : la décennie qui changea l’information géographique...

 

Afficher tous les derniers numéros
Derniers commentaires
La révolution numérique va nécessiter d'importants efforts de reconversion pour préserver l'emploi, près de la moitié des salariés devront mettre à niveau leurs compétencesLa révolution numérique va nécessiter d'importants efforts de reconversion pour préserver l'emploi, selon un rapport du forum économique mondial publié mercredi, mettant en lumière que près de la moitié des salariés vont devoir mettre à niveau leurs compétences. [Lire la dépêche...]

Taisuke Ono, le PDG de la start-up Donut Robotics, porte le masque La ruée sur les masques à travers la planète due au coronavirus a donné lieu à des innovations high-tech inédites: outre le filtrage, les masques peuvent aussi devenir des outils de surveillance sanitaire ou des traducteurs. [Lire la dépêche...]

Meg Whitman, directrice générale de Quibi, le 8 janvier 2020 à Las VegasQuibi, le service de streaming de vidéos courtes lancé en avril, en pleine pandémie, serait déjà à la recherche d'un repreneur sous peine de devoir fermer boutique, croit savoir le site américain The Information. [Lire la dépêche...]

Un chroniqueur du prestigieux magazine The New Yorker filmé sans le savoir sur Zoom le sexe à l'air: une mésaventure qui s'ajoute à une série d'Un chroniqueur du prestigieux magazine The New Yorker filmé sans le savoir sur Zoom le sexe à l'air: une mésaventure qui s'ajoute à une série d'"accidents" sur la plateforme, illustrant les aléas de ces visioconférences devenues omniprésentes en ces temps de pandémie. [Lire la dépêche...]

Netflix a fait le plein de nouveaux adeptes pendant le confinement lié à la pandémie, et a donc vu sa croissance ralentir en termes d'utilisateurs cet été, notamment sur ses marchés maturesNetflix a fait le plein de nouveaux adeptes pendant le confinement lié à la pandémie, et a donc vu sa croissance ralentir en termes d'utilisateurs cet été, notamment sur ses marchés matures, mais la plateforme qui s'approche des 200 millions d'abonnés, garde, pour l'instant, une longueur d'avance sur ses concurrents. [Lire la dépêche...]

Après des mois d'enquête sur les GAFA par diverses autorités, Google est le premier géant de la tech à faire face à des poursuites au plus haut niveau sur des questions de non-respect de la concurrenceFini, l'indulgence américaine pour ses géants technologiques : les start-up d'il y a vingt ans valent des milliers de milliards de dollars et ont accumulé un pouvoir tel que le gouvernement américain a lancé mardi des poursuites contre Google pour abus de position dominante, préfigurant de possibles actions similaires contre ses voisins Apple, Facebook et Amazon. [Lire la dépêche...]

Les réseaux sociaux sont sur la sellette après l'assassinat du professeur Samuel Paty Les réseaux sociaux, souvent utilisés pour diffuser des messages de haine, se retrouvent une nouvelle fois sur la sellette après l'assassinat du professeur d'histoire-géo Samuel Paty, mais la peur de toucher à la liberté d'expression rend les initiatives difficiles. [Lire la dépêche...]

L'application de traçage Le gouvernement portugais a annoncé suspendre le vote au Parlement qui aurait rendu obligatoire le téléchargement d'une application de traçage pour freiner l'épidémie de Covid-19 et avait provoqué un tollé dans le pays. [Lire la dépêche...]

Toutes les dépêches AFP
AgendaIT

READY FOR IT

La nouvelle édition de Ready For IT se déroule du 17 au 19 novembre 2020 à Monaco (Grimaldi Forum) : conférences, keynotes, ateliers et rendez-vous one-to-one. Organisé par DG Consultants.

RSS
hardcore black fuck malay hijab fuck big black dick
Voir tout l'AgendaIT