X
Découvrez l'application Work.com

News Partenaire

Découvrez l'application Work.com

Olivier Derrien, directeur général de Salesforce France, présente la nouvelle application Work.com et son intérêt pour la reprise de l'activité dans les entreprises.


BIGDATA#1 : Docker et Python pour la plate-forme Data Science de BNP Paribas

Afin de fédérer ses initiatives Big Data, BNP Paribas Personal Finance s’est doté d’un datalab en 2017. Une cellule qui a fait le choix de développer sa propre plate-forme de data science en misant sur une approche 100% Python.

Inauguré en 2017 à Paris, le DataLab de BNP Paribas Personal Finance compte aujourd’hui une vingtaine de personnes.

À l’image des grands groupes internationaux, BNP Paribas Personal Finance, la branche spécialisée dans les financements aux particuliers s’est dotée d’un DataLab voici déjà plusieurs années. L’idée de cette structure a été émise en 2016 et le DataLab a été officiellement inauguré début 2017. Physiquement localisé à Paris, il compte actuellement une vingtaine de personnes, mais tous les Data Scientists n’y sont pas concentrés comme l’explique Jérémie Guez, responsable du DataLab : « Le parti pris a été de créer ce centre de compétences en Data Science avec des Data Scientists qui lui sont rattachés, mais aussi maintenir des Data Scientists auprès des métiers, principalement auprès du Marketing, de la gestion du Risque et des Opérations. »

Directement rattaché à la DSI, ce pôle Data Science assume plusieurs missions. Il dispose de Data Scientists en propre qui mènent des projets pour les métiers qui ne disposent pas de ressources Big Data en propre. En outre, ceux-ci travaillent avec leurs alter egos dans les métiers en soutien sur tel ou tel projet si ceux-ci ont besoin de renforts. Ils interviennent également pour d’autres métiers qui ont moins de maturité ou pas la masse critique pour avoir besoin de Data Scientist permanents mais qui ont des données à analyser. Le but est de les faire gagner en maturité progressivement sur le Big Data. Enfin, sur les Data Sciences, le DataLab a pris le virage depuis un peu plus d’un an maintenant vers le traitement des données non structurées. « Même si nous faisions déjà beaucoup de Machine Learning avant, c’est le véritable début de l’Intelligence artificielle pour le DataLab », considère Jérémie Guez. « Pour moi, l’IA commence à partir du moment où l’on commence à s’intéresser à de la donnée non structurée, qu’il s’agisse de textes, d’images, de vidéos. Nous concentrons actuellement notre effort sur le volet compréhension du langage. »

Enfin, la troisième activité du DataLab porte sur la problématique de la mise en production des modèles élaborés par les Data Scientists. La plate-forme mise en place permet de faire de l’exploration sur les données, mais un gros travail a été mené sur l’automatisation du flux de livraison des modèles et faire en sorte de déployer les modèles le plus rapidement possible dès lors que le modèle est validé.

Une plate-forme « maison » préférée aux solutions éditeurs

Étonnamment, plutôt que de se tourner vers l’un des (nombreux) éditeurs qui proposent des plates-formes Big Data, l’équipe de BNP Paribas Personal Finance a préféré bâtir sa propre plateforme de Data Science, Sparrow. Cette plate-forme est clé dans la stratégie Big Data de Personal Finance car c’est elle qui permet à tous les Data Scientists de BNP Paribas Personal Finance de travailler sur les données et de développer ses modèles analytiques. C’est un outil commun qui permet au DataLab d’évangéliser les métiers sur la Data et qui donne accès à tous les Data Scientists à des outils puissants.

Jérémie Guez explique pourquoi ce choix de créer une plate-forme sur-mesure s’est imposé à BNP Paribas Personal Finance : « Initialement, c’est pour des raisons de sécurité que nous avons souhaité créer notre propre plateforme. Par ricochet, ce choix nous a permis de réaliser des économies et surtout d’être totalement indépendants dans nos choix vis-à-vis d’un éditeur de logiciel commercial qui aurait pu faire valoir sa propriété intellectuelle sur tel ou tel algorithme. » Ainsi, la banque garde une mainmise totale sur ses algorithmes et les packages mis à disposition de ses Data Scientists, en outre elle maîtrise totalement la sécurité des accès à ses données internes, stockées dans le Cloud privé BNP Paribas qui met en œuvre des infrastructures IBM.

Python s’est imposé sur la plate-forme

Au lancement du projet, les Data Scientists utilisaient essentiellement le langage R et le Python, mais l’équipe a décidé de capitaliser sur cette expertise Python si bien qu’aujourd’hui la plateforme est Full Python. Elle permet de développer les modèles en Python ou PySpark. En termes d’architecture technique, la plate-forme est 100 % en conteneurs Docker, ce qui permet à l’équipe du DataLab de proposer de multiples conteneurs à ses utilisateurs, en fonction de leurs besoins mais aussi de leurs préférences personnelles. « Nous leur offrons ainsi plusieurs écosystèmes de développement, selon que vous soyez un puriste qui préfère travailler en Shell avec un vim, ou le Data Scientist qui préfère les Jupyter Notebook, chacun peut avoir l’environnement de son choix en piochant dans les bons conteneurs. C’est particulièrement intéressant car notre plateforme s’adresse à différents profils de Data Scientists, et tout est parfaitement synchronisé. On peut commencer à développer un modèle en shell puis retrouver ce même modèle avec un autre outil. »

L’équipe de Jérémie Guez travaille aujourd’hui à l’évolution de cette approche microservices en déployant Kubernetes. « Lorsque nous avons bâti cette infrastructure, nous ne nous attendions pas à un tel succès. A l’époque nous étions 5 utilisateurs puis 7, puis 10. Aujourd’hui nous en sommes à 200 utilisateurs. Tous ne sont pas actifs, tous ne sont pas des Data Scientists, des Data Analysts peuvent aussi réaliser des opérations sur la plate-forme. »

La plate-forme bénéficie d’un GitLab privé qui permet d’offrir un écosystème IT et Data très complet aux Data Scientists et Data Analysts, notamment sur la thématique DevOps qui constitue une priorité pour ITG. Une priorité a été donnée sur le volet industrialisation des déploiements des modèles avec une chaîne d’intégration continue dans la lignée de ce que fait BNP Paribas dans le DevOps.

L’architecture logicielle de la plate-forme de Data Science de BNP Paribas Personal Finance fait la part belle aux solutions open source. Elle s’appuie désormais essentiellement sur Python et Docker.

Le Data Lake, prochain chantier du DataLab Personal Finance

Actuellement, cette plate-forme Data Science n’est pas directement connectée à un Data Lake. Les données sont stockées dans les Data Warehouse historiques de BNP Paribas et l’accès aux données est un processus très cadré par le service juridique. « Nous sommes en train de construire notre Data Lake et c’est l’un de nos grands chantiers pour ce premier trimestre 2019. Demain, le Data Lake pourra, par construction, collecter les données à destination de plusieurs services, dont notre plate-forme Data Science mais aussi un service de Business Intelligence, de Data Visualization, etc. C’est cette capacité à pouvoir délivrer des données à de multiples services qui nous demande un peu plus de temps d’implémentation. Le principal frein, c’est de trouver le juste équilibre entre des technologies qui évoluent encore très vite et une DSI qui doit délivrer des services robustes. »

Désormais, c’est sur le traitement du langage que l’équipe de Jérémie Guez compte faire prendre de l’avance à BNP Paribas Personal Finance.

Cet article est paru dans le dossier Big Data de L'Informaticien n°175.



Inscription gratuite à la newsletter de L'Informaticien.


Noter cet article (de 1 = Nul à 5 = Excellent) Valider
Autres infos Solutions, Big Data

Aujourd'hui, les Directeurs Comptables et Financiers ont envie de dématérialiser leurs factures fournisseurs. C'est plutôt l'idée de devoir s'intégrer à un environnement multi-ERP déjà existant qui les freine. Mais est-ce réellement une barrière ? Dans son nouveau Livre Blanc, Esker explore ce sujet. En le téléchargeant, vous découvrirez comment la dématérialisation peut être une aubaine plutôt qu'un fardeau.


Actuellement, il existe un gouffre entre les environnements informatiques traditionnels des entreprises et le cloud public. Tout diffère : les modèles de gestion, de consommation, les architectures applicatives, le stockage, les services de données.


Les avantages de l’architecture hyperconvergée étant de plus en plus reconnus, de nombreuses entreprises souhaitent l’utiliser pour des types d’applications variés. Cependant, son manque de souplesse pour une mise à niveau des ressources de calcul indépendantes de celles de stockage ne lui permet pas d’être utilisée plus largement.

Au cours de l’événement HPE Discover qui s’est tenu en juin 2019, HPE a répondu à cette préoccupation en présentant la plateforme HPE Nimble Storage dHCI.

Ce Livre Blanc IDC se penche sur les exigences du marché ayant stimulé le besoin de solutions HCI plus flexibles, puis il examine brièvement la solution HPE Nimble Storage dHCI en expliquant pourquoi elle répond à ce besoin.


Découvrez dans ce livre blanc, les avantages des toutes nouvelles solutions NETGEAR, pour simplifier et rentabiliser vos déploiements, et gérer votre réseau à distance, où que vous soyez, au bureau ou en télé-travail.


Tous les Livres Blancs
Offres d'emploi informatique avec  Emploi en France
jooble

L’emploi aux temps du Corona

L’emploi aux temps du Corona

Bien que moins sinistré que d’autres par la Covid-19, le secteur de l’IT a lui aussi connu de profonds changements durant le confinement et devrait en tirer quelques enseignements.

No Code / Low Code

No Code / Low Code

Le No Code / Low Code ne cesse de faire parler de lui en ce moment avec des outils comme Appian, Intrexx, Lightning, Unqork et autres Microsoft Flow. Est-ce le début de la fin pour les développeurs ? Peut-être, peut-être...

Gestionnaire de mots de passe

Gestionnaire de mots de passe

Enregistrer ses mots de passe dans un coffre-fort numérique plutôt que les noter sur un carnet, un post-it ou un fichier Excel… Tel est le principe des gestionnaires de passwords qui ne cessent de gagner de nouveaux...

Datacenters sur le grill

Datacenters sur le grill

Véritable usine de production de l’économie numérique, le datacenter focalise les critiques des associations environnementales. Ces installations dont les plus grosses peuvent consommer jusqu’à une centaine...

RSS
Afficher tous les dossiers

IT DU MONDE D'APRÈS, IT DE DEMAIN (1) : automatisation, gestion de l'info, mobilité, sécurité - Health Data Hub - Le VPN meilleure solution pour le télétravail ? - Project Reunion Microsoft : retour des apps universelles - Power Over Ethernet, une avancée discrète - Pourquoi Apple choisit ARM plutôt qu'Intel ? - La Silicon Valley dans tous ses états - Produits high tech de loisirs du moment...

 

GESTIONNAIRE DE MOTS DE PASSE : un outil indispensable ? - Pandémie & Tech : gagnants et perdants - Multicloud : réalité d'aujourd'hui, impacts sur l'infrastructure et l'applicatif - Project Reunion Microsoft - No Code/Low Code en plein essor - Cobol V6 - Cyberattaques Covid-19 - L'emploi au temps du Corona...

 

COMMUNICATIONS UNIFIÉES : une convergence accrue entre communication et collaboration - Réussir StopCovid ! - Énergie : les datacenters sur le grill - Le lourd poids de la dette technique - GitLab comme solution DevSecOps - Les femmes, avenir de la filière IT ? - Apps de messagerie, attention danger ? - Pôle IA Toulouse...

 

Afficher tous les derniers numéros
Derniers commentaires
L'exigence étonnante de Donald Trump qu'une partie de la transaction Microsoft-TikTok soit versée dans les caisses de l'Etat a suscité de vives critiques et interroge jusque parmi les conseillers du président. [Lire la dépêche...]

Marcio Sawamura, directeur adjoint de l'Institut de radiologie de l'hôpital des cliniques de la Faculté de médicine de l'Université de Sao Paulo (USP), examine les images du scanner thoracique d'un patient, le 28 juillet 2020 à Sao Paulo, au BrésilDes algorithmes pour détecter des lésions pulmonaires : au Brésil, pays durement touché par la pandémie de coronavirus, l'intelligence artificielle vient au secours des médecins pour diagnostiquer les cas d'infection au Covid-19 et pallier l'absence de dépistage de masse. [Lire la dépêche...]

Le logo de Google photographié le 25 février 2019 à Barcelone La Commission européenne a annoncé mardi ouvrir une "enquête approfondie" sur le projet de rachat par Google de Fitbit, spécialiste des objets connectés pour les activités physiques, craignant qu'il ne renforce la position du géant américain sur le marché de la publicité en ligne. [Lire la dépêche...]

La youtubeuse française Léna Situations, de son vrai nom Léna Mahfouf, à Paris le 24 juin 2020 "C'est trop gratifiant", mais "c'est épuisant psychologiquement": la youtubeuse Léna Situations s'est lancée dans sa 4e saison de "vlogs d'août", une version accélérée de sa vie de fashionista, de "petite nana hyperactive" autoproclamée. [Lire la dépêche...]

Une image du modèle de navette développé par Virgin Galactic diffusée par la compagnie le 3 août 2020La compagnie de tourisme spatial Virgin Galactic a estimé lundi qu'elle serait en mesure d'effectuer un premier vol touristique dans l'espace au premier trimestre 2021, avec l'envoi de son fondateur Richard Branson. [Lire la dépêche...]

Le président américain Donald Trump a menacé, tour à tour, de forcer le chinois ByteDance à céder l'application TikTok, puis de la bannir des Etats-Unis tout courtAprès avoir soufflé le chaud et le froid, Donald Trump s'est finalement déclaré favorable à un rachat rapide par Microsoft de TikTok, propriété du Chinois ByteDance, tout en exigeant qu'une partie de la transaction soit versée dans "les caisses de l'Etat". [Lire la dépêche...]

Google a présenté un nouveau smartphone d'enrée de gamme le 3 août 2020Google a présenté lundi un nouveau smartphone d'entrée de gamme, et annoncé le lancement de téléphones adaptés à la 5G plus tard cette année, dans un marché en baisse. [Lire la dépêche...]

Le président américain Donald Trump a menacé, tour à tour, de forcer le chinois ByteDance à céder l'application TikTok, puis de la bannir des Etats-Unis tout courtDonald Trump a déclaré lundi que le très populaire réseau social TikTok, propriété du Chinois ByteDance, devrait être vendu avant la mi-septembre pour pouvoir continuer à opérer aux Etats-Unis. [Lire la dépêche...]

Toutes les dépêches AFP
AgendaIT

HEXATRUST

6ème université d'été de l'association Hexatrust sur le thème "Vers une autonomie stratégique européenne" le 3 septembre 2020 à Paris (CCI). Sur invitation. Organisée par Hexatrust.

BIG DATA

Conférences et exposition sur le Big Data les 14 et 15 septembre 2020 à Paris, Porte de Versailles. Organisé par Corp Agency.

AI PARIS

Conférence, exposition et rendez-vous d'affaires sur l'intelligence artificielle à Paris, Porte de Versailles les 14 et 15 septembre 2020. Organisé par Corp Agency.

DOCUMATION

Congrès et exposition Documation du 22 au 24 septembre 2020  à Paris Porte de Versailles (Pavillon 4.3). Organisé par Infopromotions.

AP CONNECT

La 3ème édition d'AP Connect qui vise à réunir les innovations, technologies et solutions dédiées à la transition numérique des administrations publiques centrales et des collectivités territoriales a lieu les 22 et 23 septembre 2020 à Espace Grande Arche, Paris La Défense. Organisé par PG Organisation.

RSS
Voir tout l'AgendaIT