X

Une carrière dédiée à la donnée : rencontre avec Joe Hellerstein

Professeur à Berkeley et fondateur de Trifacta, il est un des spécialistes de la donnée les plus respectés aux États-Unis. Peu connu en France, Joe Hellerstein est chercheur dans le domaine de la contextualisation des données. De passage à Paris, il a accepté de rencontrer L’Informaticien pour revenir sur son parcours et sur ses travaux actuels.

Sa carrière dans la recherche et l’industrie s’est concentrée sur les systèmes centrés sur les données et la façon dont ils conduisent l’informatique. En 2010, Fortune Magazine a inclus Joe Hellerstein dans sa liste des 50 personnes les plus intelligentes en technologie, et le magazine MIT Technology Review a inclus son langage Bloom pour le Cloud Computing sur sa liste TR10 des dix technologies « les plus susceptibles de changer notre monde ». 

En 2011, Hellerstein, Jeffrey Heer, un autre professeur à Stanford et Sean Kandel, un étudiant et ex-analyste de données dans une banque américaine, ont publié un article intitulé “Wrangler : Spécification visuelle interactive des scripts de transformation de données.” Dans ce document, les auteurs ont décrit un projet de recherche appelé Wrangler, qui était « un système interactif pour créer des transformations de données. » Wrangler a introduit une nouvelle façon d’effectuer la préparation de données par interaction directe avec les données présentées dans une interface visuelle. Les analystes pourraient explorer, modifier et manipuler les données de manière interactive et voir immédiatement les résultats. Wrangler suivait les transformations de données de l’utilisateur et pouvait ensuite générer automatiquement du code ou des scripts qui pouvaient être appliqués à plusieurs reprises sur d’autres jeux de données (machine learning). 

En 2012, Kandel, Hellerstein, Heer ont fondé Trifacta pour commercialiser cette solution. Berkeley permet aux professeurs de prendre trois ans afin de développer leur activité, ce que Hellerstein a fait. Il est reparti à Berkeley mais reste très impliqué dans l’activité de Trifacta. Quand on lui demande pourquoi il a suivi un tel parcours, Joe Hellerstein répond : « Toute ma carrière a été autour de la donnée, depuis mes premiers travaux de recherche comme stagiaire chez IBM. Je travaillais à l’époque sur les bases de données, un élément au sens propre central qui touche l’ensemble des sciences informatiques : programmation, algorithmes, optimisation des performances, le traitement parallèle des données. Devenu professeur, j’ai ensuite continué dans cette voie et sur ces travaux, même si tout au long de cette carrière j’ai toujours été en rapport proche avec le monde de l’entreprise. »

LE MONDE DE LA DONNÉE A EXPLOSÉ

Depuis ses débuts quels éléments ont fondamentalement changé ? Joe Hellerstein répond de manière enthousiaste : « Le monde a explosé en dehors des bases de données. Le Web, le partage des fichiers l’ensemble des éléments de cette révolution sont en lien avec les données. Le débat ne tourne pas autour des capacités de calcul. Les nouvelles racines de l’innovation viennent de start-up, comme en son temps Greenplum, un projet auquel j’ai participé, avec de plus en plus de gens sur des applications et un travail sur l’interaction entre l’humain et la donnée et entre les données elles-mêmes. L’intérêt de l’interaction entre les ordinateurs a changé, les machines, vers cette autre partie avec une échelle beaucoup plus large. Cela continue avec des bases de données encore plus rapides sur ces compétences plus anciennes. » 

Mais comment est intervenu son travail sur le wrangling et la naissance de Trifacta ? « C’était une curiosité. Nous passions énormément de temps à nettoyer et à préparer les données, ce qui est extrêmement frustrant, et il semblait difficile de résoudre le problème. Nous nous sommes attelés à ce problème et avons poursuivi assidûment ce travail en privilégiant le côté pratique. Notre but n’était pas de créer un robot mais un produit. Nous ne cherchions pas à faire fonctionner un outil de Machine Learning et nous sommes entrés dans un processus totalement empirique de tests et de mesures. Ce qui est beaucoup moins technique ! Sur cette construction s’est élaboré ce self-service de préparation de données par tests successifs. Il a connu une rapide adoption dans le secteur des services financiers. La solution s’est enrichie de la possibilité d’utiliser ECS d’Amazon pour créer des modèles. Dans la recherche le deep learning est le sujet du moment et il est extrêmement empirique. Cela a permis cependant des progrès remarquables dans divers domaines comme la traduction. Comparativement à une traduction manuelle, un modèle linguistique élaboré utilisant des réseaux de neurones arrive à de bien meilleurs résultats. Cela existe déjà en production. Cela fonctionne aussi pour le Big Data, il suffit de mettre en place des cycles de puces graphiques sur Amazon pour obtenir la puissance de calcul nécessaire. Ce ne sont pas les mathématiques le défi de l’opération, mais la gestion de l’expérimentation. Il faut tracer en évitant de bâtir de mauvais modèles lors des tests. Il existe de magnifiques théories sur le sujet mais nous n’avançons pas énormément dans le domaine. Le problème est la gestion de la donnée, la gestion de l’expérimentation sur la gestion de la donnée. Les données sont structurées mais dans une base on peut avoir des données qui ont le même nom. Nous avons deux descriptions différentes de la même chose. De ce fait les entreprises n’ont pas assez de données pour entraîner les algorithmes et les modèles appliqués. Nous pouvons cependant avoir une philosophie différente et appliquer un entraînement actif. Nous avons des certitudes sur certaines choses. Pourquoi ne pas appliquer l’entraînement que sur les ambiguïtés. Les questions seraient bien meilleures lors de cette phase d’entraînement. Je suis à Paris pour intervenir lors d’un colloque sur cette question avec une présentation sur le contexte de la donnée, un sujet de débat et de recherche aujourd’hui. »

DE NOMBREUX AUTRES SUJETS DE RECHERCHE

Interrogé sur les autres sujets importants du moment et comment il considère les avancées de l’Intelligence artificielle et si elle peut s’appliquer dans une certaine mesure pour automatiser les opérations dans l’outil de préparation des données de Trifacta, Joe Hellerstein répond : « Il y a différentes intelligences générales. Le problème est le transfert de l’enseignement de l’une à l’autre. Il existe quelques exemples. Cependant la valeur d’un modèle propriétaire provient surtout de la manière dont il a été entraîné qui est unique. Une recommandation, une traduction, des scénarios de questionnement comme dans les chatbots, il restera le problème d’entraîner à partir de l’ensemble des données de l’entreprise. Il est très compliqué d’entraîner de larges jeux de données pour des usages spécifiques et pourtant ce deep learning ne peut s’appliquer que sur de larges jeux de données pour être valide. Sans compter sur les pré-requis nécessaires. La suite d’outils dans l’Intelligence artificielle est terrible. À Berkeley, pour la chaîne d’Intelligence artificielle, nous développons une plate-forme pour atteindre une grande robustesse dans les tests sur l’Intelligence artificielle. Tous les artefacts, chaque élément de l’entraînement, chaque ligne de code suit un process expérimental précis. Il faudrait peut-être ralentir le process pour avoir la capacité de reproduire de réelles expérimentations scientifiques. Mais cela reste compliqué du fait que les changements mettent au défi tout ce qui tourne autour du contexte de la donnée. Pour obtenir un meilleur Machine Learning dans les 5 ans, cela va rester encore très empirique. » Il ne croit pas vraiment non plus à une entreprise qui soit capable de prendre des décisions sur des opérations à très haut niveau de manière autonome ou juste sur une spécialisation comme la supply chain. Mais plus à des approches de self-service adaptées à l’entreprise et pense que cela sera le sujet de conversation jusqu’en 2020. Il explique cette intuition par le fait que cela existe déjà dans l’infrastructure et que cela va arriver rapidement dans des outils comme ceux de Trifacta. Il ajoute : « Nous allons interroger notre capacité d’innovation dans ce sens. »


LE CONTEXTE DE LA DONNÉE 

Pour rester simple, le contexte de la donnée regroupe toutes les informations autour de l’usage de la donnée. Il se compose principalement de trois éléments, le contexte de l’application (code, modèles, vues), du contexte comportemental (lignage de la donnée, usage), les changements (versioning). Ce contexte global est reproduit dans un métamodèle. L’idée est d’alimenter les outils de Machine Learning qui sont aujourd’hui assez pauvres, que ce soit dans la création des pipelines ou dans l’entraînement des modèles. Lorsqu’un pipeline s’exécute les nouveaux éléments sont automatiquement repris dans le métamodèle qui enregistre les changements.


Article paru dans L'Informaticien n°167


Inscription gratuite à la newsletter de L'Informaticien.


Noter cet article (de 1 = Nul à 5 = Excellent) Valider

Offres d'emploi informatique avec  Emploi en France
jooble

Edge Computing

Edge Computing

Du simple microcontrôleur capable d’exécuter un algorithme d’IA jusqu’au conteneur maritime de 12 mètres, l’informatique se rapproche au plus près des sources de données. L’Edge...

Ansible

Ansible

Ansible tient une assez belle place dans le palmarès des outils favoris des DevOps. Il permet d’automatiser des traitements sur un parc de machines. Nous allons voir quelles sont ses possibilités en la matière.

Transfo avec Salesforce

Transfo avec Salesforce

Dreamforce, conférence géante à San Francisco, regroupait cet automne près de 170000 personnes sur place et près de 15 millions en ligne. Marc Benioff a multiplié les annonces à cette occasion pour...

PowerShell DSC

PowerShell DSC

DSC est la solution DevOps de Microsoft disponible à partir de la version 4 de Powershell pour Windows et de la 6 core pour Linux.

Cybersécurité de l'industrie

Cybersécurité de l'industrie

Mis à part les OIV, bon nombre d’installations industrielles françaises sont vulnérables aux cyberattaques. Système non mis à jour, absence de briques de sécurité de base et défense...

RSS
Afficher tous les dossiers

20 TECHNOS pour 2020 et au-delà... : multicloud, rpa, edge&fog, apis, quantique... - La transfo numérique exemplaire d'une PME industrielle - BYOK : chiffrer le Cloud - L'Open Source teinté d'Orange - Mettre de l'intelligence dans l'APM - Le disque dur fait de la résistance - CI/CD as a Service - Digital Campus, n°1 des écoles du numérique...

 

L'IA AU COEUR DES MÉTIERS : retours d'expérience Cemex, Lamborghini, Decathlon, HSBC - Google Cloud Platform : tout sur la migration ! - Edge Computing, chaînon manquant - Cybersécurité : lutter contre l'ennemi intérieur - Ansible, outil de prédilection des DevOps - Docker, de Montrouge à la roche tarpéienne...

 

VILLE NUMÉRIQUE : la transfo d'Issy-les-Moulineaux - Comment le Stockage s'unifie - Brexit : quelles conséquences pour l'industrie numérique ? - Google a-t-il vraiment atteint la suprématie quantique ? - La cyberprotection des sites industriels en question - PowerShell DSC - Epitech Digital...

 

Afficher tous les derniers numéros

OneTrust est une plateforme logicielle innovante de gestion de la confidentialité, de la sécurité des données personnelles et des risques fournisseurs. Plus de 4 000 entreprises ont choisi de faire confiance à cette solution pour se conformer au RGPD, au CCPA, aux normes ISO 27001 et à différentes législations internationales de confidentialité et de sécurité des données personnelles.

OneTrust vous propose de télécharger le texte officiel du Règlement Général sur la Protection des Données (RGPD). Vous aurez également la possibilité de recevoir la version imprimée de ce texte, sous forme de guide pratique au format A5, spiralé, en complétant le formulaire.


Le présent guide d'achat vous aidera à améliorer l'efficacité de votre cloud hybride, en mettant l'accent sur les stratégies de gestion des données dédiées aux applications correspondantes.


Les entreprises et les organismes publics se focalisent aujourd’hui sur la transformation numérique. En conséquence, les DevOps et l’agilité sont au premier plan des discussions autour des stratégies informatiques. Pour offrir ces deux avantages, les entreprises travaillent de plus en plus avec les fournisseurs de services de cloud public et développent désormais des clouds sur site à partir d’une infrastructure qui répond à trois exigences de base:
1. Agilité sans friction des ressources physiques
2. Systèmes de contrôle optimisant l'utilisation des ressources physiques et offrant un retour sur investissement maximal
3. Intégration des divers composants de l'infrastructure pour un provisionnement et une gestion des ressources automatisés.


Pour fonctionner, votre entreprise doit pouvoir compter sur une solution de sauvegarde efficace, essentielle dans un monde marqué par une croissance exponentielle des données. Vous devez à la fois accélérer vos sauvegardes et pouvoir y accéder plus rapidement pour satisfaire les exigences actuelles de continuité d’activité, disponibilité, protection des données et conformité réglementaire. Dans cette ère de croissance effrénée, les cibles sur bande hors site et autres approches traditionnelles sont simplement dépassées.


L’Intelligence Artificielle promet de révolutionner la perception de la cybersécurité au coeur des entreprises, mais pas uniquement. Ce changement de paradigme engage, en effet, une redéfinition complète des règles du jeu pour les DSI et les RSSI, ainsi que l’ensemble des acteurs de la sécurité.


Tous les Livres Blancs
Derniers commentaires
Le colonel Marc Horeau, président du Service départemental d'incendie et de secours (SDIS), teste un casque de réalité virtuelle dans une ambulance, le 18 février 2020 à Evron, en Mayenne"Monde aquatique ou monde spatial"? Depuis février, les pompiers de Mayenne proposent aux blessés d'utiliser un casque de réalité virtuelle dans leur fourgon, une expérimentation illustrant le recours aux nouvelles technologies dans la prise en charge de la douleur. [Lire la dépêche...]

Twitter a suspendu 70 comptes qui postaient des contenus favorables à Michael Bloomberg, le candidat à l'investiture démocrate qui a engagé des centaines de personnes pour faire sa promotion dans leurs cercles sociaux pendant sa campagneTwitter a suspendu 70 comptes qui postaient des contenus favorables à Michael Bloomberg, le candidat à l'investiture démocrate qui a engagé des centaines de personnes pour faire sa promotion dans leurs cercles sociaux pendant sa campagne. [Lire la dépêche...]

Le nouveau jeu vidéo des Sims présenté en juin 2014 à Los AngelesDes possibilités infinies derrière l'apparence du quotidien: 20 ans après la sortie du premier jeu, les Sims continuent d'inspirer des millions de joueurs, qui construisent des histoires et des bâtiments autant qu'ils se construisent eux-mêmes.       [Lire la dépêche...]

Les Français passent désormais plus de 2 heures par jour sur internetToujours plus mobiles, sociaux et vidéos, mais surtout plus fréquents: les usages des internautes français révèlent une forte augmentation du temps passé en ligne qui atteint en moyenne 2 heures et 12 minutes par jour en 2019, selon une étude de Médiamétrie publiée jeudi. [Lire la dépêche...]

Bouygues ne sera pas affecté financièrement par la cyberattaque qui l'a frappé en début d'annéeBouygues ne sera pas affecté financièrement par la cyberattaque qui l'a frappé en début d'année, a assuré jeudi le groupe, son PDG démentant par ailleurs toute négligence en matière de sécurité. [Lire la dépêche...]

Des patients ayant des symptômes du coronavirus participent à une séance de gymnastique encadrée par du personnel médical en combinaison de protection dans un hôpital de Wuhan, le 17 février 2020Partout dans le monde, l'épidémie du nouveau coronavirus a réveillé des peurs mais également un véritable appétit pour les films, les jeux vidéos et les séries anxiogènes sur le thème de la maladie.  [Lire la dépêche...]

Des entrepreneurs de Kickstarter au Web Summit, le 8 novembre 2016 à LisbonneLes salariés de Kickstarter, une plateforme de financement participatif, ont fondé un syndicat considéré comme le premier du genre dans le secteur américain des technologies, et qui donne de l'espoir à de nombreux employés dont la parole semble souvent étouffée par leur direction. [Lire la dépêche...]

Lawrence L'inventeur de la très populaire commande informatique dite du "copier-coller" est mort à l'âge de 74 ans cette semaine, d'après une annonce de l'entreprise Xerox postée sur Twitter mercredi. [Lire la dépêche...]

Toutes les dépêches AFP
AgendaIT

BIG DATA

Conférences et exposition sur le Big Data les 9 et 10 mars 2020 à Paris, Palais des Congrès de la Porte Maillot. Organisé par Corp Agency.

GALA DSI

La 8ème édition du Gala DSI doit réunir plus de 300 DSI au Pavillon d'Armenonville (Paris 16ème) le 10 mars 2020. Organisé par Agora Managers.

IT PARTNERS

Événement du "channel" IT, télécoms et audiovisuel, IT Partners a lieu les 11 et 12 mars 2020 à Disneyland Paris (Disney Events Arena-Ventury). Organisé par Reed Expositions.
RSS
Voir tout l'AgendaIT
0123movie