X

News Partenaire

PRA : ne perdez pas l’essentiel !

Ransomwares, panne d’électricité, inondations, tremblement de terre, les dirigeants d’entreprise ont pris conscience qu’ils pouvaient tout perdre en quelques minutes. Comment se prémunir de tels désastres ? La réponse se trouve dans le PRA, le plan de reprise d’activité. Méconnu, il reste incontournable pour se protéger d’un incident. Agarik accompagne les PME dans cette démarche en apportant conseils et expertises. Christophe Ruault, directeur avant-vente apporte un éclairage sur le PRA.

Une carrière dédiée à la donnée : rencontre avec Joe Hellerstein

Professeur à Berkeley et fondateur de Trifacta, il est un des spécialistes de la donnée les plus respectés aux États-Unis. Peu connu en France, Joe Hellerstein est chercheur dans le domaine de la contextualisation des données. De passage à Paris, il a accepté de rencontrer L’Informaticien pour revenir sur son parcours et sur ses travaux actuels.

Sa carrière dans la recherche et l’industrie s’est concentrée sur les systèmes centrés sur les données et la façon dont ils conduisent l’informatique. En 2010, Fortune Magazine a inclus Joe Hellerstein dans sa liste des 50 personnes les plus intelligentes en technologie, et le magazine MIT Technology Review a inclus son langage Bloom pour le Cloud Computing sur sa liste TR10 des dix technologies « les plus susceptibles de changer notre monde ». 

En 2011, Hellerstein, Jeffrey Heer, un autre professeur à Stanford et Sean Kandel, un étudiant et ex-analyste de données dans une banque américaine, ont publié un article intitulé “Wrangler : Spécification visuelle interactive des scripts de transformation de données.” Dans ce document, les auteurs ont décrit un projet de recherche appelé Wrangler, qui était « un système interactif pour créer des transformations de données. » Wrangler a introduit une nouvelle façon d’effectuer la préparation de données par interaction directe avec les données présentées dans une interface visuelle. Les analystes pourraient explorer, modifier et manipuler les données de manière interactive et voir immédiatement les résultats. Wrangler suivait les transformations de données de l’utilisateur et pouvait ensuite générer automatiquement du code ou des scripts qui pouvaient être appliqués à plusieurs reprises sur d’autres jeux de données (machine learning). 

En 2012, Kandel, Hellerstein, Heer ont fondé Trifacta pour commercialiser cette solution. Berkeley permet aux professeurs de prendre trois ans afin de développer leur activité, ce que Hellerstein a fait. Il est reparti à Berkeley mais reste très impliqué dans l’activité de Trifacta. Quand on lui demande pourquoi il a suivi un tel parcours, Joe Hellerstein répond : « Toute ma carrière a été autour de la donnée, depuis mes premiers travaux de recherche comme stagiaire chez IBM. Je travaillais à l’époque sur les bases de données, un élément au sens propre central qui touche l’ensemble des sciences informatiques : programmation, algorithmes, optimisation des performances, le traitement parallèle des données. Devenu professeur, j’ai ensuite continué dans cette voie et sur ces travaux, même si tout au long de cette carrière j’ai toujours été en rapport proche avec le monde de l’entreprise. »

LE MONDE DE LA DONNÉE A EXPLOSÉ

Depuis ses débuts quels éléments ont fondamentalement changé ? Joe Hellerstein répond de manière enthousiaste : « Le monde a explosé en dehors des bases de données. Le Web, le partage des fichiers l’ensemble des éléments de cette révolution sont en lien avec les données. Le débat ne tourne pas autour des capacités de calcul. Les nouvelles racines de l’innovation viennent de start-up, comme en son temps Greenplum, un projet auquel j’ai participé, avec de plus en plus de gens sur des applications et un travail sur l’interaction entre l’humain et la donnée et entre les données elles-mêmes. L’intérêt de l’interaction entre les ordinateurs a changé, les machines, vers cette autre partie avec une échelle beaucoup plus large. Cela continue avec des bases de données encore plus rapides sur ces compétences plus anciennes. » 

Mais comment est intervenu son travail sur le wrangling et la naissance de Trifacta ? « C’était une curiosité. Nous passions énormément de temps à nettoyer et à préparer les données, ce qui est extrêmement frustrant, et il semblait difficile de résoudre le problème. Nous nous sommes attelés à ce problème et avons poursuivi assidûment ce travail en privilégiant le côté pratique. Notre but n’était pas de créer un robot mais un produit. Nous ne cherchions pas à faire fonctionner un outil de Machine Learning et nous sommes entrés dans un processus totalement empirique de tests et de mesures. Ce qui est beaucoup moins technique ! Sur cette construction s’est élaboré ce self-service de préparation de données par tests successifs. Il a connu une rapide adoption dans le secteur des services financiers. La solution s’est enrichie de la possibilité d’utiliser ECS d’Amazon pour créer des modèles. Dans la recherche le deep learning est le sujet du moment et il est extrêmement empirique. Cela a permis cependant des progrès remarquables dans divers domaines comme la traduction. Comparativement à une traduction manuelle, un modèle linguistique élaboré utilisant des réseaux de neurones arrive à de bien meilleurs résultats. Cela existe déjà en production. Cela fonctionne aussi pour le Big Data, il suffit de mettre en place des cycles de puces graphiques sur Amazon pour obtenir la puissance de calcul nécessaire. Ce ne sont pas les mathématiques le défi de l’opération, mais la gestion de l’expérimentation. Il faut tracer en évitant de bâtir de mauvais modèles lors des tests. Il existe de magnifiques théories sur le sujet mais nous n’avançons pas énormément dans le domaine. Le problème est la gestion de la donnée, la gestion de l’expérimentation sur la gestion de la donnée. Les données sont structurées mais dans une base on peut avoir des données qui ont le même nom. Nous avons deux descriptions différentes de la même chose. De ce fait les entreprises n’ont pas assez de données pour entraîner les algorithmes et les modèles appliqués. Nous pouvons cependant avoir une philosophie différente et appliquer un entraînement actif. Nous avons des certitudes sur certaines choses. Pourquoi ne pas appliquer l’entraînement que sur les ambiguïtés. Les questions seraient bien meilleures lors de cette phase d’entraînement. Je suis à Paris pour intervenir lors d’un colloque sur cette question avec une présentation sur le contexte de la donnée, un sujet de débat et de recherche aujourd’hui. »

DE NOMBREUX AUTRES SUJETS DE RECHERCHE

Interrogé sur les autres sujets importants du moment et comment il considère les avancées de l’Intelligence artificielle et si elle peut s’appliquer dans une certaine mesure pour automatiser les opérations dans l’outil de préparation des données de Trifacta, Joe Hellerstein répond : « Il y a différentes intelligences générales. Le problème est le transfert de l’enseignement de l’une à l’autre. Il existe quelques exemples. Cependant la valeur d’un modèle propriétaire provient surtout de la manière dont il a été entraîné qui est unique. Une recommandation, une traduction, des scénarios de questionnement comme dans les chatbots, il restera le problème d’entraîner à partir de l’ensemble des données de l’entreprise. Il est très compliqué d’entraîner de larges jeux de données pour des usages spécifiques et pourtant ce deep learning ne peut s’appliquer que sur de larges jeux de données pour être valide. Sans compter sur les pré-requis nécessaires. La suite d’outils dans l’Intelligence artificielle est terrible. À Berkeley, pour la chaîne d’Intelligence artificielle, nous développons une plate-forme pour atteindre une grande robustesse dans les tests sur l’Intelligence artificielle. Tous les artefacts, chaque élément de l’entraînement, chaque ligne de code suit un process expérimental précis. Il faudrait peut-être ralentir le process pour avoir la capacité de reproduire de réelles expérimentations scientifiques. Mais cela reste compliqué du fait que les changements mettent au défi tout ce qui tourne autour du contexte de la donnée. Pour obtenir un meilleur Machine Learning dans les 5 ans, cela va rester encore très empirique. » Il ne croit pas vraiment non plus à une entreprise qui soit capable de prendre des décisions sur des opérations à très haut niveau de manière autonome ou juste sur une spécialisation comme la supply chain. Mais plus à des approches de self-service adaptées à l’entreprise et pense que cela sera le sujet de conversation jusqu’en 2020. Il explique cette intuition par le fait que cela existe déjà dans l’infrastructure et que cela va arriver rapidement dans des outils comme ceux de Trifacta. Il ajoute : « Nous allons interroger notre capacité d’innovation dans ce sens. »


LE CONTEXTE DE LA DONNÉE 

Pour rester simple, le contexte de la donnée regroupe toutes les informations autour de l’usage de la donnée. Il se compose principalement de trois éléments, le contexte de l’application (code, modèles, vues), du contexte comportemental (lignage de la donnée, usage), les changements (versioning). Ce contexte global est reproduit dans un métamodèle. L’idée est d’alimenter les outils de Machine Learning qui sont aujourd’hui assez pauvres, que ce soit dans la création des pipelines ou dans l’entraînement des modèles. Lorsqu’un pipeline s’exécute les nouveaux éléments sont automatiquement repris dans le métamodèle qui enregistre les changements.


Article paru dans L'Informaticien n°167


Inscription gratuite à la newsletter de L'Informaticien.


Noter cet article (de 1 = Nul à 5 = Excellent) Valider

Actuellement à la Une...

Sécurité du poste de travail

Sécurité du poste de travail

Yann Serra
Les hackers considèrent désormais qu’il est bien plus rentable de concevoir des attaques sur-mesure pour dévaliser les entreprises. Le ciblage des salariés atteint un niveau de personnalisation tel que les...

Prélèvement à la source

Prélèvement à la source

Après un report d’un an, pour cause d’ajustements techniques et réglementaires, le prélèvement à la source deviendra une réalité pour l’ensemble des entreprises à compter...

Digital Learning Manager

La transformation digitale des entreprises passe nécessairement par une phase de formation. C’est là que le Digital Learning Manager (DLM) intervient. Coup de projecteur sur ce nouveau métier qui a le vent en poupe.

RSS
Afficher tous les dossiers

STOCKAGE NOUVELLE GÉNÉRATION - Prélèvement à la source : les éditeurs confiants - Multicloud : les Français entrent dans la danse - DEV : les langages à connaître... et ceux à éviter - Se former à l'IoT gratuitement - IPV6 : il est plus que temps ! - Rencontre avec Jean-Noël de Galzain, fondateur de Wallix et d'Hexatrust...

 

SÉCURITÉ IT : LES ENJEUX POUR 2019 - Quel O.S. pour l'auto numérique ? - GENZ, le serveur du futur - Rencontre avec Mounir Mahjoubi - Préparer l'après RTC - Au coeur d'Hexatrust : IDnomic ou l'identité innovante - Langages informatiques : quoi de neuf ? - Digital Learning Manager, le métier qui monte...

 

LOGICIELS D'ENTREPRISE : UNE TRANSFORMATION PROFONDE - Licences logicielles : éditeurs/entreprises, le clash ! - La 5G sort des labos - Windows Subsystem for Linux - Recherche désespérément ingénieurs système - 3 solutions pour booster le réseau WiFi - Rencontre avec Serge Tisseron : nous devons savoir à tout moment avec qui/quoi nous interagissons...

 

Afficher tous les derniers numéros

Tous les secteurs industriels dans le monde sont confrontés à des défis informatiques spécifiques qui conditionnent le succès ou l’échec de l’entreprise.


Au cours de la dernière année, les données volées et vulnérables se sont révélées des armes précieuses pour les adversaires de tous les horizons, dans toutes les régions, et pour toutes les motivations.


Au fur et à mesure que votre exposition à d’autres entreprises augmente, votre exposition au risque augmente également. Il ne s’agit pas uniquement de vos propres fournisseurs mais également les leurs. Comment pouvez-vous suivre toutes ces relations afin de gérer vos risques?


Pour répondre aux exigences de rapidité du modèle DevOps en conservant une cybersécurité efficace, de nouvelles approches doivent être adoptées en matière de sécurité de l'information, comme la sécurité intégrée, l’automatisation et la prévention proactive.


PROTECTION ENDPOINT NEXT-GEN : ÉVOLUTION OU RÉVOLUTION ?, un Livre Blanc SOPHOS.

Après la révolution Next-Gen Firewall de ces dernières années, une nouvelle révolution Next-Gen est cours dans le domaine de la sécurité des systèmes Endpoint. Au-delà du débat pour savoir s’il s’agit d’une révolution ou d’une simple évolution, il est certain qu’une série de nouvelles technologies est en train de rapidement émerger, en apportant une contribution significative à la lutte contre les menaces avancées.


Tous les Livres Blancs
Derniers commentaires
Le PDG de Google Sundar Pichai arrive au Congrès américain, à Washington, le 11 décembre 2018Le patron de Google Sundar Pichai a vigoureusement rejeté mardi devant le Congrès américain les accusations, portées par le président Donald Trump en personne, de "partialité" du géant de l'internet au détriment des républicains. [Lire la dépêche...]

Le PDG de Google Sundar Pichai arrive au Congrès américain, à Washington, le 11 décembre 2018Le patron de Google Sundar Pichai a vigoureusement rejeté mardi devant le Congrès américain les accusations, portées par le président Donald Trump en personne, de "partialité" du géant de l'internet au détriment des républicains. [Lire la dépêche...]

(ILLUSTRATION) Twitter a prévenu ces derniers jours plusieurs de ses utilisateurs qu'ils pourraient enfreindre la loi pakistanaiseLe journaliste canadien Anthony Furey a d'abord cru à un spam lorsqu'il a reçu du service juridique de Twitter un courriel lui indiquant qu'il avait peut-être enfreint la loi pakistanaise en tweetant il y a plusieurs années des caricatures du prophète Mahomet. [Lire la dépêche...]

Croquis d'audience par Jane Wolsak montrant Meng Wanzhou (à gauche) aux côtés de son traducteur dans le tribunal à Vancouver le 10 décembre 2018La directrice financière du géant chinois des télécoms Huawei est attendue mardi au tribunal de Vancouver pour une troisième journée d'audience, à l'issue de laquelle le juge se prononcera sur sa demande de remise en liberté pendant la procédure d'extradition vers les Etats-Unis. [Lire la dépêche...]

Une coalition de 60 groupes de défense des droits de l'homme et de la presse ont écrit au PDG de Google Sundar Pichai pour réclamer l'abandon du projet de moteur de recherche Des dizaines d'ONG ont appelé mardi dans une lettre ouverte Google à abandonner son projet de moteur de recherche en Chine qui risque selon elles de porter atteinte à la confidentialité des données personnelles en se pliant aux règles de censure de Pékin. [Lire la dépêche...]

La Chine est un marché clé pour Apple, qui fait face à la concurrence locale ces dernières annéesLes magasins Apple en Chine continuaient mardi de commercialiser des iPhone en dépit de l'interdiction de vente prononcée par un tribunal local, à l'heure où la marque à la pomme affronte un feu de critiques nationalistes dans le pays dans le sillage de l'affaire Huawei. [Lire la dépêche...]

Les grandes entreprises d'internet ont lancé Plus d'une centaine de grands reporters et photographes ont apporté leur soutien à une nouvelle tribune de leur confrère de l'AFP Sammy Ketz, appelant à défendre la réforme européenne du droit d'auteur contre les géants d'internet qui cherchent "à vider le texte de sa substance". [Lire la dépêche...]

Google CEO Sundar Pichai defends the internet giant against allegations of political bias in remarks prepared for a congressional hearingLe PDG de Google Sundar Pichai a affirmé lundi que le moteur de recherche américain n'était pas, contrairement aux accusations fréquentes de Donald Trump, "politiquement biaisé".  [Lire la dépêche...]

Toutes les dépêches AFP
AgendaIT

CES

CES CES

L'International Consumer Electronics Show (International CES) se tient du 8 au 11 janvier 2019 à Las Vegas (LVCC, Westgate, Renaissance, Sands/Venetian,...). C'est le plus grand salon mondial professionnel dédié aux technologies grand public : 3900 exposants et 170000 visiteurs attendus. Thématique principale de cette édition 2019 : The global stage for innovation. Organisé par la CTA (Consumer Technology Association).

FIC

FIC FIC
Le 11ème Forum International de la Cybersécurité occupe les 22 et 23 janvier 2019 le Grand Palais de Lille. Organisé par la Région Hauts-de-France et Euratechnologies, la Gendarmerie Nationale et CEIS.

AP CONNECT

La 2ème édition d'AP Connect qui vise à réunir les innovations, technologies et solutions dédiées à la transition numérique des administrations publiques centrales et des collectivités territoriales a lieu les 29 et 30 janvier 2019 à Espace Grand Arche, Paris La Défense. Organisé par PG Promotion.

RENCONTRES AMRAE

Les 27èmes Rencontres de l'AMRAE (Association française des professionnels de la gestion des risques et des assurances), le congrès annuel de référence des métiers du risque et des assurances, ont lieu du 6 au 8 février 2019 à Deauville (Centre International) sur le thème : "Le risque au coeur de la transformation". Organisées par l'AMRAE.

IT PARTNERS

Événement du "channel" IT, télécoms et audiovisuel, la 13ème édition d'IT Partners a lieu les 13 et 14 mars 2019 à Disneyland Paris (Disney Events Arena-Ventury 1). Organisé par Reed Expositions.
RSS
Voir tout l'AgendaIT