X

News Partenaire

Comment les valeurs des entreprises évoluent

Le modèle 1/1/1 et d'autres composantes comme le "sustainability cloud" font partie des valeurs de l'entreprise. Olivier Derrien appelle à ce que les investisseurs prennent en compte ces composantes dans l'évaluation qu'ils font des entreprises.


Une carrière dédiée à la donnée : rencontre avec Joe Hellerstein

Professeur à Berkeley et fondateur de Trifacta, il est un des spécialistes de la donnée les plus respectés aux États-Unis. Peu connu en France, Joe Hellerstein est chercheur dans le domaine de la contextualisation des données. De passage à Paris, il a accepté de rencontrer L’Informaticien pour revenir sur son parcours et sur ses travaux actuels.

Sa carrière dans la recherche et l’industrie s’est concentrée sur les systèmes centrés sur les données et la façon dont ils conduisent l’informatique. En 2010, Fortune Magazine a inclus Joe Hellerstein dans sa liste des 50 personnes les plus intelligentes en technologie, et le magazine MIT Technology Review a inclus son langage Bloom pour le Cloud Computing sur sa liste TR10 des dix technologies « les plus susceptibles de changer notre monde ». 

En 2011, Hellerstein, Jeffrey Heer, un autre professeur à Stanford et Sean Kandel, un étudiant et ex-analyste de données dans une banque américaine, ont publié un article intitulé “Wrangler : Spécification visuelle interactive des scripts de transformation de données.” Dans ce document, les auteurs ont décrit un projet de recherche appelé Wrangler, qui était « un système interactif pour créer des transformations de données. » Wrangler a introduit une nouvelle façon d’effectuer la préparation de données par interaction directe avec les données présentées dans une interface visuelle. Les analystes pourraient explorer, modifier et manipuler les données de manière interactive et voir immédiatement les résultats. Wrangler suivait les transformations de données de l’utilisateur et pouvait ensuite générer automatiquement du code ou des scripts qui pouvaient être appliqués à plusieurs reprises sur d’autres jeux de données (machine learning). 

En 2012, Kandel, Hellerstein, Heer ont fondé Trifacta pour commercialiser cette solution. Berkeley permet aux professeurs de prendre trois ans afin de développer leur activité, ce que Hellerstein a fait. Il est reparti à Berkeley mais reste très impliqué dans l’activité de Trifacta. Quand on lui demande pourquoi il a suivi un tel parcours, Joe Hellerstein répond : « Toute ma carrière a été autour de la donnée, depuis mes premiers travaux de recherche comme stagiaire chez IBM. Je travaillais à l’époque sur les bases de données, un élément au sens propre central qui touche l’ensemble des sciences informatiques : programmation, algorithmes, optimisation des performances, le traitement parallèle des données. Devenu professeur, j’ai ensuite continué dans cette voie et sur ces travaux, même si tout au long de cette carrière j’ai toujours été en rapport proche avec le monde de l’entreprise. »

LE MONDE DE LA DONNÉE A EXPLOSÉ

Depuis ses débuts quels éléments ont fondamentalement changé ? Joe Hellerstein répond de manière enthousiaste : « Le monde a explosé en dehors des bases de données. Le Web, le partage des fichiers l’ensemble des éléments de cette révolution sont en lien avec les données. Le débat ne tourne pas autour des capacités de calcul. Les nouvelles racines de l’innovation viennent de start-up, comme en son temps Greenplum, un projet auquel j’ai participé, avec de plus en plus de gens sur des applications et un travail sur l’interaction entre l’humain et la donnée et entre les données elles-mêmes. L’intérêt de l’interaction entre les ordinateurs a changé, les machines, vers cette autre partie avec une échelle beaucoup plus large. Cela continue avec des bases de données encore plus rapides sur ces compétences plus anciennes. » 

Mais comment est intervenu son travail sur le wrangling et la naissance de Trifacta ? « C’était une curiosité. Nous passions énormément de temps à nettoyer et à préparer les données, ce qui est extrêmement frustrant, et il semblait difficile de résoudre le problème. Nous nous sommes attelés à ce problème et avons poursuivi assidûment ce travail en privilégiant le côté pratique. Notre but n’était pas de créer un robot mais un produit. Nous ne cherchions pas à faire fonctionner un outil de Machine Learning et nous sommes entrés dans un processus totalement empirique de tests et de mesures. Ce qui est beaucoup moins technique ! Sur cette construction s’est élaboré ce self-service de préparation de données par tests successifs. Il a connu une rapide adoption dans le secteur des services financiers. La solution s’est enrichie de la possibilité d’utiliser ECS d’Amazon pour créer des modèles. Dans la recherche le deep learning est le sujet du moment et il est extrêmement empirique. Cela a permis cependant des progrès remarquables dans divers domaines comme la traduction. Comparativement à une traduction manuelle, un modèle linguistique élaboré utilisant des réseaux de neurones arrive à de bien meilleurs résultats. Cela existe déjà en production. Cela fonctionne aussi pour le Big Data, il suffit de mettre en place des cycles de puces graphiques sur Amazon pour obtenir la puissance de calcul nécessaire. Ce ne sont pas les mathématiques le défi de l’opération, mais la gestion de l’expérimentation. Il faut tracer en évitant de bâtir de mauvais modèles lors des tests. Il existe de magnifiques théories sur le sujet mais nous n’avançons pas énormément dans le domaine. Le problème est la gestion de la donnée, la gestion de l’expérimentation sur la gestion de la donnée. Les données sont structurées mais dans une base on peut avoir des données qui ont le même nom. Nous avons deux descriptions différentes de la même chose. De ce fait les entreprises n’ont pas assez de données pour entraîner les algorithmes et les modèles appliqués. Nous pouvons cependant avoir une philosophie différente et appliquer un entraînement actif. Nous avons des certitudes sur certaines choses. Pourquoi ne pas appliquer l’entraînement que sur les ambiguïtés. Les questions seraient bien meilleures lors de cette phase d’entraînement. Je suis à Paris pour intervenir lors d’un colloque sur cette question avec une présentation sur le contexte de la donnée, un sujet de débat et de recherche aujourd’hui. »

DE NOMBREUX AUTRES SUJETS DE RECHERCHE

Interrogé sur les autres sujets importants du moment et comment il considère les avancées de l’Intelligence artificielle et si elle peut s’appliquer dans une certaine mesure pour automatiser les opérations dans l’outil de préparation des données de Trifacta, Joe Hellerstein répond : « Il y a différentes intelligences générales. Le problème est le transfert de l’enseignement de l’une à l’autre. Il existe quelques exemples. Cependant la valeur d’un modèle propriétaire provient surtout de la manière dont il a été entraîné qui est unique. Une recommandation, une traduction, des scénarios de questionnement comme dans les chatbots, il restera le problème d’entraîner à partir de l’ensemble des données de l’entreprise. Il est très compliqué d’entraîner de larges jeux de données pour des usages spécifiques et pourtant ce deep learning ne peut s’appliquer que sur de larges jeux de données pour être valide. Sans compter sur les pré-requis nécessaires. La suite d’outils dans l’Intelligence artificielle est terrible. À Berkeley, pour la chaîne d’Intelligence artificielle, nous développons une plate-forme pour atteindre une grande robustesse dans les tests sur l’Intelligence artificielle. Tous les artefacts, chaque élément de l’entraînement, chaque ligne de code suit un process expérimental précis. Il faudrait peut-être ralentir le process pour avoir la capacité de reproduire de réelles expérimentations scientifiques. Mais cela reste compliqué du fait que les changements mettent au défi tout ce qui tourne autour du contexte de la donnée. Pour obtenir un meilleur Machine Learning dans les 5 ans, cela va rester encore très empirique. » Il ne croit pas vraiment non plus à une entreprise qui soit capable de prendre des décisions sur des opérations à très haut niveau de manière autonome ou juste sur une spécialisation comme la supply chain. Mais plus à des approches de self-service adaptées à l’entreprise et pense que cela sera le sujet de conversation jusqu’en 2020. Il explique cette intuition par le fait que cela existe déjà dans l’infrastructure et que cela va arriver rapidement dans des outils comme ceux de Trifacta. Il ajoute : « Nous allons interroger notre capacité d’innovation dans ce sens. »


LE CONTEXTE DE LA DONNÉE 

Pour rester simple, le contexte de la donnée regroupe toutes les informations autour de l’usage de la donnée. Il se compose principalement de trois éléments, le contexte de l’application (code, modèles, vues), du contexte comportemental (lignage de la donnée, usage), les changements (versioning). Ce contexte global est reproduit dans un métamodèle. L’idée est d’alimenter les outils de Machine Learning qui sont aujourd’hui assez pauvres, que ce soit dans la création des pipelines ou dans l’entraînement des modèles. Lorsqu’un pipeline s’exécute les nouveaux éléments sont automatiquement repris dans le métamodèle qui enregistre les changements.


Article paru dans L'Informaticien n°167


Inscription gratuite à la newsletter de L'Informaticien.


Noter cet article (de 1 = Nul à 5 = Excellent) Valider







Offres d'emploi informatique avec  Emploi en France
jooble

Aujourd'hui, les Directeurs Comptables et Financiers ont envie de dématérialiser leurs factures fournisseurs. C'est plutôt l'idée de devoir s'intégrer à un environnement multi-ERP déjà existant qui les freine. Mais est-ce réellement une barrière ? Dans son nouveau Livre Blanc, Esker explore ce sujet. En le téléchargeant, vous découvrirez comment la dématérialisation peut être une aubaine plutôt qu'un fardeau.


Actuellement, il existe un gouffre entre les environnements informatiques traditionnels des entreprises et le cloud public. Tout diffère : les modèles de gestion, de consommation, les architectures applicatives, le stockage, les services de données.


Les avantages de l’architecture hyperconvergée étant de plus en plus reconnus, de nombreuses entreprises souhaitent l’utiliser pour des types d’applications variés. Cependant, son manque de souplesse pour une mise à niveau des ressources de calcul indépendantes de celles de stockage ne lui permet pas d’être utilisée plus largement.

Au cours de l’événement HPE Discover qui s’est tenu en juin 2019, HPE a répondu à cette préoccupation en présentant la plateforme HPE Nimble Storage dHCI.

Ce Livre Blanc IDC se penche sur les exigences du marché ayant stimulé le besoin de solutions HCI plus flexibles, puis il examine brièvement la solution HPE Nimble Storage dHCI en expliquant pourquoi elle répond à ce besoin.


Découvrez dans ce livre blanc, les avantages des toutes nouvelles solutions NETGEAR, pour simplifier et rentabiliser vos déploiements, et gérer votre réseau à distance, où que vous soyez, au bureau ou en télé-travail.


Tous les Livres Blancs
Culture & Numérique

Culture & Numérique

Si la culture a pu être aussi avidement consommée lors du confinement, c’est avant tout parce que le secteur n’a pas attendu la Covid-19 pour faire sa transformation numérique. Une transformation qui s’est...

Project Reunion

Project Reunion

Microsoft a dévoilé à l’occasion de sa conférence annuelle Build, dédiée aux développeurs, les tout premiers contours de Project Reunion. L’objectif recherché est de faciliter le...

Télétravail & VPN

Télétravail & VPN

Alors que toutes les entreprises françaises ont été tenues de se tourner vers le télétravail lors de la période de confinement, le recours au Virtual Private Network s’est largement imposé...

Power over Ethernet

Power over Ethernet

Faciliter l’installation et la gestion d’un parc réseau tout en profitant de performances et de services innovants, voici les promesses de la technologie PoE (Power over Ethernet) ou Alimentation électrique par...

Health Data Hub

Health Data Hub

Peu de projets français d’IA auront suscité autant de controverses. La récente plate-forme de données et de services cloud pour la recherche en santé s’est fait de nombreux ennemis. En cause : le...

RSS
hardcore black fuck malay hijab fuck big black dick
Afficher tous les dossiers

QUELLE IT POUR DEMAIN ? SaaS, Hybride, Shadow IT, Green IT... - Collaboration dans le Cloud : quelles alternatives à Office 365 ? - Intégration continue : les meilleurs outils et pratiques CI/CD - École 42 : le peer to peer learning ça fonctionne ! - Startups : les bonnes recettes de Yuka - 2010-2019 : la décennie qui changea l’information géographique...

 

IT DU MONDE D'APRÈS, IT DE DEMAIN (1) : automatisation, gestion de l'info, mobilité, sécurité - Health Data Hub - Le VPN meilleure solution pour le télétravail ? - Project Reunion Microsoft : retour des apps universelles - Power Over Ethernet, une avancée discrète - Pourquoi Apple choisit ARM plutôt qu'Intel ? - La Silicon Valley dans tous ses états - Produits high tech de loisirs du moment...

 

GESTIONNAIRE DE MOTS DE PASSE : un outil indispensable ? - Pandémie & Tech : gagnants et perdants - Multicloud : réalité d'aujourd'hui, impacts sur l'infrastructure et l'applicatif - Project Reunion Microsoft - No Code/Low Code en plein essor - Cobol V6 - Cyberattaques Covid-19 - L'emploi au temps du Corona...

 

Afficher tous les derniers numéros
Derniers commentaires
Le ministre délégué aux Transports Jean-Baptiste Djebbari, à l'Elysée le 27 juillet 2020L'instauration d'une écotaxe telle que proposée par la convention citoyenne aurait des "conséquences absolument délétères" sur le plan social pour le transport aérien déjà sinistré, a jugé lundi le ministre délégué aux Transports Jean-Baptiste Djebbari. [Lire la dépêche...]

Le PDG d'Orange Stéphane Richard, à Paris le 7 septembre 2020Le PDG de l'opérateur de télécoms Orange Stéphane Richard, convaincu que "l'absence de gouvernance" chez Huawei crée un problème, a conseillé lundi à l'équipementier, accusé d'être contrôlé par l'Etat chinois, "de procéder à des changements assez radicaux". [Lire la dépêche...]

Le batteur Manu Katché en janvier 2018 à Téhéran, en IranAprès les youtubeurs Hugo Travers et Cyrus North, Yahoo France a fait appel au batteur Manu Katché pour produire des vidéos en ligne, a annoncé lundi le groupe web, soucieux de développer davantage de contenus originaux. [Lire la dépêche...]

Une juge a suspendu l'interdiction de télécharger WeChat qui devait entrer en vigueur dimancheUne juge californienne a temporairement suspendu une décision de l'administration américaine qui devait, au nom de la sécurité nationale, empêcher à partir de dimanche le fonctionnement normal aux Etats-Unis de l'application WeChat, du géant chinois Tencent. [Lire la dépêche...]

Une juge a suspendu l'interdiction de télécharger WeChat qui devait entrer en vigueur dimancheDernier épisode en date dans la saga sur le sort des applications TikTok et WeChat aux Etats-Unis: les restrictions qui devaient empêcher à partir de dimanche l'utilisation normale de WeChat, du groupe chinois Tencent, ont été temporairement suspendues par une juge. [Lire la dépêche...]

S'il se concrétise, le dénouement autour de l'application TikTok pourrait permettre d'éteindre un des nombreux feux couvant actuellement entre Washington et Pékin, notamment sur le front technologiqueLa populaire application TikTok, menacée d'interdiction aux Etats-Unis au nom de la sécurité nationale, va pouvoir rester dans le pays: Donald Trump a donné samedi son feu vert à un projet impliquant Oracle et Walmart. [Lire la dépêche...]

Le siège de TikTok aux Etats-Unis, à Culver City (Californie)Les utilisateurs américains de TikTok ont réagi avec flegme vendredi à l'interdiction prochaine de télécharger l'application du réseau social, tout en préparant leur exode possible vers d'autres cieux. [Lire la dépêche...]

Les Etats-Unis ont annoncé l'interdiction, à partir de dimanche, du téléchargement des applications TikTok et WeChatLa Chine a instauré samedi un mécanisme lui permettant de restreindre les activités d'entreprises étrangères au lendemain de l'annonce par Washington de l'interdiction de télécharger à partir de dimanche TikTok et WeChat, nouvelle escalade dans le bras de fer avec Pékin sur le sort des deux applications. [Lire la dépêche...]

Toutes les dépêches AFP
AgendaIT

DOCUMATION

Congrès et exposition Documation du 22 au 24 septembre 2020  à Paris Porte de Versailles (Pavillon 4.3). Organisé par Infopromotions.

IOT WORLD - MTOM

IoT World / MtoM & Objets connectés - Embedded se tient, en parallèle de Cloud + Data Center, les 23 et 24 septembre 2020 à Paris, Porte de Versailles (Hall 5.3). Organisée par Cherche Midi Expo.

SSI SANTÉ

Le 8ème Congrès National de la Sécurité des SI de Santé a lieu du 29 septembre au 1er octobre 2020 au Mans. Organisé par l'Apssis (Association Pour la Sécurité des Systèmes d'Information de Santé).

LES ASSISES

Grand rendez-vous annuel des RSSI, les Assises de la cybersécurité se tiennent à Monaco (Grimaldi Forum) du 14 au 17 octobre 2020. Organisées par DG Consultants / Comexposium.

READY FOR IT

La première édition de Ready For IT se déroule du 17 au 19 novembre 2020 à Monaco (Grimaldi Forum) : conférences, keynotes, ateliers et rendez-vous one-to-one. Organisé par DG Consultants.
RSS
hardcore black fuck malay hijab fuck big black dick
Voir tout l'AgendaIT