X

News Partenaire

Conformité d’un hébergeur cloud au RGPD : des preuves techniques ?

A l’heure où le règlement général sur la protection des données va entrer en application, entreprises et administrations se demandent toujours comment procéder. Certaines décident d’y aller seules, d’autres se tournent vers des hébergeurs cloud pour les aider et les accompagner. Agarik assume ce rôle en mettant en avant son expertise en matière de sécurité.

Une carrière dédiée à la donnée : rencontre avec Joe Hellerstein

Professeur à Berkeley et fondateur de Trifacta, il est un des spécialistes de la donnée les plus respectés aux États-Unis. Peu connu en France, Joe Hellerstein est chercheur dans le domaine de la contextualisation des données. De passage à Paris, il a accepté de rencontrer L’Informaticien pour revenir sur son parcours et sur ses travaux actuels.

Sa carrière dans la recherche et l’industrie s’est concentrée sur les systèmes centrés sur les données et la façon dont ils conduisent l’informatique. En 2010, Fortune Magazine a inclus Joe Hellerstein dans sa liste des 50 personnes les plus intelligentes en technologie, et le magazine MIT Technology Review a inclus son langage Bloom pour le Cloud Computing sur sa liste TR10 des dix technologies « les plus susceptibles de changer notre monde ». 

En 2011, Hellerstein, Jeffrey Heer, un autre professeur à Stanford et Sean Kandel, un étudiant et ex-analyste de données dans une banque américaine, ont publié un article intitulé “Wrangler : Spécification visuelle interactive des scripts de transformation de données.” Dans ce document, les auteurs ont décrit un projet de recherche appelé Wrangler, qui était « un système interactif pour créer des transformations de données. » Wrangler a introduit une nouvelle façon d’effectuer la préparation de données par interaction directe avec les données présentées dans une interface visuelle. Les analystes pourraient explorer, modifier et manipuler les données de manière interactive et voir immédiatement les résultats. Wrangler suivait les transformations de données de l’utilisateur et pouvait ensuite générer automatiquement du code ou des scripts qui pouvaient être appliqués à plusieurs reprises sur d’autres jeux de données (machine learning). 

En 2012, Kandel, Hellerstein, Heer ont fondé Trifacta pour commercialiser cette solution. Berkeley permet aux professeurs de prendre trois ans afin de développer leur activité, ce que Hellerstein a fait. Il est reparti à Berkeley mais reste très impliqué dans l’activité de Trifacta. Quand on lui demande pourquoi il a suivi un tel parcours, Joe Hellerstein répond : « Toute ma carrière a été autour de la donnée, depuis mes premiers travaux de recherche comme stagiaire chez IBM. Je travaillais à l’époque sur les bases de données, un élément au sens propre central qui touche l’ensemble des sciences informatiques : programmation, algorithmes, optimisation des performances, le traitement parallèle des données. Devenu professeur, j’ai ensuite continué dans cette voie et sur ces travaux, même si tout au long de cette carrière j’ai toujours été en rapport proche avec le monde de l’entreprise. »

LE MONDE DE LA DONNÉE A EXPLOSÉ

Depuis ses débuts quels éléments ont fondamentalement changé ? Joe Hellerstein répond de manière enthousiaste : « Le monde a explosé en dehors des bases de données. Le Web, le partage des fichiers l’ensemble des éléments de cette révolution sont en lien avec les données. Le débat ne tourne pas autour des capacités de calcul. Les nouvelles racines de l’innovation viennent de start-up, comme en son temps Greenplum, un projet auquel j’ai participé, avec de plus en plus de gens sur des applications et un travail sur l’interaction entre l’humain et la donnée et entre les données elles-mêmes. L’intérêt de l’interaction entre les ordinateurs a changé, les machines, vers cette autre partie avec une échelle beaucoup plus large. Cela continue avec des bases de données encore plus rapides sur ces compétences plus anciennes. » 

Mais comment est intervenu son travail sur le wrangling et la naissance de Trifacta ? « C’était une curiosité. Nous passions énormément de temps à nettoyer et à préparer les données, ce qui est extrêmement frustrant, et il semblait difficile de résoudre le problème. Nous nous sommes attelés à ce problème et avons poursuivi assidûment ce travail en privilégiant le côté pratique. Notre but n’était pas de créer un robot mais un produit. Nous ne cherchions pas à faire fonctionner un outil de Machine Learning et nous sommes entrés dans un processus totalement empirique de tests et de mesures. Ce qui est beaucoup moins technique ! Sur cette construction s’est élaboré ce self-service de préparation de données par tests successifs. Il a connu une rapide adoption dans le secteur des services financiers. La solution s’est enrichie de la possibilité d’utiliser ECS d’Amazon pour créer des modèles. Dans la recherche le deep learning est le sujet du moment et il est extrêmement empirique. Cela a permis cependant des progrès remarquables dans divers domaines comme la traduction. Comparativement à une traduction manuelle, un modèle linguistique élaboré utilisant des réseaux de neurones arrive à de bien meilleurs résultats. Cela existe déjà en production. Cela fonctionne aussi pour le Big Data, il suffit de mettre en place des cycles de puces graphiques sur Amazon pour obtenir la puissance de calcul nécessaire. Ce ne sont pas les mathématiques le défi de l’opération, mais la gestion de l’expérimentation. Il faut tracer en évitant de bâtir de mauvais modèles lors des tests. Il existe de magnifiques théories sur le sujet mais nous n’avançons pas énormément dans le domaine. Le problème est la gestion de la donnée, la gestion de l’expérimentation sur la gestion de la donnée. Les données sont structurées mais dans une base on peut avoir des données qui ont le même nom. Nous avons deux descriptions différentes de la même chose. De ce fait les entreprises n’ont pas assez de données pour entraîner les algorithmes et les modèles appliqués. Nous pouvons cependant avoir une philosophie différente et appliquer un entraînement actif. Nous avons des certitudes sur certaines choses. Pourquoi ne pas appliquer l’entraînement que sur les ambiguïtés. Les questions seraient bien meilleures lors de cette phase d’entraînement. Je suis à Paris pour intervenir lors d’un colloque sur cette question avec une présentation sur le contexte de la donnée, un sujet de débat et de recherche aujourd’hui. »

DE NOMBREUX AUTRES SUJETS DE RECHERCHE

Interrogé sur les autres sujets importants du moment et comment il considère les avancées de l’Intelligence artificielle et si elle peut s’appliquer dans une certaine mesure pour automatiser les opérations dans l’outil de préparation des données de Trifacta, Joe Hellerstein répond : « Il y a différentes intelligences générales. Le problème est le transfert de l’enseignement de l’une à l’autre. Il existe quelques exemples. Cependant la valeur d’un modèle propriétaire provient surtout de la manière dont il a été entraîné qui est unique. Une recommandation, une traduction, des scénarios de questionnement comme dans les chatbots, il restera le problème d’entraîner à partir de l’ensemble des données de l’entreprise. Il est très compliqué d’entraîner de larges jeux de données pour des usages spécifiques et pourtant ce deep learning ne peut s’appliquer que sur de larges jeux de données pour être valide. Sans compter sur les pré-requis nécessaires. La suite d’outils dans l’Intelligence artificielle est terrible. À Berkeley, pour la chaîne d’Intelligence artificielle, nous développons une plate-forme pour atteindre une grande robustesse dans les tests sur l’Intelligence artificielle. Tous les artefacts, chaque élément de l’entraînement, chaque ligne de code suit un process expérimental précis. Il faudrait peut-être ralentir le process pour avoir la capacité de reproduire de réelles expérimentations scientifiques. Mais cela reste compliqué du fait que les changements mettent au défi tout ce qui tourne autour du contexte de la donnée. Pour obtenir un meilleur Machine Learning dans les 5 ans, cela va rester encore très empirique. » Il ne croit pas vraiment non plus à une entreprise qui soit capable de prendre des décisions sur des opérations à très haut niveau de manière autonome ou juste sur une spécialisation comme la supply chain. Mais plus à des approches de self-service adaptées à l’entreprise et pense que cela sera le sujet de conversation jusqu’en 2020. Il explique cette intuition par le fait que cela existe déjà dans l’infrastructure et que cela va arriver rapidement dans des outils comme ceux de Trifacta. Il ajoute : « Nous allons interroger notre capacité d’innovation dans ce sens. »


LE CONTEXTE DE LA DONNÉE 

Pour rester simple, le contexte de la donnée regroupe toutes les informations autour de l’usage de la donnée. Il se compose principalement de trois éléments, le contexte de l’application (code, modèles, vues), du contexte comportemental (lignage de la donnée, usage), les changements (versioning). Ce contexte global est reproduit dans un métamodèle. L’idée est d’alimenter les outils de Machine Learning qui sont aujourd’hui assez pauvres, que ce soit dans la création des pipelines ou dans l’entraînement des modèles. Lorsqu’un pipeline s’exécute les nouveaux éléments sont automatiquement repris dans le métamodèle qui enregistre les changements.


Article paru dans L'Informaticien n°167


Inscription gratuite à la newsletter de L'Informaticien.


Noter cet article (de 1 = Nul à 5 = Excellent) Valider


Rencontre avec John Van Siclen

Rencontre avec John Van Siclen

Avec son profil atypique dans le paysage de l’informatique, le CEO de Dynatrace, ancien universitaire (études d’histoire), nous confie son approche de la direction d’une entreprise dans le secteur de la high tech.

WiFi 802.11ax

WiFi 802.11ax

La nouvelle norme WiFi devrait être officiellement publiée à la fin de l’année ou début 2019. Le secteur est sur le pied de guerre et se prépare à l’arrivée d’un lot de...

Gérer le cloud hybride

Gérer le cloud hybride

De plus en plus d’entreprises envisagent leur stratégie cloud en mode hybride. Face à la complexité de la tâche, elles sont à la recherche d’outils de gestion complets et intégrés. Les...

RSS
Afficher tous les dossiers

BÂTIR LA MAISON INTELLIGENTE - GitHub by Microsoft + alternatives - FIDO2, l'après mot de passe - Open Street Map alternative à Google Maps ? - Java 10/Java 11 ne loupez pas le train - Marseille, 1er port numérique européen ? - OpenClassrooms : l'e-learning "non élitiste" à la conquête du monde...

 

DOSSIER ANTI-VIRUS : chronique d'une mort annoncée... ou mutation profonde ? - DPO/DPD : notification des violations de données personnelles - Tribune Philippe Loudenot - Entretien avec Isabelle Falque-Pierrotin, Présidente de la Cnil - Aspects juridiques du Bug Bounty - Reportage au X-Force Command center IBM à Wroclaw - Cylance, le nouveau trublion - MOOC Anssi - Portrait Manuel Dorne alias "Korben"...

 

GÉRER LE CLOUD HYBRIDE - Kubernetes et les Cloud CaaS - Annonces Build 2018 - Internet plus sûr avec TLS 1.3 - WiFi 802.11ax - Data Warehouse du futur - Au coeur d'Hexatrust : Gatewatcher, l'innovation chevillée au corps - Formations Blockchains - IoT pour tous avec Sens'It de Sigfox...

 

Afficher tous les derniers numéros
News Mag-Securs

Retrouvez actualités, dossiers et communiqués sur la sécurité du système d'information sur le portail Mag-Securs

Pour répondre aux exigences de rapidité du modèle DevOps en conservant une cybersécurité efficace, de nouvelles approches doivent être adoptées en matière de sécurité de l'information, comme la sécurité intégrée, l’automatisation et la prévention proactive.


PROTECTION ENDPOINT NEXT-GEN : ÉVOLUTION OU RÉVOLUTION ?, un Livre Blanc SOPHOS.

Après la révolution Next-Gen Firewall de ces dernières années, une nouvelle révolution Next-Gen est cours dans le domaine de la sécurité des systèmes Endpoint. Au-delà du débat pour savoir s’il s’agit d’une révolution ou d’une simple évolution, il est certain qu’une série de nouvelles technologies est en train de rapidement émerger, en apportant une contribution significative à la lutte contre les menaces avancées.


En tant que professionnel de l'informatique, vous en avez sans doute assez d'entendre parler de transformation numérique. Après tout, vous vous occupez déjà d'optimiser la gestion des actifs et de déployer les programmes big data, tout en assurant la protection et la restauration de toutes les données de votre organisation. Or, la transformation numérique peut devenir un projet d'envergure qui ne consiste pas seulement à gérer des données, mais aussi à repenser entièrement le modèle de l'entreprise et/ou à développer une nouvelle stratégie produit innovante, dans les scénarios les plus ambitieux.

  


Atteignez vos objectifs de conformité tout en améliorant votre sécurité avec le PAM (Privileged Access Management = Gestion des accès à privilèges). Un Livre Blanc Wallix.

  


Aujourd’hui, les entreprises doivent ouvrir leur SI à un nombre toujours plus important de prestataires extérieurs, d’abord pour réduire le budget informatique – recours à des prestataires externes pour des compétences qui ne font pas partie du cœur de métier de la DSI - ensuite pour gagner en rapidité dans le déploiement de nouvelles solutions.

  


Tous les Livres Blancs
Derniers commentaires
Le président américain Donald Trump parle à la presse le 17 août 2018 à la Maison Blanche Le président américain Donald Trump a dénoncé avec véhémence samedi la suspension par les géants d'internet des activités de personnalités de la droite américaine sur les réseaux sociaux, parlant de "discrimination" et qualifiant de "malade" le comportement de deux chaînes de télévision. [Lire la dépêche...]

Des centaines d'employés de Google ont signé une lettre de protestation contre le développement d'une version de son moteur de recherche adaptée aux exigences de censure en ChineLe patron de Google Sundar Pichai a assuré, selon des propos rapportés vendredi par l'agence Bloomberg, que la piste d'un retour du géant de l'internet en Chine était pour l'heure "exploratoire", après avoir été interpellé par des salariés inquiets. [Lire la dépêche...]

Un jeune australien qui Un jeune Australien qui rêvait de travailler pour Apple a piraté les systèmes informatiques de l'entreprise, mais aucunes données personnelles n'ont été dérobées, a précisé Apple vendredi. [Lire la dépêche...]

Des employés de Google signent une lettre de protestation contre les projets en ChineDes centaines d'employés de Google ont signé une lettre de protestation contre le développement d'une version de son moteur de recherche adaptée aux exigences de censure en Chine, selon le New York Times.  [Lire la dépêche...]

Le drone marin Sphyrna dans la rade de Toulon (sud de la France), le 13 août 2018Depuis la mi-juillet, un drone à l'allure de pirogue polynésienne navigue au large des côtes de Toulon (sud de la France), équipé de micros sous-marins pour enregistrer les sons émis par les cachalots. Grâce au Sphyrna, les scientifiques espèrent décrypter leurs déplacements pour mieux protéger ces espèces menacées. [Lire la dépêche...]

Recrudescence de cyberattaques sur les comptes InstagramLes utilisateurs du réseau social Instagram, filiale de Facebook, sont la cible d'une série d'attaques de la part de pirates prenant le contrôle de leur profil, avec une forte accélération depuis la fin du mois de juillet, selon le spécialiste de la cybersécurité Kaspersky Labs. [Lire la dépêche...]

Un homme lit un journal avant la proclamation des résultats de l'élection présidentielle à Bamako, le 16 août 2016Internet était inaccessible jeudi matin à Bamako sur les réseaux mobiles, quelques heures avant la proclamation du vainqueur de l'élection présidentielle, ont constaté des journalistes de l'Agence France-Presse. [Lire la dépêche...]

Le compte Twitter d'Alex Jones, fondateur du site InfoWars et personnalité américaine médiatique affiliée à l'extrême droite, a été suspendu pour une semaine, le 14 août 2018Alex Jones, fondateur du site InfoWars et personnalité américaine médiatique affiliée à l'extrême droite, a indiqué que son compte Twitter personnel avait été suspendu mardi soir pour une semaine. [Lire la dépêche...]

Toutes les dépêches AFP
AgendaIT

VMWORLD US

VMware réunit clients et partenaires à l'occasion de la conférence VMworld édition américaine à Las Vegas (Mandalay Bay) du 26 au 30 août 2018. Organisée par VMware.

RURALITIC

Ruralitic tient à Aurillac (centre des congrès) sa 13ème édition du 28 au 30 août 2018. Organisé par Mon Territoire Numérique et le Conseil départemental du Cantal.

IFA

IFA IFA
Le plus grand salon professionnel européen de l'électronique grand public a lieu à Berlin du 31 août au 5 septembre 2018. Organisé par Messe Berlin.

DREAMFORCE

Salesforce convie ses utilisateurs et partenaires à sa conférence annuelle Dreamforce du 25 au 28 septembre 2018 à San Francisco (Moscone Center). Organisée par Salesforce.
Journée de partage d’expériences sur l'IA, la Blockchain, l'Internet des Objets, le Cloud, la Sécurité, le 9 octobre 2018 à Paris (Carrousel du Louvre). Organisée par IBM.

LES ASSISES

Grand rendez-vous annuel des RSSI, les Assises de la sécurité des systèmes d'information se tiennent à Monaco (Grimaldi Forum) du 10 au 13 octobre 2018. Organisées par DG Consultants.
RSS
Voir tout l'AgendaIT