Le Voice Lab veut votre voix

L’association des acteurs français de la « Voice Tech Â» se lance dans une campagne de crowdsourcing. Le Voice Lab entend collecter par cette opĂ©ration quelque 2000 heures de voix, afin de fournir aux membres de l’association une base Ă  partir de laquelle ils pourront chercher des poux aux gĂ©ants amĂ©ricains du secteur.

En 2017, Mozilla lançait Common Voice, un projet de rĂ©colte de donnĂ©es vocales afin d’enrichir un projet de systĂšme de reconnaissance vocale. Objectif : collecter 10 000 heures de voix. L’initiative, aprĂšs un dĂ©part sur les chapeaux de roue, est finalement passĂ©e sous les radars et a Ă©tĂ© quelque peu oubliĂ©e. Plus prĂšs de nous, le Voice Lab a rĂ©cemment lancĂ© un projet assez similaire.

L’idĂ©e consiste Ă  collecter 2000 heures de voix, en français. Mais contrairement Ă  Common Voice, ce « Data Funding Â» ne consiste pas Ă  demander aux volontaires de lire quelques phrases dans leur micro, mais de faire jouer l’obligation de portabilitĂ© des donnĂ©es contenue dans le RGPD. De fait, les utilisateurs de Siri, Alexa ou tout autre service vocal peuvent demander Ă  l’éditeur leurs archives, pour ensuite les fournir au Voice Lab.

Karel Bourgois, président du Voice Lab et fondateur de Voxist.

Data Funding

L’association, qui rĂ©unit entreprises et institutions autour de la Voice Tech, est nĂ©e d’un appel Ă  manifestation d’intĂ©rĂȘt de l’État. « L’écosystĂšme français et extrĂȘmement fragmentĂ© avec des petites et moyennes structures, qui doivent faire face Ă  des mastodontes amĂ©ricains Â» nous explique Karel Bourgois, prĂ©sident du Voice Lab et fondateur de Voxist. « Ce problĂšme se retrouve dans le secteur de la recherche. Et du cĂŽtĂ© des grands groupes, on avait la problĂ©matique cĂŽtĂ© utilisateurs, Ă  savoir qu’ils ne trouvent pas d’acteurs français avec les ressources suffisantes pour leurs projets Â».

Une fois le Voice Lab fondĂ© et soutenu par la BPI, l’association a voulu Ă©tendre cette proposition de mutualisation intrinsĂšque aux citoyens, « parce que les gens sont de plus en plus conscients des problĂ©matiques des donnĂ©es personnelles Â» signale Karel Bourgois. Ensemble, les membres de l’association comptabilisaient 2000 heures en langue française. « Notre objectif : doubler ce volume de donnĂ©es Â». Et Ă  terme atteindre les 100 000 heures.

Tiers de confiance

Dans les 2000 heures actuelles, on trouve aussi bien des cassettes audio enregistrĂ©es dans les annĂ©es 70 que des livres audios, des conversations tĂ©lĂ©phoniques et surtout des enregistrements rĂ©alisĂ©s dans le cadre de programmes de recherche. Les 2000 heures supplĂ©mentaires recherchĂ©es proviendront quant Ă  elles de commandes adressĂ©es Ă  des assistants vocaux, des chatbots et autres services commandĂ©s Ă  la voix, quoique l’association travaille Ă©galement sur le sujet des enregistrements des appels aux services client/support, « car le Voice Lab veut se poser en tiers de confiance : on travaille sur le cloisonnement afin que ces donnĂ©es puissent ĂȘtre utilisĂ©es dans l’apprentissage Â».

L’idĂ©e est en effet d’entraĂźner des modĂšles sur des donnĂ©es qui correspondent aux problĂ©matiques des utilisateurs, mais sans pour autant avoir accĂšs Ă  la donnĂ©e. NĂ©anmoins, totalement anonymiser ces donnĂ©es est impossible. Les informations identifiantes seront bien entendu expurgĂ©es, mais demeurera inĂ©vitablement « une empreinte vocale qui est unique et l’enlever reviendra Ă  supprimer ses propriĂ©tĂ©s Â» souligne Karel Bourgois.

La voix souveraine

Surtout, la voix dans sa dimension de nouvelle interface d'interaction avec un service est « un Ă©lĂ©ment de souverainetĂ© Â» dans le sens oĂč les bases de reconnaissance vocale donnent accĂšs Ă  cette interface, et permettent aux acteurs Ɠuvrant aussi bien dans le champ de la recherche que dans le champ commercial de s’imposer sur le marchĂ© en maĂźtrisant cette interaction vocale. On pourra notamment citer Djingo, l’enceinte intelligente d’Orange, qui utilisait pour sa reconnaissance vocale les services du gĂ©ant amĂ©ricain Nuance.

« Se rĂ©unir ensemble pour avoir l'ensemble des acteurs qui contribuent nous permettra d’atteindre la masse critique, et pourquoi pas aprĂšs de viser le niveau europĂ©en, ce qui fournirait un panel de langues assez unique Â» prĂ©voit Karel Bourgois. Et les donnĂ©es ne seront que la premiĂšre brique d’une place de marchĂ© qui comprendra Ă©galement des moteurs de reconnaissance vocale et, enfin, une derniĂšre couche de services Ă  l’instar des assistants vocaux, des chatbots, de solutions de sous-titrage, etc.

Les participants au Voice Lab.