Quand la reconnaissance faciale fait fi du consentement

IBM, comme bien d’autres, dĂ©veloppe des modĂšles pour la reconnaissance faciale. Des modĂšles qui sont entraĂźnĂ©s Ă  partir de photos de visages, rĂ©cupĂ©rĂ©es sur le Web et les rĂ©seaux sociaux dans le mĂ©pris le plus complet des droits des internautes.

Qu’il Ă©tait fier, IBM, en prĂ©sentant le jeu de donnĂ©es Diverty in Faces. Un million de clichĂ©s de visages, destinĂ©s Ă  « faire progresser l'Ă©tude de l'Ă©quitĂ© et de la prĂ©cision des technologies de reconnaissance faciale Â». Cette dĂ©cision rĂ©pondait aux reproches faits quant aux biais sexistes et racistes de l’entraĂźnement des modĂšles. Mais IBM ne se doutait pas que NBC irait mettre le nez dans cette base et en rĂ©vĂšlerait les dessous.

Dans un article fleuve, notre consƓur amĂ©ricaine Ă©tablit que ce million de photographies a Ă©tĂ© exploitĂ© sans le consentement des personnes reprĂ©sentĂ©es, sans mĂȘme qu’elles ou les photographes soient au courant du traitement de leurs images. « C'est le sale petit secret des ensembles d'entraĂźnement pour l'IA. Les chercheurs se contentent souvent de rĂ©cupĂ©rer les images disponibles dans la nature » explique Jason Schultz, professeur Ă  la facultĂ© de droit de l’UniversitĂ© de New York.

Scrapping photographique

Diversity in Faces est extrait d’une base de 100 millions d’images disponibles sous licence Creative Commons sur Flickr, que le propriĂ©taire de la plateforme, Yahoo!, a gracieusement mise Ă  disposition des chercheurs en 2014. « En utilisant des images disponibles publiquement Ă  partir du jeu de donnĂ©es Creative Commons YFCC-100M, nous avons annotĂ© les faces Ă  l'aide de 10 systĂšmes de codage bien Ă©tablis et indĂ©pendants extraits de la littĂ©rature scientifique Â» explique IBM dans un communiquĂ©.

 Â« Aucune des personnes que j'ai photographiĂ©es n'avait la moindre idĂ©e que leurs images Ă©taient utilisĂ©es de cette maniĂšre », indique Ă  NBC un photographe dont 700 clichĂ©s se sont retrouvĂ©s dans la base. Si IBM assure que les utilisateurs de Flickr (soit les titulaires du compte Flickr et non les personnes reprĂ©sentĂ©es sur les photographies) peuvent demander Ă  ce que leurs clichĂ©s soient retirĂ©s de la base, NBC relĂšve que la procĂ©dure est ardue et que Big Blue ne fait pas preuve de la meilleure volontĂ© quand il s’agit de s’exĂ©cuter.

L’IA dans la tronche

Outre la question du traitement d’une donnĂ©e personnelle, cette pratique soulĂšve une problĂ©matique en termes de licences. Si celle-ci tolĂšre les usages non-commerciaux, IBM met en avant le fait que cette base ne sert que la recherche acadĂ©mique sur la reconnaissance faciale. Mais sachant qu’entre recherche et exploitation commerciale, la frontiĂšre est floue et que IBM commercialise des solutions de reconnaissance faciale, la question du respect de la licence se pose.

« Ă€ mesure que les mĂ©dias sociaux et le contenu gĂ©nĂ©rĂ© par les utilisateurs prenaient le relais, les photos de personnes ordinaires Ă©taient de plus en plus disponibles. Les chercheurs ont considĂ©rĂ© cela comme un jeu de donnĂ©es gratuit, rĂ©cupĂ©rant des visages sur YouTube, Facebook, Google Images, Wikipedia, etc. Â» rappelle NBC. Aux dĂ©pens des droits des internautes, le plus souvent.