L’INFORMATIQUE DU GRAND DÉBAT NATIONAL

Depuis fin janvier, les Françaises et les Français peuvent contribuer au Grand Débat National promis par l’exécutif. Au moment où nous écrivons ces lignes, 900 000 contributions ont été enregistrées sur granddebat.fr, ainsi que plus de 6 000 réunions publiques, elles bien physiques. Sur Internet et dans les collectivités, questionnaires ouverts et contributions libres, format dématérialisé et papier, l’hétérogénéité des contributions promet un sacré casse-tête pour les prestataires en charge d’en réaliser d’ici à la fin avril la synthèse. D’autant qu’il faudrait déjà comprendre qui fait quoi. De l’intérieur comme de l’extérieur, il y a de quoi se perdre dans l’informatique du Grand Débat !

CAP COLLECTIF, UNE «CIVIC TECH» DERRIÈRE GRANDDEBAT.FR

Granddebat.fr, c’est elle ! Cap Collectif, jeune entreprise parisienne, est derrière la plateforme permettant aux citoyennes et citoyens de participer en ligne au Grand Débat National. Et force est de constater que la start-up a jusqu’à présent assuré la continuité du service. Le nom Cap Collectif vous était peut-être inconnu avant la fin janvier : il s’agit de l’entreprise aux commandes de la plate-forme granddebat.fr. Cette start-up fondée en 2014 se spécialise dans les « civic tech », qualifiée d’intelligence collective, et met à disposition de diverses organisations, associations, entreprises, collectivités, administrations, etc., une plate-forme SaaS d’applications participatives. Si le Grand Débat place l’entreprise parisienne sous le feu des projecteurs, ce n’est pas la première fois qu’elle est aux manettes d’une consultation à l’échelle nationale. DIVISÉ EN QUATRE THÉMATIQUES, LE GRAND DÉBAT COMPTAIT PAS MOINS DE 900 000 CONTRIBUTIONS SUR LA PLATE-FORME AU MOMENT OÙ NOUS ÉCRIVIONS CES LIGNES. Ainsi, la plate-forme de « discussion publique ouverte » autour du projet de loi pour une République numérique, c’était déjà Cap Collectif. Idem pour la consultation sur les retraites, le projet de loi bioéthique ou encore la partie publique des États-généraux du numérique. « République numérique, à l’époque, ça avait été lancé très vite, c’était pas du tout optimisé », se rappelle Aurélien David, directeur technique de Cap Collectif, CapCo pour les intimes. Une nuit pour mettre en place l’infrastructure, quand la toute jeune pousse n’était pas en mesure de faire du multiserveur. « On avait juste pris la plus grosse machine chez OVH en croisant les doigts pour que ça marche… et ça n’avait pas trop mal marché. »

Une petite machine qui roule

Pour le Grand Débat, Cap Collectif a vu les choses en plus grand, recevant notamment de l’Anssi « beaucoup de recommandations et d’audits techniques sur l’existant, ce qui nous a grandement aidé à mieux sécuriser la plateforme », explique Pierre Tondereau, en charge de la partie Infrastructure de cette société d’une trentaine de salariés. Où il est plus ou moins le seul à gérer les questions d’infrastructure. Une ferme de serveurs a été louée chez OVH, hébergeur habituel de l’infra de la start-up. « On a eu la chance, vu l’enjeu, d’avoir un contact direct avec OVH avec qui nous avons eu plusieurs réunions afin de voir nous où nous en étions », raconte Aurélien David. « Les infras multiserveurs, c’est la troisième qu’on fait, la première c’était les retraites et la seconde la bioéthique. Nous avions hésité, car nous n’avons eu que deux semaines pour faire les choix techniques, entre prendre le risque de partir sur une infrastructure élastique qu’on ne maîtrise pas vraiment ou plutôt sur ce qu’on connaissait en y mettant les moyens pour que ça tienne la route. OVH était là pour nous donner des recommandations. » Impossible pour l’équipe de donner plus de détails sur cette partie, sinon que granddebat.fr s’appuie sur suffisamment de serveurs pour pouvoir supporter les pics de connexions. Lesquels se produisent par exemple à l’occasion de journaux télévisés et de reportages sur la plate-forme. « Après un JT de TF1, on devait être à 13 000 ou 15 000 utilisateurs simultanés », cite le directeur technique. « Et on a quasiment ce chiffre là en requêtes par seconde », renchérit Pierre Tondereau. Sur ces problématiques de trafic, justement, Cap Collectif a recours depuis ses débuts à Cloudflare « pour tout ce qui est de nous faciliter la sécurité, la gestion du trafic, les redirections, la livraison du contenu ». De son côté, Aurélien David affirme que pour une start-up comme Capco, qui est petite, avec peu de temps à investir dans tout ce qui est infra et sécurité, « les quelques fois où nous avons subi des attaques nous avons été en mesure de réagir très vite avec leur pare-feu applicatif. Pour le prix du service, c’est assez impressionnant ». LA PLATE-FORME PERMET DE SIGNALER LA TENUE D’UNE RÉUNION PUBLIQUE, AINSI QUE D’EN RESTITUER LA TENEUR.

Civic tech propriétaire, un choix délibéré

Chez Cap Collectif, chaque client à sa propre infrastructure dédiée, isolée des autres, sa propre base de données MySQL. La plate-forme est la même pour tous, quoique l’entreprise permette qu’on puisse y ajouter du code personnalisé, dans un certaine mesure… « C’est à peu près comme l’éditeur de Wordpress : on peut juste mettre des feuilles de style JavaScript. Le code source, le client n’y touche pas ! », indique Pierre Tondereau. Le code de Cap Collectif est en effet propriétaire, ce qui n’a pas manqué de faire grincer des dents à l’annonce du choix de la start-up pour le Grand Débat National. Des questionnements auxquels l’entreprise a l’habitude depuis sa création. Le fondateur de Cap Collectif, Cyril Lage, explique cette décision par souci de ne pas être soumis aux desiderata du client, par exemple sur la corbeille ouverte, permettant de visualiser le contenu modéré, ou encore le système de vote. « On a eu la demande quasiment à chaque fois, par exemple pour supprimer les “ vote contre ” ou faire de la modération a priori. On a l’avantage de pouvoir dire non à chaque fois », précise le directeur technique. Avec cette idée que, si la plate-forme était open source, le client pourrait toujours trouver un développeur capable de modifier ou supprimer les fonctionnalités qui lui déplaisent. « On ne veut pas que n’importe quelle société puisse toucher à notre code, on veut garder la maîtrise dessus », ajoute Pierre Tondereau. Les applications de Cap Collectif, telles que décrites techniquement en interne, sont au nombre de trois : consultation, budget participatif et questionnaire. Aussi surprenant que cela puisse paraître pour une grande consultation nationale, seules les deux dernières sont utilisées, avec une adaptation de la partie budget participatif en boîte à idées sans vote. Pierre Tondereau tient d’ailleurs à rappeler que l’entreprise n’est pas une agence qui se serait occupée de tout le projet de A à Z : « Cap Collectif développe et fournit la plateforme. » Les soucis rencontrés quant à la réservation des noms de domaine proches de granddebat.fr, qui a donné lieu à des détournements parodiques, ne sont donc pas imputables à la start-up. Pas plus qu’elle ne se chargera de la synthèse du Grand Débat. « Pour une ampleur telle que celle du grand débat, avec une équipe d’une trentaine de personnes, nous n’aurions pas été en capacité de faire la synthèse », nous fait savoir Céline Vuillaume, la responsable de la communication de Cap Collectif.

Open Data

L’entreprise s’occupe néanmoins de la modération des contributions a posteriori, sur la base des signalements émis par la communauté. « Sur le Grand Débat, où nous sommes à plus de 600 000 contributions [au moment de l’interview NDLR], il y a 32 contenus modérés, tous disponibles dans la corbeille, pour 540 signalements traités manuellement », souligne-t-elle. À noter que seuls les contenus ne respectant pas la charte de la plate-forme sont modérés, quoique la majeure partie des signalements d’autres utilisateurs soient des « signalements de désaccord ». Pas de censure pour des motifs politiques donc, et quand bien même les contenus sont toujours visibles pour les inscrits. Sur la question des données personnelles, autre critique adressée au site à ses débuts, Cap Collectif a révisé sa copie et a détaillé les conditions de confidentialité et d’utilisation. Les contributions sont évidemment anonymisées, les informations (e-mail et code postal) à fournir à l’inscription n’étant pas visibles en front end. En outre, contractuellement, les données sont la propriété exclusive du client, leur gestion lui est déléguée. Mais compte tenu du souhait de transparence exprimé par le gouvernement, Cap Collectif donne accès aux contributions au moyen de deux fichiers, CSV et JSON, pour chacune des quatre thématiques, ainsi qu’une API publique, en Beta au moment de notre rencontre, pour que n’importe qui puisse récupérer les contributions anonymisées, plutôt que d’avoir à crawler le site à l’ancienne. CAP COLLECTIF A OUVERT LES DONNÉES DU GRAND DÉBAT À TOUS, EN PARTICULIER AUX CHERCHEURS ET AUX JOURNALISTES QUI SOUHAITENT ANALYSER LES GRANDES TENDANCES DE LA CONSULTATION.

LE SOCLE TECHNIQUE DE CAPCO

La plate-forme de Cap Collectif était initialement créée  en Drupal, mais elle a très vite basculé vers le framework Symfony, dans un premier temps basique avec une API REST et des interactions avec un front end  en Javascript. « Progressivement, on commençait à avoir  de plus en plus de besoins en termes d’amélioration  des interactions avec les utilisateurs, de mise en place  d’une interface très réactive, etc. On a fini par avoir plus  de Javascript que de PHP, c’était une grosse transition  à CapCo », explique Aurélien David. « Derrière, pour propulser les demandes de plus en plus poussées, on a commencé  à avoir du ElasticSearch, pas mal d’asynchrone, du Redis  et côté front end nous avons aussi pas mal complexifié  à mesure des améliorations. » L’entreprise cesse  le développement d’API REST à la fin 2017. « On a remarqué  que 50 % du code représentait des appels aux différentes API, avec la gestion de tous les problèmes  qui vont avec… », se souvient le directeur technique.  À l’occasion d’un hackathon, Cap Collectif fait un premier PoC avec GraphQL, un langage de requêtes développé par Facebook. « Suite à cela, nous avons trouvé que nous avions véritablement gagné en vélocité de développement grâce au modèle d’API Graph. Nous l’avons donc mis progressivement en place en dépréciant nos API REST. »

LES CONTRIBUTIONS CITOYENNES SERONT-ELLES BIEN TRAITÉES ?

Opinion Way, la Bibliothèque Nationale de France, Roland Berger, BlueNove, Cognito… voici quelques-uns des acteurs qui passeront à la moulinette de leurs solutions les centaines de milliers de contributions au Grand Débat. Avec de l’IA dedans, bien évidemment. Au 15 février, soit à mi-parcours du Grand Débat National, la Mission en charge de la consultation rapportait avoir dénombré quelque 900 000 contributions en ligne, auxquelles s’ajoutent les 9 000 cahiers de doléance, au format papier, disponibles en mairie. Il faut également compter sur les réunions d’initiatives locales (RIL), près de 7 000 annoncées dont la moitié a déjà eu lieu, et leur restitution sur la plate-forme. Sans parler de toutes les autres contributions, du courrier au formulaire en ligne sur les sites de mairies… Le débat voulu par Emmanuel Macron est un succès en termes de participation, tant et si bien que le traitement du volume de données produites en vue de fournir des synthèses s’annonce particulièrement complexe. D’autant que, jusqu’à très récemment, l’identité des différents prestataires et leur rôle respectif étaient relativement flous. Il a en effet été nécessaire d’attendre le Conseil des ministres du 13 février, soit près d’un mois après le lancement du grand débat, pour enfin connaître les organisations en charge de l’analyse des contributions. Les contributions libres sur papier, en tête desquelles les cahiers de doléances en mairie, seront évidemment numérisés. Leur collecte s’arrête au 20 février et elles seront transmises à la Bibliothèque nationale de France, « qui se chargera de référencer, d’indexer, de numériser leurs contenus et de retranscrire ceux qui sont dactylographiés ». Un appel d’offres a également été passé en procédure accélérée, avec remise des candidatures pour le 15 février, et porte sur la lecture d’un minimum de 300 000 pages au format A4. Difficile de savoir au moment où nous mettons sous presse comment sera mené le travail de ce ou ces prestataires avec la Bibliothèque nationale de France. Une fois exploitables au format électronique, ces contributions seront traitées par un consortium dirigé par le cabinet de conseil allemand Roland Berger, qui s’est associé aux Français Cognito et BlueNove, décrits comme des « prestataires spécialisés dans la “ civic tech ”, l’intelligence collective et le traitement de données de masse ». Aucun n’était toutefois habilité à nous fournir des détails techniques quant à l’analyse de ces données.

Traitement du langage naturel

Concernant les contributions déposées sur granddebat.fr, collectées jusqu’au 18 mars prochain, elles feront l’objet d’une « exploitation quantitative et qualitative par OpinionWay ». L’institut de sondage est déjà bien connu du Service d’information du gouvernement (SIG), les deux organisations ayant déjà travaillé ensemble. Si le SIG refuse toute interview, OpinionWay a été bien plus prolixe dans une FAQ sur son site. On apprend ainsi que l’entreprise traitera l’ensemble des données recueillies sur la plate-forme. L’analyse des réponses aux questions fermées sera réalisée en interne. Le traitement consistera à « comptabiliser les occurrences de chaque réponse et transformer ces résultats en pourcentage. Aucune pondération statistique ne sera appliquée ». Pour les autres réponses, au format plus libre, OpinionWay va avoir recours à la solution d’analyse de texte de QWAM. Cette société française a mis au point un outil d’analyse automatique de données textuelles en masse à grand renfort de traitement automatique (machine learning) du langage naturel, avec un peu de deep learning pour fluidifier le tout. « Les notions citées par les répondants sont relevées, analysées, triées et classées en différentes catégories et sous-catégories. Le protocole méthodologique qui sera appliqué comprend une intervention humaine systématique de la part des équipes d’OpinionWay pour contrôler la cohérence des résultats et s’assurer de la pertinence des données produites et de la bonne compréhension du sens des propos des participants au débat », indique OpinionWay sur son site. Ces catégories devront être approuvées par les garants et seront par la suite associées à des verbatims ce qui permettra « une exploitation quantitative des déclarations spontanées des répondants, qui seront ensuite présentées sous forme de pourcentages ».

Des contributions hétérogènes

Et pourtant, une grande confusion demeure quant à certains types de contributions. Ainsi, sur l’analyse des comptes rendus des RIL, on ne sait qui du consortium ou d’OpinionWay sera en charge du traitement. Selon Isabelle Falque-Pierrotin, l’une des cinq garants du Grand Débat, au premier incomberait les restitutions libres tandis que le second se concentrerait sur les comptes-rendus de RIL rapportés sous forme de réponses au questionnaire fermé du site granddebat.fr. Cette complexité, l’ancienne présidente de la Cnil l’explique en partie sur l’idée de départ de l’exécutif de mettre l’accent sur la restitution par le biais du questionnaire. « Mais le processus s’est échappé des questionnaires et la plupart des RIL sont restituées sous forme de comptes-rendus hors questionnaire », précise-t-elle. On peut en effet constater sur la plate-forme le dépôt de nombreux documents Word et PDF. « Nous avons fortement insisté auprès du gouvernement pour qu’il mette davantage en avant les formats libres de restitutions et non via le questionnaire », ajoute la garante. La rencontre entre les garants et les prestataires la semaine suivant notre entretien avec Isabelle Falque-Pierrotin devrait permettre de tirer les choses au clair. Mais cela permettra-t-il de répondre à l’ensemble des interrogations qui se posent autour du traitement ? Si la plateforme granddebat.fr a pu être lancé en deux semaines, malgré les quelques ratés de la page de pré-inscription, du côté des collectivités on avance en ordre dispersé encore un mois après le lancement de la consultation. De nombreuses mairies et autres communautés d’agglomérations font preuve de bonne volonté, sinon d’enthousiasme, et multiplient les initiatives. Sur les RIL, comment correctement restituer les débats ? Faut-il rapporter l’intégralité des discussions tenues ? Uniquement les conclusions ? Rédiger une synthèse peut-être ? Devant le manque de communication de l’exécutif, les collectivités vont en ordre dispersé. Trouville procède par synthèse pour chacune des huit réunions organisées par la mairie, quand Neuilly a pour sa part l’intention de retranscrire l’intégralité des discussions tenues lors de sa réunion du 18 février. Plus de 7 000 réunions publiques ont été déclarées sur le site à ce jour, environ 4 000 ont eu lieu, seules 600 ont été restituées pour l’heure. C’est un premier « matériau » mais les garants observent « un souci de remontée des comptes rendus des RIL à ce jour. Il faut que les organisateurs de RIL fassent bien remonter les comptes rendus via le formulaire en ligne pour assurer leur prise en compte dans les restitutions », alerte Isabelle Falque-Pierrotin.

Une tâche titanesque et des délais serrés

Il faudra également composer avec, du côté des collectivités, d’autres formats de contributions. De nombreuses mairies ont mis en place un formulaire en ligne, parfois reprenant le découpage thématique de la plate-forme granddebat.fr, de temps à autres avec des questions fermées, souvent proposant des contributions libres. Ainsi, Fanny Larios, chargée des relations extérieures à la mairie de Neuilly, nous explique avoir reçu des contributions individuelles de plusieurs pages de propositions. La commune francilienne a mis sur pied trois canaux dédiés : un registre en ligne qui verse les participations dans un fichier Excel, un cahier de doléances papier ainsi qu’une urne dans laquelle les administrés peuvent déposer leurs contributions manuscrites. Le maire de Trouville, Christian Cardon, indique pour sa part que la ville a « un cahier de doléance papier ainsi qu’une adresse spéciale Grand débat sur le site de la mairie ». Comment les contributions seront-elles restituées, hors RIL et granddebat.fr, par les collectivités ? Fanny Larios confesse que cette question des restitutions « est encore floue » quand l’édile de la ville normande annonce inclure « l’analyse des contributions papiers avec les restitutions des réunions dans un rapport de synthèse rendant compte du débat et tenant compte de toutes les contributions ». Isabelle Falque-Pierrotin ne cache pas que cette hétérogénéité des données pose des « questions techniques. Nous avons eu des premiers contacts avec des experts techniques qui sont partagés sur la possibilité de traiter des contributions si hétérogènes exclusivement par des machines ; l’intervention humaine sera probablement nécessaire. Nous avons demandé une assistance scientifique pour nous aider dans les discussions avec les prestataires afin de leur demander ce qui est possible et ce qui ne l’est pas ». Car le temps presse. Initialement, le gouvernement misait sur la production d’une synthèse de cette consultation pour avril, en amont des élections européennes, en particulier si le scrutin devait se voir adjoindre le référendum que Emmanuel Macron appelait de ses vœux, selon les informations du Canard Enchaîné. La perspective du duo referendum/européennes s’éloignant, le discours a été infléchi. Mais avant cette synthèse, les garants ont recommandé « une première restitution [synthèse] assez grossière à la mi mars avant que les conférences citoyennes régionales soient enclenchées ». Au total, 18 conférences sont prévues les 15 et 16, 22 et 23 mars et devront s’appuyer, à en croire la Mission Grand Débat, « sur une synthèse intermédiaire ». À cette occasion, le débat « entre dans une nouvelle phase, avec des interactions plus fines qui passent par des thématiques resserrées par rapport aux problématiques initiales », selon l’ancienne présidente de la Cnil. La rencontre avec les prestataires s’annonce donc crucial afin de déterminer si leurs algorithmes et leurs méthodes pourront fournir avant ces dates un premier rendu « pourquoi pas corroboré par d’autres équipes de recherche », suggère Isabelle Falque-Pierrotin. Car, rappelons-le à toutes fins utiles, les données devront être ouvertes. C’est du moins la promesse de l’exécutif, exprimé par le ministre chargé des Collectivités territoriales auprès de la ministre de la Cohésion des territoires et des Relations avec les collectivités territoriales, Sébastien Lecornu, au micro de France Inter : « Tout doit être en transparence totale. Tout doit pouvoir être consulté par tout le monde. Et le troisième principe, c’est d’avoir l’analyse la plus sérieuse, robuste et universelle possible. Vous, France Inter, les ONG, etc., pourrez bénéficier de la matière et en faire l’analyse. » Une volonté partagée par les garants, « nous avons insisté sur l’ouverture des données dès le départ pour que des contre-analyses puissent être faites par rapport à celles des prestataires et du gouvernement », précise Isabelle Falque-Pierrotin. « L’ouverture des données est une des conditions de la transparence et de l’impartialité du grand débat. »