Nos vies à l’heure des big data
La République des idées / Le Seuil, octobre 2015
Il paraît qu’ils rêvent…
… et qu’ils sont entrés dans notre civilisation, dans notre vie. Qui ? Les algorithmes. Qu’est-ce que c’est ? Des calculateurs, des appareils de procédures de calcul, numériques, évidemment. Même s’ils ne sont pas orwelliens, il est idiot de dire qu’on n’est pas transformé par ces systèmes. Ils sont partout, ils mesurent tout ce que l’on fait : nos achats, nos actes traçables, nos goûts, notre travail intellectuel. Tous nos clics sont notés. Nous serons pensés plutôt que pensants par ce machinisme numérique, s’il absorbe l’immense amas de nos données (big data) tombé dans de mauvaises mains.
L’État dépassé
Avant, c’était l’Etat ou les grandes entreprises qui géraient cela. Les statistiques étaient l’affaire de statisticiens, qui expliquaient les choses en les simplifiant pour leurs congénères. Mais les statisticiens s’en sont remis aux machines… Avant, également, les statistiques étaient des instruments politiques. Les politiciens, les dirigeants avaient besoin de quantificateurs humains analystes et explicateurs du monde. Les quantificateurs sont dépassés, ils ne dominent pas un ensemble trop vaste pour leur esprit. Dominique Cardon indique à son lecteur que l’enjeu de son livre est de « discuter et de critiquer la manière dont les algorithmes impriment leurs marques sur nos existences, jusqu’à devenir indiscutables et même invisibles ».
« CHIFFRER LE MONDE »
Aujourd’hui le calcul est en marche, « son ampleur inédite ». En plus de la logique des indicateurs, des chiffres « se greffe désormais celle du calcul algorithmique embarqué à l’intérieur des interfaces numériques ». Les chiffres sont alors des « signaux : listes, boutons, compteurs, recommandations, fils d’actualité, publicité personnalisée, trajet GPS etc. » Deux dynamiques sont à considérer, aujourd’hui : la vitesse du phénomène, pour la première.
Une deuxième dynamique : la complexification agrégative, mathématique. Culture, savoir, information, santé, villes, transports, travail, finance « et même l’amour et le sexe » sont « outillés par des algorithmes ». Cela forge l’information, établit des processus d’aide ou d’automatisation. On ne contrôle plus ce qu’on contrôlait. Ce qui est allé très vite, c’est l’accélération du numérique qui nourrit des masses de données : « 30 000 milliards de pages indexées par Google (par jour) ; plus de 350 millions de photos et 4,5 milliards de likes sont distribués sur Facebook ».
De l’or
Les big data sont des mines d’un « nouvel or », un « gisement de valeur » incommensurables. Les algorithmes poussent le journalisme à s’enrichir de données, les citoyens à surveiller ceux qui les gouvernent à l’aulne de données aussi. Le public commence à s’inquiéter « [du] volume extravagant des données numérisées », menaçantes pour la liberté, la vie privée. Il faut que ces données aient « un sens ».
Des Alien ?
On évoque une pseudo-opposition hommes machines, mais derrière les machines, il existe des hommes. Quels sont leurs desseins ? (S’ils en ont de clairs). Notre défiance est aussi efficace qu’une « rêverie pastorale » contre des rouleaux compresseurs. Il y aurait une tyrannie de l’évaluation ? Ce n’est que l’expression de la « rationalisation néolibérale ». L’enjeu du livre de Dominique Cardon est éthique, pas mathématique. Il n’est pas question de faire des mathématiques pour déjouer des calculs mathématiques. Il faut réfléchir, philosopher. Il faut faire « une radiographie critique ». Comme des « alien » les algorithmes en viennent « à dessiner les cadres cognitifs et culturels de nos sociétés ».
Les GAFA surveillés...
Il faut ouvrir une « boîte noire » qui permet de comprendre le fonctionnement nocif et ne plus tout axer vers le PIB mais vers de l’ « espérance de vie à la naissance, le niveau d’éducation, la qualité de vie ou le bonheur ». Les GAFA (Google, Apple, Facebook, Amazon) sont des plateformes dominatrices. Mais on les connaît, on les surveille. Se pourrait-il qu’il en naisse d’autres ? Pas visibles ? Pour enrichir le 1% des plus riches de la planète ? La société se dilue, entre un centre problématique et des « individus autonomes ».
Dominique Cardon compte quatre familles de calcul numérique : 1) l’ « à côté » 2)l’ « au-dessus » 3) le « dans » 4) l’ « en dessous »… d’Internet
les mesures d’audience sont À CÔTÉ du web, le décompte des clics, la popularité (principe de popularité)
le « moteur de Rank » (moteur de classement), la hiérarchisation au moyen de liens hypertextes est le DESSUS (principe d’autorité)
les mesures de réputation développées par les réseaux sociaux et les sites de notation sont à l’INTÉRIEUR du web (principe de réputation)
les mesures prédictives personnalisant les informations sont SOUS le web (principe de prédiction)
À CÔTE DU WEB : DES CLICS IMPRÉCIS
La première technique mesure l’audience des sites. Comment faire ? Mesurer les clics des internautes. Mais en « visiteur unique » c’est-à-dire jamais le même, et pas le seul qui se baladerait un peu partout, plusieurs fois. Cela fixe le tarif des publicités consenties par les annonceurs. Cela essaie de ressembler à la démocratie, un clic égale une voix. Mais on ne sait pas qui est derrière le clic . Cela peut-être un robot destiné à multiplier les clics. Et ce qui intéresse le webmestre n’est que l’argent rapporté par la fréquentation du site. On peut également créer des jeux concours plus ou moins intelligents qui servent de gobe-mouches pour gonfler l’audience.
Google Analytics a inventé l’utilisation de l’adresse IP de l’internaute, de sa machine, pour savoir ce qu’il y fait, selon quels parcours. Mais on ne peut pas deviner qui est réellement au clavier : un enfant, un adulte, de quel sexe, de quelle profession ? etc. (ce sont des gênes pour les calculateurs, des « bruits informatiques »).
Comment savoir qui est au clavier ? Question lancinante. Bingo, en 1994 Lou Montulli de Netscape invente le « cookie » petit mouchard (fichier informatique déposé dans le navigateur de l’internaute). Le cookie aide l’internaute dans sa navigation en retenant pour lui des mots de passe, des clés, et il est fiché ou en fichier.
ÊTRE AU-DESSUS DU WEB : « L’AUTORITÉ DES MÉRITANTS »
En 1998, Google arrive et prétend détecter les informations de qualité en enregistrant les internautes qui dialoguent. Les liens étaient lexicaux, à mots clés à ce moment-là. C’était inefficace selon Dominique Cardon : Google invente autre chose, le calcul des hyperliens ou des intertextes. Par exemple, dans le domaine universitaire, les chercheurs qui se citent les uns les autres en toute bonne foi sont bien « rankés », bien classés. Mais il n’y a pas que des scientifiques qui se citent, il y a nombre d’acteurs qui n’ont pas cette qualité, mais cela passe quand même auprès du public. Cette stratégie développe, pour le « meilleur » une pratique « censitaire » et « méritocratique », d’autorité. Mais est-ce toujours mérité, hormis le cas des écrits scientifiques, et encore, avec les Docteurs Folamour ?
Il peut exister un phénomène de « claque théâtrale » comme au 19e siècle. En effet, des as de la communication et du mensonge : ….
« …paient ou fabriquent des sites qui citent leurs clients : ils placent des liens vers le site cible dans les commentaires de blogs, glissent subrepticement un lien dans Wikipédia, créent des ‘’fermes’’ de faux sites liés les uns aux autres pour adresser ensuite un lien hypertexte vers la cible, produisent de faux contenus éditoriaux (parfois écrits par des robots) pour tromper l’algorithme. La plupart de ces techniques sont aujourd’hui devenues inefficaces en raison des modifications incessantes que Google apporte à l’algorithme pour décourager ceux qui essaient de tromper son classement. » (Dominique Cardon)
Deux critiques peuvent être émises contre le classement numérique.
1 ) l’agrégation du jugement des pairs crée de l’exclusion et donne une autorité trop forte à un « centre ». Le classement reste finalement à suspecter car il peut être aux mains de ceux qui paient pour se faire classer au mieux. Même des instituts de recherche peu scrupuleux..
2) la deuxième critique est l’ « effet censitaire » où seuls sont comptés ceux qui publient beaucoup et sont très cités. Contre cela, les réseaux sociaux, plus volatiles, plus conversationnels en pages Facebook ou messages tweeter sont plus accessibles, sauf grosse notoriété (vedettes de cinéma, télé, chanson, politiques etc.) qui sont vus/lus en publication instantanée. Mais il est des internautes peu « connus » qui par leur activité intelligente ont des suiveurs et des likers qui leur suffisent en des échanges fructueux. D’autres, dans des compétitions moins intelligentes, ont la folie du nombre de suiveurs.
ÊTRE À L’INTÉRIEUR DU WEB : LA FABRIQUE DE LA RÉPUTATION
Google se place au-dessus du web pour être intouchable et que ses internautes ne voient ni ne prennent d’assaut le calculateur, qui de toute façon est complexe. Dans le cas de Facebook, c’est différent, ce qui se mesure, c’est la réputation, pas l’autorité, vue plus haut. L’autorité se mérite, mais la réputation « peut se fabriquer ». Ainsi dans le web social Facebook, Twitter, Pinterest, Instagram il y a des « petits compteurs, des gloriomètres », pour devenir un/e heureux/se réputé/e.
Du point de vue économique, la restauration, l’hôtellerie sont notés par les internautes, le like devient une note. Mais cela peut être biaisé et des sites sérieux doivent faire appel à des experts pour y voir clair dans ces notes. Les clients n’en sont peut-être pas. Même dans le culturel, les livres, films, pièces de théâtre, jeux vidéos etc. peuvent faire l’objet d’évaluations. Que valent-elles ? Qui sait ? De plus, ces compteurs d’appréciations menacent d’enfermer les internautes dans leur bulle s’ils ne s’intéressent qu’à un élément social très particulier. Le/la connecté/e devient peut-être déconnecté/e du réel ?
« AU-DESSOUS DU WEB : LA PRÉDICTION PAR LES TRACES »
Cette fois, on se place en dessous du web pour cacher, encore, mais quoi ? L’usage du net par les gens, leur activité sur la toile, la personnalisation des calculs. Ainsi Amazon et Netflix observent-ils puis recommandent… Attention ! Les clients ayant acheté cet article X ont aussi acheté… Y... Alors vous, vous feriez bien d’acheter… Y et même Z... L’algorithme apprend des profils « de façon probabiliste » : « le futur de l’internaute est prédit par le passé de ceux qui lui ressemblent ».
Pour expliquer la prédiction, les sites ont recours au big data et estiment que les calculateurs connaissent mieux le goût des clients que les clients eux-mêmes qui ne sont que des humains faillibles. « Les algorithmes prédictifs ne donnent pas une réponse à ce que les gens disent vouloir faire, mais ce qu’ils font sans vraiment se le dire ».
Weborama et les autres
Ciblage et marketing comportemental : Il s’agit de « réduire l’incertitude qui persiste dans les catégorisations trop grossières des segments de styles de vie ». Le marché de la publicité ne fonctionne bien que pour les plus gros sites, mais elle est attaquée par la publicité comportementale ciblée des « commerces » à bas prix. Pourquoi ? Parce que les cookies n’appartiennent pas à un site mais à une régie de sites « (Weborama, Double-Click, Critéo ou Right Mediadia) ». Les cookies premiers deviennent des « cookies tiers ». De mouchard local, « le cookie devient alors un espion doté d’un don d’ubiquité ».
Les pires
Les entreprises qui dominent encore plus sur le marché du cookie tiers sont alors totalement inconnues du public : « Axciom, BlueKai, eXalate, Rapleaf, Weborama », déjà cité pour le dernier. Ils se protègent juridiquement, également, par des "Conditions générales" en tous petits caractères jamais lus mais approuvés… Il n’est pas possible à l’internaute de penser qu’un cookie tiers (un « sparadrap » qui se colle à lui, dit Dominique Cardon) le suit non pas dans un seul site, du genre Amazon, mais partout où il va et pendant longtemps.
La CNIL a créé une extension de navigateur appelé "Cookieviz" qui permet de se rendre compte qu’on est suivi. Mais « les réseaux publicitaires développent des innovations discrètes pour identifier autrement l’utilisateur ». L’auteur pense qu’aujourd’hui, il est trop tard pour qu’on puisse faire machine arrière. La guerre du traçage est-elle perdue ? La sensibilité à la surveillance doit être éveillée chez l’internaute comme l’ont montré les révélations d’Edward Snowden. Des « règles beaucoup plus dures » pourraient être mises en place par les États s’ils le veulent.
LA RÉVOLUTION DES CALCULS.
Dominique Cardon estime que la révolution n’est pas les données massives mais la façon de les calculer. De plus le monde de la statistique a subi « trois secousses ».
1) les « mesurés sont devenus eux-mêmes des calculateurs
2) les catégories floues des algorithmes n’arrivent pas à bien inclure les individus
3) on a un rapport logique inversé, remontant des conséquences vers les causes
Les nouveaux calculs numériques sur les gens « partent de traces d’activités » et ne font pas de la catégorisation systématique, trop imprécise pour la machine.
Dominique Cardon prévoit un avenir : ce sera possible de connaître « des destins individuels » et de s’adresser à eux. Les statistiques étant entrées dans « les subjectivités contemporaines ». Elles étaient , avant, le privilège des États, elles sont maintenant « monopolisées par des entreprises ».
Problème de réflexivité scientifique : « À la différence du monde naturel, observé par la science […] les sciences naturelles » qui « stabilisent » des faits, les mesureurs transforment le social au lieu de l’observer. Manipulation. La « métrique » (mesure statistique) est regardée avec soupçon par des organismes sociaux éthiques. Culte de la performance et production d’erreur : « les plaintes des femmes battues deviennent le nombre de femmes battues, les chercheurs les plus cités deviennent les ‘’meilleurs’’, les lycées qui ont le meilleur résultat au bac sont les meilleures écoles, etc. ». Un petit outil contextuel prétend tout recouvrir.
Le site NosDéputés.fr existe ? Du coup, ces derniers sont présents plus souvent dans l’hémicycle et se font remarquer dans les commissions dans une sorte de « Je suis là, je travaille moi ! »
Les algorithmes « proposent de réinstaller une position d’extériorité plus solide face aux mesures », comme des laborantins médicaux qui échantillonnent et cherchent… Vœu creux de mesurer le réel « de façon exhaustive, discrète et à grain fin »…
« LE DÉBORDEMENT DES CATÉGORIES »
La société est bouleversée par le reflet que la métrique donne d’elle, à cause de la :
« crise des régularités statistiques ordonnant un système stable de catégories entretenant entre elles des liens de dépendance. Les agrégats de la statistique sociale n’accrochent plus nos sociétés : ils ne permettent plus ce va-et-vient des individus vers une totalité qui les représente et à laquelle ils s’identifient. » (Dominique Cardon)
Les indicateurs du chômage, de l’ « indice des prix ou [du] PIB » sont considérés dans l’opinion comme manipulables par les politiques et leurs mesureurs affidés.
Le calcul du fragment
Les statisticiens avaient à articuler politique/économie, mais aujourd’hui cela ressemble à un « tableau » servant à mettre en œuvre des gestions inhumaines. L’État est « managérial », soumis à une « économétrie » d’évaluation des « politiques publiques ». Sous l’influence de Pierre Bourdieu, « la construction de la variable synthétique de la catégorie socioprofessionnelle permettait de […] regrouper pour expliquer ensemble l’origine, la position sociale et les styles de vie des individus ». À cette vue holiste, on oppose des calculs fins fragmentés, à côté « de l’encombrante ‘’société’’ ».
Les données doivent être nombreuses et subir un grand nombre de variables pour obtenir une décomposition différente du réel et ne pas « laisser transpirer des présupposés politiques et sociaux »…
CALCULER AU PLUS PRÈS
La « société ne se laisse plus aussi facilement mesurer » parce qu’il y a une logique de personnalisation due à l’ « individualisation expressive » sur le Net. Les gouvernants, aidés des statisticiens, ont une « parole abstraite et désincarnée […] factice et arbitraire », ils sont incapables de se représenter la diversité sociale individuelle.
Oubli de Bourdieu
La cohérence de l’analyse bourdieusienne avec les deux axes du « capital économique et culturel » est perdue. Les personnes ont des intérêts divers, des consommations diverses, des opinions, des trajectoires diverses et volatiles. Les algorithmes préfèrent « capturer des événements » (des clics d’achats, d’expression d’opinion sur les réseaux etc.) « à la volée pour les comparer à d’autres événements, sans savoir procéder à une catégorisation ».
Voilà un internaute qui se trouve sur le web, il charge tranquillement sa page. Pendant ce temps, des « automates », des « robots programmés par les annonceurs se disputent le meilleur prix pour placer leur bandeau publicitaire. L’opération dure moins de 100 millisecondes ». Le profil de l’internaute fait l’objet d’ « enchères » pour traçages.
Et dans le « monde sans frontière d’Internet », les trajectoires transnationales des internautes deviennent très difficiles à caractériser, catégoriser. Quelques traçages permettent de rendre compte de l’ethnie, de la religion, de la culture. Mais les big data sont fières de capturer du « brut »… C’est donc un abandon d’exigence sociologique méthodique.
Il reste la géographie...
Mais nous dit Dominique Cardon, il reste la géographie. La « géolocalisation permettant de zoomer ou de dézoomer sur sa propre situation est le dernier outil de totalisation qui reste, lorsque toutes les nomenclatures ont disparu. » : Est-ce que mon quartier est sûr et ne cache pas des criminels ? Est-ce que ma rue a une bonne valeur mobilière, est-ce que la mairie fournit un bon service technique, notamment de nettoyage ? Est-ce que la ville est bien desservie par la SNCF ? Etc. Mais l’internaute qui veut se géographier dépend totalement de l’algorithme qui va lui répondre ce qu’il voudra bien : « L’internaute est collé par l’algorithme à ses propres traces sans pouvoir s’en distancier. »
« CORRÉLATION SANS CAUSES »
Autre « secousse ». Déroute totale de la « statistique standard » : « les corrélations n’ont pas besoin de causes ». Chris Anderson, un des manitous de la Silicon Valley, a prédit la « fin de la théorie ». C’est-à-dire ? Que « les calculateurs des big data » peuvent chercher les corrélations qui les intéressent mais sans se soucier de causes explicatives. Les mathématiques renvoient les sciences de l’homme au vestiaire.
Les supermarchés Target
Pourquoi les gens agissent comme ils le font ? Parce qu’ils le font, on l’enregistre et ça suffit, et cela « avec une fidélité sans précédent ». Comme les calculateurs ne peuvent savoir pourquoi les gens font ce qu’ils font, à quoi bon se munir d’un « modèle permettant de l’expliquer ‘’a priori’’ » ? On établit un autre rapport à la réalité, une autre causalité. Dominique Cardon évoque le cas des supermarchés Target. Cette enseigne a une base de clientèle, notamment d’une partie de femmes qui ont eu un enfant. La technique consiste à créer deux listes de femmes, celles qui ont un enfant et celles qui n’en ont pas.
À partir des modifications d’achats effectués par les femmes qui viennent d’enfanter… :
« il est possible de trouver des corrélations entre variables d’achats et d’en faire un modèle. Celui-ci est appliqué à l’autre sous-corpus, afin de prédire, parmi les clientes dont on ne sait pas si elles sont enceintes, celles qui le sont peut-être. L’algorithme a appris son modèle à partir du premier sous-corpus pour prédire un événement du deuxième sous-corpus. » (Dominique Cardon)
Coller du feutre sous ses pieds de chaise
Autre exemple : des assureurs « auraient constaté », dans les données d’achat de leurs clients, que ceux qui achetaient des morceaux de feutre à coller sous les pieds de chaises installées sur du parquet, étaient méticuleux, puisqu’ils ne voulaient pas rayer un sol bien ciré. Alors, on pouvait en déduire, de manière relativement sûre, qu’en voiture, ils roulaient pépères et avaient rarement des accidents. [On peut se demander toutefois comment un assureur peut savoir que son client a acheté du feutre pour ses chaises… Recoupement de listings échangés, sans aucun doute.]
Dans ces cas, le « calcul n’est pas ‘’individuel’’. Il n’est possible que parce qu’il existe un très important volume de comportement d’achat. La prédiction d’achat n’est qu’une estimation statistique et ne présente aucune certitude ». Et pourtant, il arrive que la femme qui ne s’est pas déclarée enceinte sur le site du supermarché, mais qui l’est, reçoit un coupon de réduction sur les articles bébé.
Le même « principe » est « appliqué à la détection de l’infidélité des clients, des appariements amoureux sur les sites de rencontres, de la récidive judiciaire ou de certaines maladies diagnostiquées préventivement. » Les « ‘’data scientists’’ viennent des sciences exactes […] partent à la recherche de régularités en faisant le moins d’hypothèses possibles. » Les capacités de calculs sont puissantes, elles permettent de tester « toutes les corrélations possibles ». Mais il est trompeur de penser que cette méthode en quête de corrélations fonctionnelles « marche » sans recherche d’explications.
Un peu trop de probabilité nuit à la probabilité
À une théorie organisée, les calculateurs préfèrent une « mosaïque […] révisable de microthéories contingentes articulant des pseudo-explications des conduites probables ». Les calculs n’ont pas besoin d’être compris et, très régulièrement, ils ne peuvent l’être. On a une « manière inversée de fabriquer du social » dans « un renversement de la causalité ». On essaie de « redonner des cadres à la société », mais « à l’envers », « par le bas », depuis les comportements individuels pour viser des « attributs (qualités mesurables) […] probables ». Cela fait beaucoup, voire trop de probabilité… même si les capacités des calculateurs robotiques ne sont pas du hasard pur du type loto ou jeux à gratter.
Selon Dominique Cardon des « entreprises (sans arrière-pensée) et des institutions disposent de riches bases de données et les exploitent mal. Mais quand il y a des « politiques d’ouverture des données », il y a promotion « des savoirs, des services et de la vigilance citoyenne ». Les organismes publics se doivent de se rendre « accessibles », afin de « favoriser le contre-pouvoir vigilant des associations et des citoyens.
L’exemple de « data.gouv.fr » présente des statistiques à l’internaute « dans les domaines du logement, de la culture, de l’économie et de l’emploi ». C’est positif.
En fait, les données brutes que les géants du Net prétendent détenir sans les exploiter n’existent pas vraiment en brut. Le brut n’existant pas en informatique. « Toute quantification est une construction qui installe un dispositif de commensuration des enregistrements et établit des conventions pour les interpréter ». Les données ne parlent que si on les interroge d’une certaine façon, selon une volonté.
Renaloo
Par exemple, selon Dominique Cardon, les « données de l’assurance maladie » sont des « enjeux ». La Sécurité sociale recherche les médecins qui prescrivent trop de médicaments mais si elle souhaitait confier ses données « à des associations de malades », cela aiderait « à faire apparaître des injustices que le milieu médical se refuse à voir ». Quoi donc ? Par exemple, que Renaloo, association de malades du rein « a montré que, de façon implicite, la dialyse est plus prescrite aux malades des classes populaires et la greffe aux classes supérieures. Ce n’est pas de la science-fiction, malheureusement.
ACCESSIBILITÉ ?
« Les données de Facebook ne sont pas accessibles, celles de Google sont très partielles, et désormais Twitter fait payer très cher ses archives. Il existe certes d’importantes exceptions, comme Wikipédia ou OpenStreetMap […] biens communs accessibles à tous […] produits par des communautés de bénévoles ». (Dominique Cardon)
ALGORITHMES PEU INTELLIGENTS, VOIRE IDIOTS PARFOIS…
On se crée des fantasmes anthropomorphes. Dans le cinéma, la littérature, on rencontre des robots dangereusement intelligents : le HAL qui finit par débloquer de manière perverse dans 2001, l’Odysée de l’espace ou les ‘’precogs mutants’’ de Minority report qui prédisent des crimes qui n’ont pas encore eu lieu. Dans les laboratoires actuels, personne ne pense que les algorithmes correspondent à des « machines » de ce type. Dans les années 1980, on a lancé un programme d’intelligence artificielle « vis[ant] à faire reproduire aux automates le raisonnement humain en les dotant de règles, de modèles cognitifs, d’ontologies [c’est-à-dire concepts] et de syntaxes reproduisant la complexité » : de la logique et de la pensée humaine.
Gary battu !
Ratage, les robots ne comprenaient pas la « variété des situations et des contextes ». Certes, Deep Blue a battu Garry Kasparov aux échecs en dépassant l’homme dans sa capacité à se représenter les corrélations possibles, quasiment infinies, impossibles à imaginer pour l’homme même très intelligent. Kasparov demeure pourtant plus intelligent et sensible que la machine programmée pour des calculs même époustouflants.
Le gourou et la machine qui ne comprend rien
Un « gourou de la Silion Valley […] Kurtzweil » était missionné par Google pour voir si les algorithmes étaient améliorables en capacités conceptuelles. Les machines en restaient aux données plus ou moins bien traitées. Mission abandonnée. Au profit de la statistique. Les algorithmes ne pensent pas, ils calculent. Des chercheurs, dont des linguistes en relation avec des informaticiens, ont souhaité créer des programmes de traduction. Cela s’est avéré difficile et peu concluant. « La machine ne traduit pas : elle calcule l’estimation statistique de la meilleure traduction à partir d’un stock de vocabulaire, de grammaire. […] La machine ne ‘’comprend’’ rien de ce qu’elle fait ». Cependant des progrès sont fait dans « l’aide à la décision » (médecine, droit, finance, diagnostic technique et autres).
Les grands du Net font aussi du « A/B testing », c’est-à-dire que nous sommes répartis, nous internautes, en deux groupes aveugles, comme des « cobayes » observables. À quoi cela sert-il ? Cela n’est pas dit.
Les chercheurs sont contents de leur algorithme, quand il épouse bien les comportements des personnes au point de les diriger un peu : Page Rank de Google, recommandations d’Amazon, notation des hôtels sur TripAdvisor ou les GPS qui conseillent des itinéraires.
UN COMPORTEMENTALISME RADICAL
Du pareil au même
Pourquoi sur Facebook, l’internaute ne voit-il pas défiler toutes les informations publiées par des amis ? Parce que l’algorithme ne retient que les interactions répétées. Des amis lointains, peu consultés, disparaissent du champ de l’amitié supposée. Il s’agit de « sociabilité » visible de l’utilisateur. Par ailleurs, les marques commerciales font gagner de l’argent à Facebook en forçant la porte des conversations privées, même si l’algorithme de la plateforme essaie de protéger ses internautes adhérents. Majoritairement, les relations Facebook ou autres réseaux fonctionnent en « homophiles », c’est-à-dire en privilégiant des relations de gens qui font la même chose sur l’Internet. Mêmes achats, mêmes goûts… Tout.
Tiré vers la moyenne
Si l’internaute croit être « un profil singulier » il est « tir[é] vers le milieu », la conformité. Le comportementalisme mécanique présente des individus qui se pensaient « émancipés » et sont « prévisibles ». Les chercheurs en algorithmes sont souvent inspirés par les « sciences de la nature » et pensent que l’être humain est déterminé. Par lui-même et ensuite par les algorithmes qui essaient de se coller à ses basques et de renforcer le déterminisme de base.
Le « couplage algorithmique » des « signaux » associés à des « traces » fonctionne quand les informations fournies par l’utilisateur sont courtes et répétitives, mais si l’internaute pratique des actions et des raisonnements longs sur les sites, les calculs prédictifs calent.
Fais-le !
Réflexion et distance larguent les robots. Les géants du Net aiment le big data actionnel court et fermé sur soi (gens de mêmes goûts, communautaires), ce que rejettent les « promoteurs des open data ». Le rêve de la machine (via son inventeur et manipulateur évidemment) est le comportement simpliste des internautes. On vise un comportementalisme moutonnier extrême, donc. Tu es jugé, sondé, prédit pour faire cela, fais-le, fais-le, fais-le !
SIGNAUX SANS TRACES ET TRACES SANS SIGNAUX
« Beaucoup de projets de big data » n’essaient pas de lier signaux/traces pour enfermer des internautes en boucle affinitaire sur eux-mêmes. Certains cherchent « d’autres voies […] d’autres représentations de la société ». L’expression sur Internet est « explosive » [au sens de massif] du fait du « nombre considérable de tweets, de posts, de blogs, de photographies, de ‘’selfies’’ » etc. La prolifération non structurée produit des signes originaux : « graphes interactifs, nuages de mots-clés, cartographies lumineuses, frises chronologiques, courbes, histogrammes et camemberts, murs de photos zoomables, listes et classements en tous genres ».
Les calculateurs produisent du visuel, du séduisant et de l’attractif. Cela produit, oui. Mais ce qui est produit est-il utile ?
Épistémologie et politique possibles
Cela offre de nouvelles perspectives au data-journalisme. Mais dans ce cas, on perd la notion de représentativité statistique. Les signaux numériques ne renvoient qu’à eux-mêmes. Pour être visible sur la Toile, il faut que l’internaute soit très actif. Les télévisions sont attentives à leur impact dans Twitter, aux likes. Quant aux vendeurs, ils achètent de la réputation par des faux clics ou de faux témoignages de qualité. On n’a comme « seule trace de contexte la géolocalisation et le datage ». Les « mots-dièses » ? Opinion réelle ou effet mimétique ? L’enjeu pour le chercheur est « épistémologique et politique ».
Le « traitement automatique de la langue (TAL), d’analyse de sentiments et les démarches du web sémantique » sont-ils interprétés/interprétables clairement ? Nombre de start-up se lancent dans l’interprétation de ce qui se passe sur le Web mais, en général, elles ne saisissent pas « correctement les énonciations ».
"Tu vas tourner de beaux films"
Une société du nom d’Epagogix se dit parvenue à une possibilité de production étonnante dans le cinéma : grâce à des données comme la structure des scénarios, les personnalités, les cachets des acteurs, les mérites des producteurs, l’audience en salles etc., elle propose à tout jeune réalisateur de lui révéler son avenir au box-office. Dominique Cardon ne dit pas quels cinéastes cette boîte a informés. La prédiction des « crises financières, des tremblements de terre, des scores des matchs de football et des résultats électoraux » est très difficile. Madame Irma, avec son pendule ou ses cartes de tarot, est aussi forte en ce domaine.
Il est possible d’accéder à des « traces sans signaux ». C’est-à-dire ? Des données sur les transports, la téléphonie, la distribution électrique. Dans le domaine de la surveillance policière, la lutte contre le terrorisme, l’algorithmie ne donne quasiment rien : les « bons signaux » sont des « renseignements humains ».
« LA QUANTIFICATION DE SOI »
Des traces peuvent être « produites par les individus eux-mêmes » à travers les pratiques de « mesure de soi ». Il existe des « petits groupes » qui défendent l’idée de la « liberté expressive » de chiffrage des individus par eux-mêmes. À force d’être noté, on veut se noter soi-même :
« Activités sportives, déplacements, temps de sommeil, signaux corporels, actes sexuels, les senseurs enregistrent les traces de comportement des personnes, pendant que les capteurs déposés dans l’environnement (voiture, compteur électrique, potager, pollution atmosphérique) mesurent son écosystème » (Dominique Cardon)
Deux orientations peuvent être prises. La première « invite les individus à se doter d’outils d’autocontrôle ». La quantification de soi-même est « promue comme un instrument de construction de l’identité ». Cela est associable à une amélioration de soi : maigrir, faire du sport, maîtriser « sa consommation ou son bilan carbone ». Mais les utilisateurs se lassent vite.
Une autre direction est possible : dans une « perspective fonctionnaliste » pour « créer un écosystème », « agrégeant différents flux » pour les partager, les associer à des signaux plus riches. Son poids sur pèse-personne envoyé sur Twitter, le rythme chiffré de son jogging, sa « playlist », la fréquence d’arrosage de ses plantes, le remplissage de son frigo en lien avec son supermarché… Cela serait-il « riche » ? Mais qui gouverne ces données ?
Informatique et liberté, c’est quoi ?
L’individu administrerait-il tout seul ces éléments ? C’est un leurre. Il suffit de peu d’informations pour qui veut entrer dans ces bases de données dites sécurisées.
La vie privée serait devenue obsolète pour le carré de prédateurs GAFA ! N’ayez pas peur !, incrivez-vous, dites-nous tout ! Mais les personnes sont paradoxales. Elles vivent de plus en plus leur vie privée étalée au grand jour comme une liberté mais s’insurgent s’il y a captation de ces données étalées sans réflexion. La conception étatique, protégée, contractuelle d’Informatique et libertés (1978) « a perdu son sens »… Il faut limiter la diffusion de ses données et contrôler ce qui en est fait. C’est un minimum de conscience de ce que l’on fait.
« LES ALGORITHMES SONT-ILS BIAISÉS ? »
Le fonctionnement des algorithmes est véritablement un secret. Plus l’internaute est « transparent », plus les « observateurs » sont « opaques ». Google ne truque-t-il pas ses classements ? Pourquoi Amazon conseille-t-il tel livre ou disque si le profil de deux individus associés n’est pas le même ? Les critiques doivent porter sur les « familles de calcul ». À la déformation de la représentation du « réel » on peut opposer la bonne statistique qui échantillonne correctement, qui donne « un poids identique à chacun ».
Thermomètres en caoutchouc
Les reproches sont à porter sur les audiences et les réputations biaisées. Des « robots cliqueurs » bidouillent les classements Google, les fils Twitter. 10 à 30 %, selon Dominique Cardon, des avis de consommateurs sont des faux. Facebook et Twitter ne sont pas actifs pour faire la chasse au faux. Ils sont censés apporter la justesse de la mesure mais sont comme des « thermomètres en caoutchouc ». Les classements de Google sont des approximations dues à des paramètres trop nombreux et disparates, et d’autres classements seraient meilleurs et plus pertinents. C’est évident.
Obligation de loyauté
Ceux qui ont essayé de les attaquer sur ce terrain se sont vu répondre que l’algorithme est entièrement mécanique, qu’il travaille comme il le souhaite, sans intervention humaine, modificatrice de la machinerie. On est en face d’un monopole surpuissant : pot de terre contre pot de fer… Changeons l’angle d’attaque : si la neutralité des algorithmes est telle, le respect des internautes impose que la machine fasse ce qu’on lui demande dans une « obligation de loyauté » contractuelle et tacite.
Censure d’Occupy ?
Or, lors des mouvements Occupy de 2011, les militants étaient étonnés que le fil Twitter ne mentionne pas les messages de leur action au même titre que les catastrophes, les événements people et autres. Il semblerait qu’il y ait eu censure pure et simple. Pas de machinerie seule. Des hommes étaient derrière elle, à la barre.
Que faire ? Lancer une éducation de l’Internet algorithmique pour que les internautes apprenants puissent mettre les mains et la tête dans le moteur. Éducation et audits indépendants son nécessaires. Inspection des machines, ouvrez le capot ! Quand il y a des plaintes justifiées, les limites bougent. Ainsi Amazon, en mai 2015, a-t-il supprimé de son interface les expressions « jouet de fille » et « jouet de garçon ». Le « calcul alternatif » est plus que possible.
LES ALGORITHMES SONT-ILS IDIOTS ?
Les algorithmes de la 4e famille (prédicteurs de comportement sur la base de traces) sont « difficiles à critiquer ». En effet, ils agissent souterrainement, et, livrés à leur procédure automatique produisent des « statistiques imparfait[es], stupides ou choquant[es] ». Ainsi, dans Google, il arrive qu’en « tapant le nom » de personnes connues, il ait y association à juif/juive…
Lantaya Sweeney
Pourquoi ? Parce que beaucoup d’internautes ont pratiqué ladite association. Des racistes ? Les calculateurs répondent à ce qu’on leur a beaucoup demandé. Une afro-américaine, Lantaya Sweeney, chercheuse, lorsqu’elle tape son nom dans Google, voit sa requête associée de manière instantanée à « casier judiciaire ». C’est que les noms africains sont associés à des listings judiciaires. Ses collègues blancs n’avaient pas cette réponse. En fait, l’algorithme n’est pas forcément programmé pour discriminer Noirs/Blancs, repris de justice/innocents. La machine se cale sur les demandes des internautes. Ceux qui discriminent sont suivis bêtement par l’appareil : « le calculateur s’appuie sur les comportements des autres internautes » reproduisant la structure sociale injuste, inégalitaire, discriminante.
Le « FICO score » est un système qui mesure pour chaque individu « les risques qu’il représente face au crédit à la consommation ». Et comme les entreprises, organismes plus ou moins publics se vendent ou s’échangent leurs listings, l’internaute qui a eu un incident de consommation se voit rejeté par des sites d’achat, de crédit. D’autres croisements de listes créent des listes sur « la sexualité, la religion ou les opinions politiques ».
Paysages et couchers de soleil
Paradoxalement, on soupçonne certains sites commerciaux « de pénaliser leurs clients les plus fidèles […] pressés par le temps » en leur proposant des prix supérieurs contre toute pratique logique de récompense de l’assiduité. C’est qu’ils sont riches et bons payeurs, autant les traire. Mais quand il y a des hommes derrière les catégorisations non mécaniques, cette fois, on arrive à des profils très fins : « client pas fiable », « dépense médicale élevée », « revenu en déclin », « casanier et avaricieux » ! De « petites niches » efficaces. Dans les niches, par exemple, on arrive à des spécifications ahurissantes des goûts des spectateurs chez Netflix : « Drames sentimentaux européens des années 1970 avec paysages et couchers de soleil », « Thrillers violents au sujet de chat pour les 8-10 ans »… (Pourquoi "violents" ?)
Le calcul des traces n’a pas forcément « l’individu ou le sujet pour cible ». Pas besoin de psychologie, d’ « histoire » personnelle, de « position sociale », de « projets » ou de « désirs ». L’individu est un « flux » calculé, de simples traces « décousues […] kaléïdoscopique[s] ». L’individu est un objet commercial ou idéologique pour les « firmes américaines » conceptrices des néostatistiques.
Chez Apple ou Facebook, la personne est rendue de manière pudibonde par le pilote humain derrière l’algorithme : il/elle ne doit pas présenter de photo de lui-même/elle-même nu/e, par exemple, mais il/elle est monétisé/e. Les grands GAFA construisent des individus « en reproduction automatique de la société et d’eux-mêmes », idéaux et lisses. C’est au moment où les internautes se pensent totalement libérés dans une exaltation horizontale hors stratification sociale pyramidale qu’ils sont vampirisés et auto-contaminés par un miroir qui en fait des Narcisses, influencés par le haut.
« LA SOCIÉTÉ DES CALCULS », « TYRANNIE » SECRÈTE DU « CENTRE » »
Pas le choix
Le citoyen se doit de porter « un regard critique sur le fonctionnement des calculateurs » de manière à comprendre le « type de société » que veulent nous fabriquer les algorithmes. Voyons ce qu’est la « tyrannie du centre », selon Dominique Cardon. La « généralisation des calculs » qui montre ce que les big data font de nous. En fait, les machines « calcul[ent] la société par le bas ». L’individu n’est pas vraiment invité à faire des choix :
« Les concepteurs partagent l’idée que les informations ne doivent pas être choisies par les journalistes, que les publicités ne peuvent pas être les mêmes pour tous, que les catégories traditionnelles représentent mal les individus. » (Dominique Cardon)
Certains concepteurs « scientistes » des machines veulent un monde « débarrassé de l’encombrante subjectivité », d’autres, « libertariens », veulent sécréter des chiffres soi-disant représentatifs en ne les laissant pas aux États qui les « déforment ».
Que pour les connus
Ainsi les techniques de calcul opèrent les « clics » de « popularité », les hypertextes d’ « autorité », les liens affinitaires de « réputation » et les traces capables de « prédiction ». Exemple, Wikipédia qui était moqué par les élites intellectuelles, grâce à sa grande « gougueulisation », est devenue une encyclopédie respectée à la fois en réputation et autorité. Sur YouTube, on ne peut échapper à des avant-gardes de créateurs ou de célébrités (mode, cinéma, littérature, sport, humour, cuisine, etc.).
Ce sont des « normes » imposées, centralisées. Zizou, le roi du foot, et Youssouf, bien que roi du dribble, dans sa catégorie d’âge, dans sa cité, ce n’est pas le même match sur le même terrain. Et pourtant, nous dira-t-on : Mais c’est décentralisé mesdames messieurs, ce n’est plus seulement national, c’est global ! Oui, mais global dans le sens de libérateur et d’égalisateur ?
Alors Domique Cardon suggère de « savoir à quoi rêvent les algorithmes ».
« COORDINATION VIRALE »
Pics artificiels
Les machines rêvent d’un monde où le mode de popularité serait « transparent ». Mais on « assiste à une surconcentration de l’attention sur certaines informations » à cause d’une « coordination virale » pour faire consommer des produits particuliers. Les compteurs de nombre de vues créent des « pics d’attention » artificiels, ce qui fabrique de la popularité « versatile, brusque et déroutante », qui privilégie « la synchronisation, le mimétisme et l’obsolescence programmée ». On est plongé dans de l’improbable flottant, balancé dans de fausses vagues de tempêtes aléatoires.
Dans les médias, c’est gênant : « les journalistes sont partagés sur la nécessité d’accéder à des outils de monitoring en temps réel de l’audience de leurs articles ». Il faut qu’ils fassent du « buzz » et certains articles seraient publiés trois fois (pendant trente minutes) avec des titres différents, celui qui serait le plus populaire étant gardé… Quand « l’information abonde », c’est la réaction de l’audience qui est « convoitée ».
Dans les classements de YouTube, les « célébrités dominent les industries culturelles ». La « gamme des formes d’attention » est ouverte au marché : on louvoie entre « dispersion », « exploration approfondie », « vagabondage » et « investigation critique » médiatiques.
Les rêves des algorithmes
Les algorithmes rêvent de « désigner les excellents et valoriser les meilleurs » mais en visibilité seulement, en une « gigantesque compétition » :
Les « traditionnelles distributions des inégalités selon la loi de Pareto, qui donne à 20% d’une population du bien à répartir, ont pris sur le web la forme d’une loi puissante […] qui réserve souvent à moins de 1% des acteurs plus de 90% de la visibilité […] C’est de plus en plus le cas pour la richesse […] ou pour la notoriété. » (Dominique Cardon)
Les « talentueux » dans leur domaine, mais aussi dans l’art de buzzer, raflent la mise dans un sombre jeu de poker devenu gigantesque : « journalisme, mode, édition, design, métiers de service, management des entreprises ou le monde universitaire ». Du « pôle d’excellence », du « palmarès » de tout et partout : les lycées, les hôpitaux, le meilleur film, le meilleure pièce de théâtre, le meilleur livre (valse des prix littéraires) et le reste… mesuré, encore mesuré et toujours mesuré.
Tu le mérites, ou tu achètes
À côté de ça, les internautes inventent du collectif, de l’associatif : « pétitions en ligne, mouvement de solidarisation pour une cause autour d’une page Facebook », mouvements sociaux, financements coopératifs. Tout n’est pas négatif, semble-t-il.
Un peu quand même… pense Dominique Cardon : Google, le géant, considère que « la visibilité soit se mérite, soit s’achète ». Les « annonceurs » parasitent les messages des internautes, et essaient parfois de s’éditorialiser comme des médias pour promouvoir de fausses valeurs.
Les sites commerciaux se cachent derrière des messages personnalisés qui flattent l’internaute potentiellement acheteur. La créativité des internautes qui ne se protègent pas est « capturée » par les robots voleurs dans un but de monétisation discrète. Vol de travail. Facebook n’aime pas tous ses utilisateurs : il adore ceux qui s’expriment beaucoup (« individus par excès ») et relègue les autres (« individus par défaut »). L’Internet de ce type reproduit les inégalités sociales et culturelles. Les « individus par défaut » étant des gens en difficulté avec le clavier, l’expression, les avis circonstanciés à donner.
IL FAUT PASSER EN MANUEL
La bouteille de vin pour Yolande et Gontran
Attention à ne pas sombrer dans la science-fiction et la paranoïa, ces pauvres algorithmes ne sont pas totalitaires et ne visent pas l’absolue « rationalisation de nos existences ». Dominique Cardon estime que ce sont les internautes les plus dynamiques et se pensant les plus libres qui s’offusquent des mouchards et de la surveillance. Les big data guident mais n’obligent pas. Ils sont paternalistes : ils suppléent le choix des hésitants, des plus aisés, « cadres suractifs » souvent, qui n’ont pas le temps de prendre leur billet d’avion pour leur séminaire à Dubaï, de choisir la commode pour la chambre de la petite, le vin à offrir à Yolande et Gontran chez qui ils sont invités.
La machine les aide, elle est pratique, elle a bon goût. Même les pilotes de ligne sont en automatique durant tout le vol : « Les pilotes d’avion ne conduisent plus vraiment les avions mais les surveillent ». Les architectes ne dessinent plus, ils « modélisent directement en 3D » pour ne pas perdre de temps.
Stop ! « Les habiletés manuelles ont été transférées vers les machines ». Il faut reprendre la main. Le cerveau humain peut opposer des « contre-calculs ». Des collectifs mesurent la pollution de l’air dans leur ville. Il y a de quoi mesurer beaucoup de choses autour de soi, et ce que l’on veut. Appropriation citoyenne.
« LA ROUTE ET LE PAYSAGE »
En guise de conclusion, l’auteur utilise la comparaison avec le GPS : il n’oblige à rien, il conseille des itinéraires. Les meilleurs, les plus courts, les plus rationnels. C’est un ordinateur de bord très gentil et très serviable. Mais le conducteur est-il obligé de choisir l’itinéraire conseillé ? Non, s’il veut quitter la route indiquée, l’autoroute, le plus souvent. Il lui est loisible d’aller où il le souhaite, pour découvrir des paysages nouveaux.