Sur Internet, personne ne vous entendra parler (si vous avez un accent)

Thibault Prévost - - Clic gauche - 30 commentaires

Pour lutter contre le racisme, de jeunes pousses proposent aux patrons de centres d'appels d'utiliser un logiciel pour effacer les accents de leurs salariés. Une fois encore, du techno-solutionnisme mal placé, qui porte en lui un projet suprémaciste.

Vous travaillez dans un centre d'appels, vous parlez anglais avec un accent distinct et vous en avez marre de subir le racisme de vos clients furieux toute la journée au téléphone? Rassurez-vous, tout cela sera bientôt de l'histoire ancienne ! Le 22 août dernier, le journal local de San FranciscoSFGate révélait le projet de Sanas, la startup de la Silicon Valley qui "tente de faire sonner le monde plus blanc". Son invention : un logiciel de reconnaissance vocale capable de neutraliser n'importe quel accent en direct. Sa cible : les patrons des employé·es de call centers anglophones, majoritairement sous-traités en Inde et aux Philippines par des entreprises états-uniennes trop heureuses de se plier au salaire minimum local. Son ambition : mettre fin à la discrimination subie par ces employé·es anglophones en fonction de leur accent.

Autrement dit, combattre le racisme… en blanchissant tout le monde.

Il fallait y penser, et la fiction s'en était déjà chargée. En 2018, le réalisateur afro-américain Boots Riley sortait Sorry to bother you, une comédie pop et SF aussi géniale qu'absurde et politiquement chargée. On y suivait Cassius Green, jeune Noir paumé d'Oakland, arrivé dans l'enfer néo-esclavagiste d'un centre de télémarketing. Après quelques jours à se faire copieusement insulter au téléphone sans rien vendre, Cassius apprend par un collègue le secret de la "white voice", une voix de Blanc – et pas n'importe laquelle, non, de Blanc CSP+ tendance frat bro et club d'aviron – qui mettra immédiatement le client à l'aise. 

Une fois de plus, un concept caricatural qui relevait jusque-là de la science-fiction dystopique est repris au premier degré, à des fins commerciales, dans l'univers moralement dérangé de la Silicon Valley.

Cassius se découvre alors un don pour cette technique vocale, qui l'emmènera rapidement aux sommets de l'entreprise et du capitalisme. Une fois de plus (après le métavers à la sauce Zuckerberg), un concept caricatural qui relevait jusque-là de la science-fiction dystopique est repris au premier degré, à des fins commerciales, dans l'univers moralement dérangé de la Silicon Valley. Hear the magic, nous enjoint la startup sur son site. Dont acte : la neutralisation a bien lieu, avec une touche de robotique dans la voix transformée.

Il serait facile de taper sur les fondateurs de Sanas en les taxant de racisme, mais la situation est plus complexe que cela. Dans une interview au Guardian, Sharath Keshava Narayana, cofondateur de la startup, raconte que l'idée lui est venue après avoir subi du racisme en travaillant dans un centre d'appels à Bangalore, au point d'avoir dû se rebaptiser "Nathan" face aux clients. Il rappelle également que les quatre fondateurs de l'entreprise sont des fils d'immigrés, ainsi que "90 % des employés" de Sanas. Enfin, deux employés de centres d'appel indiens interrogés par la BBCse disent assez favorables à son déploiement. 

De l'Inde aux Philippines, les employés subissent toute la journée le racisme de clients Occidentaux, généralement énervés avant même de passer l'appel et désireux de se trouver un bouc émissaire anonyme à l'autre bout de la planète.

Si, de loin, on pourrait trouver étrange de se plier volontairement à une procédure d'effacement de son accent, tout s'explique lorsque l'on s'intéresse de plus près aux conditions de travail dans les centres d'appels du Sud global. De l'Inde aux Philippines, les employés subissent toute la journée le racisme de clients Occidentaux, généralement énervés avant même de passer l'appel et désireux de se trouver un bouc émissaire anonyme à l'autre bout de la planète. Si les témoignages restent relativement rares, celui du journaliste philippin Arnel F.Murga publié chez Rest of World en avril 2021, est particulièrement éloquent. Rebaptisé "Neal" durant ses quatre années de call center, il doit régulièrement supporter de se faire traiter de "stupide Asiatique puant" et autres saloperies du même acabit, tout en affectant une voix neutre et polie. Dès sa formation, on lui apprend que "le client doit avoir l'impression de parler à un agent Américain, sans quoi il ne vous fera pas confiance".

Alors, pour contenter le client-roi xénophobe, il faut américaniser les employés. Murga raconte sa formation, "qui incluait des  cours de neutralisation d'accent, de grammaire anglaise, d'expressions idiomatiques américaines, mais aussi du calendrier des vacances, des séries télé et des événements majeurs des États-Unis. Tout ce qui était distinctement philippin était remplacé par un équivalent américain", conclut-il. Aujourd'hui, ce genre de stage d'américanisation/ neutralisation est devenu la norme dans le monde des call centers, et une véritable industrie de la dénaturation a émergé durant la dernière décennie (dès 2012,Forbes se plongeait dans les formations à la neutralisation d'accent en Inde). On y propose des stages intensifs de formation au "call center English", un anglais pas forcément étasunien mais sans couleur particulière, qui s'adapte particulièrement bien à la sous-traitance mondialisée. 

Ce n'était qu'une question de temps avant que ce secteur-là ne subisse la loi de la disruption par l'IA magique, et c'est chose faite depuis quelques années. Sanas n'est pas la première start-up à imaginer un filtre audio dynamique : dès 2016, des expériences d'altération en direct de la voix produisent des résultats impressionnants ; en 2018, Techcrunch révèle qu'Amazon a déposé un brevet de "traduction d'accent en temps réel". L'année suivante, c'est l'appli ELSA speak qui se fait connaître avec un service équivalent. Et si en 2021, Sanas a remporté la bataille des apparitions dans la presse spécialisée, des entreprises comme Sayso,Voicemod ou Respeecher se placent également sur le marché des centres d'appels, une industrie en croissance folle qui emploie aujourd'hui 4 millions de personnes en Inde et y génère 200 milliards de dollars par an. 

Combattre le racisme en réduisant la diversité sociolinguistique, et en faisant porter aux victimes la responsabilité de s'accorder aux desiderata xénophobes de leurs agresseurs.

Et ce qui est encore plus beau, mais finalement pas surprenant pour qui, comme le sociologue technocritique Antonio Casilli, observe suffisamment longtemps l'écosystème startupien, c'est que tout ça pourrait être du vent : à l'heure actuelle, au-delà des démos et communiqués de presse de Sanas, aucun chiffre ne valide le fonctionnement du logiciel. En l'état, c'est donc un sombre mirage, qui permet pourtant à Sanas de terminer, en juin, une première levée de fonds à 32 millions de dollars, rappelle InputReste l'épineuse question de l'éthique de tels services qui prétendent – dans la plus pure tradition techno-solutionniste – résoudre à court terme un problème d'ordre social avec une solution technique clé en main, et une approche pour le moins surprenante : combattre le racisme en réduisant la diversité sociolinguistique, et en faisant porter aux victimes la responsabilité de s'accorder aux desiderata xénophobes de leurs agresseurs. Double peine. A cette question, chacun des acteurs du secteur y va de son couplet pragmatique. 

Chez Sanas, on rejette la faute sur les centres d'appels, qui "sont en place depuis 45 et [où] chaque jour, des agents sont discriminés à chaque appel", et l'on affirme dans le SFGate que "les accents créent des biais et des incompréhensions" (ce qui est faux, les accents "ne faisant que déclencher des biais préexistants", rectifie le quotidien étude à l'appui). Pour Ganna Tymco, fondateur de Sayso, l'entreprise "veut que les gens se comprennent plus facilement, et le plus facile à comprendre est ce qui nous semble le plus familier." Point de racisme là-dedans, donc, rien qu'une question d'habitudes. Entre les deux, le sociologue indien A Aneesh, auteur d'une enquête sur la neutralisation d'accents dans le télémarketing, résume pour le Guardianl'ambivalence d'une telle stratégie : "À court terme, c'est une bonne chose pour les recrues, qui n'ont plus à s'entraîner autant. […] Mais à long terme, en tant que sociologue, c'est un problème." 

Sur la BBC,le cofondateur de l'ONG Color in Tech Ashleigh Ainsley nomme le problème sans euphémisme : "devrions-nous modifier la couleur de peau des gens parce que d'autres ne l'aiment pas ?" Si l'idée vous paraît absurde et dégueulasse, repensez aux "filtres d'embellissement" de Snapchat,Instagram, FaceApp et TikTok, accusés (à raison) de blanchir les visages racisés sur les réseaux sociaux : oui, les créateurs de ces technologies portent (inconsciemment ?) en eux un projet politique, celui de la suprémacie blanche. À tel point qu'un logiciel de filtres photo comme Tonr, pensé pour les racisé·es, n'existe aujourd'hui que pour contester cette hégémonie.

Bien que les fondateurs de Sanas se défendent de mettre en valeur une norme vocale "blanche" et affirment que la voix neutralisée par leurs soins serait une sorte d'anglais robotique situé hors du champ social, racial et politique, un simple test d'écoute sur leur site prouve l'inverse. La voix "neutralisée", vaguement nasale, nous fait immédiatement penser à une personne blanche. Enfin, malgré ces promesses d'inclusivité, aucune de ces start-up n'envisage de fournir son service à des entreprises occidentales. Alors même que la discrimination à l'accent, ou glottophobie, n'obéit pas uniquement à des préjugés racistes mais également classistes, sexistes et xénophobes, parfois combinés, détaillait The Conversation en 2021. Une nouvelle fois, et au nom d'une volonté de résoudre techniquement un problème politique, la technique renforce un statu quo raciste, qui place l'identité blanche au-dessus des identités considérées comme subalternes. 

Devenir un androïde, sans réelle couleur ni émotion, mais bien plus proche du Blanc que de son identité originelle.

Sanas et les autres disséminent une politique de destruction de l'altérité, tout en entérinant l'idée selon laquelle le prolétariat de la technique, déjà sommé de cadencer son travail au rythme de la machine, devrait désormais se défaire de sa voix humaine pour adopter une élocution "augmentée", à moitié produite par ses cordes vocales et par les fonctions d'un algorithme. Devenir un androïde, sans réelle couleur ni émotion, mais bien plus proche du Blanc que de son identité originelle. De la radio au bureau, les politiques de normalisation du parler sont automatiquement des politiques de marginalisation des altérités et, in fine, de hiérarchisation des identités individuelles.

Chez nous, c'est le logiciel de l'élévation sociale qui robotise les aspirants à la domination culturelle nés un peu trop loin du 16e arrondissement, obligés de singer le comportement des élites pour espérer un jour les rejoindre.

En France, rappelait Philippe Blanchet (père du concept de glottophobie) àFrance Culture en 2020, c'est la langue parlée par la bourgeoisie parisienne des Jacobins qui sert de référence à la définition du français "neutre" depuis 1789. Et tant pis pour les langues régionales, reléguées au rang méprisant de dialectes, ses locuteurs renvoyés à leur supposée inculture, rappelait également l'Express. Telle est l'obsession des catégories sociales dominantes minoritaires : se faire reconnaître comme norme intellectuelle chez les majorités perçues comme subalternes, avec l'aide des outils administratifs et politiques de l'époque en leur possession. Voilà pourquoi, en 2022, le paysage médiatique sonore se gargarise encore de cette horripilante  "langue neutre" journalistique aux intonations artificielles dont Victoire Tuaillon s'était si bien moquée pour Arte Radio, et qui n'a finalement rien à envier à la surcouche logicielle des call centers de Sanas. Chez nous, c'est le logiciel de l'élévation sociale qui robotise les aspirants à la domination culturelle nés un peu trop loin du 16e arrondissement, obligés de singer le comportement des élites pour espérer un jour les rejoindre. Une fois encore, la technique n'est que le reflet instrumentalisé d'une violence sociale préexistante.

Il est d'autant plus urgent de repenser la diversité linguistique à l'ère numérique que les violences glottophobes classistes et racistes ne se limitent pas aux centres d'appels. A mesure que notre environnement technique délaisse le digital pour se tourner vers le vocal, les oppressions du monde physique viennent implacablement se calquer sur les nouveaux outils d'interaction entre humains et machines. Pendant que l'Occident blanc et anglophone s'émerveille de l'Internet of Voice, apprend à dire "hey Siri" et à apprivoiser les objets connectés à commande vocale, le reste du monde découvre, une fois de plus,  l'exclusion et la discrimination. Sans surprise, l'IA de reconnaissance vocale a les oreilles racistes et sexistes. Selon une étude de l'Algorithmic Justice League parue en 2021, les logiciels de reconnaissance vocale des Gafam (Siri, Alexa, Google Assistant, Cortana et Watson) ont un taux d'erreur de 19 % pour les voix "blanches", et ce taux grimpe à 35 % pour les voix codées comme afro-américaines – exactement la même disparité constatée en 2018 lors d'une étude sur les biais de la reconnaissance faciale de ces mêmes entreprises. Partout, le même problème est identifié: les données d'entraînement des logiciels sont biaisées, ce qui donne des systèmes structurellement biaisés, comme le résumait récemment Scientific American.

Que se passera-t-il si, demain, les voitures ou les portes d'entrée s'activent uniquement à la voix et si vous faites partie des exclus du spectre vocal autorisé ?

La question de la discrimination vocale par les machines est essentielle à résoudre, à mesure que ces systèmes gouvernent des pans de plus en plus importants de notre quotidien. Actuellement, décrivait Wired en 2017, ces discriminations structurelles restent de l'ordre de la nuisance pour les victimes  après tout, il est encore possible de se passer des assistants vocaux et des objets domotiques lorsqu'ils ne fonctionnent pas. Lorsque la voix devient la seule interface de contrôle, comme dans un ascenseur, cela donne un bon sketch, mais c'est déjà plus inquiétant. Que se passera-t-il si, demain, les voitures ou les portes d'entrée s'activent uniquement à la voix et si vous faites partie des exclus du spectre vocal autorisé ? Les populations marginalisées, devenues muettes, devront-elles s'équiper de logiciels d'effacement de soi comme celui de Sanas pour pouvoir interagir avec d'autres logiciels hégémoniques ? 

Contrairement aux interactions interpersonnelles, il est impossible de négocier avec un programme informatique: soit il vous comprend, soit il ne vous comprend pas. C'est un shibboleth, qui détermine si vous appartenez au monde ou pas. La reconnaissance vocale porte en cela bien son nom, car il s'agit bel et bien d'être reconnu par l'intermédiaire technique comme individu parlant, donc pensant, d'un groupe social. À l'inverse, ne pas être reconnu, c'est être un peu plus expulsé d'un monde informatique qui, partout où des systèmes d'IA sont déployés, "naturalise la blanchité comme identité sociale dominante", comme le résume la chercheuse Pauline Léonard dans une étude parue fin juin. C'est réaliser qu'un système technique refuse, littéralement, de reconnaître l'existence de votre voix, et par extension de votre autonomie politique. Car ce qui refuse de vous entendre vous rend de facto muet. Ce que proposent Sanas et les autres, ce n'est rien de moins que d'accepter ce ségrégationnisme linguistique comme état de fait. Accepter que pour être entendu dans le monde, il faudrait parler Blanc, avec un petit coup de pouce technique pour les réfractaires à l'auto-effacement. La réponse est non, dans toutes les langues qui soient. Et comme dirait Zack de la Rocha...


You'll never silence the voice / of the voiceless.

Lire sur arretsurimages.net.