Traumatisme du clic : les personnes derrière ChatGPT

Les capacités des nouveaux modèles d’IA générative ou les produits basés sur ces modèles, comme ChatGPT, sont fascinants. Outre les inquiétudes quant à l’impact sur notre société, les conditions de travail des personnes impliquées dans ces projets sont de plus en plus critiquées. Nous en avons parlé avec nos expertes.

SocietyByte : Qu’est-ce qui est vrai dans la critique de la tâche des travailleurs* ? Que devaient-ils faire ?

Mascha Kurpicz-Briki : Pour le lancement de ChatGPT, une enquête a été publiée par TIME Magazine début 2023 [1]. Celle-ci a révélé que la société américaine OpenAI, propriétaire de Chat GPT, avait engagé une entreprise au Kenya pour filtrer les contenus toxiques tels que la violence physique et sexuelle, les suicides et la cruauté envers les animaux, dans les réponses des utilisateurs. Les employés devaient lire des contenus parfois choquants pour moins de 2 dollars de l’heure. Selon les recherches, les travailleurs* lisaient jusqu’à 250 passages de texte d’une longueur allant jusqu’à 1.000 mots en une équipe de neuf heures. Il a également été critiqué que les employés concernés ne recevaient pas assez d’encadrement pour faire face à cette situation, ils se sont plaints de problèmes psychiques dus à ces textes éprouvants.

À quoi leur travail préparatoire a-t-il été utilisé ou à quoi a-t-il servi ?

MKB : En raison de la grande quantité de données de formation nécessaires pour de tels modèles linguistiques, un contrôle de qualité est difficile. Le contenu des données d’entraînement peut donc conduire à ce que des déclarations discriminatoires ou offensantes soient générées par un chatbot. Pour éviter cela, de telles réponses peuvent par exemple être marquées comme indésirables. Si l’on fait cela pour un grand nombre de réponses, le système peut en tirer des enseignements. Pour pouvoir le marquer, il faut toutefois lire tous ces textes indésirables, et cela peut notamment contenir des descriptions détaillées d’abus, de torture ou de meurtre.

Comment se fait-il qu’un tel filtrage soit nécessaire ?

MKB : Le problème fondamental réside dans le fait qu’en raison de la grande quantité de données d’entraînement nécessaires pour de tels modèles, on utilise des données provenant d’Internet. La quantité de données est si importante qu’un contrôle manuel des données n’est même plus possible, mais celles-ci contiennent parfois des données très problématiques provenant des coins les plus sombres d’Internet. Pour les reconnaître automatiquement et éviter qu’elles ne soient utilisées par le chatbot dans sa réponse, il faut à nouveau une grande quantité d’exemples de ces mauvais textes, à partir desquels le système peut apprendre ce qui est indésirable. Ces textes doivent être mis à disposition et triés par des humains.

Pourquoi n’a-t-on pas travaillé de manière plus inclusive, c’est-à-dire de manière plus réfléchie en ce qui concerne le racisme et les biais, dès la phase de formation ?

MKB : Les données utilisées pour la formation ont été générées par des personnes. Elles contiennent donc aussi les stéréotypes de notre société. Dans la phase d’entraînement, les données sont traitées automatiquement, et nous parlons d’un ordre de grandeur de centaines de milliards de mots. Le choix de jeux d’entraînement disponibles ici est donc limité. La qualité des données d’entraînement est très importante et on demande de plus en plus que cela soit documenté de manière plus détaillée et transparente [2].

Est-ce un problème spécifique à OpenAI ou à ChatGPT ?

MKB : Ces types d’activités existent aussi ailleurs dans le cadre de l’IA et de la transformation numérique. Même pour le filtrage de contenus sur les médias sociaux ou dans les forums en ligne, on a souvent besoin de personnes. Dans certains cas, pour effectuer directement un contrôle du contenu, ou pour former des systèmes d’IA qui doivent ensuite s’en charger. Il est bien sûr difficile d’évaluer de manière globale les conditions de travail, en particulier lorsqu’une externalisation a lieu dans le Sud.

Outre cette problématique, il existe d’autres défis dans le domaine des modèles linguistiques. De nombreux progrès sont réalisés en premier lieu pour la langue anglaise, ou pour quelques langues privilégiées. Une grande partie des langues parlées dans le monde ne peuvent pas en profiter, car la recherche et le développement s’y intéressent moins.

Pourquoi ce travail est-il externalisé et si peu valorisé ?

Caroline Straub : Personne en Suisse ne pourrait financer sa vie avec ce travail. Il s’agit de microtravail. Il s’agit de tâches simples et répétitives qui peuvent être effectuées rapidement en ligne et qui ne nécessitent pas de compétences particulières (par exemple, le nettoyage de données, le codage, la classification de contenu pour l’IA). La rémunération des micro-emplois est généralement très faible (environ 5 centimes par clic). Pour de nombreuses personnes sans formation dans les pays en développement (Sud global), les microjobs sont un moyen de gagner de l’argent. Le microjob est également appelé ghostwork (travail fantôme). Il s’agit d’un travail effectué par un être humain, mais dont un client pense qu’il est réalisé par un processus automatisé.

Quelles sont les difficultés concernant les conditions d’emploi, avec une extension au ghostwork ?

CS : L’intelligence artificielle dépend du travail humain pour effectuer des tâches telles que le nettoyage des données, le codage et la classification du contenu. Ce travail à la demande est proposé et réalisé en ligne sur des plateformes telles qu’Amazon Mechanical Turk, avec une rémunération en fonction de la tâche. Conçu comme un « travail fantôme », ce travail basé sur des plateformes et à croissance rapide est en grande partie invisible : les travailleurs* ne peuvent pas parler aux managers, ne reçoivent pas de feedback et la sécurité au travail fait défaut.


Références

[1] https://time.com/6247678/openai-chatgpt-kenya-workers/

[2] https://cacm.acm.org/magazines/2021/12/256932-datasheets-for-datasets/abstract


À propos des expertes

Mascha Kurpicz-Briki est professeure de data engineering à la Haute école spécialisée bernoise et directrice adjointe du groupe de recherche Applied Machine Intelligence. Elle étudie comment l’IA peut être utilisée de manière responsable.Caroline Straub est professeur à l’Institut New Work de la HESB Économie. Elle mène des recherches sur le travail basé sur des plateformes, la GRH numérique et la diversité et l’inclusion.
Creative Commons Licence

AUTHOR: Anne-Careen Stoltze

Anne-Careen Stoltze est rédactrice du magazine scientifique SocietyByte et hôte du podcast "Let's Talk Business". Elle travaille dans la communication de la HESB Économie, elle est journaliste et géologue.

Create PDF

Posts associés

0 réponses

Laisser un commentaire

Rejoindre la discussion?
N’hésitez pas à contribuer !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *