Quelles techniques pour décrypter le fonctionnement de l’IA ?

Les grandes percées en matière d’intelligence artificielle (IA) accélèrent l’introduction d’outils basés sur l’IA dans l’industrie, la recherche et l’administration. Cependant, le processus de réflexion des modèles modernes d’IA se déroule dans une boîte noire. Cet article examine les techniques qui ont été développées pour atténuer ce problème dans le domaine du PNL.

Le traitement du langage naturel (NLP) fait référence au domaine des techniques développées pour le traitement automatique du langage humain dans les données textuelles ou vocales. Ces dernières années, le NLP a été dominé par des méthodes basées sur l’apprentissage automatique, ce qui a abouti à l’introduction de grands modèles linguistiques tels que ChatGPT. Dans la suite de cet article, nous nous concentrerons sur l’état actuel de la recherche en matière d’IA explicable (XAI) dans le contexte de la PNL, en nous concentrant sur certaines des approches les plus répandues. Pour un aperçu plus complet et plus détaillé de la PNL explicable, voir (Danilevsky et al. 2020).

La caractéristique Importance

Importance de la caractéristique -Les techniques tentent d’identifier les caractéristiques dans un échantillon de saisie de texte qui contribuent le plus au résultat final du modèle. En règle générale, cela implique d’identifier les mots les plus importants, mais selon la manière dont les échantillons de texte sont codés en vecteurs mathématiques, les techniques d’importance des caractéristiques peuvent également être utilisées pour identifier les phrases ou les expressions importantes. Cette méthode est souvent utilisée visuellement sous la forme d’une Salienzkarte qui met en évidence les mots les plus importants avec une intensité correspondant à l’importance de chaque mot. La figure 1 montre un exemple de carte de saillance pour une tâche de classification binaire. Les méthodes populaires pour déterminer l’importance des caractéristiques sont LIME (Ribeiro et al. 2016), SHAP (Lundberg et Lee 2017) et la saillance de première dérivation (Li et al. 2015).

Figure 1 : Une carte de saillance créée à l’aide de l’explicateur LIME sur un modèle entraîné à classer les questions posées sur Quora comme sincères ou non sincères. Les mots surlignés en bleu indiquent que la question est sincère, tandis que les mots surlignés en orange indiquent le contraire. Les surlignages opaques indiquent les mots qui ont le plus contribué(source de l’image).

Guidé par l’exemple

Guidé par l’exemple Les techniques d’interprétabilité ne fournissent pas d’explications explicites pour la décision du modèle. Au lieu de cela, l’objectif est d’identifier d’autres exemples qui sont considérés comme similaires du point de vue du modèle. Cela permet à un examinateur externe d’examiner les échantillons similaires et de déterminer quels facteurs communs et quelles différences ont probablement joué un rôle important. La figure 2 illustre les résultats des méthodes basées sur des exemples développées dans (Croce et al. 2019).

Figure 2 : Dans ce cas, la tâche consistait à classer les questions dans la catégorie correspondant au thème de la question (p. ex. lieu, nombre, entité…). Chacune des paires de questions ci-dessus est considérée comme similaire par le modèle, mais les questions n’appartiennent pas toujours à la même classe.

Explications générées

Une troisième technique consiste à entraîner des modèles de langage génératif tels que GPT-3 afin de générer des explications en langage naturel pour la tâche donnée (par ex : Le candidat est bon parce qu’il est diplômé d’une université de premier plan »). Pour entraîner un modèle capable de générer de telles explications, il est généralement nécessaire de disposer d’un ensemble de données suffisamment grand, annoté avec des explications écrites par des humains. Pour corréler les explications générées avec la sortie, le modèle doit être entraîné simultanément pour accomplir la tâche cible (par exemple, classer les candidatures) et pour générer une explication, en utilisant une fonction de perte combinée qui compare à la fois la sortie du modèle et les explications générées avec des échantillons des données d’entraînement. De telles techniques ont été explorées dans (Camburu et al. 2018).

Obstacles et insuffisances

Chacune des trois approches décrites ci-dessus est prometteuse, mais présente également quelques lacunes. Par exemple, dans de nombreux cas, il n’est pas clair dans quelle mesure les explications correspondent au processus décisionnel réel du modèle. Les explications générées fournissent des informations précieuses sur le raisonnement des commentateurs de données et non sur celui du modèle. Il existe peut-être un compromis entre l’explication fidèle du modèle et la production d’explications faciles à comprendre et pouvant être utilisées pour vérifier ou contester des décisions algorithmiques inéquitables. Souvent, cette dernière est plus importante.

Il s’est également avéré que différentes techniques conduisent souvent à des explications différentes, voire contradictoires, un exemple de ce que l’on appelle le « problème de l’algorithme » problème d’incohérence (Krishna et al. 2022). Cela rend nécessaire le développement de métriques qui tentent de mesurer la qualité des différentes techniques d’explication (DeYoung et al. 2020) ainsi que le degré de concordance entre les différents explications. Idéalement, les modèles interprétables pourraient être identifiés sur la base de leurs performances par rapport à une variété de métriques qui mesurent différents aspects de l’interprétabilité. En fin de compte, une combinaison d’approches, telles que celles abordées dans cet article, sera nécessaire pour obtenir différentes nuances de compréhension et créer des modèles interprétables satisfaisants.


Références

  1. Camburu, Oana-Maria, et al. « e-snli : Natural language inference with natural language explanations » Advances in Neural Information Processing Systems 31 (2018).
  2. Croce, Danilo, Daniele Rossini, et Roberto Basili. « Auditing deep learning processes through kernel-based explanatory models » Actes de la conférence 2019 sur les méthodes empiriques en traitement du langage naturel et de la 9e conférence internationale conjointe sur le traitement du langage naturel (EMNLP-IJCNLP). 2019.
  3. Danilevsky, Marina, et al. « A survey of the state of explainable AI for natural language processing. » arXiv preprint arXiv:2010.00711 (2020).
  4. DeYoung, Jay, et al. « ERASER : A benchmark to evaluate rationalized NLP models. » arXiv preprint arXiv:1911.03429 (2019).
  5. Krishna, Satyapriya, et al. « The Disagreement Problem in Explainable Machine Learning : A Practitioner’s Perspective » arXiv preprint arXiv:2202.01602 (2022).
  6. Li, Jiwei, et al. « Visualizing and understanding neural models in nlp. » arXiv preprint arXiv:1506.01066 (2015).
  7. Lundberg, Scott M., et Su-In Lee. « A unified approach to interpreting model predictions » Advances in neural information processing systems 30 (2017).
  8. Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. «  » Pourquoi devrais-je te faire confiance ? » Explaining the predictions of any classifier » Actes de la 22e conférence internationale ACM SIGKDD sur la découverte de connaissances et l’exploration de données. 2016.
Creative Commons Licence

AUTHOR: Alexandre Puttick

Dr Alexandre Puttick est post-doctorant dans le groupe de recherche sur l'intelligence artificielle appliquée à la Haute école spécialisée bernoise. Ses recherches actuelles portent sur le développement d'outils cliniques pour la santé mentale ainsi que sur la détection et l'atténuation des biais dans les outils de recrutement pilotés par l'IA.

Create PDF

Posts associés

0 réponses

Laisser un commentaire

Rejoindre la discussion?
N’hésitez pas à contribuer !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *