Über Bias in Sprachmodellen und Datenanreicherung für KI in der psychischen Gesundheit

Sind gesellschaftliche Stereotypen in deutschen Sprachmodellen kodiert, und wie können Techniken zur Datenerweiterung Klassifizierungsaufgaben im Kontext der psychischen Gesundheit unterstützen? Aktuelle Ergebnisse zu diesen Themen haben Forschende der BFH auf der SwissText-Jahrestagung 2024 vorgestellt.

Die Gruppe für Angewandtes Maschinelles Lernen an der Berner Fachhochschule ist an vielen innovativen Projekten im Bereich Natural Language Processing (NLP) beteiligt. An der kürzlich stattgefundenen SwissText-Konferenz, an der Forscher*innen aus diesem Bereich teilnahmen, wurden Ergebnisse aus zwei Projekten vorgestellt. Die Konferenz fand dieses Jahr in Chur, an der Fachhochschule Graubünden, statt.

Abb. 1: Leander Rankwiler während seiner Präsentation.

Ziel der Veranstaltung ist es, Textanalyse-Experten aus Industrie und Wissenschaft zusammenzubringen. Sie wird von der Schweizerischen Vereinigung für Natürliche Sprachverarbeitung (SwissNLP) in Zusammenarbeit mit den lokalen Hochschulen der jährlichen Ausgaben und der Zürcher Hochschule für Angewandte Wissenschaften (ZHAW) organisiert.

Verzerrungen in deutschen Worteinbettungen

Das BIAS-Projekt untersucht, wie sich gesellschaftliche Stereotypen in der Technologie widerspiegeln. Der Fokus liegt dabei insbesondere auf europäischen Sprachen und sprachlichen sowie regionalen Besonderheiten. Dies ist besonders relevant für Modelle, die zur Verarbeitung von Schriftsprache verwendet werden, wie z.B. Worteinbettungen (siehe diesen Artikel für Details). So können sich beispielsweise Stereotypen, die in den USA anzutreffen sind und sich in englischen Worteinbettungen widerspiegeln, von denen in norwegischen Worteinbettungen unterscheiden. Im Rahmen des BIAS-Projekts wurden in den verschiedenen Partnerländern, darunter auch in der Schweiz, Co-Creation-Workshops organisiert. Verschiedene Stakeholder, darunter Personalfachleute, Mitglieder von NGOs, KI-Spezialisten und Arbeitnehmer, diskutierten in interdisziplinären Gruppen.

Der auf der SwissText 2024 präsentierte Vortrag beschreibt hauptsächlich die Ergebnisse des deutschen Co-Creation Workshops in der Schweiz. Gegenstand der Untersuchung waren deutsche Worteinbettungen, die Modelle unter modernen Textverarbeitungs- und Textgenerierungsanwendungen. Die Analyse zeigte, dass sowohl statische als auch kontextualisierte deutsche Einbettungen signifikante Verzerrungen entlang mehrerer Dimensionen aufweisen.

Datenerweiterung für die Klassifikation von Essstörungen

Der zweite auf der SwissText präsentierte Beitrag befasste sich mit Ergebnissen aus dem Projekt AI4ED, das untersucht, wie natürliche Sprachverarbeitung zur Analyse von Textausschnitten und zur Erkennung verschiedener Arten von Essstörungen eingesetzt werden kann. Dies ist Teil der Forschungsrichtung Augmented Intelligence for Mental Health der Forschungsgruppe Applied Machine Intelligence, die das Potenzial von KI-Technologien für neue klinische Werkzeuge der Zukunft untersucht.

Abb. 2: Ghofrane Merhbene präsentiert an der SwissText Conference 2024.

In dem an der SwissText präsentierten Beitrag wurden in diesem Zusammenhang die Herausforderungen eines unausgewogenen Datensatzes thematisiert. Die Rückübersetzung als Datenanreicherungstechnik wurde angewandt, um das Ungleichgewicht der Klassenverteilung zu beheben. Dieser Prozess verbesserte den Nutzen des Datensatzes erheblich. Durch eine umfassende Rastersuche wurde ein Support Vector Machine (SVM)-Modell als das effektivste identifiziert, das einen durchschnittlichen F1-Score von 0,83 erreichte.

Danksagung

Die Autor*innen danken der Inventus Bern Stiftung, der Europäischen Kommission und dem SBFI für die Finanzierung der Forschungsprojekte, die mit den in diesem Artikel vorgestellten Arbeiten in Zusammenhang stehen.

Referenzen

Merhbene, G. & Kurpicz-Briki, M. (2024). Data Augmentation for Multi-Class Eating Disorders Text Classification. In: Proceedings of SwissText 2024, Chur, Schweiz.
Rankwiler, L. & Kurpicz-Briki, M. (2024). Evaluating Labor Market Biases Reflected in German Word Embeddings. In: Proceedings of SwissText 2024, Chur, Switzerland.

Die beiden Beiträge sind im Tagungsband verfügbar: https://www.swisstext.org/wp-content/uploads/2024/06/Proceedings_Preprint.pdf

Ghofrane Merhbene studiert im Master of Science in Engineering im Profil Data Science und arbeitet als wissenschaftlicher Mitarbeiter in der Forschungsgruppe Applied Machine Intelligence an der BFH.

Leander Rankwiler ist Masterstudent im MSE-Programm mit Schwerpunkt Data Science und arbeitete in seiner Masterarbeit an einem Thema im Zusammenhang mit dem BIAS-Projekt.

Dr. Mascha Kurpicz-Briki ist Professorin für Data Engineering am Institute for Data Applications and Security IDAS der Berner Fachhochschule, und stellvertretende Leiterin der Forschungsgruppe Applied Machine Intelligence. Sie beschäftigt sich in ihrer Forschung unter anderem mit dem Thema Fairness und der Digitalisierung von sozialen und gesellschaftlichen Herausforderungen.

Über Bias in Sprachmodellen und Datenanreicherung für KI in der psychischen Gesundheit

Verzerrungen in deutschen Worteinbettungen

Datenerweiterung für die Klassifikation von Essstörungen

Danksagung

Referenzen

Ähnliche Beiträge

Dein Kommentar

Schreiben Sie einen Kommentar Antwort abbrechen

RSS abonnieren

Kontakt

Newsletter