Inklusive und vielfältige Sprache? – Ein Sprachmodell zeigt, wie es geht

Die Natural Language Processing ist ein Teilgebiet der Linguistik, Informatik und künstlichen Intelligenz (KI), das sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst. Damit können zum Beispiel Mehrdeutigkeiten in der Sprache aufgelöst werden. Unsere Gastautorin erläutert, wie ein neues Tool eine inklusivere Sprache nutzt.

Ich arbeite als Datenwissenschaftlerin bei Witty Works mit Schwerpunkt auf NLP-Entwicklung. Wir haben ein neues Produkt namens Witty entwickelt, das Ihnen hilft, bewusst zu schreiben. Die Idee ist, Sprache so zu verwenden, dass sich die Menschen beim Schreiben von Texten wie Newslettern, Stellenanzeigen oder Marketingkampagnen willkommen fühlen. In diesem Artikel beschreibe ich zunächst, was NLP ist, wie wir es verwenden und was sich hinter der Magie verbirgt: wie wir den Benutzern helfen können, mit Hilfe von NLP vielfältiger und inklusiver zu schreiben.

Was bedeutet NLP?

NLP steht für Natural Language Processing, nicht zu verwechseln mit Neurolinguistischem Programmieren, das ebenfalls NLP als Abkürzung verwendet. Natürliche Sprachverarbeitung ist eine Technologie an der Schnittstelle von Linguistik, Informatik und künstlicher Intelligenz (KI). KI ist ein Oberbegriff für Technologien, die es Maschinen ermöglichen, die menschliche Intelligenz zu simulieren. KI umfasst Systeme, die kognitive Fähigkeiten nachahmen, z. B. Sprachverständnis und -erzeugung, maschinelles Sehen und Entscheidungsfindung. KI deckt ein breites Spektrum von Anwendungen ab, von selbst fahrenden Autos bis hin zu Vorhersagesystemen. Computer sind im Allgemeinen nicht darauf ausgelegt, menschliche Kommunikation zu verstehen. Für uns ist es einfach, einen Text zu verstehen: Wir erkennen einzelne Wörter und den Kontext, in dem sie verwendet werden. Aber Computer sprechen in Codes. Natürliche Sprachverarbeitung zielt darauf ab, die menschliche Sprache – die komplex, mehrdeutig und sehr vielfältig ist – für Maschinen verständlich zu machen. NLP kann verschiedene Arten von Sprache verarbeiten, einschließlich Slang, Dialekte und Rechtschreibfehler. Mit NLP können Computer geschriebenen oder gesprochenen Text verstehen und Aufgaben wie Übersetzen, Extrahieren von Schlüsselwörtern, Kategorisieren von Themen und vieles mehr ausführen. Sehr bekannte Einsatzgebiete sind zum Beispiel Suchmaschinen (wie Google), Anwendungen zur Rechtschreibprüfung (Grammarly) oder Chatbots.

Textanalyse und maschinelles Lernen

Der intelligente Umgang mit Texten ist knifflig: Manchmal bedeuten Wörter, die unterschiedlich aussehen, dasselbe, und manchmal bedeuten die gleichen Wörter in einer anderen Reihenfolge oder in einem anderen Kontext etwas völlig anderes. In den meisten Fällen ist linguistisches Wissen erforderlich, um nützliche Informationen aus dem Text zu extrahieren. Die linguistische Textanalyse kann in mehrere Unterkategorien unterteilt werden, darunter morphologische, grammatikalische, syntaktische und semantische Analysen. Um diese Prozesse zu automatisieren und genaue Antworten zu erhalten, ist jedoch maschinelles Lernen erforderlich. Unter maschinellem Lernen versteht man die Anwendung von Algorithmen, mit denen Maschinen lernen, automatisch und ohne explizite Programmierung aus zuvor gesammelten Daten zu lernen und diese zu verbessern.

Alle wichtigen Technologien des maschinellen Lernens werden auf der Grundlage von von Menschen beschrifteten Datensätzen trainiert. Es wird eine bestimmte Art von Datenbank aufgebaut, und dann erzeugen die Maschinen anhand von grammatikalischen und von Menschen erstellten Regeln Muster, um die benötigten Ergebnisse zu finden. Die Regeln geben den Computern schrittweise Anweisungen, wie sie eine bestimmte Aufgabe zu erledigen haben. Ein Mensch kennzeichnet beispielsweise die Wörter in einem Text als Nomen, Verben und Pronomen. Die Maschine lernt dann aus diesen Beispielen, bis sie neue Sätze selbständig richtig benennen kann. Mit NLP können Computer auch die Wortabhängigkeiten finden, um die grammatikalische Struktur im Satz zu analysieren und verschiedene Arten von wichtigen Elementen wie Namen von Personen, Daten, Orten und Unternehmen zu extrahieren.

Tool für inklusive Sprache

Wir haben das Tool Witty entwickelt, das Ihnen hilft, inklusiver zu schreiben. Der NLP-Kern von Witty basiert auf den folgenden Schritten:

  1. In einem ersten Schritt haben wir Wörterbücher mit nicht-inklusiven Wörtern für verschiedene Kategorien erstellt, z. B. prahlerische Wörter, geschlechtsspezifische Wörter, ableistische Sprache, rassistische Sprache usw., sowie deren Alternativen auf Deutsch und Englisch. Diese Arbeit wird mit Hilfe von Tracey, unserer hochqualifizierten Sprachspezialistin, durchgeführt. Die Qualität der Daten in den Wörterbüchern ist von entscheidender Bedeutung. Alle nicht inklusiven Wörter wurden sorgfältig aus verschiedenen Quellen zusammengetragen, einschließlich wissenschaftlicher Forschung, inklusiver Sprachführer verschiedener Verbände und Führer für bewusste Sprache. All diese Daten werden kontinuierlich verwaltet und überprüft.
  2. Im zweiten Schritt simulieren wir das Verstehen des Textes durch Anwendung von NLP. Wir verwenden NLP-Modelle für Deutsch und Englisch, um die Wörter im Text in wörterbuchähnliche Formen umzuwandeln (die «Lemmata» genannt werden), eine linguistische Analyse durchzuführen und die linguistischen Merkmale aus dem Text zu extrahieren. Zum Beispiel wird der Satz «Er liest Bücher» in «Ich lese Buch» umgewandelt, mit morphologischen Markierungen (Plural- und Singularformen, Geschlecht), Part-of-Speech-Tags (Pronomen, Verben, Substantive, Adjektive usw.) und Markierungen von Wortabhängigkeiten. In diesem Schritt führen wir auch Named-Entity-Erkennungen durch, um bei Bedarf geografische Orte, Namen von Organisationen, Personen und Zahlen aus dem Benutzertext zu extrahieren. Danach durchsuchen wir unsere inklusiven und nicht-inklusiven Wörterbücher, um festzustellen, ob eines der Wörter oder Idiome aus dem Benutzertext zu ihnen gehört oder nicht.
  3. Im dritten Schritt heben wir die Wörter hervor, die nicht zur inklusiven Sprache gehören, schlagen Alternativen vor, nennen den Grund für die Verwendung der gemeinsamen Sprache und erklären, warum dieses Wort nicht inklusiv ist. Wir heben auch integrative Wörter hervor, um Menschen zu ermutigen, sie häufiger zu verwenden.

NLP in der Praxis erleben

Lassen Sie uns in konkrete Beispiele eintauchen, um die Magie dahinter  zu verstehen. Das deutsche Wort «Macht» ist agentisch und beschreibt Eigenschaften, die den männlichen Stereotyp verstärken und vom Algorithmus erfasst und hervorgehoben werden sollten. Es gibt jedoch «macht» als Form des Verbs «machen», das ein allgemeines Wort ist und vom Algorithmus nicht hervorgehoben werden sollte.

a4cfab_cf447bb84723449fab0eaab8dbfafa45~mv2a4cfab_c39997cd179b4c66981416bc0ac797ce~mv2

NLP hilft auch bei der morphologischen Analyse des Textes und zeigt z. B. die korrekte Form von Alternativen für Plural und Singular an. a4cfab_64394404aa5644b4a9916ce6353e3505~mv2a4cfab_beba2484ebc64075a71025fc45dbdf94~mv2

Der folgende konkrete Fall zeigt, dass wir Wörter je nach ihrem Kontext hervorheben. Das Wort «international» ist zum Beispiel ein Begriff, der zu einer Worthülse geworden ist, weil er im geschäftlichen Umfeld zu oft verwendet wurde. In dem Fall «Greenpeace ist eine internationale Organisation» ist die Verwendung dieses Wortes jedoch korrekt. NLP erkennt an, dass Greenpeace eine Organisation ist und dass international zu diesem Wort gehört und sollte es daher nicht hervorheben. a4cfab_46df0174bdfb484e9b65f3f3b209b7bd~mv2

Was Witty ebenfalls zu einem hilfreichen Produkt macht, ist die Überprüfung von Rechtschreib- und Grammatikfehlern. a4cfab_e1a36e890ab34b36be7cb5f7a1877278~mv2

«Witty» ist ein neues Produkt. Wir sammeln derzeit die Daten, um fortgeschrittenere NLP-Modelle auf der Grundlage neuronaler Netze zu entwickeln, die uns bei der Texterstellung und der Übertragung von Stilen helfen werden. In diesem Fall werden wir nicht nur die Wörter und Redewendungen ersetzen, sondern den Text neu formulieren und einen umfassenden Stil für den gesamten Text vorschlagen.

Schlussfolgerung

Hinter den Kulissen analysiert NLP die grammatikalische Struktur von Sätzen und die spezifische Bedeutung von Wörtern und verwendet dann Algorithmen, um die Bedeutung zu extrahieren und die Ergebnisse auszugeben. Sie sehen, dass die künstliche Intelligenz weit von der menschlichen Intelligenz entfernt ist. Mit anderen Worten: Sie macht sich die menschliche Sprache zunutze, um verschiedene Aufgaben automatisch auszuführen. Normalerweise können Menschen eine neue Sprachaufgabe mit nur wenigen Beispielen oder einfachen Anweisungen bewältigen – etwas, das moderne NLP-Algorithmen noch immer nicht können. Wir hoffen, dass dieser Blogbeitrag Ihnen etwas von der Angst vor KI genommen hat und Ihnen gezeigt hat, wie wir KI im Witty-Tool einsetzen. Lassen Sie uns wissen, wenn Sie weitere Fragen zur Funktionsweise unserer Algorithmen haben.


Witty Works  ist Projektpartner der BFH

Die Forschungsgruppe Applied Machine Intelligence engagiert sich im Bereich technische Unterstützung von inklusiver Sprache. In diversen Projekten arbeitet sie mit dem Start-Up Witty Works zusammen, zum Beispiel im Diversifier-NLP-Projekt.

AUTOR/AUTORIN: Elena Nazarenko

Elena Nazanrenko ist Datenwissenschaftlerin bei der Zürcher Entwicklerfirma Witty Works. Sie hat einen Hintergrund in theoretischer und rechnergestützter Physik und entwickelte u.a. bereits ein NLP-Projekt für kollaboratives Arbeitsmanagement, einen Chatbot-Prototyp und verbessere die Freitextsuche einer eCommerce-Plattform. Zuvor arbeitete sie als Wissenschaftlerin am Paul Scherrer Institut (ETH-Bereich, Schweiz) und an nationalen Forschungsinstituten in Schweden und Frankreich.

PDF erstellen

Ähnliche Beiträge

0 Kommentare

Dein Kommentar

An Diskussion beteiligen?
Hinterlasse uns Deinen Kommentar!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert