Wie sich Sprache in Kommentaren änderte

Was genau sehe ich hier?

Im Fokus (rot) steht ein Wort, zudem ähnliche Wörter (so wie es der Computer sieht). Ähnlich bedeutet hier, dass sie in ähnlichen Kontexten benutzt wird. Das können teilweise Synonyme sein und manchmal sind es nur Begriffe aus dem gleichen Themengebiet. Je näher sich zwei Punkte sind, desto ähnlicher sind die Begriffe. Die Achsen habe keine Bedeutung.

Wie genau wurde die Visualisierung erstellt?

Im ersten Schritt wurden fünf Word Embeddings erstellt. Die Zeitspanne von 2010 bis 2019 wurden in fünf Intervallen à zwei Jahren zusammengefasst. Dann wurde für jede Epoche die umliegenden Wörter bestimmt und auf eine 2D-Ebene projiziert. In der Folge wurde ein Video gerendert, in dem zwischen den fünf Darstellungen interpoliert wurde.

Zudem gibt es Wörter die auftauchen oder verschwinden. Für die Word Embeddings wurden nur die 50.000 häufigsten Wörter (pro Zeitintervall) genutzt. Teilweise sind neue Wörter aufgetaucht (“Flüchtlingsstrom”) oder alte verschwunden, da sie weniger genutzt wurden.

Die Darstellung ist nicht perfekt. So gibt es teilweise ein Zooming-Effekt, der verwirrend sein kann. Der kommt dadurch zustande, dass die gesamte Fläche ausgefüllt werden soll.

Bilden die Resultate die Realität ab?

Nein, erst einmal bilden Word Embeddings nur die Sprache in den Trainingsdaten ab. Die Sprache in den Kommentaren (wie in diesem Fall) steht nicht zwangsläufig für die Wahrheit oder die Realität. Und auch andere große Textmengen, wie z. B. alle englischen Wikipedia-Artikel, sind in ihre Gesamtheit nicht neutral.

Ein Problem ist es, dass oft bei großen Textmengen ein Bias (z. B. Rassismus) gibt. Ein Forscher-Team hat herausgefunden, dass eine API von Google, die Hatespeech erkennen soll, rassistisch ist. So wird das Englisch, welche von Afroamerikanern genutzt wird, häufiger mit negativ konnotierte Wörtern in Verbindung gebracht. Machine Learning greift den Rassismus, der in den Trainingsdaten vorhanden ist, auf und repliziert ihn.

Zudem kommen heutige Verfahren kommen noch nicht menschliche Fähigkeiten ran (auch wenn es weitere Fortschritte gibt).

Weitere Fragen beantworte ich im dritten Teil des Online-Projekts.

Übersicht

Vortrag beim 95. Netzpolitischen Abend der Digitalen Gesellschaft in der c-base: Warum automatisierte Filter rassistisch sind

Gastbeitrag bei Netzpolitik.org: Warum automatisierte Filter rassistisch sind

Ein Online-Projekt von Johannes Filter, Johannes auf Twitter folgen
Impressum, Datenschutzerklärung

Johannes Filter wohnt in Berlin, ist freiberuflicher Softwareentwickler und Aktivist für Informationsfreiheit, Civic Tech und Open Data. Er studierte Informatik (MSc) am Hasso-Plattner-Institut in Potsdam sowie in Tallinn (Estland) und Madrid (Spanien).

Diese Arbeit ist im Rahmen des Prototype Fund entstanden und wurde vom Bundesministerium für Bildung und Forschung finanziert.

Das Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 01IS18S65 gefördert. Die Verantwortung für den Inhalt dieser Veröffentlichung liegt beim Autor.

Wie sich Sprache in Kommentaren änderte

Analyse von 13 Millionen Online-Kommentare mithilfe von Machine Learning

Bitte ein Wort auswählen

Was genau sehe ich hier?

Wie genau wurde die Visualisierung erstellt?

Bilden die Resultate die Realität ab?

Übersicht