Wie sich Sprache in Kommentaren änderte

Analyse von 13 Millionen Online-Kommentare mithilfe von Machine Learning

Für 50.000 Wörter habe ich Visualisierungen erstellt, wie sich Sprache in der Kommentarspalte geändert hat. Zu einem gegebenen Wort werden ähnliche Wörter pro Zeitintervall gezeigt. Die animierten Visualisierungen wurden automatisiert mithilfe von Machine Learning erstellt. Grundlage sind über 13 Millionen Online-Kommentare, die zwischen 2010 und 2019 erstellt wurden.

Dies ist der zweite Teil dieses Online-Projekts zu Kommentaren und Machine Learning. Im ersten Teil habe ich in die Grundlage des Themas eingeführt.

Bitte ein Wort auswählen

oder eigenes Wort eingeben:



Was genau sehe ich hier?

Im Fokus (rot) steht ein Wort, zudem ähnliche Wörter (so wie es der Computer sieht). Ähnlich bedeutet hier, dass sie in ähnlichen Kontexten benutzt wird. Das können teilweise Synonyme sein und manchmal sind es nur Begriffe aus dem gleichen Themengebiet. Je näher sich zwei Punkte sind, desto ähnlicher sind die Begriffe. Die Achsen habe keine Bedeutung.

Wie genau wurde die Visualisierung erstellt?

Im ersten Schritt wurden fünf Word Embeddings erstellt. Die Zeitspanne von 2010 bis 2019 wurden in fünf Intervallen à zwei Jahren zusammengefasst. Dann wurde für jede Epoche die umliegenden Wörter bestimmt und auf eine 2D-Ebene projiziert. In der Folge wurde ein Video gerendert, in dem zwischen den fünf Darstellungen interpoliert wurde.

Zudem gibt es Wörter die auftauchen oder verschwinden. Für die Word Embeddings wurden nur die 50.000 häufigsten Wörter (pro Zeitintervall) genutzt. Teilweise sind neue Wörter aufgetaucht (“Flüchtlingsstrom”) oder alte verschwunden, da sie weniger genutzt wurden.

Die Darstellung ist nicht perfekt. So gibt es teilweise ein Zooming-Effekt, der verwirrend sein kann. Der kommt dadurch zustande, dass die gesamte Fläche ausgefüllt werden soll.

Bilden die Resultate die Realität ab?

Nein, erst einmal bilden Word Embeddings nur die Sprache in den Trainingsdaten ab. Die Sprache in den Kommentaren (wie in diesem Fall) steht nicht zwangsläufig für die Wahrheit oder die Realität. Und auch andere große Textmengen, wie z. B. alle englischen Wikipedia-Artikel, sind in ihre Gesamtheit nicht neutral.

Ein Problem ist es, dass oft bei großen Textmengen ein Bias (z. B. Rassismus) gibt. Ein Forscher-Team hat herausgefunden, dass eine API von Google, die Hatespeech erkennen soll, rassistisch ist. So wird das Englisch, welche von Afroamerikanern genutzt wird, häufiger mit negativ konnotierte Wörtern in Verbindung gebracht. Machine Learning greift den Rassismus, der in den Trainingsdaten vorhanden ist, auf und repliziert ihn.

Zudem kommen heutige Verfahren kommen noch nicht menschliche Fähigkeiten ran (auch wenn es weitere Fortschritte gibt).


Weitere Fragen beantworte ich im dritten Teil des Online-Projekts.


Übersicht

Vortrag beim 95. Netzpolitischen Abend der Digitalen Gesellschaft in der c-base: Warum automatisierte Filter rassistisch sind

Gastbeitrag bei Netzpolitik.org: Warum automatisierte Filter rassistisch sind

Ein Online-Projekt von Johannes Filter, Johannes auf Twitter folgen
Impressum, Datenschutzerklärung

Johannes Filter wohnt in Berlin, ist freiberuflicher Softwareentwickler und Aktivist für Informationsfreiheit, Civic Tech und Open Data. Er studierte Informatik (MSc) am Hasso-Plattner-Institut in Potsdam sowie in Tallinn (Estland) und Madrid (Spanien).

Diese Arbeit ist im Rahmen des Prototype Fund entstanden und wurde vom Bundesministerium für Bildung und Forschung finanziert.

Das Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 01IS18S65 gefördert. Die Verantwortung für den Inhalt dieser Veröffentlichung liegt beim Autor.