© Eurac Research/Annelie Bortolotti

Wer Daten aus sozialen Medien verwenden darf und für welchen Zweck, wird heftig debattiert, seit die Beratungsfirma Cambridge Analytica mithilfe von Facebook-Daten versucht hat, die Wahlentscheidung von Millionen Amerikanern zu manipulieren. Wissenschaftler jedoch nutzen soziale Netzwerke schon lange als Datenquelle. Auch der Computerlinguist Egon Stemle und der Ökosystemforscher Lukas Egarter Vigl von Eurac Research. Ein Gespräch über Möglichkeiten und Methoden solcher Forschung – und über die ethische Verantwortung des Forschers.

In welchen Forschungsprojekten nutzen oder nutzten Sie Daten aus sozialen Medien?

Egon Stemle:
Vor ein paar Jahren haben wir die Facebook-Einträge deutschsprachiger Südtiroler analysiert und je nach Altersgruppen interessante Unterschiede im Sprachgebrauch festgestellt. Jetzt gerade arbeite  ich an einer Studie von Lukas Egarter Vigl mit, in der wir die immateriellen Ökosystemleistungen alpiner Landschaften untersuchen. Datenquelle ist dabei die Fotoplattform Flickr.

Lukas Egarter Vigl: Wer dort seine Fotos veröffentlicht, lädt gleichzeitig Metadaten hoch: die geographische Position und die Zeit. Es gibt also nicht nur die Bilder – man kann auch genau sagen, wo und wann sie gemacht wurden. Diesen riesigen Datenpool nutzen wir, um die kulturellen Leistungen zu  analysieren, die eine Landschaft bereitstellt. Wir verwenden eine Software, die den Inhalt der Bilder erkennt und in Sprache verwandelt: Zu jedem Bild erhalten wir damit kurze Beschreibungen, sogenannte Tags. Bei der Analyse dieser Textinformation kommt die Linguistik ins Spiel, also Egon Stemle. So ordnen  wir die Bilder verschiedenen Kategorien zu, etwa „Landschaftsästhetik“. Am Ende haben wir bestenfalls ein ziemlich klares Bild davon, welche kulturellen Bedürfnisse eine Landschaft in welchem Maß erfüllt.

Was macht Daten aus sozialen Netzwerken für Forscher so interessant?

Egarter Vigl: Eine Untersuchung wie diese wäre ohne solche Daten nur mit immensem Aufwand möglich:  Die immateriellen Güter, die uns Ökosysteme zur Verfügung stellen, sind schwer zu quantifizieren und werden auch sehr subjektiv empfunden – wir müssten also ausführliche Befragungen durchführen, könnten damit aber nie so große Gebiete abdecken wie es uns mit den Flickr-Daten gelingt. Diese Daten sind schon vorhanden, wir brauchen sie nur zu analysieren und können auf Fragen antworten wie: Wo in Südtirol werden die meisten Bilder gemacht? Zu welcher Jahreszeit? Welche sind die häufigsten Motive? Die Ergebnisse können wir dann z.B. mit Strukturmerkmalen der Landschaft in Verbindung bringen, um so von den Ökosystemleistungen einer bekannten Landschaft auf andere, vergleichbare Landschaften zu schließen.

Stemle: Als Sprachwissenschaftler bin ich an sprachlichen Phänomenen interessiert, und da ist Kommunikation natürlich immer spannend – und in sozialen Netzwerken kommunizieren Menschen in  sehr ausgeprägter Form. Hat man ausreichend Daten über einen längeren Zeitraum, kann man daran z.B. sehr gut untersuchen, wie Sprache sich verändert.

Wie aussagekräftig die Ergebnisse sind, hängt stark von der Datenqualität ab – welche Probleme können auftreten, wenn soziale Medien der Datenlieferant sind?

Stemle: Bei der Arbeit mit Sprachdaten ist prinzipiell zu berücksichtigen, dass viele Metadaten maßgeblich von der Art und Weise beeinflusst sind, in der User ihren Text eingeben, also von der Interaktion mit dem Gerät, oder von den Mitteln, die eine Plattform zur Verfügung stellt. Sammelt man da als Forscher Daten über einen Zeitraum von zehn Jahren, bedeutet das in Social-Media-Zeitdimensionen eine Ewigkeit! Da kann vieles sich einfach deshalb verändert haben, weil die Technologie sich verändert hat, oder die Plattform.

Egarter Vigl: Bei unserer Studie besteht ein Problem darin, dass nicht alle Flickr-User in gleichem Maß  aktiv sind – veröffentlicht jemand von einem Ort sehr viele Fotos, dann verzerrt das natürlich unser Ergebnis. Um diesen Fehler so klein wie möglich zu halten, zählen wir jeden User nur einmal pro Tag und Ort mit.

Der Zugriff auf Social Media-Daten wird wegen des Falls Cambridge Analytica derzeit heftig debattiert – welche Richtlinien gelten in dieser Hinsicht für die Wissenschaft? Was dürfen Forscher?

Stemle: Die Rechtslage war da bisher in jedem europäischen Land ein bisschen anders, was internationale Forschungszusammenarbeit schwierig machte. Ab 25. Mai aber regelt die „Datenschutz- Grundverordnung“ der EU die Verarbeitung personenbezogener Daten durch private Unternehmen und öffentliche Stellen für alle Mitgliedstaaten einheitlich. Sie enthält auch Vorschriften für besondere Verarbeitungssituationen, etwa zu Forschungszwecken. Das ist ein wichtiger Schritt in die richtige Richtung. Doch zum rechtlichen Aspekt kommt natürlich der ethische – da tut sich nochmal eine ganz neue Dimension auf.

Mit strengeren Maßstäben?

Stemle: Jedenfalls darf ich als Wissenschaftler Daten noch lange nicht einfach für meine Forschungen verwenden, nur weil sie frei zugänglich sind. Daten können auf einer Plattform verfügbar sein – aber wenn  die Menschen, die sie dort zur Verfügung gestellt haben, nicht damit rechnen konnten, dass ihre Daten wissenschaftlich analysiert werden, dann darf man das als Forscher auch nicht. Es gilt das Prinzip des  „informed consent“: Ein Wissenschaftler muss den Leuten genau erklären, wofür er ihre Daten verwenden möchte, und ihr Einverständnis einholen. So haben wir es bei unserer Facebook-Studie auch gemacht.

Die Flickr-User wissen aber nicht, dass ihre Fotos wissenschaftlicher Erkenntnis dienen.

Egarter Vigl: In diesem Fall ist das vertretbar, weil die Daten völlig anonymisiert und in keiner Weise personenbezogen sind, wir sogar bewusst den Einfluss des einzelnen Users begrenzen.

So hohe ethische Standards haben sich in der Wissenschaftsgemeinschaft aber offenbar noch nicht  allgemein durchgesetzt: Eine diesbezügliche Studie in Großbritannien kam zu dem Schluss, dass in  sozialen Netzwerken geteilte Informationen häufig für Forschungsprojekte genutzt werden, ohne dass die User es wissen.

Stemle:
Da fällt mir eine Studie zweier dänischer Forscher ein, die dafür einfach Daten der Dating-Plattform OkCupid verwendeten, ohne dass irgendwer dem zugestimmt hätte. Den beiden schlug aus der  Forschergemeinschaft aber scharfe Kritik entgegen. Allen ist bewusst: Wenn Wissenschaftler so arbeiten –  also wenn sie sich auf eine rein rechtliche Position zurückziehen, ohne jede moralische Sensibilität – dann  werden Forscher bald an keine Daten mehr herankommen.

Die Facebook-Daten, die Cambridge Analytica im US-Wahlkampf nutzte, wurden offenbar auch von einem Wissenschaftler weitergegeben, der sie  ursprünglich zu Forschungswecken gesammelt hatte.

Stemle: Welche Verantwortung dieser Wissenschaftler hat, ist noch nicht zur Gänze geklärt. Sicher ist aber,  dass die Ergebnisse, die wir als Forscher erzielen, natürlich auch für Zwecke verwendet werden können, die wir ganz und gar nicht im Sinn hatten. Ich arbeite als Computerlinguist z.B. unter anderem daran, Sprachdaten auch in dialektaler Form maschinell analysierbar zu machen. Wenn aber Computer irgendwann auch Dialekte verarbeiten können, etwa die des süddeutschen Raums, dann bedeutet das auch, dass man über ein paar Millionen Leute genauere Aussagen machen kann, weil Tweets oder Facebook-Messages, die im Dialekt verfasst sind, ebenfalls analysiert werden können.

Related Articles

Article
"Cosa faccio? Risolvo problemi di incomunicabilità tra applicazioni software"

È il lavoro di Marco Montali ma è anche il motivo per cui lui e il suo team sono stati recentemente premiati alla conferenza IEEE EDOC 2018 di Stoccolma, una delle più prestigiose al mondo nel campo dell’enterprise computing.

Article
Sensori per valutare il comfort dell’abbigliamento sportivo

Su commissione dell’azienda altoatesina Q36.5, i ricercatori di Eurac Research hanno ideato un sistema di sensori e un modello informatico per testare abbigliamento ciclistico.

Article
Increasing human security and sustainable development in mountainous regions worldwide

Eurac Research and United Nations University are strengthening their cooperation with the aim of improving the living conditions of people in mountainous regions.

Article
Tundra: vegetazione più alta a causa dei cambiamenti climatici

Quando pensiamo alla vegetazione in alta quota o nella tundra subpolare, nell’immaginario comune si proiettano distese di licheni e tutt’al più caparbie piantine rasoterra. Nella realtà però le cose starebbero cambiando. Secondo uno studio internazionale al quale ha contribuito anche Eurac Research a causa del riscaldamento globale le piante che vivono nelle regioni con temperature più rigide sono infatti sempre più alte, con relative conseguenze sull’intero ecosistema.