Das Internet sammelt das Wissen der Welt, Informationen stehen in Überfülle bereit. Nur: Bekommen wir im Netz auch die richtigen Antworten auf unsere Fragen, enthalten sie alle relevanten Informationen? Dieses Problems nimmt sich die Fakultät für Informatik der Freien Universität Bozen an und hat auch schon interessante Lösungswege gefunden.

War früher noch der fehlende Zugang zu Informationen das größte Problem, ist es heute der Überfluss. Zu allem und jedem liefert das Internet Informationen zuhauf, für den Einzelnen ist es unmöglich geworden, alle Dokumente zu einem Thema zu lesen, zu analysieren, abzugleichen, Relevantes herauszufiltern und Unwichtiges oder Unsinniges zu eliminieren. Selektion ist demnach zur wichtigsten Aufgabe des Internetnutzers geworden und trotzdem bleibt immer die Frage: Habe ich auch wirklich alle wichtigen Informationen gefunden?

Um die Aufgabe des Selektionierens und Extrahierens von Informationen im Internet zu erleichtern oder überhaupt erst ein Scannen aller Quellen zu ermöglichen, setzt man heute mehr und mehr auf die Technik. So genannte Extraktoren durchforsten selbständig die Fülle vorhandener Texte zu einem Thema und fassen die darin erfassten Informationen zusammen. „Damit wir aber wissen, ob die Extraktoren wirklich alle Informationen erfasst haben, die wichtig und sinnvoll sind, braucht es Prüfverfahren“, erklärt Werner Nutt, Professor an der Informatik-Fakultät der unibz.

Maschinen als Qualitätsprüfer
Was es also braucht, ist eine Qualitätskontrolle, damit sichergestellt ist, dass die gefundenen Informationen auch halten, was sie versprechen. An der unibz werden daher einerseits Extraktoren entwickelt, etwa solche, die relevante Infos aus Hotelbewertungen im Internet herausfischen und zugänglich machen. So spart man sich das Scrollen durch alle Nutzer-Kommentare und kann diese auf relevante Informationen hin durchsuchen: Ist das Frühstück gut? Ist es im Preis inbegriffen? Stört der Straßenlärm?

Andererseits arbeitet man an der unibz auch an Verfahren zur Prüfung der Informationen auf Vollständigkeit und Wichtigkeit. Da gilt es zuallererst, Grundlagenarbeit zu leisten: „Das Problem der Vollständigkeit und Wichtigkeit der Daten in Wissensbanken taucht zwar immer wieder auf, trotzdem fehlen bis dato grundsätzliche Untersuchungen dazu“, erklärt Nutt. Einen ersten Schritt zur Schließung dieser Lücke hat Professor Nutt mit seinem ehemaligen unibz-Kollegen Simon Razniewski und Vevake Baralaman von der Uni Trient gesetzt, indem sie viel genutzte Wissensbanken – etwa Wikidata – und die darin enthaltenen Informationen unter die Lupe genommen haben. „Wissensbanken haben das Ziel, das gesamte Wissen der Welt zu erfassen“, sagt Nutt, „weil dies aber unmöglich ist, werden sie immer unvollständig sein“. Das Problem sei demnach weniger, für Vollständigkeit zu sorgen, als vielmehr dafür, dass die wichtigsten Informationen bereitgestellt würden.

Was ist überhaupt, wichtig?
Die Frage ist dann allerdings auch: Was ist wichtig? Welche Informationen müssen etwa zu einem Menschen in einer Wissensbank gesammelt und bereitgestellt werden, damit die Daten als „vollständig“ gelten, also alles Wichtige greifbar ist? Und ist jede Information über jeden Menschen von gleicher Bedeutung? In ihrem Paper „Doctoral Advisor or Medical Condition: Towards Entity-specific Rankings of Knowledge Base Properties“ führen die drei Autoren ein Beispiel dafür an, dass dies nicht der Fall ist. Während nämlich für einen Politiker die Information über die Parteizugehörigkeit wichtig sei, sei sie für einen Musiker marginal. Über diesen sei es wichtiger zu wissen, welche Instrumente er spiele. Und ist die Zahl der geschossenen Tore für Lionel Messi oder Cristiano Ronaldo zentral, ist sie für Papst Franziskus eher nebensächlich – auch wenn er in der Jugend Fußball gespielt hat.

Welche Information wichtig ist oder nicht, variiert demnach von Person und Person. „Was es braucht, um Wichtiges von Unwichtigem zu unterscheiden, ist Hausverstand“, sagt Professor Nutt. Und genau darin liegt das Problem: Maschinen fehlt dieser Hausverstand, er muss durch andere Verfahren ersetzt werden. Derzeit sind unterschiedliche in Gebrauch, rein statistische etwa oder solche, die die Anzahl von Google-Treffern als Messwert für wichtig oder unwichtig heranziehen. Alle diese Verfahren lieferten in den Tests von Razniewski, Baralaman und Nutt aber nur ungenügende Ergebnisse. Während menschliche Testpersonen bei der Unterscheidung von wichtig und unwichtig Übereinstimmungen von 80 bis 90 Prozent erzielten, kamen die getesteten bekannten Verfahren auf Prozentsätze zwischen 50 und 65 Prozent. „Unsere Frage war deshalb: Kann man das besser machen?“, so Nutt.

"Was es braucht, um Wichtiges von Unwichtigem zu unterscheiden, ist Hausverstand"

Werner Nutt

Maschinen Hausverstand beibringen
Die Zielsetzung für Nutt und seine Kollegen war deshalb klar: „Wir wollten versuchen, mehr Intelligenz in dieses System zu bringen“, so der unibz-Professor, „und zwar mit maschinellem Lernen“. Wenn er also schon keinen Hausverstand hat, will man dem Computer etwas ähnliches, möglichst gleichwertiges beibringen und dafür gibt es zwei Möglichkeiten. Die erste ist das überwachte Lernen, bei dem dem Computer möglichst viele Beispiele gegeben werden, wie Menschen in bestimmten Fällen Entscheidungen treffen. „Daraus erstellt der Computer dann Regeln, denen er selbst bei der Entscheidungsfindung folgt“, so Nutt. Im vorliegenden Fall kam dies aufgrund der Komplexität der Informationen nicht in Frage.

Zweite Möglichkeit des maschinellen Lernens ist das „transfer learning“. „Man zieht die Erkenntnisse aus einem verwandten Bereich heran und versucht, diese auf den Untersuchungsbereich anzuwenden“, erklärt der Professor, der diesen Weg mit seinen Kollegen eingeschlagen hat. So wurden Wikipedia-Einträge semantisch analysiert, um zu eruieren, welche Begriffe häufig verwendet werden, um ein bestimmtes Thema zu beschreiben. Kommen demnach in einem Artikel über eine Person Begriffe wie „Wahlen“, „gewählt“ oder „Partei“ vor, hat diese Person höchstwahrscheinlich mit Politik zu tun. „Danach gleicht der Computer den Wissensbank-Eintrag mit den für den Bereich Politik als wichtig definierten Informationen ab und kann eruieren, inwieweit alle relevanten Informationen vorhanden sind“, so Nutt. Mit dem semantischen Ansatz konnte die Zuverlässigkeit zwar gesteigert werden, aber noch immer waren die Ergebnisse nicht die, die man sich erwartet hatte.

Der Mix macht’s
Die besten Ergebnisse lieferten nicht einzelne Verfahren allein, sondern eine Kombination aus unterschiedlichen bekannten und neuen. So konnten „Trefferquoten“ von rund 75 Prozent erreicht werden. „Aber auch diese Ergebnisse sind noch nicht ideal“, erklärt der Professor, der weiß: das Problem der Prüfung der Informationen in Wissensbanken auf Vollständigkeit und Wichtigkeit ist noch nicht gelöst. Die Lösung war allerdings auch nicht zu erwarten: „Wir wollten das Problem umfassend darstellen, Interesse dafür wecken und Wege zur Lösung andenken“, so Nutt.

Das ist dem Forscherteam auf der Achse Bozen-Trient in jedem Fall gelungen, es wurde weitere Grundlagenarbeit für die sinnvolle Nutzung der Informationsfülle im Internet geleistet. Bis allerdings ein valides Instrument zur Qualitätskontrolle fehlt, kann auch die für den Nutzer wichtige Frage nicht beantwortet werden, ob die aus dem Internet extrahierten Informationen auch wirklich alles Wichtige wiedergeben und dies in einer sinnvollen Art und Weise tun. Und bis dahin wird man auch an der unibz weiter den Fragen nachgehen: Wie kann man Informationen aus Texten im Internet extrahieren? Wie kann man überprüfen, ob diese Informationen vollständig sind? Und wie kann man sicherstellen, ob die automatisch generierte Antwort auf eine Frage im Internet vollständig, sinnvoll und richtig beantwortet wurde?

Related Articles

Article
Sesam öffne Dich!

Wer sich auf der Suche nach wissenschaftlicher Literatur durch Bibliothekskataloge, wissenschaftliche Datenbanken, durch Plattformen von Anbietern von e-Books oder e-Journals arbeitet, trifft immer häufiger auf ein ganz besonderes Erkennungszeichen. Die Leiterin der Universitätsbibliothek Gerda Winkler über Open Access und Creative Commons.

Interview
“Big data e intelligenza artificiale: dobbiamo creare tecnologie che ci aiutino davvero!”

Ripensare l’uso dei big data e il nostro approccio all’intelligenza artificiale, abbandonando qualsiasi atteggiamento fideistico per privilegiare un approccio critico e lo sviluppo di soluzioni tecnologiche più aderenti ai veri bisogni degli utenti. È la ricetta di Francesco Ricci, preside della Facoltà di Scienze e Tecnologie informatiche, e di Thomas Streifeneder, direttore dell’Istituto per lo sviluppo regionale di Eurac Research. Nella conversazione con Ricci e Streifeneder è emerso un chiaro suggerimento: dobbiamo imparare dagli scandali che, recentemente, hanno fatto tremare i colossi come facebook, e comportarci in maniera più critica e consapevole. Ciò che ognuno di noi deve imparare è guardare alle nuove tecnologie non con sospetto, ma nella giusta prospettiva: come mezzi cioè che possono, se impiegati con consapevolezza, migliorare molti ambiti della nostra vita quotidiana, dal lavoro alla salute, dall’istruzione allo svago.

Article
Dalla California alla Val di Fassa per documentare il ladino

Un gruppo di studenti della University of Southern California, seguiti dal ricercatore Alessandro Vietti, sta applicando innovativi strumenti computazionali allo studio delle lingue minoritarie e in via di estinzione.

Article
Dagli scarti della mela risorse per l’industria alimentare

Antiossidanti naturali ricavati con una tecnologia innovativa, grazie all’uso di anidride carbonica supercritica e di scarti della lavorazione delle mele. È il frutto della ricerca svolta dal team di Matteo Scampicchio, professore di Tecnologie alimentari, nei laboratori al NOI, il Parco tecnologico di Bolzano.