Einfach mal den Computer fragen!

Eine effiziente und schnelle Informations- und Wissensextraktion aus großen Datenmengen ist die Grundlage für Suchmaschinen wie wir sie heute kennen und nutzen. Ein Problem für die derzeitigen Suchmaschinen Lösungen aber stellen Fragen dar, die in ganzen Sätzen und in natürlicher Sprache gestellt werden. Eine einfache und konkrete Antwort darauf zu geben, ist nämlich alles andere als ein Kinderspiel.

SemVox-Mitarbeiter Almer Bolatov hat nun in seiner Master-Thesis „Question Answering System Using Wikidata as a Knowledge Base“ (Universität des Saarlandes) untersucht, ob schon mit Hilfe einer limitierten Zahl von NLU-Templates (Muster, die zur Erkennung von natürlicher Sprache dienen, siehe Natural Language Understanding) und durch Feintuning der Suchalgorithmen über mehrere Iterationen Wiederholungen des Tests gute Resultate eine gute Abdeckung in einem Frage-Antwort-System möglich sind. Ein Frage-Antwort-System erlaubt es dem Nutzer, Fragen in natürlicher Sprache zu stellen und darauf eine exakte, konkrete Antwort statt einer Liste von Suchtreffern zu erhalten. Diese Art der Informationsgewinnung dürfte in der Zukunft eine immer größere Rolle spielen, da es zunehmend schwierig wird, relevante Information mit herkömmlichen Suchmaschinen im Internet zu finden.

Die Struktur eines Frage-Antwort-Systems ist im Prinzip immer gleich: Die vom menschlichen Benutzer gestellte Frage wird semantisch analysiert, die Datenbank (die Dokumentensammlung) wird entsprechend des Analyseergebnisses vorverarbeitet, woraufhin die „besten Kandidaten“ für eine Antwort aussortiert werden und die korrekte Antwort extrahiert wird. Der letzte Schritt ist die Generierung der Antwort selbst (siehe Abbildung 1).

Abb. 1: Schematische Übersicht eines Frage-Antwort-Systems laut Hirschmann
Abb. 1: Schematische Übersicht eines Frage-Antwort-Systems laut Hirschmann

Almer Bolatov bemüht in seiner Arbeit Wikidata als Wissensquelle. Wikidata ist eine strukturierte Wissensquelle, in der jeder Information eine eindeutige ID zugeordnet ist. Sie ist öffentlich zugänglich und jede Information liegt in vielen Sprachen vor, und zwar (im Unterschied zu zum Beispiel Wikipedia) immer mit dem gleichen Informationsumfang.

Der Ansatz von SemVox-Mitarbeiter Almer Bolatov war es nun, mit Hilfe von Wizard-of-Oz-Studien Einsicht in das menschliche und das Maschinenverhalten im Frage-Antwort-Prozess zu untersuchen, die menschlichen von den menschlichen Nutzern in den Studien geäußerten Fragen zu sammeln und einen ersten Korpus von Mustern zur Analyse der Fragen zu sammelnerstellen. In einem zweiten Schritt setzte er einen eigenen Algorithmus auf, mit dem die Fragen verarbeitet werden können und testete seine NLU-Muster in drei aufeinanderfolgenden Iterationen. Nach jeder Iteration passte er die Algorithmen und NLU-Templates basierend auf den jeweiligen vorherigen Ergebnissen an, um die Resultate der Frage-Antwort-Maschine zu verbessern.

Abb. 2: Algorithmus zur Frage-Verarbeitung
Abb. 2: Algorithmus zur Frage-Verarbeitung

Das Ergebnis seiner Untersuchungen war, dass das implementierte System erfolgreich mit einer begrenzten Zahl von Fragetypen umgehen kann. Ein weiteres Ergebnis ist, dass der Algorithmus und die NLU-Templates, die darin verwendet wurden, in den drei Test-Iterationen signifikant verbessert werden konnten: Zwar konnte auch schon die erste Version des Frage-Antwort-Systems mehr als 50% der Fragen beantworten, aber Fehler, die aufgrund fehlender integrierter Fragemuster (NLU-Templates) auftraten, reduzierten sich von 10,53% im ersten Durchgang auf 6,74% im zweiten und nur noch 5,81% im dritten Durchgang. Die anderen Fehler (nicht korrekt beantworteten Fragen) hatten falsch geschriebene Fragen als Ursache, so dass sie nicht auf das Frage-Antwort-System selbst zurückzuführen sind.

Für SemVox bedeuten Arbeiten wie diese einen steten Input aus der Speerspitze der Forschung. Die frischen Ideen und die innovative Kreativität der SemVox-Mitarbeiter stellen einen Wert dar, der sich direkt in den Produkten und Lösungen von SemVox niederschlägt. Innovation am Puls der Zeit ist unabdingbar für ein Portfolio, das weltweit seinesgleichen sucht.