grid
Menü
Demonstrator starten ↗

Web-Annotations-Tool
Automatisierte semantische Analyse von Texten

Demonstrator starten ↗

Achtung! Die verlinkte Seite ist nicht für Mobil-Telefone optimiert!

Über das Web-Annotations-Tool

Das Web-Annotations-Tool (WATT) analysiert beliebige Texte nach semantischen Gesichtspunkten. Dabei kommen verschiedene Methoden der Sprachtechnologie zum Einsatz. So erkennt das Tool aufgrund grammatikalischer Zusammenhänge das inhaltliche Themengebiet des Textes, Namenserwähnungen (Named Entities) von Orten, Personen und Organisationen sowie Zitate (selbst bei indirekter Rede). Die meisten Analyse-Ergebnisse werden gleich im Text angezeigt und mit weiterführenden Informationen aus einer Wissensbasis angereichert.

Die Benutzung von WATT ist sehr einfach. Über ein Formular können Nutzer ihre Texte frei eingeben. Alternativ können sie auch einfach die URL einer zu analysierenden Webseite angeben. In diesem Fall wird die Webseite gecrawlt, der wesentliche Textinhalt bestimmt und verarbeitet. Die Benutzeroberfläche wurde im Rahmen des Forschungsprojekts MIA völlig neu konzipiert und als Single Page App umgesetzt. Die dahinter liegenden Techniken laufen in einem Backend-Service und werden über eine REST-API angesprochen. Die Backend-Technologien werden aktuell im Projekt MIA für die Batch-Verarbeitung auf Apache Hadoop und für die Stream-Verarbeitung auf Storm portiert.

Features

  1. Extraktion des Artikeltextes

    • Aus dem Quelltext einer Online-Nachrichtenseite wird der Hauptartikel extrahiert. Fremde Elemente wie die Navigation oder Teaser-Texte werden aussortiert.
  2. Thematische Zuordnung und Verschlagwortung

    • Über linguistische Analysen und maschinelles Lernen wird ein Text automatisiert verschlagwortet und einem Ressort zugeordnet werden.
  3. Identifizierung von Entitäten

    • Unterschiedliche Entitäten wie Personen, Orte und Organisationen werden über semantische Analysen und ein maschinelles Sequenz-Lernverfahren erkannt.
  4. Analyse der Subjektivität des Textes

    • Durch Auswertung von Adjektiven und auf Grundlage eines maschinellen Lernverfahrens wird die inhaltliche Subjektivität eines Textes bewertet.
  5. Einbindung von Zusatzinformationen zu den erkannten Begriffen

    • Identifizierte Begriffe werden über eindeutige URIs mit einer formalen Wissensbasis — einer Ontologie — verknüpft und werden so mit zusätzlichen Informationen aus der Wissensplattform Alexandria ergänzt.
  6. Vielfältige Analysetechniken

    • Das Tool kombiniert je nach Aufgabe unterschiedliche Techniken wie die Auswertung über maschinelles Lernen, automatische Mustererkennung oder vergleichende Techniken. Es ist flexibel einsetzbar.

Nutzen

Wo kann die Technologie angewendet werden?

Die Anwendungsfelder sind vielfältig. Generell erlaubt der WATT-Service die automatisierte Auswertung aller Arten von Texten. Dies kann auch Bestandteil einer Big-Data-Analyse sein, wenn es etwa darum geht, Texte semantisch aufzubereiten, bessere Meta-Informationen (Klassen, Schlagworte) zu erlangen und behandelte Personen, Organisationen und Orte zu ermitteln. Der Dienst liefert die Grundlage, um automatisiert Topic Pages zu erstellen und Texte untereinander zu verlinken (z.B. über eine Tag Cloud). So wird eine dichtere Verlinkungsstruktur möglich, da thematisch zusammengehörende Texte miteinander explizit verbunden werden. Den Nutzern eines Portals wird zum einen eine einfachere Navigationsmöglichkeit zwischen Texten ermöglicht, zum anderen dient die Verlinkung auch der Suchmaschinen-Optimierung (SEO), da in einem Archiv vorhandene Texte durch die Schlagworte, Personen, Organisationen und Orte wieder verlinkt werden können.

Wo wird die Technologie eingesetzt?

Einige von uns betreute oder umgesetzte Nachrichten-Online-Portale setzen diese Technologie ein, so z.B. findet man bei Stern.de automatisch erstellte Topic Pages zu bestimmten Themen, Personen und Begriffen. Ein Beispiel ist die Topic Page zum Thema Matthias Platzeck bei Stern online. Im Projekt Alexandria werden Nachrichten ausgewertet und Personen, Organisationen und Orte verlinkt. Im Portal von mein.nachrichten.de werden ähnliche Nachrichtenartikel durch Schlagworte, Personen, Orte, Organisationen und Konzepte ermittelt.

API

Der WATT-Service kann auf einfache Weise mittels einer REST-Schnittstelle angesprochen werden, die alle oben aufgeführten Funktionalitäten wie die automatische Verschlagwortung, die Namenserkennung- und Auflösung (Named Entity Recognition and Disambiguation), Themen-Klassifizierung, Subjektivitätserkennung, Zitaterkennung und Koreferenz-Analyse beinhaltet.

Entstehung

WATT veranschaulicht einen Teil der Forschungsergebnisse aus den Projekten Onyx, Alexandria (Teil des Förderprogramms THESEUS) und MIA (Teil des Förderprogramms Trusted Cloud).