strong overlay

Methoden & Tools


Vom Korpusaufbau zur Erstellung von Frame-Einträgen: das analytische Vorgehen

(a) Subkorporation & Voranalyse: Export von Korpusdaten

  • In einem ersten Schritt werden Belegstellen für die LEs des ausgewählten Frames aus dem einem der Korpora des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) oder dem Deutschen Referenzkorpus (DeReKo) im .tsv-Dateiformat exportiert.
  • Zur weiteren Nutzung werden Textdateien (.txt) benötigt, DeReKo-Dateien werden vor dem Parsen noch in UTF-8 konvertiert (z.B. mit Notepad++). Wenn man sich unter https://gsw.phil.hhu.de/intern/ mit den Benutzerdaten eingeloggt hat, kann das Modul „German FrameNet“ gewählt werden; über das Icon oben auf der Website kann auf alle relevanten Tools zugegriffen werden. Ein einführender Überblick über diese Tools ist auf einer separaten Seite dokumentiert.

(b) Syntaktische Annotation: Parsing-Pipeline

  • Die Parsing-Pipeline führt die AnnotatorInnen durch den Annotationsprozess und besteht aus vier Hauptkomponenten, die durch das Tool in eine webbasierte, grafische Benutzeroberfläche überführt werden:
    • Der OpenNLP Tokenizer ist ein Mittel zur Vorbereitung der Input-Sätze für die automatische syntaktische Annotation.
    • Der TreeTagger annotiert automatisch die Wortarten (POS).
    • Der BerkeleyParser annotiert die Phrasentypen (PT) und die grammatischen Funktionen (GF).
  • Importer: Beim Upload des Korpus-Outputs schlägt die Pipeline geeignete Importformate mit einer kurzen Dateivorschau vor. Hier lässt sich überprüfen, ob die entsprechende Datenquelle (DWDS, DeReKo…) in der Vorschau ausgewählt ist. Es ist möglich, aus den entsprechenden Importern den geeignetsten selbst auszuwählen.
  • Tagset: Die Kategorien Phrasentyp (PT), Wortart (POS) und grammatische Funktion (GF) sind voreingestellt und entsprechen den Standards des Projekt. Die Pipeline unterstützt TIGER-Annotationskategorien. Darüber hinaus können auch eigene Tagsets definiert werden.
  • Preprocessor: Die .txt-Datei wird durch den Preprocessor für die Annotation vorbereitet. Die einzelnen Schritte sind bereits voreingestellt:
  • Die geparsten Dateien können eingesehen werden, wenn der Parsing-Prozess abgeschlossen ist.
  • Der Parser-Output kann im ZIP-Format heruntergeladen werden. Die Daten lassen sich im Tabellenkalkulations- oder TSV-3-Format für die Weiterverarbeitung mit WebAnno oder dem AnnotationTool exportieren.

(c) Semantische Annotation: WebAnno & AnnotationTool

Annotation mit WebAnno

  • Nach dem Login in WebAnno kann dort ein neues Projekt angelegt werden. Neben dem Frame-Namen (z.B. Geben) muss dort auch der Projekttyp (Annotation) angegeben werden. Von den restlichen Auswahlmöglichkeiten muss kein Gebrauch gemacht werden.
  • Einzelne Annotationsebenen können definiert werden, indem für jede Ebene ein Layer festgelegt wird.
  • Es ist möglich, Tags und ein Tagset für die Frame-Elemente anzulegen. Die Annotationskategorien sind in WebAnno frei definierbar.
  • Nachdem die .tsv-Datei aus der Parsing-Pipeline importiert wurde, kann mit der Annotation begonnen werden. Abbildung 1 gibt am Beispiel einer Belegstelle des Geben-Frames einen Überblick über die auf WebAnno basierende Annotation.
Abbildung 1: Semantische Annotation einer Belegstelle des Geben-Frames mit WebAnno.

Annotation mit dem Annotation-Tool

Anfang 2019 haben wir ein eigenes AnnotationTool (AT) entwickelt, das  alternativ zu WebAnno zum Einsatz kommen kann und mittelfristig WebAnno vollständig ersetzen soll. Das AT zeichnet sich im Vergleich zu WebAnno durch eine vereinfachte Benutzeroberfläche aus. Abbildung 2 veranschaulicht die AT-basierte Annotation des Satzes (1), einer typischen Instanz der LE geben des Geben-Frames.

  1. [GeberBarney] gab [Objektdas Bier] [Empfängeran Moe].
Abbildung 2: Semantische Annotation einer Belegstelle der LE geben des Geben-Frames mit dem Annotation-Tool.

Auf den Annotationsoutput kann direkt von den anderen Tools aus zugegriffen werden. Umgekehrt kann auch das AT selbst auf zuvor angelegte Minimaleinträge eines Frames zugreifen, um den AnnotatorInnen automatisch ein Set semantischer Annotationslabel zur Verfügung stellen zu können. Im Gegensatz zu WebAnno ist der AT genau auf die projektspezifischen Bedürfnisse des Workflows zugeschnitten. Für das FrameNet wichtige Funktionen des ATs sind:

  1. Zeichenbasierte Annotation (morphologische Annotation, Annotation von diskontinuierlichen Einheiten)
    Das AT ermöglicht Annotationen unterhalb der Ebene von Worttokens. Daher ist es möglich, einzelne Zeichen wie beispielsweise einzelne Glieder eines Kompositums oder analytische Verbformen zu kennzeichnen. In dem Frame Medizinische_Fachkräfte kann etwa bei dem Kompositum Kinderarzt das Erstglied Kinder als eine Instanz des FE TYP annotiert werden.
  2. Annotation von Null-Instantiierungen (Annotation von ausgelassenen Kern-KE)
    Ein wesentlicher Vorteil gegenüber WebAnno ist, dass auch Nullinstantiierungen (Definite Nullinstantiierung, Indefinite Nullinstantiierung, Konstruktionale Nullinstantiierung) annotiert werden könnn. Bei Null-Instantiiierungen handelt es sich um lizenzierte Weglassungen von Kern-FE. So wird etwa in dem Satz Ich gebe meine Dienstleistungen kostenlos weiter nicht das Kern-FE EMPFÄNGER realisiert, das in dem von weitergeben evozierten Geben-Frame den Status eines Kern-FE hat.

(d) Erstellung eines Frame-Eintrages

Die erzielten Ergebnisse der vorangegangenen Analyseschritte werden in einem letzten Schritt in einem strukturierten Format zusammengeführt, auf dessen Basis sich Informationen (insbesondere annotierte Daten) zu einem Frame analysieren lassen. Dies geschieht durch einen im Hintergrund agierenden FrameAnalyzer (FA), der folgende Daten generiert:

1. Valenzmuster: Realisierungsmuster von Frame-Elementen (FE)

Ein Valenzmuster ist lizenzierte sequentielle Anordnungen von Frame-Elemente. Zu jedem LE gibt es Angaben dazu, in welcher Reihenfolge Frame-Elemente realisiert werden können. Jedes Valenzmuster ist verknüpft mit annotierten Belegstellen, die das Muster exemplifizieren. Valenzmuster helfen dabei, semantische und syntaktische Beschränkungen (constraints) für einzelne FE und lizensierte Konfigurationen von FE zu identfizieren. Sie tragen auch dazu bei, null-instantiierte (nicht realisierte) FE sowie jene Konfigurationen von FE ausfinden zu machen, für die Null-Instantiierungen möglich sind. 

2. Syntaktische Realisierung von Frame-Elementen

Die Realisierung eines Frame-Elementes kann im Hinblick auf Phrasentyp (PT), grammatische Funktion (GF) und Wortart (POS) variieren. Die Bandbreite der Varianz geht aus der List der empirisch dokumentierten syntaktischen Realisierungen der FE hervor. Angegeben wird auch, wie viele Belege es für Realisierungen einer FE als in einer bestimmten PT-GF-Kombination gibt. Auch Informationen über POS können einbezogen werden. Die Realisierungsvarianten sind nach fallender Frequenz sortiert.

3. KWIC-Ansicht für Frame-Elemente

Die Ansicht Belegstellen-KWIC bietet eine nach ausgewähltem Frame-Element oder Target (LE) sortierte Übersicht der Belegstellen zu einer LE, sodass im Fall der Auswahl eines FE dessen Realisierungsvarianten direkt untereinander stehen und verglichen werden können. Je nach Betrachtungsinteresse können verschiedene Sortierungen eingestellt werden. 

Die Erstellung eines Frame-Eintrages erfolgt schrittweise unter der Maßgabe lexikographischer Vorgaben:

  • Grundlage für die Erstellung von Frame-Einträgen bildet eine strukturierte Eingabemaske, die zu einer einheitlichen und konsistenten Repräsentation von Frames beiträgt. Die Maske besteht aus den (Pflicht-)Feldern „Name des Frames“, „Definition“, „illustrative Beispiele“, „Frame-Elemente“, „LEs“ und „Literatur“.
  • Die Erstellung von Einträgen erfolgt auf der Grundlage von (ggf. frame-spezifisch erweiterten und modifzierten) lexikographischen Richtlinien. Zu den übergeordneten Vorgaben gehört etwa die Einhaltung einer bestimmten Abfolge von Positionen (Lemma, Definition…), die Wahl prägnanter Lemmata (Frame-Namen), ein Richtwert von 200 Zeichen pro Frame-Definition, der erläuternde Einbezug von Kern-FE in weiterführenden Erklärungen, eine möglichst sparsame Verwendung von fachsprachlichen Ausdrücken und die Bevorzugung von geschlechtsneutralen Ausdrücken.

Weitere Informationen und Zugangsdaten stellen wir Ihnen auf Anfrage gerne per Mail bereit.

Icons made by Freepik from www.flaticon.com