strong overlay

Methoden & Tools

Vom Korpusaufbau zur Erstellung von Frame-Einträgen: das analytische Vorgehen

(a) Subkorporation & Voranalyse: Export von Korpusdaten

  • In einem ersten Schritt werden Belegstellen für die LEs des ausgewählten Frames aus dem einem der Korpora des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) oder dem Deutschen Referenzkorpus (DeReKo) im .tsv-Dateiformat exportiert.
  • Zur weiteren Nutzung werden Textdateien (.txt) benötigt, DeReKo-Dateien werden vor dem Parsen noch in UTF-8 konvertiert (z.B. mit Notepad++). Wenn man sich unter https://gsw.phil.hhu.de/intern/ mit den Benutzerdaten eingeloggt hat, kann das Modul „German FrameNet“ gewählt werden; über das Icon oben auf der Website kann auf alle relevanten Tools zugegriffen werden. Ein einführender Überblick über diese Tools ist auf einer separaten Seite dokumentiert.

(b) Syntaktische Annotation: Parsing-Pipeline

  • Die Parsing-Pipeline führt die AnnotatorInnen durch den Annotationsprozess und besteht aus vier Hauptkomponenten, die durch das Tool in eine webbasierte, grafische Benutzeroberfläche überführt werden:
    • Der OpenNLP Tokenizer ist ein Mittel zur Vorbereitung der Input-Sätze für die automatische syntaktische Annotation.
    • Der TreeTagger annotiert automatisch die Wortarten (POS).
    • Der BerkeleyParser annotiert die Phrasentypen (PT) und die grammatischen Funktionen (GF).
  • Importer: Beim Upload des Korpus-Outputs schlägt die Pipeline geeignete Importformate mit einer kurzen Dateivorschau vor. Hier lässt sich überprüfen, ob die entsprechende Datenquelle (DWDS, DeReKo…) in der Vorschau ausgewählt ist. Es ist möglich, aus den entsprechenden Importern den geeignetsten selbst auszuwählen.
  • Tagset: Die Kategorien Phrasentyp (PT), Wortart (POS) und grammatische Funktion (GF) sind voreingestellt und entsprechen den Standards des Projekt. Die Pipeline unterstützt TIGER-Annotationskategorien. Darüber hinaus können auch eigene Tagsets definiert werden.
  • Preprocessor: Die .txt-Datei wird durch den Preprocessor für die Annotation vorbereitet. Die einzelnen Schritte sind bereits voreingestellt:
  • Die geparsten Dateien können eingesehen werden, wenn der Parsing-Prozess abgeschlossen ist.
  • Der Parser-Output kann im ZIP-Format heruntergeladen werden. Die Daten lassen sich im Tabellenkalkulations- oder TSV-3-Format für die Weiterverarbeitung mit WebAnno oder dem AnnotationTool exportieren.

(c) Semantische Annotation: WebAnno & AnnotationTool

Annotation mit WebAnno

  • Nach dem Login in WebAnno kann dort ein neues Projekt angelegt werden. Neben dem Frame-Namen (z.B. Geben) muss dort auch der Projekttyp (Annotation) angegeben werden. Von den restlichen Auswahlmöglichkeiten muss kein Gebrauch gemacht werden.
  • Einzelne Annotationsschichten können definiert werden, indem für jede Annotationsebene ein Layer festgelegt wird.
  • Es ist möglich, Tags und ein Tagset für die Konstruktionselemente anzulegen. Die Annotationskategorien sind in WebAnno frei definierbar.
  • Nachdem die .tsv-Datei aus der Parsing-Pipeline importiert wurde, kann mit der Annotation begonnen werden. Abbildung 1 gibt am Beispiel einer Belegstelle des Geben-Frames einen Überblick über die auf WebAnno basierende Annotation.
Abbildung 1: Semantische Annotation einer Belegstelle des Geben-Frames mit WebAnno.

Annotation mit dem Annotation-Tool

  • Anfang 2019 haben wir ein eigenes AnnotationTool (AT) entwickelt, das langfristig alternativ zu WebAnno zum Einsatz kommen soll. Das AT zeichnet sich im Vergleich zu WebAnno durch eine vereinfachte Benutzeroberfläche aus. Abbildung 2 veranschaulicht die AT-basierte Annotation des Satzes (1), einer typischen Instanz der LE geben des Geben-Frames.
  1. [GeberBarney] gab [Objektdas Bier] [Empfängeran Moe].
Abbildung 2: Semantische Annotation einer Belegstelle der LE geben des Geben-Frames mit dem Annotation-Tool.
  • Auf den Annotationsoutput kann direkt von den anderen Tools aus zugegriffen werden. Umgekehrt kann auch das AT selbst auf zuvor angelegte Minimaleinträge eines Frames zugreifen, um den AnnotatorInnen automatisch ein Set semantischer Annotationslabel zur Verfügung stellen zu können. Im Gegensatz zu WebAnno wird dieses Tool daher spezifischer auf die Bedürfnisse des German-FrameNet-Workflows zugeschnitten sein. Für das FrameNet wichtige Funktionen des ATs sind:
  1. die zeichenbasierte Annotation (morphologische Annotation, Annotation von diskontinuierlichen Einheiten)
    Das AT ermöglicht Annotationen unterhalb der Tokenebene. Daher ist es möglich, einzelne Zeichen wie beispielsweise einzelne Glieder eines Kompositums oder analytische Verbformen zu kennzeichnen. In dem Frame Medizinische_Fachkräfte können etwa kann für die LE Kinderarzt das Erstglied Kinder mit dem FE TYP und das Zweitglied Arzt mit dem FE FACHKRAFT annotiert werden.
  2. die Annotation von Null-Instantiierungen (Annotation von ausgelassenen Kern-KE)
    Der wesentliche Vorteil gegenüber WebAnno ist, dass durch Nullinstantiierungen (Definite Nullinstantiierung, Indefinite Nullinstantiierung, Konstruktionale Nullinstantiierung) weggelassene Kern-KE gekennzeichnet werden können. Dies ist beispielsweise für nullinstantiierte Kern-FE EMPFÄNGER des Geben-Frames im Satz Ich gebe meine Dienstleistungen kostenlos relevant.

(d) Erstellung eines Konstruktionseintrags: FrameNet

  • Die Analyseschritte 1 bis 3 werden in diesem letzten Schritt in einem strukturierten Format zusammengeführt, sodass sich Konstruktionen final analysieren lassen. Dies geschieht durch einen im Hintergrund agierenden FrameAnalyzer (FA), der folgende Daten generiert:
  1. Realisierungsmuster von LEs
    Realisierungsmuster zeigen die Reihenfolge, in der Frame-Elemente in den Belegstellen realisiert sind. Der FA gibt Aufschluss über die Frequenz der einzelnen Realisierungsmuster und die lizenzierten sequentiellen Anordnungen der Frame-Elemente. Die syntaktischen Realisierungsmuster helfen somit bei der Identifikation von semantischen und syntaktischen Beschränkungen der einzelnen Frame-Elemente. Auch nullinstantiierte Frame-Elemente können durch die Realisierungsmuster identifiziert werden.
    Die Realisierungen der Frame-Elemente können im Hinblick auf Phrasentyp (PT), grammatische Funktion (GF) und Wortart (POS) bei jeder Belegstelle angezeigt werden. Eine Tabelle gibt an, wie viele Belegstellen dem Realisierungsmuster und der jeweiligen Realisierung der PT, GF und POS entsprechen. Die Realisierungsmuster sind dabei absteigend nach ihrer Frequenz sortiert.
  2. KWIC-Ansichten für einzelne Frame-Elemente
    Die Ansicht Belegstellen-KWIC bietet eine nach den Frame-Elementen sortierte Übersicht der Belegstellen zu einer LE, sodass die entsprechenden syntaktischen Realisierungen der Elemente direkt untereinander stehen. Es können dabei je nach Betrachtungsinteresse verschiedene Sortierungen eingestellt werden. 
  • Grundlage für die Erstellung von Frame-Einträgen bildet eine strukturierte Eingabemaske.
  • Die einzelnen (Pflicht-)Felder werden ausgefüllt (Name des Frames, Definition, illustrative Beispiele, Frame-Elemente, LEs, Literatur).
  • Maßgebend für die Erstellung von Einträgen sind definierte lexikographische Richtlinien. Hierzu gehört etwa die Einhaltung einer bestimmten Abfolge von Positionen (Lemma, Definition…), die Wahl prägnanter Lemmata (Frame-Namen), ein Richtwert von 200 Zeichen pro Frame-Definition, der erläuternde Einbezug von Kern-FE in weiterführenden Erklärungen, eine reduktionistische Verwendung von Fachsprache oder die Bevorzugung von geschlechtsneutralen Ausdrücken.

Weitere Informationen und Zugangsdaten stellen wir Ihnen auf Anfrage gerne per Mail bereit.

Icons made by Freepik from www.flaticon.com