strong overlay

Methoden & Tools

Vom Korpusaufbau zur Erstellung von Konstruktions-Einträgen: das analytische Vorgehen

(a) Subkorporation & Voranalyse: Export von Korpusdaten

  • In einem ersten Schritt werden Belegstellen zur ausgewählten Konstruktion aus dem einem der Korpora des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) oder dem Deutschen Referenkorpus (DeReKo) im TSV-Datenformat exportiert.
  • Zur weiteren Nutzung werden Textdateien (.txt) benötigt, DeReKo-Dateien werden vor dem Parsen noch in UTF-8 konvertiert (z.B. mit Notepad++).Wenn man sich unter https://gsw.phil.hhu.de/intern/ mit den Benutzerdaten eingeloggt hat, kann das Modul „German Constructicon“ gewählt werden; über das Ikon oben auf der Website kann auf alle relevanten Tools zugegriffen werden. Einen einführenden Überblick über diese Tools sind auf einer separaten Seite dokumentiert.

(b) Syntaktische Annotation: Parsing-Pipeline

  • Die Parsing-Pipeline führt die AnnotatorInnen durch den Annotationsprozess und besteht aus vier Hauptkomponenten, die durch das Tool in eine webbasierte, grafische Benutzeroberfläche überführt werden:
    • Der OpenNLP Tokenizer ist ein Mittel zur Vorbereitung der Input-Sätze für die automatische syntaktische Annotation.
    • Der TreeTagger annotiert automatisch die Wortarten (POS).
    • Der BerkeleyParser annotiert die Phrasentypen (PT) und die grammatischen Funktionen (GF). 
  • Importer: Beim Upload des Korpus-Outputs schlägt die Pipeline geeignete Importformate mit einer kurzen Dateivorschau vor. Hier lässt sich überprüfen, ob die entsprechende Datenquelle (DWDS, DeReKo…) in der Vorschau ausgewählt ist. Es ist möglich, aus den entsprechenden Importern den geeignetsten selbst auszuwählen.
  • Tagset: Die Kategorien Phrasentyp (PT), Wortart (POS) und grammatische Funktion (GF) sind voreingestellt und entsprechen den Standards des Projekts. Die Pipeline unterstützt TIGER-Annotationskategorien. Darüber hinaus können auch eigene Tagsets definiert werden.
  • Preprocessor: Die .txt-Datei wird durch den Preprocessor für die Annotation vorbereitet. Die einzelnen Schritte sind bereits voreingestellt:
  • Die geparsten Dateien können eingesehen werden, wenn der Parsing-Prozess abgeschlossen ist. Den Output einer geparsten Belegstelle veranschaulicht das folgende Beispiel eines Belegsatzes zur Geschweige_denn-Konstruktion.
Abb1: Annotationsoutput einer Belegstelle der Geschweige_denn-Konstruktion
  • Der Parser-Output kann als ZIP-Datei heruntergeladen werden. Die Daten lassen sich im Tabellenkalkulations- oder TSV-3-Format für die Weiterverarbeitung mit WebAnno oder dem AnnotationTool exportieren.

(c) Semantische Annotation: WebAnno & AnnotationTool

Annotation mit WebAnno

  • Nach dem Login in WebAnno kann dort ein neues Projekt angelegt werden. Neben dem Konstruktionsnamen (z.B. Exklamativ_Was_für) muss dort auch der Projekttyp (Annotation) angegeben werden. Von den restlichen Auswahlmöglichkeiten muss kein Gebrauch gemacht werden.
  • Einzelne Annotationsebenen können definiert werden, indem für jede Ebene ein Layer festgelegt wird.
  • Es ist möglich, Tags und ein Tagset für die Konstruktionselemente anzulegen. Die Annotationskategorien sind in WebAnno frei definierbar.
  • Nachdem die .tsv-Datei aus der Parsing-Pipeline importiert wurde, kann mit der Annotation begonnen werden. Abbildung 2 gibt am Beispiel einer Belegstelle der Geschweige_denn-Konstruktion einen Überblick über die auf WebAnno basierende Annotation:
Abb. 2: Semantische Annotation einer Geschweige_denn-Belegstelle mit WebAnno

Annotation mit dem Annotation-Tool

Anfang 2019 haben wir ein eigenes AnnotationTool (AT) entwickelt, das langfristig alternativ zu WebAnno zum Einsatz kommt und mittelfristig WebAnno vollständig ersetzen soll. Das AT zeichnet sich im Vergleich zu WebAnno durch eine vereinfachte Benutzeroberfläche aus. Abbildung 3 veranschaulicht die AT-basierte Annotation des Satzes (1), einer typischen Instanz der Geschweige_denn-Konstruktion:
(Die Lehrer tun sich schwer beim Teacher-Training.[FokuskontextDie meisten von ihnen haben zuvor noch KorEnie einen Computer] {Geschweige_denn[Erstes_Konjunktgesehen], [KEEgeschweige denn] [Zweites_Konjunktbedient]}.

Abb. 3: Semantische Annotation einer Geschweige_denn-Belegstelle mit dem Annotation-Tool

Auf den Annotationsoutput kann direkt von den anderen Tools aus zugegriffen werden. Umgekehrt kann auch das AT selbst auf Konstruktionseinträge zugreifen, um den AnnotatorInnen automatisch ein Set möglicher semantischer Annotationslabels zur Verfügung stellen zu können. Im Gegensatz zu WebAnno ist der AT genau auf die projektspezifischen Bedürfnisse des Workflows zugeschnitten. Zentrale Neuerungen des ATs sind:

  1. Zeichenbasierte Annotation (morphologische Annotation, Annotation von diskontinuierlichen Einheiten)
    Das AT ermöglicht Annotationen unterhalb der Ebene von Worttokens. Daher ist es möglich, einzelne Zeichen wie beispielsweise Präfixe zu kennzeichnen. In der Konstruktionsfamilie Negating_connector können etwa un-Präfixe wie in ungern Korrelierende Elemente instantiieren, die durch das AT annotiert werden können.
  2. Annotation über Satzgrenzen hinweg (z.B. von anaphorischen Relationen und Konstruktionen, die sich über Satzgrenzen hinweg erstrecken)
    Das AT ermöglicht eine nicht durch Satzgrenzen limitierte Annotation. Dies ist beispielsweise nötig, wenn sich die Realisierung von Konstruktionen wie Geschweige_denn über Satzgrenzen hinaus erstreckt. Im nachstehenden Beispielsatz könnten die FE Fokuskontext und Zweites_Konjunkt bei einer auf die Satzgrenze beschränkte Annotation nicht berücksichtigt werden, da beide erst im nachfolgenden Satz realisiert werden:
    Sie kennen aber nicht ihren Kontostand. {Geschweige_denn[KEEGeschweige denn] [Zweites_Konjunktdie monatlichen Ausgaben]}. Oder ihre Einnahmen. (Zeit Campus, 15.04.2009, Nr. 03)
  3. Annotation von Null-Instantiierungen (weggelassenen Kern-KE)
    In Übereinstimmung mit FrameNet werden anders als in WebAnno auch ausgelassene Kern-KE entsprechend ihrer Lizenzierungsmechanismen annotiert (Definite Nullinstantiierung, Indefinite Nullinstantiierung, Konstruktionale Nullinstantiierung). Dies ist beispielsweise für nullinstantiierte Kern-KE (Fokuskontext, Erstes_Konjunkt, Zweites_Konjunkt) der Geschweige_denn-Konstruktion relevant.

(d) Erstellung eines Konstruktionseintrags

Die erzielten Ergebnisse der vorangegangenen Analyseschritte werden in einem letzten Schritt in einem strukturierten Format zusammengeführt, auf dessen Basis sich Informationen (insbesondere annotierte Daten) zu einer Konstruktion analysieren lassen.Dies geschieht durch den im Hintergrund operierenden ConstructionAnalyzer (CA), der folgende Daten generiert:

1. Realisierungsmuster von Konstruktionen

Realisierungsmuster zeigen die Reihenfolge, in der die Konstruktionselemente in den Belegstellen realisiert sind. Der CA gibt Aufschluss über die Frequenz der einzelnen Realisierungsmuster und die lizenzierten sequentiellen Anordnungen der Konstruktionselemente. Die ganz rechte Spalte gibt an, wie viele Belegstellen dem Realisierungsmuster entsprechen. Die syntaktischen Realisierungsmuster helfen somit bei der Identifikation von semantischen und syntaktischen Beschränkungen der einzelnen Konstruktionselemente. Auch ausgelassene Konstruktionselemente können durch die Realisierungsmuster identifiziert werden.
Für die Geschweige_denn-Konstruktion kann beispielsweise eine starke Präferenz für die sequenzielle Reihenfolge [[Fokuskontext] [Erstes_Konjunkt] [KEE] [Zweites_Konjunkt]] beobachtet werden:

Abb. 4: Die ersten sechs Realisierungsmuster der Geschweige_denn-Konstruktion

2. Syntaktische Realisierungen der Konstruktionselemente

Die sprachliche Realisierung von Konstruktionselementen kann im Hinblick auf Phrasentyp (PT) und, falls einbezogen, grammatische Funktion (GF) und Wortart (POS) variieren. Daher können für jede Konstruktion neben den Realisierungsmustern weitere Informationen zu den jeweiligen Realisierungen der Konstruktionselemente im Hinblick auf PT, GF und POS abgerufen werden.

3. KWIC-Ansicht für einzelne Konstruktionselemente

Eine KWIC-Ansicht (Key-Word-in-Context) bietet eine nach Konstruktionselement oder KEE sortierte Übersicht der Belegstellen, sodass die entsprechenden syntaktischen Realisierungen der Elemente direkt untereinander stehen. Es können dabei je nach Betrachtungsinteresse verschiedene Sortierungen eingestellt werden. So kann man sich beispielsweise die Kontexte der Korrelierenden Elemente der Geschweige_denn-Konstruktion im Tabellenformat auflisten lassen.

Die Erstellung eines Konstruktionseintrages erfolgt schrittweise unter der Maßgabe grammatikographischer Vorgaben:

  • Grundlage für die Erstellung von Konstruktionseinträgen bildet eine strukturierte Eingabemaske.
  • Die einzelnen (Pflicht-)Felder werden ausgefüllt (Name der Konstruktion, Illustratives Beispiel, Definition, Typ, Grammatische Kategorie, Form, Konstruktionselemente, Literatur).
  • Maßgebend für die Erstellung von Einträgen sind definierte lexikographische Richtlinien. Hierzu gehört etwa die Einhaltung einer bestimmten Abfolge von Positionen (Lemma, Definition…), die Wahl prägnanter Lemmata (Konstruktionsnamen), ein Richtwert von 200 Zeichen pro Konstruktionsdefinition, der erläuternde Einbezug von Kern-KE in weiterführenden Erklärungen, eine reduktionistische Verwendung von Fachsprache oder die Bevorzugung von geschlechtsneutralen Ausdrücken.

Weitere Informationen und Zugangsdaten stellen wir Ihnen auf Anfrage gerne per Mail bereit.

Icons made by Freepik from www.flaticon.com