strong overlay

Methoden & Tools

(a) Subkorporation & Voranalyse: Export von Korpusdaten

  • In einem ersten Schritt werden Belegstellen zur ausgewählten Konstruktion aus dem einem der Korpora des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) oder dem Deutschen Referenkorpus (DeReKo) im TSV-Datenformat exportiert.
  • Zur weiteren Nutzung werden Textdateien (.txt) benötigt, DeReKo-Dateien werden vor dem Parsen noch in UTF-8 konvertiert (z.B. mit Notepad++).Wenn man sich unter https://gsw.phil.hhu.de/intern/ mit den Benutzerdaten eingeloggt hat, kann das Modul „German Constructicon“ gewählt werden; über das Ikon oben auf der Website kann auf alle relevanten Tools zugegriffen werden. Einen einführenden Überblick über diese Tools sind auf einer separaten Seite dokumentiert.

(b) Syntaktische Annotation: Parsing-Pipeline

  • Die Parsing-Pipeline führt die AnnotatorInnen durch den Annotationsprozess und besteht aus vier Hauptkomponenten, die durch das Tool in eine webbasierte, grafische Benutzeroberfläche überführt werden:
    • Der OpenNLP Tokenizer ist ein Mittel zur Vorbereitung der Input-Sätze für die automatische syntaktische Annotation.
    • Der TreeTagger annotiert automatisch die Wortarten (POS).
    • Der BerkeleyParser annotiert die Phrasentypen (PT) und die grammatischen Funktionen (GF). 
  • Importer: Beim Upload des Korpus-Outputs schlägt die Pipeline geeignete Importformate mit einer kurzen Dateivorschau vor. Hier lässt sich überprüfen, ob die entsprechende Datenquelle (DWDS, DeReKo…) in der Vorschau ausgewählt ist. Es ist möglich, aus den entsprechenden Importern den geeignetsten selbst auszuwählen.
  • Tagset: Die Kategorien Phrasentyp (PT), Wortart (POS) und grammatische Funktion (GF) sind voreingestellt und entsprechen den Standards des Projekts. Die Pipeline unterstützt TIGER-Annotationskategorien. Darüber hinaus können auch eigene Tagsets definiert werden.
  • Preprocessor: Die .txt-Datei wird durch den Preprocessor für die Annotation vorbereitet. Die einzelnen Schritte sind bereits voreingestellt:
  • Die geparsten Dateien können eingesehen werden, wenn der Parsing-Prozess abgeschlossen ist. Der Output einer geparsten Belegstelle veranschaulicht das folgende Beispiel eines Belegsatzes zur Geschweige_denn-Konstruktion.
Abb1: Annotationsoutput einer Belegstelle der Geschweige_denn-Konstruktion
  • Der Parser-Output kann als ZIP-Datei heruntergeladen werden. Die Daten lassen sich im Tabellenkalkulations- oder TSV-3-Format für die Weiterverarbeitung mit WebAnno oder dem AnnotationTool exportieren.

(c) Semantische Annotation: WebAnno & AnnotationTool

Annotation mit WebAnno

  • Nach dem Login in WebAnno kann dort ein neues Projekt angelegt werden. Neben dem Konstruktionsnamen (z.B. Exklamativ_Was_für) muss dort auch der Projekttyp (Annotation) angegeben werden. Von den restlichen Auswahlmöglichkeiten muss kein Gebrauch gemacht werden.
  • Einzelne Annotationsschichten können definiert werden, indem für jede Annotationsebene ein Layer festgelegt wird.
  • Es ist möglich, Tags und ein Tagset für die Konstruktionselemente anzulegen. Die Annotationskategorien sind in WebAnno frei definierbar.
  • Nachdem die .tsv-Datei aus der Parsing-Pipeline importiert wurde, kann mit der Annotation begonnen werden. Abbildung 2 gibt am Beispiel einer Belegstelle der Geschweige_denn-Konstruktion einen Überblick über die auf WebAnno basierende Annotation:
Abb. 2: Semantische Annotation einer Geschweige_denn-Belegstelle mit WebAnno

Annotation mit dem Annotation-Tool

  • Anfang 2019 haben wir ein eigenes AnnotationTool (AT) entwickelt, das langfristig alternativ zu WebAnno zum Einsatz kommen soll. Das AT zeichnet sich im Vergleich zu WebAnno durch eine vereinfachte Benutzeroberfläche aus. Abbildung 3 veranschaulicht die AT-basierte Annotation des Satzes (1), einer typischen Instanz der Geschweige_denn-Konstruktion:
    (Die Lehrer tun sich schwer beim Teacher-Training.[Context_of_FocusDie meisten von ihnen haben zuvor noch KorEnie einen Computer] {Geschweige_denn[First_Conjunctgesehen], [CEEgeschweige denn] [Second_Conjunctbedient]}.
Abb. 3: Semantische Annotation einer Geschweige_denn-Belegstelle mit dem Annotation-Tool
  • Auf den Annotationsoutput kann direkt von den anderen Tools aus zugegriffen werden. Umgekehrt kann auch das AT selbst auf Konstruktionseinträge zugreifen, um den AnnotatorInnen automatisch ein Set möglicher semantischer Annotationslabel zur Verfügung stellen zu können. Im Gegensatz zu WebAnno wird dieses Tool daher spezifischer auf die Bedürfnisse des German-Constructicon-Workflows zugeschnitten sein. Zentrale Neuerungen des ATs sind:
  1. die zeichenbasierte Annotation (morphologische Annotation, Annotation von diskontinuierlichen Einheiten)
    Das AT ermöglicht Annotationen unterhalb der Tokenebene. Daher ist es möglich, einzelne Zeichen wie beispielsweise Präfixe zu kennzeichnen. In der Konstruktionsfamilie Negating_connector können etwa un-Präfixe wie in ungern Korrelierende Elemente instantiieren, die durch das AT annotiert werden können.
  2. die Annotation über Satzgrenzen hinaus (Berücksichtigung von anaphorischen Relationen und Konstruktionen, die sich über Satzgrenzen hinaus erstrecken)
    Das AT ermöglicht eine nicht durch Satzgrenzen limitierte Annotation. Dies ist beispielsweise nötig, wenn sich Konstruktionen wie Geschweige_denn über Satzgrenzen hinaus erstrecken. Im nachstehenden Beispielsatz würden der Fokuskontext und das Zweite_Konjunkt bei einer satzgrenzenlimitierten Annotation nicht berücksichtigt werden, da beide erst im nachfolgenden Satz realisiert werden:
    Sie kennen aber nicht ihren Kontostand. {Geschweige_denn[KEEGeschweige denn] [Zweites_Konjunktdie monatlichen Ausgaben]}. Oder ihre Einnahmen. (Zeit Campus, 15.04.2009, Nr. 03)
  3. die Annotation von Null-Instantiierungen (Annotation von ausgelassenen Kern-KE)
    In Übereinstimmung mit FrameNet werden anders als in WebAnno auch ausgelassene Kern-KE entsprechend ihrer Lizenzierungsmechanismen annotiert (Definite Nullinstantiierung, Indefinite Nullinstantiierung, Konstruktionale Nullinstantiierung). Dies ist beispielsweise für nullinstantiierte Kern-KE (Fokuskontext, Erstes_Konjunkt, Zweites_Konjunkt) der Geschweige_denn-Konstruktion relevant.

(d) Erstellung eines Konstruktionseintrags: Konstruktikon

  • Die Analyseschritte 1 bis 3 werden in diesem letzten Schritt in einem strukturierten Format zusammengeführt, sodass sich Konstruktionen final analysieren lassen. Dies geschieht durch einen im Hintergrund agierenden ConstructionAnalyzer (CA), der folgende Daten generiert:
  • Realisierungsmuster von Konstruktionen
    Realisierungsmuster zeigen die Reihenfolge, in der die Konstruktionselemente in den Belegstellen realisiert sind. Der CA gibt Aufschluss über die Frequenz der einzelnen Realisierungsmuster und die lizenzierten sequentiellen Anordnungen der Konstruktionselemente. Die syntaktischen Realisierungsmuster helfen somit bei der Identifikation von semantischen und syntaktischen Beschränkungen der einzelnen Konstruktionselemente. Auch ausgelassene Konstruktionselemente können durch die Realisierungsmuster identifiziert werden.
    Für die Geschweige_denn-Konstruktion kann beispielsweise eine starke Präferenz für die sequenzielle Reihenfolge [[Fokuskontext] [Erstes_Konjunkt] [KEE] [Zweites_Konjunkt]] beobachtet werden:
Abb. 4: Die ersten sechs Realisierungsmuster der Geschweige_denn-Konstruktion

Die Realisierungen der Konstruktionselemente können im Hinblick auf Phrasentyp (PT), grammatische Funktion (GF) und Wortart (POS) bei jeder Belegstelle angezeigt werden. Die ganz rechte Spalte der Tabelle gibt an, wie viele Belegstellen dem Realisierungsmuster entsprechen und der jeweiligen Realisierung der PT, GF und POS. Die Realisierungsmuster sind dabei chronologisch absteigend nach ihrer Frequenz sortiert.

  • KWIC-Ansichten für einzelne Konstruktionselemente
    Die Ansicht Belegstellen-KWIC bietet eine nach den Konstruktionselementen sortierte Übersicht der Belegstellen, sodass die entsprechenden syntaktischen Realisierungen der Elemente direkt untereinander stehen. Es können dabei je nach Betrachtungsinteresse verschiedene Sortierungen eingestellt werden. So kann man sich beispielsweise die Kontexte der Korrelierenden Elemente der Geschweige_denn-Konstruktion im Tabellenformat auflisten lassen.
  • Grundlage für die Erstellung von Konstruktionseinträgen bildet eine strukturierte Eingabemaske.
  • Die einzelnen (Pflicht-)Felder werden ausgefüllt (Name der Konstruktion, Illustratives Beispiel, Definition, Typ, Grammatische Kategorie, Form, Konstruktionselemente, Literatur).
  • Maßgebend für die Erstellung von Einträgen sind definierte lexikographische Richtlinien. Hierzu gehört etwa die Einhaltung einer bestimmten Abfolge von Positionen (Lemma, Definition…), die Wahl prägnanter Lemmata (Konstruktionsnamen), ein Richtwert von 200 Zeichen pro Konstruktionsdefinition, der erläuternde Einbezug von Kern-KE in weiterführenden Erklärungen, eine reduktionistische Verwendung von Fachsprache oder die Bevorzugung von geschlechtsneutralen Ausdrücken.

Weitere Informationen und Zugangsdaten stellen wir Ihnen auf Anfrage gerne per Mail bereit.

Icons made by Freepik from www.flaticon.com