strong overlay

Über das Projekt

Das Projekt „FrameNet & Konstruktikon des Deutschen“ macht sich zur Aufgabe, das Deutsche in seinem gegenwärtigen Gebrauch und seiner Struktur erstmals als reiche Ressource zusammenhängender lexikalisch und grammatisch kodierter Funktionen und Bedeutungen mittels Frames und Konstruktionen zu untersuchen.  Es verbindet jüngere Erkenntnisse der kognitiven Semantik, insbesondere der Frame-Semantik, und der Konstruktionsgrammatik mit dem Ziel, sowohl lexikalische als auch grammatische Einheiten und Strukturen unter denselben Rahmenbedingungen zu erfassen und strukturiert in Gestalt eines digitalen Lexikon- und Grammatik-Repositoriums zur Verfügung zu stellen. Die beiden Repositorien – das FrameNet des Deutschen und das Konstruktikon des Deutschen – dokumentieren jeweils den aktuellen Stand validierter Untersuchungsergebnisse; sie werden fortlaufend erweitert und ergänzt.

Das „Konstruktikon des Deutschen“ (engl. „German Constructicon“) ist das erste digitale Lexikon für grammatische Konstruktionen des Deutschen. Wie ein Lexikon, besteht das Konstruktikon aus einer Vielzahl einzelner Einträge. Die grammatischen Konstruktionen stehen allerdings nicht für sich, sondern bilden mit verwandten Konstruktionen eine Konstruktionsfamilie, die wiederum mit anderen Familien verbunden ist. Es ist uns ein wichtiges Anliegen zu dokumentieren, inwiefern jede Konstruktion innerhalb ihres Beziehungszusammenhangs mit anderen Konstruktionen ihre jeweils charakteristischen funktionalen und semantischen Eigenschaften erhält. Jede Konstruktion wird, soweit es für sie erforderlich ist, in formaler, semantischer, funktionaler und pragmatischer Hinsicht beschrieben. Die gebrauchs- und verstehensrelevanten Eigenschaften werden in Konstruktionseinträgen strukturiert aufbereitet und in Form eines digitalen Lexikons („Konstruktikon“) ohne Zugangsbeschränkung online zur Verfügung gestellt.

Komplementär zum Konstruktikon dokumentiert das „FrameNet des Deutschen“ (engl. „German FrameNet“) verstehensrelevante lexemübergreifende Bedeutungsstrukturen von Wörtern und festen Mehrworteinheiten. Auch diese Ressource umfasst eine Fülle an gebrauchs- und verstehensrelevanten Informationen. So wird jedes Wort bzw. jede Mehrworteinheit durch einen Lexikoneintrag beschrieben. Dieser stellt etwa Angaben zu Valenzmustern und Möglichkeiten ihrer syntaktischen Realisierung bereit. Jedes Wort bzw. jede Mehrworteinheit ist darüber hinaus mit einem Frame verbunden, der die Bedeutung eines Worts bzw. einer Mehrworteinheit strukturiert.


Für das Projekt „Konstruktikon des Deutschen“ ist die konstruktionsgrammatische Erkenntnis grundlegend, dass zwischen Lexikon und Grammatik ein gradueller Übergang besteht. Lange Zeit galt es als Binsenweisheit, dass Grammatik und Lexikon die Bausteine einer Sprache bilden und jeweils ein eigenes System formieren. Nach dieser Auffassung umfasst die Grammatik schematische Einheiten (d.h. Konstruktionen ohne lexikalische Spezifikationen, z.B. Argumentstrukturen) sowie Regeln zum Aufbau dieser Einheiten, während angenommen wird, dass das Lexikon im Wesentlichen aus Wörtern und festen Mehrworteinheiten besteht, deren Bedeutungen individuell gelernt werden müssen. Dadurch bleibt jedoch eine Vielzahl von grammatischen Konstruktionen, vor allem solche, die teilschematischer oder (semi-)idiomatischer Natur sind, unberücksichtigt. Hierzu zählen neben grammatischen Phrasemen (geschweige denn, um…willen) auch die große Gruppe konstruktioneller Idiome (vgl. den Überblick in Ziem 2018) und eine Vielzahl eigenständiger Konstruktionsfamilien wie kopflose Konstruktionen (z.B. kopflose Relativkonstruktionen wie Was mich ärgert sind solche Sätze), Präpositionalphrasen mit artikellosem Nomen (in Sorge, mit Geduld) und valenztragende Mehrworteinheiten wie Stützverbkonstruktionen (eine Anfrage machen, eine Behauptung aufstellen).

Das Projekt „Konstruktikon des Deutschen“ strebt an, die große Lücke zwischen Lexikon und Grammatik zu schließen. Die Maßgabe ist dabei, dass alle Einheiten in dem Kontinuum – von Wörtern bis zu abstrakten grammatischen Kategorien und Strukturen – einheitlich erfasst, expliziert und dokumentiert werden. Das primäre Ziel besteht darin, insbesondere Konstruktionen im Übergangsbereich zwischen Lexikon und Grammatik so zu beschreiben, dass grammatisches Wissen zur angemessenen Verwendung und zum Verstehen möglichst vollständig konstruktikographisch erfasst wird. Nötig ist dafür eine möglichst ‚reiche‘ semantische Beschreibung der Bedeutungen grammatischer Formen, die zwangsläufig über grammatisch kodierte Bedeutungsaspekte hinausgeht. Umfassendere Bedeutungsbeschreibungen erfolgen mithilfe von Frames, die im Projekt „FrameNet des Deutschen“ entwickelt werden.

Ziel des ProjektesFrameNet des Deutschen“ ist es, Wortschatzstrukturen auf der Ebene von semantischen Frames zu eruieren und zu beschreiben. Frames sind Bedeutungsstrukturen, die das sprachlich kodierte semantische Wissen einer Sprachgemeinschaft abzubilden versuchen. Frames motivieren nicht nur die Bedeutungen von Wörtern und Mehrworteinheiten, sondern auch von einer Vielzahl grammatischer Konstruktionen.

Im Unterschied zu traditionellen Wörterbüchern ist das Deutsche FrameNet kein Lexikon, das einer alphabetischen Ordnungsstruktur folgt. Wörter und feste Mehrworteinheiten werden vielmehr hinsichtlich ihrer semantischen Ähnlichkeit und Verwandtschaft beschrieben. Der Aufbau von FrameNet folgt mithin semantischen Kriterien. Dies eröffnet einen neuen Blick auf semantische Strukturierungsprinzipien des deutschen Wortschatzes, weil Wörter und ihre Bedeutungen nicht isoliert voneinander, sondern als integrierter Teil eines Netzwerks von Frames betrachtet werden. In FrameNet werden diese Zusammenhänge zwischen Frames mittels semantischer Relationen ausgewiesen. Die Relationen können durch den FrameGrapher visualisiert und für weitere Forschungszwecke genutzt.

Ein zentrales Anliegen des Projekts „FrameNet und Konstruktikon des Deutschen“ besteht darin, das semantische und grammatische Repositorium miteinander überall dort zu verbinden, wo (lexikalische) Bedeutungen mit grammatischen Konstruktionen interagieren. Dies ermöglicht nicht nur, ‚reiche‘ Bedeutungen von Konstruktionen durch Frames zu beschreiben (etwa die Bedeutung der Doppelobjekt-Konstruktion durch den Geben-Frame); auch lassen sich umgekehrt grammatische Eigenschaften von lexikalischen Einheiten bzw. Mehrworteinheiten mit Konstruktionen näher bestimmen (so etwa geben durch die Doppelobjekt-Konstruktion).

Die parallele und gleichförmige Erfassung von Frames und Konstruktionen in jeweils eigenständigen, aber miteinander verschränkten Repositorien eröffnet die Möglichkeit, Bedeutungen von grammatischen Konstruktionen umfassender und konziser zu explizieren, als dies bislang in Grammatiken und Wörterbüchern der Fall ist. Gleichzeitig lassen sich grammatische Informationen aus Frame-Einträgen – insbesondere Angaben zu Valenzmustern und syntaktischen Realisierungen von Frame-Elementen – für erweiterte Beschreibungen von Konstruktionen nutzen. Auf diese Weise soll ein empirischer Beitrag zu einem möglichst integrativen und interaktiven Verständnis von Lexikon und Grammatik geleistet werden.

In methodischer und theoretischer Hinsicht fußt das Projekt auf Erkenntnissen, die seit den 1980er Jahren in der Frame-Semantik (insbesondere in Anlehnung an Fillmores Konzept eines FrameNet) und der sprachgebrauchbasierten Konstruktionsgrammatik erzielt wurden. Eine leitende Annahme besteht darin, dass Bedeutungen von Wörtern und grammatischen Konstruktionen nur angemessen erfasst und expliziert werden können, wenn der Blick auf die Voraussetzungen ihres Verstehens und ihrer Verwendung gelenkt wird.

Die Verschiebung des Untersuchungsfokus von der Frage, was sprachliche Formen – seien es Wörter oder komplexe grammatische Strukturen – bedeuten, hin zu ihren Verstehens- und Verwendungsbedingungen schärft den analytischen Blick für pragmatische, semantische und syntaktische Beschränkungen der sprachlichen Formen (Fillmore 1971: 274). Auch spielen die Funktion sprachlicher Formen im Sprachsystem sowie ihre Beziehungen untereinander eine wichtige Rolle. Nicht zu vernachlässigen sind zudem die Varianten und Beschränkungen der Realisierung einer sprachlichen Form, die Frequenz ihres Auftretens und ihre Produktivität.

Die konkrete Planung zur Entwicklung und Implementierung eines deutschen FrameNet und Konstruktikons begann 2014 mit erfolgreicher Initiierung eines Vorgänger-Projekts, dem sog. LingTermNet, einem framesemantischen Repositorium für linguistische Fachbegriffe. Anschließend wurde ausgehend von Fallstudien zu ausgewählten Konstruktionsfamilien – so zunächst zu diversen Exklamativ-Konstruktionen (Was für ein Tag!) und negationsinduzierenden Konnektoren (geschweige denn, weder…noch usw.) ein vierteiliger lexikographischer bzw. grammmatikographischer Arbeitsprozess entwickelt. 2018 wurde die Beta-Version einer integrierten, webbasierten Analysepipeline fertiggestellt (vgl. hierzu Ziem/Flick/Sandkühler im Druck). Aktuell umfasst das Projekt drei komplexe Module: (1) Parsing-Pipeline (2) AnnotationTool (3) Konstruktikon-/ FrameNet-Eingabemaske.

Das Projekt „Konstruktikon des Deutschen“ begann mit der Identifikation von deutschen Entsprechungen von englischen Konstruktionseinträgen im Berkeley FrameNet Constructicon. Zu den ersten untersuchten Konstruktionen gehört die Familie der sogenannten negation_induced_connector-Konstruktionen, einschließlich der let_alone-Konstruktion und der Familie der Exklamativkonstruktionen. Im Rahmen des GCon-Projekts folgen wir dem Vorgehen des Berkeley FrameNet-Konstruktikon-Ansatzes.

Auch das Projekt „FrameNet des Deutschen“ orientiert sich an den Grundlagen und Methoden des Berkeley FrameNet. Primäres Ziel ist es, die Berkeley FrameNet-Datenbank auf Kompatibilität mit der deutschen Sprache zu prüfen. Hierfür wurden Frame-Einträge des Berkeley FrameNet ins Deutsche übertragen und anschließend hinsichtlich inhaltlicher und struktureller Passung geprüft. Zusätzlich werden neue Korpusdaten (aus dem DWDS und DeReKo) erhoben und annotiert, um den übersetzten Frame-Eintrag auf dieser Grundlage zu validieren und ggf. zu modifizieren. Erste Fallstudien wurden Anfang 2019 zum Giving-Frame sowie zu Frames der Commerce-Familie durchgeführt. Neben validierten Frame-Einträgen enthält das FrameNet des Deutschen maschinell übersetzte und nachkorrigierte Frames und Belegstellen.

Der lexikographische Arbeitsprozess (im Fall von FrameNet) bzw. der grammatikographische Arbeitsprozess (beim Konstruktikon) umfasst vier aufeinanderfolgende Schritte: (a) Subkorporation und Voranalyse, (b) automatische syntaktische Annotation, (c) manuelle semantische Annotation und (d) Analyse und Generierung von Konstruktionseinträgen für das FrameNet bzw. Konstruktikon.

(a) Subkorporation & Voranalyse. Die Zusammenstellung eines Korpus aus einschlägigen Belegstellen erfolgt auf der Grundlage des DWDS-Korpus oder des deutschen Referenzkorpus (DeReKo). Eine vorläufige Analyse ausgewählter Korpusbelegstellen dient der Identifizierung von Konstruktions-Elementen bzw. Frame-Elementen, die spezifisch für die Ziel-Konstruktion bzw. den Ziel-Frame sind. Weiterhin gilt es, eng verwandte Konstruktionen bzw. Frames zu identifizieren, die zur gleichen Familie gehören.

(b) Syntaktische Annotation. Die syntaktische Annototation erfolgt maschinell innerhalb einer entwickeltenParsing-Pipeline (TreeTagger, BerkeleyParser). Sie umfasst die automatische Annotation von POS (Wortarten nach dem STTS), von Phrasentypen (PT) und von grammatischen Funktionen (GF) mit der Möglichkeit, zwischen vorangelegten Tagsets auszuwählen oder neue Tagsets zu definieren, in denen die TIGER-Kategorien in eigene überführt werden.

(c) Semantische Annotation (AnnotationTool, WebAnno). Für die semantische Annotation der Target-Elemente sowie der Konstruktions- bzw. Frame-Elemente stehen zwei Werkzeuge zur Auswahl. Mit dem generischen, webbasierten Tool WebAnno lassen sich die Annotationskategorien frei definieren; auch die Messung eines interannotator agreements ist möglich. Seit Mai 2019 verwenden wir schwerpunktmäßig das eigens für das Projekt entwickelte Annotationsprogramm AnnotationTool. Dies ist ebenfalls webbasiert, und ermöglicht, zeichenbasierte Annotationen (z.B. für die Annotation von gebundenen Morphemen), Volltextannotationen über Satzgrenzen hinweg und Annotationen von Nullinstantiierungen.

(d) FrameNet & Konstruktikon. Nach der semantischen Annotation wird die in Schritt (a) erstellte Voranalyse überprüft und im Hinblick auf die Annotationsergebnisse bearbeitet, sodass eine finale Konstruktions- bzw. Frame-Analyse entsteht. Anschließend werden systematisch Frame- bzw. Konstruktionseinträge aufbereitet und in einem strukturierten Format zusammengeführt. Die Einträge im deutschen FrameNet bzw. Konstruktikon sind dynamisch und lassen sich nachträglich hinsichtlich unterschiedlicher Betrachtungsinteressen modifizieren (Ein- und Ausblenden von Kontextdaten sowie Annotationskategorien wie beispielsweise Phrasentypen oder Grammatischen Funktionen). Der hier im Hintergrund agierende ConstructionAnalyzer bzw. FrameAnalyzer generiert Realisierungsmuster einer Konstruktion bzw. Valenzmuster von lexikalischen Einheiten und zeigt syntaktische Realisierungsmöglichkeiten für Frame- bzw. Konstruktionselemente an. Auch eine KWIC-Ansicht (Key Word In Context) im Hinblick auf einzelne Elemente einer Konstruktion bzw. eines Frames ist möglich. In Zukunft soll es außerdem eine Suchfunktion mittels regulärerAusdrücke geben, die sich sowohl auf die Belegstellen einzelner Konstruktions- bzw. Frame-Einträge richten als auch konstruktions- bzw. frameübergreifend agieren wird.

FrameNet ist eine Datenbank basierend auf lexikalischen Einheiten und festen Mehrworteinheiten, die jeweils einen Frame aufrufen. In FrameNet werden die ermittelten Frames dokumentiert und allgemeinverständlich erläutert. Komplementär dazu umfasst das Konstruktikon eine Dokumentation der analysierten grammatischen Konstruktionen. Lässt sich eine Konstruktion durch einen Frame erfassen, wird sie mit diesem direkt verlinkt. Beide Repositorien stellen alle annotierten Daten in Annotationsreporten zur Verfügung.

Teilprojektspezifische Details zu den einzelnen Analyse-Tools sind den jeweiligen Startseiten des Konstruktikon des Deutschen bzw. FrameNet des Deutschen zu entnehmen.