Worum es geht

Das Projekt „FrameNet-Konstruktikon des Deutschen“

Das Projekt „FrameNet-Konstruktikon des Deutschen“ erforscht und dokumentiert Form-Bedeutungsstrukturen der deutschen Gegenwartssprache im Kontinuum von Lexikon und Grammatik. Übergeordnetes Ziel ist es, das Inventar von Konstruktionen in seinen multiplen Strukturzusammenhängen in Gestalt eines Konstruktikons zu erfassen und zu dokumentieren.

Das Konstruktikon umfasst drei Repositorien:

  • einen Index bedeutungstragender sprachlicher Formen
  • ein FrameNet zur Erfassung der Bedeutungen von sprachlichen Formen, einschließlich des KoMetNet, in dem Frames für konzeptuelle Metaphern dokumentiert sind
  • Konstruktionseinträge zu jedem Form-Bedeutungs-/Funktionspaar.

Das Projekt möchte dazu beitragen, den großen Reichtum lexikalisch und grammatisch kodierter Konzepte möglichst umfassend zu erschließen. Zugleich soll sichergestellt werden, dass die erzielten Forschungsergebnisse für weitere Nutzungszwecke zur Verfügung stehen, sei es für linguistische Erkenntnisziele im engeren Sinne, für (fremdsprachen-)didaktische Verwendungsinteressen oder für Möglichkeiten der maschinellen Sprachverarbeitung.

Ausgangspunkt bilden grundlegende Erkenntnisse der Frame-Semantik und der gebrauchsbasierten Konstruktionsgrammatik, allen voran der Annahme eines Lexikon-Grammatik-Kontinuums, in dem sprachliche Kategorien und Strukturen einheitlich als Form-Bedeutungspaare repräsentiert sind. In methodischer Hinsicht verbindet das Projekt lexikographische und konstruktikographische Verfahren der korpusbasierten Analyse authentischer Sprachbelege mit einer intelligenten computationellen Infrastruktur und einem modernen Datenmanagement-System.

Das Projekt besteht aus einer Reihe an Teilprojekten, die gemeinsam zum Ziel haben,

  • lexikalische und grammatische Konstruktionen des Deutschen und die Familien, in denen diese organisiert sind, zu identifizieren und auszuweisen, um die erzielten Ergebnisse in strukturierter Form verfügbar zu machen;
  • Bedeutungen von Konstruktionen mithilfe von Frames zu erfassen und die ermittelten Bedeutungsstrukturen in einem FrameNet-Repositorium zu dokumentieren - vom lexikalischen Grundwortschatz des Deutschen, einschließlich fester Mehrworteinheiten, bis hin zu idiomatischen teil- und vollschematischen Konstruktionen.

Das FrameNet umfasst auch Frames für konzeptuelle Metaphern des Deutschen. Das Repositorium hierzu, das KoMetNet, integriert konzeptuelle Metaphern vollständig im Konstruktikon; es ist die erste Ressource ihrer Art.

Das Projekt „FrameNet-Konstruktikon des Deutschen“ verbindet jüngere Erkenntnisse der Kognitiven Semantik, insbesondere der Frame-Semantik sowie der Konzeptuellen Metapherntheorie, und der Konstruktionsgrammatik mit dem Ziel, sowohl lexikalische als auch grammatische Einheiten und Strukturen unter denselben Rahmenbedingungen zu erfassen und strukturiert in Gestalt eines digitalen Lexikon- und Grammatik-Repositoriums zur Verfügung zu stellen. Ein wichtiges Anliegen ist es zu dokumentieren, inwiefern jede Konstruktion innerhalb ihres Beziehungszusammenhangs mit anderen Konstruktionen ihre jeweils charakteristischen funktionalen und semantischen Eigenschaften erhält. Jede Konstruktion wird, soweit es für sie erforderlich ist, in formaler, semantischer, funktionaler und pragmatischer Hinsicht beschrieben.

Das FrameNet des Deutschen bildet einen integralen Bestandteil des Konstruktikons. Es dokumentiert verstehensrelevante Bedeutungsstrukturen von Wörtern, festen Mehrworteinheiten, grammatischen Konstruktionen, einschließlich konstruktioneller Idiome - kurzum: von bedeutungstragenden Formen variierender Komplexität und Abstraktheit. Grundsätzlich werden dabei Bedeutungen mithilfe von Frames erfasst. Frames sind Bedeutungsstrukturen, die das sprachlich kodierte semantische Wissen einer Sprachgemeinschaft abzubilden versuchen. Frames motivieren mithin die Bedeutungen von Wörtern und festen Mehrworteinheiten genauso wie von grammatischen Konstruktionen und konzeptuellen Metaphern.

Für das “FrameNet-Konstruktikon des Deutschen” ist die konstruktionsgrammatische Erkenntnis grundlegend, dass zwischen Lexikon und Grammatik ein gradueller Übergang besteht. Lange Zeit galt es als Binsenweisheit, dass Grammatik und Lexikon die Bausteine einer Sprache bilden und jeweils ein eigenes System formieren. Nach dieser Auffassung umfasst die Grammatik schematische Einheiten (d. h. Konstruktionen ohne lexikalische Spezifikationen, z. B. Argumentstrukturen) sowie Regeln zum Aufbau dieser Einheiten, und es wird angenommen, dass das Lexikon im Wesentlichen aus Wörtern und festen Mehrworteinheiten besteht, deren Bedeutungen individuell gelernt werden müssen. Neben einer Reihe anderer Probleme, ist ein solches „Words-and-Rules“-Modell nicht in der Lage, eine Vielzahl von grammatischen Konstruktionen, vor allem solche, die teilschematischer oder (semi-)idiomatischer Natur sind, einzubeziehen und adäquat zu erfassen. Hierzu zählen neben grammatischen Phrasemen (geschweige denn, um…willen) etwa auch die große Gruppe konstruktioneller Idiome und eine Vielzahl eigenständiger Konstruktionsfamilien wie kopflose Konstruktionen (z. B. kopflose Relativkonstruktionen wie Was mich ärgert sind solche Sätze), Präpositionalphrasen mit artikellosem Nomen (in Sorge, mit Geduld) und valenztragende Mehrworteinheiten wie Funktionsverbgefüge (eine Anfrage machen, eine Behauptung aufstellen).

Das “FrameNet-Konstruktikon des Deutschen” strebt an, die klaffende Lücke zwischen Lexikon und Grammatik zu schließen. Die Maßgabe ist dabei, alle Einheiten in diesem Kontinuum – von Wörtern bis zu abstrakten grammatischen Kategorien und Strukturen – einheitlich zu erfassen, zu explizieren und zu dokumentieren. Dies geschieht zunächst ausschnitthaft und exemplarisch. In der ersten Projektphase liegt der Fokus auf Konstruktionen im Übergangsbereich zwischen Lexikon und Grammatik. Es gilt, die Bedingungen des verwendungs- und verstehensrelevanten grammatischen Wissens möglichst umfassend konstruktikographisch zu erfassen. Unter derselben Zielvorgabe werden im weiteren Verlauf zunehmend auch sprachliche Einheiten einbezogen, die näher am Lexikon- oder Grammatikpol zu verorten sind. Mit Blick auf den Lexikonpol soll in der zweiten Projektphase insbesondere das Inventar an Lexikalischen Einheiten (LE), also frameevozierender Wörter, systematisch erweitert werden - mit dem Ziel, dass der Index sprachlicher Formen annäherungsweise den Grundwortschatz des Deutschen abdeckt.

Was ist das FrameNet des Deutschen? Im Unterschied zu traditionellen Wörterbüchern ist das “FrameNet des Deutschen” kein Lexikon, das einer alphabetischen Ordnungsstruktur folgt. Wörter, grammatische Konstruktionen und alle weiteren bedeutungstragenden Formen werden vielmehr hinsichtlich ihrer semantischen Ähnlichkeit und Verwandtschaft beschrieben. Der Aufbau des FrameNet folgt mithin semantischen Kriterien. Dies eröffnet einen neuen Blick auf semantische Strukturierungsprinzipien des Deutschen, auch jenseits des Wortschatzes, nämlich unter Einbezug komplexer bedeutungstragender Formen.

Grundsätzlich werden sprachliche Formen und ihre Bedeutungen nicht isoliert voneinander, sondern in Bezug zu dem Frame betrachtet, den sie evozieren. Jeder Frame ist wiederum integraler Bestandteil eines Netzwerks von Frames. Bestehen nachweisbar enge semantische Zusammenhänge zwischen Frames, werden diese mithilfe von Framefamilien ausgewiesen.

Auf allen Abstraktionsstufen werden Konstruktionsbedeutungen einheitlich durch Frames erfasst. Das gilt für lexikalische Bedeutungen genauso wie für grammatische Bedeutungen. Ein zentrales Anliegen des Projekts besteht dabei darin, Strukturzusammenhänge zwischen semantischen und grammatischen Eigenschaften von Konstruktionen und Konstruktionsfamilien aufzuspüren und konstruktikographisch zu dokumentieren. Dazu gehört auch die Analyse der Interaktion von lexikalisch motivierten Bedeutungsstrukturen mit grammatischen Konstruktionen. Dies ermöglicht nicht nur, ‚reiche‘ Bedeutungen von grammatischen Konstruktionen durch Frames zu beschreiben (etwa eine Bedeutung der Doppelobjekt-Konstruktion durch den Transfer-Frame); darüber hinaus lassen sich so auch grammatische Eigenschaften von lexikalischen Einheiten bzw. festen Mehrworteinheiten mit Konstruktionen näher bestimmen (so etwa geben durch die Doppelobjekt-Konstruktion).

Die umfassende semantische Erschließung bedeutungstragender Formen geht mit dem Fokus auf Frames zwangsläufig über lexikalisch und grammatisch kodierte Bedeutungen (im Sinne von ‚Grundbedeutungen‘) hinaus. Die parallele und gleichförmige Erfassung von Frames und der Vielfalt der sie aufrufenden Formen in jeweils eigenständigen, aber miteinander verschränkten Repositorien ( Formen, Frames, Konstruktionen) eröffnet die Möglichkeit, Bedeutungen von grammatischen Konstruktionen umfassender und konziser auszuweisen, als dies bislang in Grammatiken und Wörterbüchern der Fall ist. Gleichzeitig lassen sich grammatische Informationen aus Frame-Einträgen – insbesondere Angaben zu Valenzmustern und syntaktischen Realisierungen von Frame-Elementen – für erweiterte Beschreibungen von Konstruktionen nutzen. Auf diese Weise soll ein empirischer Beitrag zu einem möglichst integrativen und interaktiven Verständnis von Lexikon und Grammatik geleistet werden.

Ein weiteres übergeordnetes Projektziel besteht darin, kriteriengeleitet eine möglichst repräsentative Menge an Konstruktionen des Deutschen im breiten Spektrum von lexikalischen Einheiten über konstruktionellen Idiomen bis hin zu vollschematischen grammatischen Einheiten zu identifizieren und einheitlich zu beschreiben. Dokumentiert werden soll das (Hintergrund-)Wissen, das es ermöglicht, eine Konstruktion angemessen verwenden und verstehen zu können. Neben semantischen, pragmatischen, diskursfunktionalen und, im Fall von grammatischen Konstruktionen, syntaktischen Angaben umfasst die Beschreibung einer Konstruktion auch Informationen über Beziehungen zu anderen Konstruktionen ( ConstructionGrapher), ihre Zugehörigkeit zu einer Konstruktionsfamilie und der Bezug zu dem Frame, den sie evoziert.

Mit dem Aufbau des FrameNet des Deutschen ist zudem das Ziel verbunden, (a) konzeptuelle Bedeutungsstrukturen des Deutschen, einschließlich fester Mehrworteinheiten, möglichst vollständig zu erfassen, (b) sie frame-semantisch zu beschreiben und (c) sie einer semantischen Ordnungsstruktur folgend in einem Repositorium zu dokumentieren und der interessierten Öffentlichkeit zugänglich zu machen. Zielgröße sind zunächst Wörter, genauer: valenziell analysierbare Wort-Bedeutungspaare (Lexikalische Einheiten, kurz: LE), insbesondere Verben, Adjektive, Präpositionen und nicht-sortale Nomen, aber auch Mehrworteinheiten wie Funktionsverbgefüge (z.B. Bekanntschaft machen) oder feste Wortverbindungen (z.B. ab und zu). Für sortale Nomen wird zusätzlich auf Kollokationsstrukturen zurückgegriffen. Das Inventar soll in der Folge sukzessiv auf komplexere frameevozierende Einheiten, insbesondere grammatische Einheiten, erweitert werden. Als Quellen fungieren zunächst das elektronische Valenzwörterbuch E-VALBU (IDS) sowie Daten aus dem Saarbrückener SALSA-Projekt. Zusätzlich verwenden wir die Korpora des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) sowie das Deutsche Referenzkorpus (DeReKo, IDS) und selbst aufgebaute Korpora.

Aktuell umfasst das FrameNet des Deutschen ungefähr 1.220 Frames des Berkeleyer FrameNet (Version 1.7). Die Frames wurden für das Deutsche aufbereitet und, falls nötig, modifiziert. Derzeit richten sich weitere Arbeitsschritte auf die Erweiterung der Datenbank um authentische Sprachbelege, auf deren Basis auch weitere Frames erstellt bzw. bestehende Frames adaptiert und ergänzt werden. Allmählich soll zudem ein Inventar an Lexikalischen Einheiten, einschließlich der Dokumentation von Valenzmustern und Angaben der syntaktischen Realisierung von Frame-Elementen, aufgebaut werden. Jeder Frame-Eintrag enthält auch Informationen darüber, welche Beziehungen er zu anderen Frames unterhält; ein Visualisierungstool, der FrameGrapher, hilft bei der graphischen Erschließung der Netzwerkstruktur.

Die Frame-Relationen bilden wiederum den Ausgangspunkt für die Identifizierung von Frame-Familien. Im “FrameNet des Deutschen” ist jeder Frame hinsichtlich seiner Zugehörigkeit zu einer Frame-Familie definiert. Bildet ein Frame die Wurzel einer Familie, ist auch dies ausgewiesen.

Auf dieser Grundlagen werden fortlaufend auch nicht-lexikalische Frames identifiziert und nach erfolgter Evaluation im FrameNet aufgenommen; der Fokus liegt hier aktuell auf pragmatischen und grammatischen Frames.

In methodischer und theoretischer Hinsicht fußt das Projekt auf Erkenntnissen, die seit den 1980er Jahren in Fillmores Konzept des Frames (insbesondere in der Weiterentwicklung im Berkeley FrameNet-Projekt) und der sprachgebrauchsbasierten Konstruktionsgrammatik erzielt wurden. Eine leitende Annahme besteht darin, dass Bedeutungen von Wörtern und grammatischen Konstruktionen nur angemessen erfasst und expliziert werden können, wenn der Blick auf die Voraussetzungen ihres Verstehens und ihrer Verwendung gelenkt wird.

Die Verschiebung des Untersuchungsfokus von der Frage, was sprachliche Formen – seien es Wörter oder komplexe grammatische Strukturen – bedeuten, hin zu ihren Verstehens- und Verwendungsbedingungen schärft den analytischen Blick für pragmatische, semantische und syntaktische Beschränkungen der sprachlichen Formen (Fillmore 1971: 274). Auch spielen die Funktion sprachlicher Formen im Sprachsystem sowie ihre Beziehungen untereinander eine wichtige Rolle. Nicht zu vernachlässigen sind zudem Varianten und Beschränkungen der Realisierung einer sprachlichen Form, die Frequenz ihres Auftretens und ihre Produktivität.

Die konkrete Planung zur Entwicklung und Implementierung eines deutschen FrameNet und Konstruktikons begann 2014 mit erfolgreicher Initiierung eines Vorgänger-Projekts, dem sog. LingTermNet, einem framesemantischen Repositorium für linguistische Fachbegriffe. Auf der Basis von Erkenntnissen, die in diesem Projekt erzielt wurden, haben wir drei Jahre später einen lexikographischen bzw. grammatikographischen Arbeitsprozess entwickelt, dessen nach der technischen Implementierung drei Module umfasst: (1) eine Parsing-Pipeline, (2) das AnnotationTool und (3) das Konstruktikon- und FrameNet Repositorium. Um die Module weiterzuentwickeln und zu optimieren, wurden detaillierte Fallstudien zu ausgewählten Konstruktionsfamilien durchgeführt, so zunächst zu diversen Exklamativ-Konstruktionen (Was für ein Tag!) und negationsinduzierenden Konnektoren (geschweige denn, weder…noch usw.). 2018 wurde die Beta-Version einer integrierten, webbasierten Analysepipeline fertiggestellt (vgl. hierzu Ziem/Flick/Sandkühler 2019).

Das Projekt „Konstruktikon des Deutschen“ begann mit der Identifikation von deutschen Entsprechungen von englischen Konstruktionseinträgen im Berkeley FrameNet Constructicon. Zu den ersten untersuchten Konstruktionen gehört der Ausbau der erwähnten Familie der negationsinduzierenden Konnektoren-Konstruktionen sowie der Familie der Exklamativkonstruktionen. Dies geschah zunächst ohne Einbezug von Frames.

Die Erweiterung um ein „FrameNet des Deutschen“ und dessen vollständige - konzeptionelle wie auch infrastrukturelle - Integration in das Konstruktikon erfolgte zwei Jahre später. Aufbau und Implementierung eines FrameNet des Deutschen orientierten sich an den Grundlagen und Methoden des Berkeleyer Projektes. Primäres Ziel war es zunächst, die Berkeley FrameNet-Datenbank auf Kompatibilität mit Deutsch als Zielsprache zu prüfen. Hierfür wurden Frame-Einträge des Berkeley FrameNet ins Deutsche übertragen und anschließend hinsichtlich inhaltlicher und struktureller Passung geprüft. Zusätzlich wurden neue Korpusdaten (aus dem DWDS und DeReKo) erhoben und annotiert, um den übersetzten Frame-Eintrag auf dieser Grundlage zu validieren und ggf. zu modifizieren. Hinzu kamen erste Fallstudien, die 2019 zum Giving-Frame sowie zu Frames der Commerce-Familie durchgeführt wurden. Neben validierten Frame-Einträgen enthält das FrameNet des Deutschen maschinell übersetzte und nachkorrigierte Frames und Belegstellen. Signifikant erweitert wurde die Ressource durch den Einbezug von E-VALBU- und SALSA-Daten (vgl. hierzu Teilprojekte).

Seit 2019 kommen verstärkt induktive Verfahren zur Identifizierung und Klassifizierung von grammatischen Konstruktionen zum Einsatz. Hierzu werden Ansätze der distributionellen Semantik und des “construction embeddings” (Vektor-Repräsentationen von Konstruktionen) verwendet.