Textanalyse und Textgenerierung/Wege in Graphen

Einführung
[Bearbeiten]In dieser Lerneinheit werden Wege in Graphen betrachtet und an einen kurzen Satz in deutscher Sprache als Beispiel der Weg in einem Graph als einen Wort-zu-Wort-Übergang beschrieben. Dabei werden grundlegende Kenntnisse in der Graphentheorie verwendet und der Wort-zu-Wort-Weg über stochastischen Übergangsmatrizen formalisieren.
Lernvoraussetzungen
[Bearbeiten]- Grundlegende Kenntnisse in Graphentheorie
- Grundlegende Kenntnisse in stochastischen Prozessen und Übergangsmatrizen
Schritte zur Formalisierung
[Bearbeiten]Der Lerneinheit gliedert sich in die folgenden Teile:
- Definition des Graphen
- Formalisierung eines Satzes als Weg
- Stochastische Übergangsmatrizen
- Matrixmultiplikation für Wortassoziationen
Schritt 1 - Definition des Graphen
[Bearbeiten]- Ein gewichteter Graph besteht aus einer Menge von Knoten und einer Menge von Kanten .
- Jeder Knoten repräsentiert ein Wort
- Jede Kante repräsentiert einen Übergang von einem Wort zu einem Wort .
Schritt 2 - Formalisierung eines Satzes als Weg
[Bearbeiten]- Ein Satz kann als ein Weg im Graphen betrachtet werden.
- Ein Weg ist eine Folge von Knoten , wobei für alle .
Schritt 3 - Stochastische Übergangsmatrizen
[Bearbeiten]- Eine stochastische Übergangsmatrix gibt die Wahrscheinlichkeit des Übergangs von einem Knoten zu einem anderen an.
- Die Matrix hat die Dimension , wobei die Wahrscheinlichkeit des Übergangs von Knoten zu Knoten ist.
- Die Summe der Wahrscheinlichkeiten in jeder Spalte von ist 1: für alle .
Schritt 4 - Beispielsatz
[Bearbeiten]- Betrachten wir den Satz "Der Hund jagt die Katze".
- Der Graph hat die Knoten .
- Die Kanten sind .
- Die Übergangsmatrix könnte wie folgt aussehen, wobei "Der" entspricht und "Hund":
Schritt 5 - Matrixmultiplikation für Wortfolgen
[Bearbeiten]Der Startvektor besagt, dass der Satz mit dem ersten Wort "Der" der Wortmenge mit einer Wahrscheinlichkeit 1 beginnt. Die Matrixmultiplikation assoziiert das Wort "Der" () mit dem nächsten Wort "Hund" mit einer Wahrscheinlichkeit 1. Analog erhält man nicht nächste Wort-zu-Wort-Verbindung von Wort "Hund" zu dem Wort "jagt". Mit wird die Wortverbindung repräsentiert und mit .
Schritt 6 - Matrixmultiplikation und Satzende
[Bearbeiten]Wenn man den repräsentierenden Vektor für "Katze" wiederum in die Assoziationsmatrix einsetzt, erhält man den Nullvektor über . Damit ist "Katze" mit keinem anderen Wort aus dem kleinen Wortschatz mit 5 Wörtern assoziiert.
Schritt 7 - Weg in einem Wortgraphen
[Bearbeiten]In dem obigen Beispiel wird eine Weg in einem Wortschatz über eine Assoziation zwischen Wörtern generiert. Es entsteht der Satz "Der Hund jagt die Katze" repräsentiert durch einen Wort-zu-Wort-Weg, der über die Sequenz von Vektoren bestimmt wurde.
Aufgaben für Studierende
[Bearbeiten]- Stochastische Wort-zu-Wort-Übergänge
- Absolute und relative Häufigkeiten
- -Gramme
Aufgabe 1 - Stochastische Wort-zu-Wort-Übergänge
[Bearbeiten]Erzeugen Sie ein kleine Übergangsmatrix für die Sätze "Wie geht es Ihnen", "Wie geht es Dir", "Wie geht es Euch". Legen Sie die Wahrscheinlichkeiten bei einer stochastischen Matrix verteilt. Dies Beispiel soll das obige Beispiel etwas verallgemeinern, wobei stochastische Wortfolgen durch eine Matrix repräsentiert werden.
Aufgabe 2 - Absolute und relative Häufigkeiten
[Bearbeiten]Betrachten Sie einen Ausgangstext, den man als Trainingstext für eine stochastische Matrix auffassen kann. Wie kann man aus der absoluten Häufigkeiten -Übergängen die Wahrscheinlichkeiten der Stochastischen Matrix gewinnen.
Aufgabe 3 - N-Gramme
[Bearbeiten]Der Begriff -Gramm wird bei Texten verwendet, wenn man diesen in jeweils aufeinanderfolgende Fragmente (z.B. Wörter) zerlegt wird. Werden -Gramme verwendet, ist nicht nur das vorherige Wort für die Wahrscheinlichkeitsverteilung des Folgewortes verantwortlich, sondern die letzten Wörter bestimmen das Folgewort. Erläutern Sie den Begriff -Gramm am Beispiel der Trigamme und und suchen Sie für beide -Gramme geeignete Folgewörter nach dem "es"!
- Welchen Vorteil haben -Gramme im Vergleich zu einer reinen Wort-zu-Wort-Assoziationsmatrix ?
- Welche Dimension hat eine assoziative stochastische Matrix , wenn der Wortschatz Wörter enthält und statt der Wort-zu-Wort-Assoziation Trigramme mit einzelnen Wörter aus dem Wortschatz assoziiert wird (siehe Kombinatorik)?
Fazit
[Bearbeiten]Die Formalisierung von Sätzen als Wege in einem Graphen und die Verwendung von stochastischen Übergangsmatrizen bietet eine strukturierte Methode zur Analyse und Modellierung von Sprache. Diese Techniken sind grundlegend für viele Anwendungen in der Sprachverarbeitung und der Informatik.