Textanalyse und Textgenerierung/Tippfehler und Ähnlichkeitsmaße

Aus Wikiversity

Einführung[Bearbeiten]

Sie kennen bestimmt aus Suchmaschinen bei Tippfehlern die Meldung: "Meinten Sie ...". Als Beispiel betrachtet man den Begriff "Textanalyse" und die folgenden eingegebenen Wörter mit Tippfehlern

  • "Texanalyse",
  • "Textannalyse",
  • "Textanalüse"

Definition - Halbmetrik[Bearbeiten]

Sei eine beliebige Menge. Eine Abbildung heißt Pseudometrik, Halbmetrik oder Spanne, wenn für beliebige Elemente , und von die folgenden Bedingungen erfüllt sind:

  • (HM1) ,
  • (HM2) (Symmetrie) und
  • (HM3) (Dreiecksungleichung).

Unterschied - Metrik - Halbmetrik[Bearbeiten]

Bei einer Metrik folgt aus , dass . Bei einer Halbmetrik kann es im Grundraum Punkte mit geben, für die gilt. Mit einer Halbmetrik kann man also nicht die Punkte trennen (Hausdorff-Eigenschaft).

Bemerkung - Halbmetrik[Bearbeiten]

  • (HM1) bedeutet, dass „die Spanne zwischen einem Punkt und dem Punkt selbst immer 0 ist.“),
  • (HM2) liefert eine Symmetrieeigenschaft für die Messung mit der Spanne, die mit dem Axiom nicht von der Reihenfolge abhängt, wie man die Spanne zwischen zwei Punkten messen kann.“)
  • (HM3) (Dreiecksungleichung: „Die Spanne ist auf dem direkten Weg am kürzesten.“).

Einführende Beispiele für Halbmetriken[Bearbeiten]

Sei ein Alphabet und die Menge aller (auch sinnfreier) Wörter, die mit dem Alphabet gebildet werden können. Ferner die Abbildung, die jedem Wort seine Länge in Zeichen zuordnet (z.B. ).

Aufgabe - Halbmetrik - Wortlänge[Bearbeiten]

Zeigen Sie, dass die eine Halbmetrik auf liefert. Geben Sie ein Gegenbeispiel an, dass keine Metrik auf ist!

Aufgaben[Bearbeiten]

  • Wie kann man eine Metrik definieren, die den Abstand zwischen dem gemeinten Wort und dem Wort mit dem Tippfehler angibt?Hausdorff-Eigenschaft
  • Nehmen wir nun an, wir haben ein zufällig generiertes Wort aus unserem Alphabet gegeben und müssen eine Wahrscheinlichkeitsverteilung angeben, welches Wort aus einer Enzyklopädie damit gemeint ist. Wie können wir diese Verteilung statistisch bestimmen oder deterministisch festlegen?

Siehe auch[Bearbeiten]


Seiteninformation[Bearbeiten]

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal[Bearbeiten]

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Textanalyse und Textgenerierung' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.