Zum Inhalt springen

Kurs:Maschinelles Lernen/Hypothesen aus Daten ableiten

Aus Wikiversity

Vorherige Seite: K1 - Grundbegriffe des maschinellen Lernens
Nächste Seite: K2 - Lineare Regression in einer Dimension

Formulierung des Problems

[Bearbeiten]

Mit dem vorliegenden Datensatz hat man Informationen zwar endlich viele über eine unbekannte Funktion . Eine Hypothese ist ebenfalls eine Funktion aus einem Hypothesenraum aller Abbildungen von nach . Wie auf der vorherigen Seite bereits bemerkt, wird dazu der Hypothesenraum auf bestimmte Funktionsklassen eingeschränkt.

Parametrisierte Funktionenräume

[Bearbeiten]

Es bietet sich an, dazu ein Modell mit einer gewissen Anzahl an Parametern zu entwerfen. Diese Parameter können zu einem Vektor (oder auch Matrix ) als Parameterdarstellung zusammengefasst werden. Der betrachtete Hypothesenraum ist ein Funktionenraum mit den Hypothesen, die man als Abbildungen darstellt. Formal beschreibt , dass die Funktion durch einen -dimensionalen Vektor dargestellt wird. ist damit eine Teilmenge des gesammten Hypothesenraums .

Beispiel - Darstellung von Funktionen durch Vektoren

[Bearbeiten]

In dem Beispiel wird erläutert, wie man die Klasse der affin-lineare Funktionen durch einen Hypothesen darstellen kann. Dabei stellt ein Vektor die folgende Funktion dar:

Mit Trainingsdaten wird in diesem einfachen Fall die Suche nach der besten approximierenden Funktion durch die lineare Regression gelöst.

Bemerkung - Berechenbarkeit von optimalen Approximationen der unbekannten Funktion f

[Bearbeiten]

Im allgemeinen Fall gibt es nicht notwendigerweise explizite Lösungsverfahren, die beste Approximation liefern. In der Regel werden an dieser Stelle numerische oder statistische Lernverfahren für die Approximation eingesetzt.

Bemerkung - Hypothesenraum 1

[Bearbeiten]

Aufgrund der speziellen Wahl von kann der betrachtete Hypothesenraum als isomorph zu angesehen werden. Wie ein Parametervektor eine Funktion aus dem Hypothesenraum definiert wird über die Funktionenklasse angeben. Dies ist durch die Bezeichnung nicht eindeutig festgelegt.

Beispiel - Hypothesenraum mit zwei unterschiedlichen Funktionsklassen

[Bearbeiten]

H_2 In dem Beispiel wird erläutert, wie man durch einen Parametervektor zwei unterschiedliche Hypothesenräume und darstellen kann.

  • ist ein polynomialer Hypothesenraum von Funktionen und
  • ist ein trigonometrischer Hypothesenraum von Funktionen

Polynomialer Hypothesenraum

[Bearbeiten]

Für stellt ein Vektor die folgende Funktion dar:

Mit Trainingsdaten aus dem mit .


Trigonometrischer Hypothesenraum

[Bearbeiten]

Für stellt ein Vektor die folgende Funktion dar:

Auch für stammen die Trainingsdaten aus dem mit . Allerdings stellt der Vektor im Vergleich zum polynomialen Hypothesenraum kein Polynom , sondern eine trigonometrische Funktion dar.

Aufgabe des maschinellen Lernens

[Bearbeiten]

In diesem Fall besteht die Aufgabe des maschinellen Lernens darin einen Parametervektor zu finden, so dass (salopp formuliert) gilt. Die Parameter können bspw. im Rahmen der Neuronalen Netze die Gewichte der einzelnen Neuronen sein. Auf der anderen Seite gibt, es Parameter, die zwar festgelegt, aber nicht varriert werden, die also nicht in den Parametervektor einfließen. Sie werden als Hyperparameter bezeichnet. Bei Neuronalen Netzen wäre dies bspw. die Zahl der Neuronen und die Architektur des Netzes.

Risiko-, Verlust-, Fehlerfunktion

[Bearbeiten]

Um nun zu finden, bietet es sich an, die Fehler des Modells durch eine Risikofunktion oder Fehlerfunktion ("Error") zu beschreiben.

Risikofunktion

[Bearbeiten]

Eine Risikofunktion beschreibt das Risiko , das bei der Verwendung der Hypothese als Beschreibung für die unbekannte Funktion

entsteht. Die Funktion wird als Risiko bezeichnet.


Fehlerfunktion

[Bearbeiten]

Da allerdings nicht bekannt ist, berechnet man einen Fehler auf Grundlage eines vorliegenden Datensatzes . Dieses empirische Risiko wird über eine Fehlerfunktion berechnet, die zu einer Hypothese und Daten


mit der Verlustfunktion (engl. loss function)


eingeführt. Häufig wird stattdessen das empirische Risiko auch als Funktion des Datensatzes unter vorliegen einer bestimmten Hypothese aufgefasst. An die Verlustfunktion werden zwei Bedingungen gestellt:

  • Da das Minimum von gesucht werden soll, sollte diese Funktion nach unten beschränkt sein. Gleichzeitig sollen Fehler den Wert des empirischen Risikos erhöhen. Daher sollte für alle Hypothesen, Eingabe- und Ausgabewerte der Zusammenhang gelten.
  • Das Minimum einer Funktion kann mit den Methoden der Differentialrechung gefunden werden, wenn die Funktion differenzierbar ist. Da Ableitungen linear sind, muss jeder Summand differenzzierbar sein, womit sich die Bedingung einer differenzierbaren Verlustfunktion motivieren lässt.

Für Regressionen wird häufig der quadratische Fehler


als Verlustfunktion verwendet.
Für eine Klassifikation wird stattdessen die sog. Kreuzentropie


verwendet, wobei hier die Vereinbarung getroffen wird.

Verallgemeinerungsfehler

[Bearbeiten]

Da nur eine Näherung für ist, kann es passieren, dass bei der Minimierung des empirischen Risikos zunächst auch das Risiko sinkt, es aber ab einem bestimmten Punkt wieder ansteigt. Ab diesem Moment passt sich das Modell Ausreißer des vorliegenden Datensatzes an und es wird vom Overfitting gesprochen. Um dies zu Quantifizieren wird der Verallgemeinerungsfehler (engl. generalization gap)


eingeführt. Dieser soll möglichst klein gehalten werden. In der Praxis wird ein vorliegender Datensatz dazu in drei Teile aufgespalten:

  • Trainingsdatensatz: Der Trainingsdatensatz besteht aus etwa 70 % der Daten und wird dem Namen entsprechend dazu verwendet, das Modell zu trainieren, also passende Parameter , welche das empirische Risiko minimieren, zu finden. Aus diesem wird ständig der Trainingsfehler bestimmt, welcher eine monoton fallende Funktion darstellt.
  • Validierungsdatensatz: Der Validierungsdatensatz besteht aus etwa 20 % des Datensatzes und evaluiert während des Trainings für verschiedene Hypothesen das empirische Risiko, woraus der Validierungsfehler bestimmt wird. Dieser wird zwar zunächst fallen, für ein zu lange andauerendes Training aber wieder beginnen zu steigen, da das Modell beginnt, die Ausreißer des Trainingsdatensatzes zu lernen. Der Punkt an dem der Validierungsfehler minimal ist, stellt oft den besten Satz an Parametern dar.
  • Testdatensatz: Die verbleibenden etwa 10 % des Datensatzes stellen den Testdatensatz dar, der verwendet wird, um die Vorhersagekraft des Systems zu bestimmen. Durch auswerten des empirischen Risikos für diesen Datensatz wird der Testfehler zu bestimmen. Um den Verallgemeinerungsfehler abzuschätzen wird die Größe bestimmt.