Kurs:Maschinelles Lernen/Hypothesen aus Daten Ableiten
Vorherige Seite: K1 - Grundbegriffe des maschinellen Lernens
Nächste Seite: K2 - Lineare Regression in einer Dimension
Formulierung des Problems
[Bearbeiten]Mit dem vorliegenden Datensatz können zwar viele aber sicher nicht alle Hypothesen getestet werden. Wie auf der vorherigen Seite bereits bemerkt, wird dazu der Hypothesenraum eingeschränkt. Es bietet sich an, dazu ein Modell mit einer gewissen Anzahl an Parametern zu entwerfen. Diese Parameter können zu einem Vektor zusammengefasst werden. Der betrachtete Hypothesenraum mit den Hypothesen ist damit eine Teilmenge des gesammten Hypothesenraums . Aufgrund der speziellen Wahl von kann der betrachtete Hypothesenraum als isomorph zu angesehen werden. In diesem Fall besteht die Aufgabe des maschinellen Lernens darin einen Parametervektor zu finden, so dass (salopp formuliert) gilt. Die Parameter können bspw. im Rahmen der Neuronalen Netze die Gewichte der einzelnen Neuronen sein. Auf der anderen Seite gibt, es Parameter, die zwar festgelegt, aber nicht varriert werden, die also nicht in den Parametervektor einfließen. Sie werden als Hyperparameter bezeichnet. Bei Neuronalen Netzen wäre dies bspw. die Zahl der Neuronen und die Architektur des Netzes.
Risiko- und Verlustfunktion
[Bearbeiten]Um nun zu finden, bietet es sich an, die Fehler des Modells durch eine Funktion
zu quantifizieren und versuchen diese zu minimieren. Die Funktion wird als Risiko bezeichnet. Da allerdings nicht bekannt ist, muss genähert werden. Dazu wird auf Grundlage eines vorliegenden Datensatzes das empirische Risiko
mit der Verlustfunktion (engl. loss function)
eingeführt. Häufig wird stattdessen das empirische Risiko auch als Funktion des Datensatzes unter vorliegen einer bestimmten Hypothese aufgefasst. An die Verlustfunktion werden zwei Bedingungen gestellt:
- Da das Minimum von gesucht werden soll, sollte diese Funktion nach unten beschränkt sein. Gleichzeitig sollen Fehler den Wert des empirischen Risikos erhöhen. Daher sollte für alle Hypothesen, Eingabe- und Ausgabewerte der Zusammenhang gelten.
- Das Minimum einer Funktion kann mit den Methoden der Differentialrechung gefunden werden, wenn die Funktion differenzierbar ist. Da Ableitungen linear sind, muss jeder Summand differenzzierbar sein, womit sich die Bedingung einer differenzierbaren Verlustfunktion motivieren lässt.
Für Regressionen wird häufig der quadratische Fehler
als Verlustfunktion verwendet.
Für eine Klassifikation wird stattdessen die sog. Kreuzentropie
verwendet, wobei hier die Vereinbarung getroffen wird.
Verallgemeinerungsfehler
[Bearbeiten]Da nur eine Näherung für ist, kann es passieren, dass bei der Minimierung des empirischen Risikos zunächst auch das Risiko sinkt, es aber ab einem bestimmten Punkt wieder ansteigt. Ab diesem Moment passt sich das Modell Ausreißer des vorliegenden Datensatzes an und es wird vom Overfitting gesprochen. Um dies zu Quantifizieren wird der Verallgemeinerungsfehler (engl. generalization gap)
eingeführt. Dieser soll möglichst klein gehalten werden. In der Praxis wird ein vorliegender Datensatz dazu in drei Teile aufgespalten:
- Trainingsdatensatz: Der Trainingsdatensatz besteht aus etwa 70 % der Daten und wird dem Namen entsprechend dazu verwendet, das Modell zu trainieren, also passende Parameter , welche das empirische Risiko minimieren, zu finden. Aus diesem wird ständig der Trainingsfehler bestimmt, welcher eine monoton fallende Funktion darstellt.
- Validierungsdatensatz: Der Validierungsdatensatz besteht aus etwa 20 % des Datensatzes und evaluiert während des Trainings für verschiedene Hypothesen das empirische Risiko, woraus der Validierungsfehler bestimmt wird. Dieser wird zwar zunächst fallen, für ein zu lange andauerendes Training aber wieder beginnen zu steigen, da das Modell beginnt, die Ausreißer des Trainingsdatensatzes zu lernen. Der Punkt an dem der Validierungsfehler minimal ist, stellt oft den besten Satz an Parametern dar.
- Testdatensatz: Die verbleibenden etwa 10 % des Datensatzes stellen den Testdatensatz dar, der verwendet wird, um die Vorhersagekraft des Systems zu bestimmen. Durch auswerten des empirischen Risikos für diesen Datensatz wird der Testfehler zu bestimmen. Um den Verallgemeinerungsfehler abzuschätzen wird die Größe bestimmt.