Kurs:Maschinelles Lernen/Hypothesen aus Daten Ableiten

Vorherige Seite: K1 - Grundbegriffe des maschinellen Lernens
Nächste Seite: K2 - Lineare Regression in einer Dimension

Formulierung des Problems

Mit dem vorliegenden Datensatz $D$ können zwar viele aber sicher nicht alle Hypothesen getestet werden. Wie auf der vorherigen Seite bereits bemerkt, wird dazu der Hypothesenraum eingeschränkt. Es bietet sich an, dazu ein Modell mit einer gewissen Anzahl an Parametern zu entwerfen. Diese Parameter können zu einem Vektor ${\vec {w}}\in \mathbb {R} ^{n}$ zusammengefasst werden. Der betrachtete Hypothesenraum $H_{\vec {w}}$ mit den Hypothesen $h_{\vec {w}}:X\to Y$ ist damit eine Teilmenge des gesammten Hypothesenraums $H$ . Aufgrund der speziellen Wahl von ${\vec {w}}\in \mathbb {R} ^{n}$ kann der betrachtete Hypothesenraum als isomorph zu $\mathbb {R} ^{n}$ angesehen werden. In diesem Fall besteht die Aufgabe des maschinellen Lernens darin einen Parametervektor ${\hat {\vec {w}}}$ zu finden, so dass (salopp formuliert) $h_{\hat {\vec {w}}}\approx t$ gilt. Die Parameter ${\vec {w}}$ können bspw. im Rahmen der Neuronalen Netze die Gewichte der einzelnen Neuronen sein. Auf der anderen Seite gibt, es Parameter, die zwar festgelegt, aber nicht varriert werden, die also nicht in den Parametervektor ${\vec {w}}$ einfließen. Sie werden als Hyperparameter bezeichnet. Bei Neuronalen Netzen wäre dies bspw. die Zahl der Neuronen und die Architektur des Netzes.

Risiko- und Verlustfunktion

Um nun ${\hat {\vec {w}}}$ zu finden, bietet es sich an, die Fehler des Modells durch eine Funktion

 $R:H\times H\to \mathbb {R} _{0}^{+},\,\,(h,t)\mapsto R(h,t)$

zu quantifizieren und versuchen diese zu minimieren. Die Funktion $R$ wird als Risiko bezeichnet. Da $t$ allerdings nicht bekannt ist, muss $R$ genähert werden. Dazu wird auf Grundlage eines vorliegenden Datensatzes $D=\{(x_{1},y_{1}),(x_{2},y_{2}),\dots ,(x_{N},y_{N})\}$ das empirische Risiko

 ${\hat {R}}_{D}:H\to \mathbb {R} _{0}^{+},\,\,h\mapsto {\hat {R}}_{D}(h)={\frac {1}{N}}\sum _{i=1}^{N}l(h(x_{i}),y_{i})$

mit der Verlustfunktion (engl. loss function)

 $l:X\times Y\to \mathbb {R} _{0}^{+}$

eingeführt. Häufig wird stattdessen das empirische Risiko auch als Funktion des Datensatzes unter vorliegen einer bestimmten Hypothese ${\hat {R}}_{h}(D)$ aufgefasst. An die Verlustfunktion werden zwei Bedingungen gestellt:

Da das Minimum von ${\hat {R}}$ gesucht werden soll, sollte diese Funktion nach unten beschränkt sein. Gleichzeitig sollen Fehler den Wert des empirischen Risikos erhöhen. Daher sollte für alle Hypothesen, Eingabe- und Ausgabewerte der Zusammenhang $l(h(x),y)\geq 0$ gelten.
Das Minimum einer Funktion kann mit den Methoden der Differentialrechung gefunden werden, wenn die Funktion differenzierbar ist. Da Ableitungen linear sind, muss jeder Summand differenzzierbar sein, womit sich die Bedingung einer differenzierbaren Verlustfunktion motivieren lässt.

Für Regressionen wird häufig der quadratische Fehler

 $l(h(x),y)=(h(x)-y)^{2}$

als Verlustfunktion verwendet.
Für eine Klassifikation wird stattdessen die sog. Kreuzentropie

 $l(h(x),y)=-[y\ln {(h(x))}+(1-y)\ln {(1-h(x))}]$

verwendet, wobei hier die Vereinbarung $0\cdot \ln {(0)}=0$ getroffen wird.

Verallgemeinerungsfehler

Da ${\hat {R}}$ nur eine Näherung für $R$ ist, kann es passieren, dass bei der Minimierung des empirischen Risikos zunächst auch das Risiko sinkt, es aber ab einem bestimmten Punkt wieder ansteigt. Ab diesem Moment passt sich das Modell Ausreißer des vorliegenden Datensatzes an und es wird vom Overfitting gesprochen. Um dies zu Quantifizieren wird der Verallgemeinerungsfehler (engl. generalization gap)

 $G=|R-{\hat {R}}|$

eingeführt. Dieser soll möglichst klein gehalten werden. In der Praxis wird ein vorliegender Datensatz dazu in drei Teile aufgespalten:

Trainingsdatensatz: Der Trainingsdatensatz $D_{\mathrm {Tr} }$ besteht aus etwa 70 % der Daten und wird dem Namen entsprechend dazu verwendet, das Modell zu trainieren, also passende Parameter ${\vec {w}}$ , welche das empirische Risiko minimieren, zu finden. Aus diesem wird ständig der Trainingsfehler ${\hat {R}}(D_{\mathrm {Tr} })$ bestimmt, welcher eine monoton fallende Funktion darstellt.
Validierungsdatensatz: Der Validierungsdatensatz $D_{\mathrm {V} }$ besteht aus etwa 20 % des Datensatzes und evaluiert während des Trainings für verschiedene Hypothesen das empirische Risiko, woraus der Validierungsfehler ${\hat {R}}(D_{\mathrm {V} })$ bestimmt wird. Dieser wird zwar zunächst fallen, für ein zu lange andauerendes Training aber wieder beginnen zu steigen, da das Modell beginnt, die Ausreißer des Trainingsdatensatzes zu lernen. Der Punkt an dem der Validierungsfehler minimal ist, stellt oft den besten Satz an Parametern dar.
Testdatensatz: Die verbleibenden etwa 10 % des Datensatzes stellen den Testdatensatz $D_{\mathrm {T} }$ dar, der verwendet wird, um die Vorhersagekraft des Systems zu bestimmen. Durch auswerten des empirischen Risikos für diesen Datensatz wird der Testfehler ${\hat {R}}(D_{\mathrm {T} })$ zu bestimmen. Um den Verallgemeinerungsfehler abzuschätzen wird die Größe ${\hat {G}}=|{\hat {R}}(D_{\mathrm {Tr} })-{\hat {R}}(D_{\mathrm {T} })|\approx G$ bestimmt.