Vorherige Seite: K2 - Feature Engineering
Nächste Seite: K3 - Klassifikation mittels Support Vector Machines
Als Eingabedaten liegen wieder Punkte
aus dem
vor. Für eine binäre Klassifikation, die hier betrachtet werden soll, sind die möglichen Ausgabewerte aus dem Raum
. Das bedeutet, es müssen Hypothesen gesucht werden, die Abbildungen der Form
sind.
Im Kapitel über Vektoren war zu erkennen, dass der Raum
durch eine Hyperebene, welche durch
beschrieben wird, in zwei Bereiche geteilt wird. Daher läge es nahe eine Hypothese der Art
zu formulieren, wobei
die Theta-Funktion ist. Diese Form einer Hypothese ist allerdings für ein Gradientenabstiegsverfahren ungeeignet, da die Theta-Funktion an der Stelle
nicht differenzierbar ist.
Statt der Theta-Funktion wird daher die Sigmoidfunktion (auch als logistische Funktion bezeichnet)
betrachtet werden. Sie verfügt über die Grenzwerte
und ist mit der Ableitung
in jedem Punkt differenzierbar. Damit kann dann zur Optimierung die Hypothese
verwendet werden, womit die Idealen Gewichte
bestimmt werden. Zur schlussendlichen Klassifikation muss aber die Theta-Funktion
verwendet werden.
Verlustfunktion und empirisches Risiko
[Bearbeiten]
Für Klassifikationsverfahren wird mit der Vereinbarung
die Kreuzentropie
als Verlustfunktion verwendet. Durch Einsetzen der Hypothese mit der Sigmoid-Funktion kann diese zu
bestimmt werden.
Für das empirische Risiko
für einen vorliegenden Datensatz mit
Datenpunkten kann so der Ausdruck
gefunden werden. Darin taucht die erweiterte Datenmatrix
in einem Matrixvektorprodukt mit
auf. (Dies lässt sich in bspw. in Python mit numpy besonders effizient durchführen. Die Summe über
trifft hingegen nicht mit den indizierten Größen auf, so dass diese explizit bestimmt werden muss.)
Wird der Gradient des empirischen Risikos bestimmt, so kann der Ausdruck
gefunden werden.
In der Praxis wird hierbei der Faktor
oft ignoriert. Durch die Einführung eines Hyperparametrs
kann die Entscheidung an der Sigmoidfunktion mit
noch härter gemacht werden. In diesem Fall nehmen das empirische Risiko und sein Gradient die Formen
und
an.
Wie auch bei linearen Regressionen lassen sich Klassifikationsprobleme weiterhin durch lineare Zusammenhänge lösen, wenn ein Feature Engineering durchgeführt wird. Dazu kann folgendes Beispiel betrachtet werden. Im zweidimensionalen Raum
sollen Punkte in zwei Kategorien
klassifiziert werden. Durch Augenmaß ist bereits zu erkennen, dass die Separation durch einen Kreis mit Radius
erfolgen könnte. Ein solcher wird durch
beschrieben. Dies stellt aber einen linearen Zusammenhang in
und
dar. Wird insgesamt der Grad
betrachtet, müssen wesentlich mehr Terme berücksichtigt werden. So würde sich für eine Feature Map mit dem Grad
die Form
ergeben. Typischerweise wird eine Feature Map die Form
mit
haben. Aus
wird dann die erweiterten Datenmatrix
für das oben beschriebene Gradientenabstiegsverfahren erstellt.