Kurs:Maschinelles Lernen/Klassifikation mittels Gradientenabstieg

Aus Wikiversity

Vorherige Seite: K2 - Feature Engineering
Nächste Seite: K3 - Klassifikation mittels Support Vector Machines

Formulierung des Problems und passender Hypothesen[Bearbeiten]

Als Eingabedaten liegen wieder Punkte aus dem vor. Für eine binäre Klassifikation, die hier betrachtet werden soll, sind die möglichen Ausgabewerte aus dem Raum . Das bedeutet, es müssen Hypothesen gesucht werden, die Abbildungen der Form


sind.

Im Kapitel über Vektoren war zu erkennen, dass der Raum durch eine Hyperebene, welche durch


beschrieben wird, in zwei Bereiche geteilt wird. Daher läge es nahe eine Hypothese der Art


zu formulieren, wobei


die Theta-Funktion ist. Diese Form einer Hypothese ist allerdings für ein Gradientenabstiegsverfahren ungeeignet, da die Theta-Funktion an der Stelle nicht differenzierbar ist.

Statt der Theta-Funktion wird daher die Sigmoidfunktion (auch als logistische Funktion bezeichnet)


betrachtet werden. Sie verfügt über die Grenzwerte


und ist mit der Ableitung


in jedem Punkt differenzierbar. Damit kann dann zur Optimierung die Hypothese


verwendet werden, womit die Idealen Gewichte bestimmt werden. Zur schlussendlichen Klassifikation muss aber die Theta-Funktion


verwendet werden.

Verlustfunktion und empirisches Risiko[Bearbeiten]

Für Klassifikationsverfahren wird mit der Vereinbarung die Kreuzentropie


als Verlustfunktion verwendet. Durch Einsetzen der Hypothese mit der Sigmoid-Funktion kann diese zu


bestimmt werden.

Für das empirische Risiko


für einen vorliegenden Datensatz mit Datenpunkten kann so der Ausdruck


gefunden werden. Darin taucht die erweiterte Datenmatrix in einem Matrixvektorprodukt mit auf. (Dies lässt sich in bspw. in Python mit numpy besonders effizient durchführen. Die Summe über trifft hingegen nicht mit den indizierten Größen auf, so dass diese explizit bestimmt werden muss.)

Wird der Gradient des empirischen Risikos bestimmt, so kann der Ausdruck


gefunden werden.

In der Praxis wird hierbei der Faktor oft ignoriert. Durch die Einführung eines Hyperparametrs kann die Entscheidung an der Sigmoidfunktion mit noch härter gemacht werden. In diesem Fall nehmen das empirische Risiko und sein Gradient die Formen


und


an.

Feature Engineering[Bearbeiten]

Wie auch bei linearen Regressionen lassen sich Klassifikationsprobleme weiterhin durch lineare Zusammenhänge lösen, wenn ein Feature Engineering durchgeführt wird. Dazu kann folgendes Beispiel betrachtet werden. Im zweidimensionalen Raum sollen Punkte in zwei Kategorien klassifiziert werden. Durch Augenmaß ist bereits zu erkennen, dass die Separation durch einen Kreis mit Radius erfolgen könnte. Ein solcher wird durch


beschrieben. Dies stellt aber einen linearen Zusammenhang in und dar. Wird insgesamt der Grad betrachtet, müssen wesentlich mehr Terme berücksichtigt werden. So würde sich für eine Feature Map mit dem Grad die Form


ergeben. Typischerweise wird eine Feature Map die Form


mit haben. Aus wird dann die erweiterten Datenmatrix für das oben beschriebene Gradientenabstiegsverfahren erstellt.