Kurs:Maschinelles Lernen/Neuronale Netze trainieren

Vorherige Seite: K4 - Grundidee der Neuronalen Netze
Nächste Seite : K5 - k-Means Algorithmus

Gradientenabstieg

Auch zum Trainieren Neuronaler Netze kann das Empirische Risiko ${\hat {R}}$ bei einem vorliegenden Datensatz mit Hilfe des Gradientenabstiegs trainiert werden. Da die Gewichte der einzelnen Schichten, die Parameter, die varriert werden, darstellen, müssen die Gradienten bzgl. dieser bestimmt werden. Da nun aber das Neuronale Netz durch eine Verkettung von Funktionen beschrieben wird, ist hierfür vor allem die allgemeine Kettenregel

 $f({\vec {x}}({\vec {t}}))\quad \Rightarrow \quad {\frac {\mathrm {d} f}{\mathrm {d} t_{i}}}=\sum _{k=1}^{d}{\frac {\partial f}{\partial x_{k}}}{\frac {\mathrm {d} x_{k}}{\mathrm {d} t_{i}}}$

benötigt.

Back Propagation

Um dies an einem Beispiel zu verdeutlichen wird ein Neuronales Netz mit $L=2$ Schichten betrachtet. In der ersten Schicht wird ein zweidimensionaler Vektor angenommen und auf einen zweidimensionalen Vektor abgebildet $S_{1}:\mathbb {R} ^{2}\to \mathbb {R} ^{2}$ , während die zweite und letzte Schicht einen einen zweidimensionalen Vektor entgegen nimmt und auf ein Zahl $x^{(2)}$ abbildet $S_{2}:\mathbb {R} ^{2}\to \mathbb {R}$ .

Zunächst lässt sich der Gradient bzgl. des eindimensionalen Verzerrungswvektors $w_{0}^{(2)}$ der letzten Schicht bestimmen. Die Abhängigkeit von diesem Vektor ist im empirischen Risiko im Ausgabewert $x^{(2)}$ vorhanden, so dass zunächst

 ${\frac {\mathrm {d} {\hat {R}}}{\mathrm {d} w_{0}^{(2)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}{\frac {\mathrm {d} x^{(2)}}{\mathrm {d} w_{0}^{(2)}}}$

bestimmt werden kann. Da sich $x^{(2)}$ durch

 $x^{(2)}=\phi _{2}(z^{(2)})$

mit

 $z^{(2)}={\underline {W}}^{(2)}{\vec {x}}^{(1)}+w_{0}^{(2)}$

ausdrücken lässt, kann so der Term

 ${\frac {\mathrm {d} x^{(2)}}{\mathrm {d} w_{0}^{(2)}}}={\frac {\mathrm {d} x^{(2)}}{\mathrm {d} z^{(2)}}}{\frac {\mathrm {d} z^{(2)}}{\mathrm {d} w_{0}^{(2)}}}=\phi _{2}'(z^{(2)})$

gefunden werden. In diesem speziellen Fall lässt sich dieser Term zwar allein durch die Ableitung der Aktivierungsfunktion bestimmen, es soll hier aber zunächst der allgemeinere Ausdruck

 ${\frac {\mathrm {d} {\hat {R}}}{\mathrm {d} w_{0}^{(2)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}{\frac {\mathrm {d} x^{(2)}}{\mathrm {d} z^{(2)}}}{\frac {\mathrm {d} z^{(2)}}{\mathrm {d} w_{0}^{(2)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}\phi '_{2}(z^{(2)})$

verwendet werden.

Da die Schicht $S_{2}$ einen zweidimensionalen Vektor auf eine Zahl abbildet, können die Gewichte durch einen Vektor ${\vec {w}}^{(2)}$ dargestellt werden. Durch eine ähnliche Rechnung, kann so

 ${\frac {\mathrm {d} {\hat {R}}}{\mathrm {d} w_{i}^{(2)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}{\frac {\mathrm {d} x^{(2)}}{\mathrm {d} z^{(2)}}}{\frac {\mathrm {d} z^{(2)}}{\mathrm {d} w_{i}^{(2)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}\phi '_{2}(z^{(2)})\cdot x_{i}^{(1)}$

gefunden werden. Hierin fällt auf, dass die ersten beiden Terme bereits für den Gradient bzgl. $w_{0}^{(2)}$ bestimmt wurden. Das heißt, wird der Gradient bzgl. $w_{0}$ ermittelt und die ersten beiden Terme berechnet, so müssen diese nicht erneut für den Gradienten bzgl. $w_{i}^{(2)}$ bestimmt werden. Auf diese Weise lassen sich Ressourcen sparen.

In der Schicht $S_{1}$ wird ein zweidimensionaler auf einen zweidimensionalen Vektor abgebildet. Es muss also ein Verzerrungsvektor ${\vec {w}}_{0}^{(1)}$ betrachtet werden. So kann für den Gradient bzgl. dieses Vektors zunächst der Ausdruck

 ${\frac {\mathrm {d} {\hat {R}}}{\mathrm {d} w_{0,i}^{(1)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}{\frac {\mathrm {d} x^{(2)}}{\mathrm {d} z^{(2)}}}{\frac {\mathrm {d} z^{(2)}}{\mathrm {d} w_{0,i}^{(1)}}}$

gefunden werden. Da $z^{(2)}$ von $x^{(1)}=\phi _{1}({\vec {z}}^{(1)})$ und dieses wiederum von den $w_{0,i}^{(1)}$ abhängt, kann dieser Ausdruck weiter auf

 ${\frac {\mathrm {d} {\hat {R}}}{\mathrm {d} w_{0,i}^{(1)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}{\frac {\mathrm {d} x^{(2)}}{\mathrm {d} z^{(2)}}}\sum _{j=1}^{2}{\frac {\mathrm {d} z^{(2)}}{\mathrm {d} x_{j}^{(1)}}}\sum _{k=1}^{2}{\frac {\mathrm {d} x_{j}^{(1)}}{\mathrm {d} z_{k}^{(1)}}}{\frac {\mathrm {d} z_{k}^{(1)}}{\mathrm {d} w_{0,i}^{(1)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}\phi '_{2}(z^{(2)})\cdot \sum _{j=1}^{2}w_{j}^{(2)}\left({\frac {\partial \phi _{1,j}}{\partial z_{i}^{(1)}}}\right)$

umgeformt werden. Auch hieran ist zu erkennen, dass die ersten beiden Terme wieder durch die vorherigen Berechnungen bekannt sind.

Schlussendlich ist noch der Gradient bezüglich der Matrixelemente $W_{il}^{(1)}$ zu bestimmen. Mit einer Ähnlichen Rechnung, kann hier der Ausdruck

 ${\frac {\mathrm {d} {\hat {R}}}{\mathrm {d} W_{il}^{(1)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}{\frac {\mathrm {d} x^{(2)}}{\mathrm {d} z^{(2)}}}\sum _{j=1}^{2}{\frac {\mathrm {d} z^{(2)}}{\mathrm {d} x_{j}^{(1)}}}\sum _{k=1}^{2}{\frac {\mathrm {d} x_{j}^{(1)}}{\mathrm {d} z_{k}^{(1)}}}{\frac {\mathrm {d} z_{k}^{(1)}}{\mathrm {d} W_{il}^{(1)}}}={\frac {\partial {\hat {R}}}{\partial x^{(2)}}}\phi '_{2}(z^{(2)})\cdot \sum _{j=1}^{2}w_{j}^{(2)}\left({\frac {\partial \phi _{1,j}}{\partial z_{i}^{(1)}}}\right)\cdot x_{l}^{(0)}$

gefunden werden. Auch hier zeigt sich, bis auf die letzte Ableitung, ist der gesamte Term bekannt.

Mit diesen Erkenntnissen lässt sich ein ressourcenschonendes Verfahren zum Trainieren Neuronaler Netze motivieren:

In jedem Schritt, werden die aktuellen Gewichte und Daten verwendet und das Ergebnis des Neuronalen Netzes ausgewertet. Das bedeutet, die Daten werden nach vorne durch das Neuronale Netz gegeben, es wird dementsprechend von einem Forward pass gesprochen. Dabei müssen zwangsläufig für alle Schichten ${\vec {z}}^{(l)}$ und ${\vec {x}}^{(l)}$ bestimmt werden. Diese werden bereits gespeichert.
Danach wird das Neuronale Netz rückwärts durchlaufen und mit den gefundenen Werten für ${\vec {z}}^{(l)}$ und ${\vec {x}}^{(l)}$ ausgewertet. Die einzelnen Terme werden wieder gespeichert und können für Berechnungen weiterer Terme verwendet werden. Es wird hier von der Back Propagation gesprochen.
Sind alle Gradienten bestimmt, kann der Gradientenabstieg durchgeführt werden.