Kurs:Maschinelles Lernen/Grundidee der Neuronalen Netze

Vorherige Seite: K3 - Klassifikation mittels Support Vector Machines
Nächste Seite: K4 - Neuronale Netze trainieren

Idee

Bisher wurden Vorhersagen oder Entscheidungsregeln durch das Lösen von Optimierungsproblemen behandelt. Stattdessen könnte aber der Frage nachgegangen werden, wie menschliches Lernen bzw. Denken möglich ist und sich von entsprechenden Beispielen aus der Natur inpsirieren zu lassen. Es kann dann versucht werden, die gewonnen Erkenntnisse in ein Modell umzusetzen, dass sich im Computer implementieren lässt.

So kann zum Beispiel ein sehr vereinfachtes Modell eines Neurons betrachtet werden. Dieses verfügt über Dendrite die Signale einsammeln und an das Soma weiterleiten. Dort werden diese verarbeitet. Das Axon leitet dann ein Signal weiter, wenn eine bestimmte Schwelle von den Signalen im Soma überschritten wurde. Daraus wurde um 1957 herum das Perzepton von Frank Rosenblatt entwickelt.

Ein solches Perzeptron verfügt über $d$ Dendrite, die jeweils eine Zahl $x\in \mathbb {R}$ als Eingabe entgegen nehmen und an das Soma weiterleiten. Das Eingabeobjekt des Perzeptrons ist damit ein Vektor ${\vec {x}}\in \mathbb {R} ^{d}$ . Im Soma werden diese mit Gewichten ${\vec {w}}\in \mathbb {R} ^{d}$ und $w_{0}\in \mathbb {R}$ zu einer neuen Ausgabe

 $z=w_{0}+{\vec {w}}\cdot {\vec {x}}=\sum _{i=0}^{d}w_{i}x_{i}$

weiter verarbeitet. Hierfür wird wie üblich $x_{0}=1$ betrachtet. Das Axon verfügt über eine Aktivierungsfunktion

 $\phi :\mathbb {R} \to \mathbb {R} ,\,\,z\mapsto \phi (z)$

bei der es sich Beispielsweise um die Sigmoid-Funktion handeln kann.

Aufbau von Netzen

In biologischen Systemen finden die Denkprozesse nicht in isolierten Neuronen statt sondern durch die Vernetzung dieser untereinander. Aus diesem Grund erscheint es sinnvoll das Modell dahingehend auszuweiten, dass es mehrere Neuronen (sprich mehrere Somata mit je einem Axon) gibt, welche neue Ausgabewerte $y_{i}$ generieren. Da jedes dieser Somata mit eigenen Gewichten bedacht ist, würde sich für deren Ausgabe der Ausdruck

 $z_{i}=w_{0,i}+{\vec {w}}_{i}{\vec {x}}=w_{0,i}+\sum _{j=1}^{d}w_{ij}x_{j}=w_{0,i}+({\underline {W}}{\vec {x}})_{i}$

ergeben. Wodurch sich $d_{n}$ solcher nebeneinander angeordneter Neuronen durch einen Vektor ${\vec {w}}_{0}$ und eine Gewichtsmatrix ${\underline {W}}$ beschreiben lassen. Die schlussendliche Ausgabe der Axonen geschieht erneut durch das auswerten von Aktivierungsfunktionen. Typischerweise wird für alle Axonen die selbe Aktivierungsfunktion

 $\phi :\mathbb {R} ^{d_{n}}\to \mathbb {R} ^{d_{n}}$

verwendet. Manchmal werden auch etwas salopp Ausdrücke wie $\mathrm {sig} ({\vec {x}})$ geschrieben, womit eine komponentenweise Auswertung der Sigmoidfunktion gemeint ist.

Eine solche Anordnung von $d_{n}$ Neuronen nebeneinander wird als eine Schicht bezeichnet. Die Anzahl $d_{n}$ ist die Breite dieser Schicht. Es ist nun möglich die entstandene Ausgabe als eine neue Eingabe für eine weitere Schicht zu verwenden. Auf diese Weise können mehrere Schichten hintereinander gesetzt werden. Die Anzahl der Schichten $L$ wird als Tiefe eines Neuronalen Netzes bezeichnet.

Mathematische Beschreibung

In einem Neuronalen Netz mit $L$ Schichten, kann jede Schicht mit $1\leq l\leq L$ durch eine Funktion

 $S_{l}:\mathbb {R} ^{d_{l-1}}\to \mathbb {R} ^{d_{l}},\,\,{\vec {x}}\mapsto S_{l}({\vec {x}})=\phi _{l}({\underline {W}}^{(l)}{\vec {x}}+{\vec {w}}_{0}^{(l)})$

mit der Aktivierungsfunktion

 $\phi _{l}:\mathbb {R} ^{d_{l}}\to \mathbb {R} ^{d_{l}},$

der Gewichtematrix ${\underline {W}}^{(l)}$ und dem Verzerrungsvektor ${\vec {w}}_{0}^{(l)}$ beschrieben werden. Da die Vektoren von Schicht zu Schicht nach vorne weiter gereicht werden, wird von einem Forward Pass gesprochen. Ein solches Netzt wird als vorwärtsgerichtetes Neuronales Netz bezeichnet. Eine jede Ausgabe einer Schicht kann durch

 ${\vec {x}}^{(l)}=S_{l}({\vec {x}}^{(l-1)})$

beschrieben werden. Häufig ist es praktisch zusätzlich die Größe

 ${\vec {z}}^{l}={\underline {W}}^{(l)}{\vec {x}}^{(l-1)}+{\vec {w}}_{0}^{(l)}$

zu definieren und den Zusammenhang

 ${\vec {x}}^{(l)}=\phi _{l}({\vec {z}}^{l})$

zu verwenden.

Ist die Anzahl der Schichten $L>2$ so wird von Deep Learning gesprochen.

Allgemeine Bemerkungen zu Neuronalen Netzen

Es zeigt sich, dass es sinnvoll ist, Neuronale Netze eher in die Tiefe als in die Breite zu entwerfen.
Der spezielle Aufbau eines Neuronalen Netzes wird als Architektur bezeichnet. Die Wahl von bspw. Tiefe und Breite sind dann Hyperparameter des vorliegenden Modells
Bei geeigneter Architektur muss kein Feature Engineering betrieben werden, da das Neuronale Netze dieses quasi "von selbst" durchführt.
Die nicht linearen Aktivierungsfunktionen der Axone sind unerlässlich, da sonst alles auf eine einzige Schicht kollabiert.
Es gibt eine Vielzahl verwendeter Aktivierungsfunktionen, die bspw. auf dem Wikipedia-Beitrag zu künstlichen Neuronen eingesehen werden können.