Zum Inhalt springen

Kurs:Maschinelles Lernen/Lineare Regression in d Dimension

Aus Wikiversity

Vorherige Seite: K2 - Lineare Regression in einer Dimension
Nächste Seite: K2 - Feature Engineering

Verallgemeinerung auf Dimensionen

[Bearbeiten]

Wie lässt sich nun eine lineare Regression anwenden, wenn und vorliegt? In einem solchen Fall, kann für ein lineares Modell die Hypothese


mit , und verwendet werden.

Darstellung als Skalarprodukt

[Bearbeiten]

Die obige Notation der Abbildung durch ein Skalarprodukt mit , und ausgedrückt werden:


Empirisches Risiko

[Bearbeiten]

Damit ist das empirische Risiko durch


gegeben und muss für alle Komponenten von minimiert werden. Es müssen also alle Ableitungen von nach für verschwinden. Daraus lassen sich die Bedinungen


herleiten. Bei diesen handelt es sich um ein lineares Gleichungssystem, das bspw. durch den Gauß-Algorithmus gelöst werden kann. Allerdings wird das Verfahren auf der nächsten Seite (Feature Engineering) so erweitert, dass keine linearen Systeme mehr auftreten, weshalb hier eine etwas andere Methode verwendet werden soll.

Gradienten-Abstiegsverfahren

[Bearbeiten]

Die Ableitungen des empirischen Risikos nach den einzelnen Parametern können auch als ein Vektor der Form


zusammen gefasst werden. Dieser Vektor wird als Gradient bezeichnet und zeigt in die Richtung des stärksten Anstiegs des empirischen Risikos. Damit zeigt sein negatives aber auch in jene Richtung, in der das empirische Risiko am stärksten abnimmt. Genau wie im Abschnitt über Ableitungen lässt sich so ein iteratives Verfahren für die Gewichte in der Form


aufstellen. Dieses wird als Gradientenabstieg bezeichnet. Die Proportionalitätskonstante wird als Lernrate bezeichnet und ist ein Hyperparameter. Typische Werte für die Lernrate liegen bei . Die hier vorgestellte Iteration ist ein naiver Gradientenabstieg. Es kann passieren, dass dieser gar nicht oder nur sehr langsam zum gesuchten globalen Minimum führt. Stattdessen, kann auch ein stochastischer Gradientenabstieg mit einer Auswertung an einem einzelnen Datenpunkt oder mit einer Teilmenge des gesamten Datensatzes (einem Batch) durchgeführt werden. (Dann wird zwischen Iterationen und Epochen unterschieden: Iterationen sind die Anzahl der Updates der Gewichte, während die Zahl der Epochen angibt, wie oft der gesamte Datensatz zum Trainieren verwendet wurde)

Es lässt sich zeigen, dass bei einer linearen Regression der Gradient des empirischen Risikos mit der erweiterten Datenmatrix und dem Ergebnisvektor durch


dargestellt werden kann, wobei häufig der Faktor in der Praxis unterdrückt wird.