Kurs:Maschinelles Lernen/Ableitungen
Nächste Seite: K0 - Vektoren
Definiton
[Bearbeiten]Die Ableitung einer stetigen Funktion ist durch
definiert. Sie erlaubt es, die momentane Steigung einer Funktion an der Stelle und somit die Tangente der Funktion durch den Punkt zu bestimmen. Der Differenzenquotient
bestimmt an der Stelle die Steigung der Sekante durch die Punkte und .
Als Beispiel soll die Funktion
betrachtet werden. Für diese lässt sich
bestimmen. Wird der Differenzenquotient
gebildet, kann im Grenzfall die Ableitung
gefunden werden.
Aufgabe
[Bearbeiten]Bestimme mittels Differenzenquotient die Ableitung der Funktion
Liste wichtiger Ableitungen
[Bearbeiten]Regeln
[Bearbeiten]Ableitungen gehorchen den folgenden Regeln
- Linearität
- Produktregel
- Kettenregel
- Quotientenregel
- Umkehrfunktionen
Die obenstehenden Regeln können aus der Definition der Ableitung hergeleitet werden. So kann beispielsweise für die Produktregel die Größe
gefunden und damit der Differenzenquotient
aufgestellt werden. Sind beide Funktionen differenzierbar, so existieren die Grenzwerte der beiden Brüche. Darüber hinaus ist eine Vorraussetzung für Differenzierbarkeit die Stetigkeit der Funktionen, so dass gegen konvergiert. Auf diese Weise kann im Grenzfall die Produktregel
gefunden werden.
Aufgaben
[Bearbeiten]Bestimme für
Extremstellen von Funktionen
[Bearbeiten]Extremstellen einer Funktion beschreiben ein lokales Minimum oder Maximum einer Funktion. An einer Extremstelle ist die Ableitung der Funktion immer Null. Mit der zweiten Ableitung kann geprüft werden, ob es sich um ein Minimum oder Maximum handelt. Ist die zweite Ableitung auch Null, kann es sich um einen Sattelpunkt handeln. Zur Übersicht kann die folgende Tabelle helfen.
Art der Stelle | ||
---|---|---|
Maximum | ||
Minimum | ||
Sattelpunkt |
Aufgabe
[Bearbeiten]Bestimme das Paar für die Extremstelle der Funktion
Gradienten-Abstieg
[Bearbeiten]Es ist nicht immer möglich, mit einfachen Mitteln die Lage einer Extremstelle zu ermitteln. Als Beispiel kann die Funktion
betrachtet werden. Die Ableitung ist durch
gegeben und zum Finden der Nullstelle muss die Gleichung
gelöst werden. Mit elementaren Funktionen ist dies nicht möglich. (Tatsächlich kann diese Gleichung aber durch die eigens dafür definierte Lambert'sche W-Funktion gelöst werden)
Stattdessen kann ein iteratives Verfahren verwendet werden, um sich der Extremstelle zu nähern. Dazu wird an einem beliebigen Punkt gestartet. Häufig werden Probleme so formuliert, dass nur ein Minimum gesucht werden muss, und so soll es hier auch gemacht werden. Liegt leicht rechts eines Minimums, so ist die Steigung dort positiv. Liegt hingegen leicht links eines Minimums, so wird die Steigung dort negativ sein. Das Vorzeichen der Ableitung kann also verwendet werden, um die relative Lage eines neuen Punktes zu bestimmen. Dieser kann durch
mit einer festzulegenden Schrittweite festgelget werden.
Würde die Schrittweite auf einen konstanten Wert gesetzt werden, so würden für große Entfernungen vom Minimum genauso große Schritte gemacht werden, wie für kleine Entfernungen. Darüber hinaus könnte das Minimum entweder per Zufall getroffen werden oder es wird sich eine alternierende Folge zwischen zwei Werten rechts und links des Minimums einstellen. Stattdessen ist es sinnvoll, zu bemerken, dass die Ableitung in der Nähe des Minimums betragsmäßig besonders kleine Werte annimmt. Wird also proportional zu gewählt, so bleibt die Möglichkeit offen, dem Minimum beliebig nahe zu kommen. Auf diese Weise kann nach dem ersten Schritt die Stelle
ermittelt werden. Die Proportionalitätskonstante wird im Rahmen des maschinellen Lernens als Lernrate bezeichnet und zählt zu den sogenannten Hyperparamtern.
Das Verfahren kann nun von der Stelle ausgehend wiederholt werden. Auf diese Weise lässt sich iterativ eine Folge von Stellen
ermitteln, die bei geeigneter Wahl von und gegen die Lage des Minimums konvergieren sollte.
Da im Rahmen des maschinellen Lernens Funktionen mehrerer Variablen betrachtet werden, muss auch der Ableitungsbegriff erweitert werden. In diesem Zusammenhang wird der sogenannte Gradient eingeführt und bei diesem Verfahren vom Gradientenabstiegsverfahren gesprochen. Um einen ersten Eindruck dieses Verfahrens zu bekommen, können die GeoGebra-Datei Gradientenabstieg und das Jupyter Notebook Gradientenabstiegsverfahren betrachtet werden.