Kurs:Maschinelles Lernen/Ableitungen

Aus Wikiversity

Nächste Seite: K0 - Vektoren

Definiton[Bearbeiten]

Die Ableitung einer stetigen Funktion ist durch


definiert. Sie erlaubt es, die momentane Steigung einer Funktion an der Stelle und somit die Tangente der Funktion durch den Punkt zu bestimmen. Der Differenzenquotient


bestimmt an der Stelle die Steigung der Sekante durch die Punkte und .

Als Beispiel soll die Funktion


betrachtet werden. Für diese lässt sich


bestimmen. Wird der Differenzenquotient


gebildet, kann im Grenzfall die Ableitung


gefunden werden.

Aufgabe[Bearbeiten]

Bestimme mittels Differenzenquotient die Ableitung der Funktion

Lösungen

Liste wichtiger Ableitungen[Bearbeiten]

Regeln[Bearbeiten]

Ableitungen gehorchen den folgenden Regeln

  • Linearität
  • Produktregel
  • Kettenregel
  • Quotientenregel
  • Umkehrfunktionen

Die obenstehenden Regeln können aus der Definition der Ableitung hergeleitet werden. So kann beispielsweise für die Produktregel die Größe


gefunden und damit der Differenzenquotient


aufgestellt werden. Sind beide Funktionen differenzierbar, so existieren die Grenzwerte der beiden Brüche. Darüber hinaus ist eine Vorraussetzung für Differenzierbarkeit die Stetigkeit der Funktionen, so dass gegen konvergiert. Auf diese Weise kann im Grenzfall die Produktregel


gefunden werden.

Aufgaben[Bearbeiten]

Bestimme für



Lösungen

Extremstellen von Funktionen[Bearbeiten]

Extremstellen einer Funktion beschreiben ein lokales Minimum oder Maximum einer Funktion. An einer Extremstelle ist die Ableitung der Funktion immer Null. Mit der zweiten Ableitung kann geprüft werden, ob es sich um ein Minimum oder Maximum handelt. Ist die zweite Ableitung auch Null, kann es sich um einen Sattelpunkt handeln. Zur Übersicht kann die folgende Tabelle helfen.

Art der Stelle
Maximum
Minimum
Sattelpunkt

Aufgabe[Bearbeiten]

Bestimme das Paar für die Extremstelle der Funktion

Lösungen

Gradienten-Abstieg[Bearbeiten]

Es ist nicht immer möglich, mit einfachen Mitteln die Lage einer Extremstelle zu ermitteln. Als Beispiel kann die Funktion


betrachtet werden. Die Ableitung ist durch


gegeben und zum Finden der Nullstelle muss die Gleichung


gelöst werden. Mit elementaren Funktionen ist dies nicht möglich. (Tatsächlich kann diese Gleichung aber durch die eigens dafür definierte Lambert'sche W-Funktion gelöst werden)

Stattdessen kann ein iteratives Verfahren verwendet werden, um sich der Extremstelle zu nähern. Dazu wird an einem beliebigen Punkt gestartet. Häufig werden Probleme so formuliert, dass nur ein Minimum gesucht werden muss, und so soll es hier auch gemacht werden. Liegt leicht rechts eines Minimums, so ist die Steigung dort positiv. Liegt hingegen leicht links eines Minimums, so wird die Steigung dort negativ sein. Das Vorzeichen der Ableitung kann also verwendet werden, um die relative Lage eines neuen Punktes zu bestimmen. Dieser kann durch


mit einer festzulegenden Schrittweite festgelget werden.

Würde die Schrittweite auf einen konstanten Wert gesetzt werden, so würden für große Entfernungen vom Minimum genauso große Schritte gemacht werden, wie für kleine Entfernungen. Darüber hinaus könnte das Minimum entweder per Zufall getroffen werden oder es wird sich eine alternierende Folge zwischen zwei Werten rechts und links des Minimums einstellen. Stattdessen ist es sinnvoll, zu bemerken, dass die Ableitung in der Nähe des Minimums betragsmäßig besonders kleine Werte annimmt. Wird also proportional zu gewählt, so bleibt die Möglichkeit offen, dem Minimum beliebig nahe zu kommen. Auf diese Weise kann nach dem ersten Schritt die Stelle


ermittelt werden. Die Proportionalitätskonstante wird im Rahmen des maschinellen Lernens als Lernrate bezeichnet und zählt zu den sogenannten Hyperparamtern.

Das Verfahren kann nun von der Stelle ausgehend wiederholt werden. Auf diese Weise lässt sich iterativ eine Folge von Stellen


ermitteln, die bei geeigneter Wahl von und gegen die Lage des Minimums konvergieren sollte.

Da im Rahmen des maschinellen Lernens Funktionen mehrerer Variablen betrachtet werden, muss auch der Ableitungsbegriff erweitert werden. In diesem Zusammenhang wird der sogenannte Gradient eingeführt und bei diesem Verfahren vom Gradientenabstiegsverfahren gesprochen. Um einen ersten Eindruck dieses Verfahrens zu bekommen, können die GeoGebra-Datei Gradientenabstieg und das Jupyter Notebook Gradientenabstiegsverfahren betrachtet werden.