Kurs:Optimierung II/Das Gradientenverfahren

Nachdem nun eine Reihe von Schrittweitenregeln zur Verfügung stehen, kehren wir wieder zu dem eigentlichen Problem zurück, zur Lösung der unrestringierten Optimierungsaufgabe

(P):{\text{ Minimiere }}f(x){\mbox{ über alle }}x\in \mathbb {R} ^{n},

wobei wir hier generell die Voraussetzungen (V1) - (V3) aus Abschnitt 2.3 als erfüllt ansehen. Ziel ist es, einen kritischen Punkt von $f$ zu bestimmen, welcher möglichst ein lokaler Minimalpunkt von $f$ sein sollte, aber im Einzelfall auch ein Sattelpunkt von $f$ sein mag. Dabei gehen wir von dem Modellalgorithmus 2.5 aus, den wir uns mit einer für das ganze Verfahren fest gewählten Schrittweitenregel verbunden denken. In diesem und den folgenden Kapiteln 5 bis 8 wollen wir nun spezielle Verfahren diskutieren, indem wir unterschiedliche Vorschriften für die Richtungswahl im Algorithmus festlegen.

Das einfachste aller Verfahren zur Lösung von $(P)$ ist das Gradientenverfahren, bei dem man in einem nichtkritischen Punkt $x^{k}$ die Richtung

p^{k}:=-\nabla f(x^{k})

wählt. Offenbar ist in diesem Fall $\nabla f(x^{k})^{T}p^{k}<0$ und damit $p^{k}$ gemäß Lemma 2.2 Abstiegsrichtung für $f$ in $x^{k}$ (vgl. Beispiel 2.3). Das Gradientenverfahren mit einer semieffizienten Schrittweitenregel lautet demnach:

Algorithmus 4.1 (Gradientenverfahren)

(0) Wähle eine semieffiziente Schrittweitenregel und ein

x^{0}\in \mathbb {R} ^{n}

. Setze

k:=0

.

(1) Falls

\nabla f(x^{k})=0

ist, stop! (

x^{k}

ist kritische Lösung von Problem

(P)

.)

(2) Setze

p^{k}:=-\nabla f(x^{k})

.

(3) Bestimme eine Schrittweite

t_{k}>0

gemäß der Schrittweitenregel und setze

x^{k+1}:=x^{k}+t_{k}p^{k}.

(4) Setze

k:=k+1

und gehe nach (1).

Im Hinblick auf die folgenden Konvergenzaussagen können wir das Gradientenverfahren tatsächlich mit einer beliebigen semieffizienten Schrittweitenregel verknüpfen. Denn in diesem Fall sind mit

H_{k}:=I,\quad m=M:=1

die Voraussetzungen von Satz 2.17 erfüllt, so dass wir aus diesem Satz unmittelbar die folgende Konvergenzaussage schließen können.

Satz 4.2

Die Voraussetzungen (V1) - (V3) seien erfüllt. Bricht Algorithmus 4.1 nicht nach endlich vielen Schritten ab, so erzeugt er eine unendliche Folge $\left\{x^{k}\right\}$ , für welche gilt:

(i) Jeder Häufungspunkt von $\left\{x^{k}\right\}$ ist kritische Lösung von $(P)$ .

(ii) Besitzt $(P)$ genau eine kritische Lösung $x^{*}$ , so ist $\lim _{k\to \infty }x^{k}=x^{*}$ .

(iii) Ist zusätzlich (V4) erfüllt, so folgt $\lim _{k\to \infty }x^{k}=x^{*}$ und gilt dann mit der Konstante $\vartheta >0$ aus (2.24) für die Schrittweitenregel und mit einem $c>0$

(4.1)

0\leq f(x^{k+1})-f(x^{*})\leq (1-2\beta \vartheta )\left[f(x^{k})-f(x^{*})\right],\quad k\in \mathbb {N} _{0}

sowie

(4.2)

\left\|x^{k}-x^{*}\right\|\leq c\left({\sqrt {1-2\beta \vartheta }}\right)^{k},\quad k\in \mathbb {N} _{0}.

Das Gradientenverfahren konvergiert also für jede der in Kapitel 3 vorgestellten Schrittweitenregeln. Sind die Voraussetzungen (V1) - (V4) erfüllt, so konvergiert sogar die gesamte Iteriertenfolge und konvergiert die zugehörige Folge der Funktionswerte mindestens linear. Langsame Konvergenz ist offenbar zu befürchten, wenn die Konstante $2\beta \vartheta$ sehr klein ist ("zu befürchten", da die Abschätzung in (4.1) ja im Einzelfall sehr grob sein kann). Die Konstante $\vartheta$ hängt dabei von der gewählten Schrittweitenregel ab und kann den entsprechenden Sätzen in Kapitel 3 entnommen werden. Insbesondere hat man für die exakten Schrittweiten gemäß Satz 3.3

(4.3)

\vartheta :=\vartheta _{M}=\vartheta _{C}={\frac {1}{2\gamma }}

Für diese Schrittweiten muss man also mit langsamer Konvergenz des Gradientenverfahrens rechnen, wenn die Zahl $\beta /\gamma$ sehr klein ist.

Wir wollen nun das Gradientenverfahren mit einer exakten Schrittweite noch genauer für den Fall untersuchen, dass es auf eine quadratische Funktion

(4.4)

f(x):={\frac {1}{2}}x^{T}Qx+c^{T}x+\alpha ,\quad x\in \mathbb {R} ^{n}

mit positiv definiter Matrix $Q$ angewendet wird. Gemäß (2.14) ist in diesem Fall $\operatorname {cond} (Q)=\gamma /\beta$ die Kondition von $Q$ bezüglich der Spektralnorm und implizieren daher (4.1) und (4.2) mit (4.3) die Abschätzungen

0\leq f(x^{k+1})-f(x^{*})\leq \left({\frac {\operatorname {cond} (Q)-1}{\operatorname {cond} (Q)}}\right)\left[f(x^{k})-f(x^{*})\right],\quad k\in \mathbb {N} _{0}

und

\left\|x^{k}-x^{*}\right\|\leq c\left({\sqrt {\frac {\operatorname {cond} (Q)-1}{\operatorname {cond} (Q)}}}\right)^{k},\quad k\in \mathbb {N} _{0}.

Diese Abschätzungen können noch etwas verbessert werden zu

(4.5)

f(x^{k+1})-f(x^{*})\leq \left({\frac {\operatorname {cond} (Q)-1}{\operatorname {cond} (Q)+1}}\right)^{2}\left[f(x^{k})-f(x^{*})\right],\quad k\in \mathbb {N} _{0}

und mit einer Konstante ${\tilde {c}}>0$ zu

(4.6)

\left\|x^{k}-x^{*}\right\|\leq {\tilde {c}}\left({\frac {\operatorname {cond} (Q)-1}{\operatorname {cond} (Q)+1}}\right)^{k},\quad k\in \mathbb {N} _{0}

(Übung!). Die Abschätzungen beschreiben zwar nur ein mögliches "worst case" Verhalten des Gradientenverfahrens, sein reales Verhalten kommt diesem jedoch leider oft sehr nahe. Es muss demnach mit um so langsamerer Konvergenz der Folge der Funktionswerte $\left\{f(x^{k})\right\}$ gerechnet werden, je größer die Kondition von $Q$ ist.

Die Konvergenzaussagen für quadratische Funktionen gelten qualitativ auch für jeden lokalen Minimalpunkt $x^{*}$ einer beliebigen Funktion $f\in C^{2}(\mathbb {R} ^{n})$ , in dem die hinreichenden Optimalitätsbedingungen zweiter Ordnung aus Satz 1.14 erfüllt sind. Denn in einem solchen Fall kann $f$ in der Umgebung von $x^{*}$ durch das quadratische Taylor-Polynom

(4.7)

q^{*}(x):=f(x^{*})+\nabla f(x^{*})^{T}(x-x^{*})+(x-x^{*})^{T}\nabla ^{2}f(x^{*})(x-x^{*})

mit positiv definiter Matrix $\nabla ^{2}f(x^{*})$ angenähert werden. Langsame Konvergenz des Gradientenverfahrens ist dann für $f$ zu erwarten, wenn die Kondition der Hesse-Matrix $\nabla ^{2}f(x^{*})$ groß ist.

Beispiel 4.3

Das Gradientenverfahren mit exakter Schrittweite sei auf die quadratische Funktion

f(x):={\frac {1}{2}}x^{T}Qx{\text{ mit }}Q:={\begin{pmatrix}2&0\\0&2\cdot 10^{3}\end{pmatrix}}{\text{ und }}x\in \mathbb {R} ^{2}

angewendet. Das Problem $(P)$ hat für dieses $f$ die Lösung $x^{*}:=0$ und den Minimalwert $f(x^{*})=0$ . Die Kondition von $Q$ ist mit $\operatorname {cond} (Q)=10^{3}$ in diesem Fall nicht sehr groß (vgl. Beispiel 2.7). Für die in (4.5) und (4.6) vorkommende Konstante ergibt sich damit aber

{\frac {\operatorname {cond} (Q)-1}{\operatorname {cond} (Q)+1}}=0.9980,

was auf mögliche langsame Konvergenz hinweist.

Wir wollen uns die Iteriertenfolge genauer anschauen. Es ist in diesem Fall

p:=-\nabla f(x)=-Qx,

womit wir gemäß (3.5) für die Minimumschrittweite erhalten:

t_{M}(x,p)=-{\frac {\nabla f(x)^{T}p}{p^{T}Qp}}={\frac {x^{T}Q^{2}x}{x^{T}Q^{3}x}}={\frac {x_{1}^{2}+10^{6}x_{2}^{2}}{2(x_{1}^{2}+10^{9}x_{2}^{2})}}.

Mit $t_{k}:=t_{M}(x^{k},p^{k})$ folgt weiter

x^{k+1}=x^{k}-t_{k}Qx^{k}=(I-t_{k}Q)x^{k}={\begin{pmatrix}1-\rho _{k}&0\\0&1-10^{3}\rho _{k}\end{pmatrix}}x^{k}

für

\rho _{k}:=2t_{k}={\frac {x_{1}^{2}+10^{6}x_{2}^{2}}{x_{1}^{2}+10^{9}x_{2}^{2}}}.

Startet man nun das Gradientenverfahren mit $x^{0}:=(1,10^{-3})^{T}$ , so ist $\rho _{0}\approx 2\cdot 10^{-3}$ und damit

(x_{1}^{1},x_{2}^{1})^{T}\approx (x_{1}^{0},-x_{2}^{0})^{T}.

Weiter ist damit $\rho _{1}\approx \rho _{0}$ und somit

(x_{1}^{2},x_{2}^{2})^{T}\approx (x_{1}^{0},x_{2}^{0})^{T}.

Der Fortschritt des Gradientenverfahrens dürfte also sehr gering ausfallen. Konkret ergeben sich für die ersten Iterierten die in unten stehender Tabelle angegebenen Zahlen. Startet man allerdings das Gradientenverfahren mit dem Punkt $x^{0}:=(0,1)^{T}$ und $f(x^{0})=1000$ , so ist $\rho _{0}=10^{-3}$ und damit $x^{1}=0=x^{*}$ . Die Lösung des Problems wird also in diesem Fall mit einer Iteration des Verfahrens erreicht.

{\begin{array}{|c|c|c|c|c|}\hline k&x_{1}^{k}&x_{2}^{k}&f(x_{1}^{k},x_{2}^{k})&\rho _{k}\\\hline \hline 0&1.000\ 000&0.001\ 000&1.001\ 000&0.001\ 998\\\hline 1&0.998\ 002&-0.000\ 998&0.997\ 004&0.001\ 998\\\hline 2&0.996\ 008&+0.000\ 996&0.993\ 024&0.001\ 998\\\hline 3&0.994\ 018&-0.000\ 994&0.989\ 060&0.001\ 998\\\hline \end{array}}

Das im letzten Beispiel gezeigte Verhalten des Gradientenverfahrens kann man in der Praxis häufig beobachten. Nachdem das Verfahren, wenn man entfernt von der Lösung startet, über einige Iterationen hinweg manchmal gute Fortschritte erzielt, kann es in der Nähe einer Lösung oft inakzeptabel langsam werden. (Mit einer Iteration ist hier - und analog bei anderen Verfahren - ein Durchlauf der Schritte (1) bis (4) des Algorithmus 4.1 gemeint.) Dennoch gab es bis ca. 1960 zum Gradientenverfahren keine nennenswerte Alternative.