Benutzer:Stepri2005/Kurs:Optimierung II/Einführung
In diesem Kapitel stellen wir einige Ergebnisse aus der Optimierung I zusammen, wobei wir einige von ihnen auf den Spezialfall der in diesem Kurs behandelten unrestringierten Optimierung einschränken.
1.1 Einleitung
[Bearbeiten]In diesem Kurs werden Algorithmen zur Lösung des unrestringierten (stetigen) Optimierungsproblems
für eine stetige Zielfunktion in Veränderlichen untersucht. Der Einfachheit halber fordern wir im Allgemeinen, dass die in einem Problem vorkommenden Funktionen auf dem ganzen definiert sind und dort die gewünschten Differenzierbarkeitseigenschaften haben. Es würde in den meisten Fällen reichen, diese Eigenschaften nur auf einer offenen Umgebung der betrachteten lokalen Lösung zu fordern. Das Wort „“, abgekürzt „“, ist wieder als Aufforderung und nicht als „“ im mathematischen Sinne von Minimum zu verstehen. Die Aufgabe ist demnach gleichbedeutend mit dem Problem
und es nicht unbedingt von Vorneherein klar, ob auf einen kleinsten Funktionswert besitzt. Falls sein Minimum auf in einem Punkt annimmt, dann kann das Problem bekanntlich auch in der Form
geschrieben werden.
Ein unrestringiertes Maximierungsproblem kann aufgrund der Identität
- (1.1)
in ein Minimierungsproblem umgeschrieben werden, so dass es genügt, nur Minimierungsprobleme zu betrachten. Den Wert
- (1.2)
bezeichnen wir wieder als den Minimalwert von Problem . Es sei ergänzt, dass man für setzt:
Da es uninteressant ist, eine lineare Funktion über dem ganzen zu minimieren (warum?), können wir implizit annehmen, dass nichtlinear ist. Ist eine konvexe Funktion, so handelt es sich offenbar bei um ein spezielles konvexes Optimierungsproblem. In diesem Zusammenhang wiederholen wir nochmals:
Definition 1.1
[Bearbeiten]- Eine Menge heißt konvex, wenn gilt:
Definition 1.2
[Bearbeiten]- Sei eine Funktion und eine konvexe Menge.
- (i) heißt konvex auf , falls gilt:
- (1.3)
- (ii) heißt strikt konvex auf , falls gilt:
- (iii) heißt gleichmäßig konvex auf , falls eine Konstante , genannt (gleichmäßige) Konvexitätskonstante, existiert, so dass gilt:
- (1.4)
- (iv) heißt konkav (strikt konkav, gleichmäßig konkav) auf , wenn konvex (strikt konvex, gleichmäßig konvex) auf ist.
- Falls ist, kann in (i) - (iv) der Zusatz „auf “ fortgelassen werden.
Weiter heißt eine reellwertige Funktion der Gestalt
- (1.5)
mit und affin oder affn-linear und im Fall auch linear. Der Einfachheit halber sprechen wir häufig auch bei von einer Funktion, obwohl es sich dabei streng genommen um den Funktionswert einer Funktion handelt. Affin-lineare Funktionen sind sowohl konvex als auch konkav, aber nicht gleichmäßig konvex.
Wichtig sind noch die Charakterisierungen konvexer Funktionen durch erste und zweite Ableitungen, welche in den folgenden beiden Sätzen zusammengefasst sind:
Satz 1.3
[Bearbeiten]- Sei konvex und . (Mit bezeichnen wir die Menge aller auf einer offenen Obermenge von -mal stetig differenzierbaren Funktionen , wobei von abhängen darf.) Dann gilt:
- (i) ist auf genau dann konvex, wenn gilt:
- (1.6)
- (ii) ist auf genau dann strikt konvex, wenn gilt:
- (iii) ist auf genau dann gleichmäßig konvex mit Konstante , wenn gilt:
Satz 1.4
[Bearbeiten]- Sei konvex und . Dann gilt:
- (i) Ist für alle positiv semidefinit, so ist konvex auf .
- (ii) Ist für alle positiv definit, so ist strikt konvex auf .
- (iii) Gibt es eine Konstante , so dass
- (1.7)
- gilt, so ist gleichmäßig konvex auf mit Konstante .
- (iv) Ist offen, so gelten auch die Umkehrungen von (i) und (iii).
Mit
für ein bezeichnen wir die offene -Umgebung von . Weiter verwenden wir die folgenden Definitionen.
Definition 1.5
[Bearbeiten]- (i) heißt globale Lösung von Problem , falls
- gilt und strikt globale Lösung im Fall
- (ii) heißt lokale Lösung von Problem , falls ein existiert, so dass
- (1.8)
gilt und strikt lokale Lösung im Fall
- Statt von einer Lösung spricht man auch von einem Minimalpunkt oder einem Minimierer.
Im Fall, dass eine lokale oder globale Lösung von Problem ist, sagt man auch, dass bzw. sein lokales bzw. globales Minimum in annimmt. Wir unterscheiden hier also zwischen einem Minimierer von , einem Punkt, und einem Minimum von , d. h. dem zugehörigen Funktionswert.
Jede globale Lösung von Problem ist gemäß Definition 1.5 auch eine lokale Lösung des Problems. Konvexe Probleme besitzen die wichtige Eigenschaft, dass für sie umgekehrt auch jede lokale Lösung eine globale Lösung ist:
Satz 1.6
[Bearbeiten]- Es sei eine konvexe Funktion. Dann gilt:
- (i) Jede (strikt) lokale Lösung von Problem ist auch (strikt) globale Lösung.
- (ii) Ist strikt konvex, dann besitzt Problem höchstens eine globale Lösung.
- (iii) Die Menge aller globalen Lösungen von Problem ist konvex und abgeschlossen.
Im konvexen Fall brauchen wir also nicht zwischen lokalen und globalen Lösungen von Problem zu unterscheiden und sprechen wir daher oft auch nur von Lösungen. Man denke jedoch daran, dass eine auf dem strikt konvexe Funktion keinen Minimalpunkt haben muss (z. B. ). Wenn eine stetige, strikt konvexe Funktion aber einen Minimalpunkt besitzt, dann ist er gemäß dem letzten Satz eindeutig.
Für den Nachweis der Existenz eines Minimalpunktes von im Fall des unrestringierten Optimierungsproblems lässt sich der Satz von Weierstraß nicht anwenden, weil der zulässige Bereich dieses Problems nicht beschränkt und damit nicht kompakt ist. Eine Teilmenge des ist genau dann kompakt, wenn sie abgeschlossen und beschränkt ist. Bekanntlich genügt es jedoch für den Nachweis der Existenz einer Lösung , dass die Niveaumenge
für ein beschränkt ist. Für diese Menge hat man:
Lemma 1.7
[Bearbeiten]- Seien und . Dann gilt:
- (i) Es ist .
- (ii) Ist konvex, so ist eine konvexe Menge.
- (iii) ist abgeschlossen.
Weiter war in Optimierung I gezeigt worden:
Satz 1.8
[Bearbeiten]- Es seien und . Ist die Niveaumenge beschränkt, dann besitzt das Problem eine globale Lösung.
Für konvexe Optimierungsprobleme mit einer differenzierbaren, gleichmäßig konvexen Zielfunktion kann die Existenz garantiert werden.
Satz 1.9
[Bearbeiten]- Es seien und eine auf gleichmäßig konvexe Funktion. Dann folgt:
- (i) Die Menge ist kompakt.
- (ii) Das Problem besitzt genau eine Lösung.
1.2 Positiv definite Matrizen und quadratische Funktionen
[Bearbeiten]Wenn nichts anderes gesagt ist, meinen wir mit die Euklidische Vektornorm bzw. die durch sie induzierte Matrixnorm, die Spektralnorm. Eine symmetrische Matrix ist genau dann positiv definit, wenn alle ihre Eigenwerte positiv sind und damit ihr kleinster Eigenwert größer als Null ist. Sie ist folglich insbesondere nichtsingulär. Ist ihr größter Eigenwert, so ist weiter der kleinste und der größte Eigenwert von . Demnach ist auch eine symmetrische, positiv definite Matrix. Für die Kondition von hinsichtlich der Spektralnorm gilt somit
- (1.9)
Weiter benötigen wir die folgenden Resultate aus der Optimierung I.
Lemma 1.10
[Bearbeiten]- Für eine symmetrische Matrix gilt
- (1.10)
- Im Fall, dass positiv definit ist, hat man ferner
- (1.11)
Lemma 1.11
[Bearbeiten]- Ist eine symmetrische, positiv semidefinite Matrix und , dann ist die Matrix symmetrisch und positiv semidefinit. Ist überdies positiv definit und , dann ist auch positiv definit.
Von zentralem Interesse in der Optimierung sind quadratische Funktionen. Denn jede zweimal stetig differenzierbare Funktion lässt sich nach dem Satz von Taylor durch eine quadratische Funktion lokal annähern.
Definition 1.12
[Bearbeiten]- Unter einer quadratischen Funktion versteht man eine Funktion , welche durch
- (1.12)
- definiert ist, wobei und eine symmetrische Matrix ist.
Für die quadratische Funktion in (1.12) hat man
- (1.13)
Der Faktor vor dem quadratischen Term in (1.12) bewirkt also, dass der Gradient und die Hesse-Matrix von keinen Faktor vor enthalten. Für quadratische Funktionen hat man weiter:
Lemma 1.13
[Bearbeiten]- Für die quadratische Funktion in (1.12) gilt:
- (i) ist genau dann konvex, wenn positiv semidefinit ist.
- (ii) ist genau dann gleichmäßig konvex, wenn positiv definit ist.
- (iii) Wenn gleichmäßig konvex ist, so ist
- (1.14)
- die größtmögliche Konvexitätskonstante für .
1.3 Optimalitätskriterien
[Bearbeiten]Zur Berechnung und Identifizierung einer Lösung ist die von der Anschauung her natürliche Definition 1.5 einer lokalen bzw. globalen Lösung eines Optimierungsproblems im Allgemeinen nicht geeignet. Daher interessieren notwendige und hinreichende Optimalitätskriterien dafür, dass in einem Punkt eine lokale bzw. globale Lösung des gegebenen Problems vorliegt. Für das unrestringierte Optimierungsproblem
hat man bekanntlich die folgenden Optimalitätskriterien.
Satz 1.14
[Bearbeiten]- (i) (Notwendige Optimalitätsbedingung erster Ordnung)
Es sei lokale Lösung von Problem und . Dann ist - (ii) (Notwendige Optimalitätsbedingungen zweiter Ordnung)
Es sei lokale Lösung von Problem und . Dann gilt:- ist positiv semidefinit.
- (iii) (Hinreichende Optimalitätsbedingungen zweiter Ordnung)
Es sei und für gelte- ist positiv definit.
- Dann ist strikt lokale Lösung von Problem .
In diesem Zusammenhang definieren wir:
Definition 1.15
[Bearbeiten]- Es sei .
- (i) Ein Punkt mit heißt stationärer oder kritischer Punkt von bzw. stationäre oder kritische Lösung von Problem .
- (ii) Ein stationärer Punkt von , der weder lokaler Minimalpunkt noch lokaler Maximalpunkt von ist, heißt Sattelpunkt.
Wir geben einige Beispiele kritischer Punkte.
Beispiel 1.16
[Bearbeiten]Wir untersuchen die kritischen Punkte der drei auf definierten Funktionen
Die Gradienten dieser Funktionen lauten
Demnach ist in allen drei Fällen der einzige kritische Punkt. Die Hesse-Matrizen der Funktionen in diesem Punkt sind gegeben durch
Da Eigenwerte entgegengesetzten Vorzeichens aufweist, können wir durch Anwendung von Satz 1.14 auf und schließen, dass ein Sattelpunkt von ist. ( nimmt in entlang der -Richtung ein Minimum und entlang der -Richtung ein Maximum an.) Dagegen liefert Satz 1.14 für und keine Aussage über , denn die Matrizen und sind zwar positiv semidefinit, aber nicht positiv definit. In der Tat hat offenbar in einen Sattelpunkt und dort einen Minimalpunkt.
Eine Funktion kann natürlich mehrere lokale Minimal- und Maximalpunkte sowie Sattelpunkte besitzen. Für konvexe Probleme können wir aber aus den bisherigen Ergebnissen die folgende wichtige Information ableiten.
Korollar 1.17
[Bearbeiten]- Es sei konvex. Dann ist genau dann Lösung von Problem , wenn ist.
Dies folgt aus den Sätzen 1.14 und 1.3, wenn man in (1.6) setzt und berücksichtigt. Aus Korollar 1.17 zusammen mit Satz 1.9 (für ) können wir ferner schließen:
Korollar 1.18
[Bearbeiten]- Ist gleichmäßig konvex auf der Niveaumenge für ein , so existiert genau ein mit und ist die eindeutige Lösung von Problem .
1.4 Konvergenzraten
[Bearbeiten]Zuletzt wollen wir die Definitionen der wichtigsten Konvergenzraten und einige ihrer Eigenschaften wiederholen, wobei eine beliebige Norm auf dem sei. (Konvergenz im hinsichtlich einer Norm impliziert die Konvergenz hinsichtlich jeder anderen Norm.)
Definition 1.19
[Bearbeiten]- Sei eine Folge im mit .
- (i) Die Folge konvergiert von (mindestens) der Ordnung (gegen ), wenn ein und ein existieren, so dass gilt:
- (1.15)
- (ii) Die Folge konvergiert von (mindestens) der Ordnung (gegen ), wenn ein und ein existieren, so dass gilt:
- (1.16)
- (iii) Die Folge konvergiert superlinear (gegen ), wenn eine Folge von Zahlen mit und ein existieren, so dass gilt:
- (1.17)
Im Fall, dass (mindestens) von der Ordnung 1 konvergiert, spricht man auch von linearer Konvergenz der Folge. Ist die Konvergenzordnung einer Folge (mindestens) , so spricht man von quadratischer Konvergenz.
Die Bedingung (1.17) für superlineare Konvergenz kann man auch äquivalent durch die Bedingung
- (1.18)
ersetzen, sofern für ein ist. (Letzteres kann sicher für die Iteriertenfolge eines numerischen Verfahrens angenommen werden, da dieses abbrechen sollte, wenn für ein ist.) Quadratische Konvergenz impliziert superlineare Konvergenz und diese wiederum lineare Konvergenz.
Lineare Konvergenz mit einer Konstanten kann sehr langsame Konvergenz bedeuten. Man hofft also, dass in der Praxis im Fall der linearen Konvergenz und im Fall der quadratischen Konvergenz nicht allzu groß ist. Quadratische Konvergenz ist eine für die Praxis ausgesprochen gute Eigenschaft eines Verfahrens. Man beachte aber, dass die schnelle Konvergenz einer quadratisch konvergenten Folge erst für , also für alle hinreichend großen eintritt und die Ungleichung (1.16) mit im Fall uninteressant ist.
Die Eigenschaften der superlinearen und quadratischen Konvergenz einer Folge im gelten unabhängig von der gerade gewählten Norm, während die Eigenschaft der linearen Konvergenz normabhängig ist. Sofern wir nichts anderes sagen, beziehen wir uns immer auf Konvergenz im Sinne der Euklidischen Norm.
Wenn wir nichts anderes sagen, meinen wir mit den Konvergenzordnungen die oben definierten, die auch als Q-Ordnungen bezeichnet werden. Neben diesen werden gelegentlich auch die etwas schwächeren R-Ordnungen verwendet.
Definition 1.20
[Bearbeiten]- Sei eine Folge im mit . Dann konvergiert R-linear (R-superlinear, R-quadratisch) gegen , wenn es eine Folge von Zahlen gibt, welche Q-linear (Q-superlinear, Q-quadratisch) gegen 0 konvergiert und für die mit einem gilt:
- (1.19)