Benutzer:Stepri2005/Kurs:Optimierung II/Das lokale SQP-Verfahren

Aus Wikiversity

Die KKT-Bedingungen stellen für ein gleichungsrestringiertes Optimierungsproblem ein nichtlineares Gleichungssystem dar. Dieses Gleichungssystem kann unter geeigneten Voraussetzungen mit dem lokalen Newton-Verfahren gelöst werden. Die resultierende Spezialisierung des Newton-Verfahrens, die wir in Abschnitt 10.1 ausformulieren werden, bezeichnet man als Lagrange-Newton-Verfahren.

Die linearen Gleichungen, die in jeder Iteration dieses Lagrange-Newton-Verfahrens zu lösen sind, lassen sich als KKT-Bedingungen für ein gewisses gleichungsrestringiertes quadratisches Minimierungsproblem interpretieren. Ersetzt man nun die linearen Gleichungen durch dieses quadratische Minimierungsproblem, so erhält man ein lokales Sequential Quadratic Programming (SQP-)Verfahren. In Abschnitt 10.2 werden wir Konvergenzaussagen für dieses Verfahren herleiten.

Die Gleichungsnebenbedingungen in dem quadratischen Optimierungsproblem, welches in dem SQP-Verfahren zu lösen ist, kann man dadurch erzeugen, dass man die in den Gleichungsnebenbedingungen des Ausgangsproblems auftretenden Funktionen durch lineare Taylor-Approximationen in der aktuellen Iterierten ersetzt. Es liegt dann nahe, Ungleichungsnebenbedingungen in einem SQP-Verfahren so zu behandeln, dass man sie wie die Gleichungsrestriktionen linearisiert. Das auf diese Weise entstehende lokale SQP-Verfahren für allgemeine nichtlineare Optimierungsprobleme werden wir abschließend in Abschnitt 10.3 auf seine Konvergenzeigenschaften hin untersuchen.

10.1 Das Lagrange-Newton-Verfahren[Bearbeiten]

Wir gehen im Folgenden von Funktionen und von dem allgemeinen gleichungsrestringierten Optimierungsproblem

aus. Wie zuvor sei

die zu gehörende Lagrange-Funktion und seien

(10.1)

die -Jacobi-Matrix zu den sowie

Schließlich sei der Nullraum einer Matrix gegeben durch

Nach Korollar 9.9 gilt nun: ist ein lokaler Minimalpunkt von , in dem die LICQ, d. h. die Rangbedingung

erfüllt ist, so gibt es Multiplikatoren , so dass die KKT-Bedingungen für erfüllt. Diese lauten

(10.2)

Sie stellen ein System aus Gleichungen in den Unbekannten dar. Zu diesem System gehört die in diesem Fall symmetrische Jacobi-Matrix

(10.3)

Zur Lösung des Gleichungssystems in (10.2) kann man das in Abschnitt 6.1.1 beschriebene lokale Newton-Verfahren verwenden. Das für (10.2) ausformulierte Verfahren bezeichnet man als Lagrange-Newton-Verfahren:

Algorithmus 10.1 (Lagrange-Newton-Verfahren)[Bearbeiten]

(0) Wähle und setze .
(1) Falls für aus (10.2) ist, stop! (Dann ist ein KKT-Punkt für .)
(2) Bestimme eine Lösung des linearen Gleichungssystems
(10.4)
und setze
(3) Setze und gehe nach (1).

Damit der Konvergenzsatz 6.3 für das Newton-Verfahren auf Algorithmus 10.1 angewendet werden kann, muss die Nichtsingularität der Jacobi-Matrix in sichergestellt werden. Das folgende Lemma gibt Bedingungen an, unter denen diese Nichtsingularität gewährleistet ist.

Lemma 10.2[Bearbeiten]

Es seien und es sei ein strikt lokaler Minimalpunkt von , für den gilt und für den mit Multiplikatoren die hinreichenden Optimalitätsbedingungen zweiter Ordnung aus Satz 9.12
(10.5)
erfüllt sind. Dann ist nichtsingulär.

Beweis.[Bearbeiten]

Es gelte , d. h.

(10.6)
(10.7)

Die zweite Gleichung besagt, dass ist und somit gilt:

Multiplikation der Gleichung (10.6) von links mit ergibt daher

so dass mit (10.5) folgt. Wegen (10.6) ist folglich , was mit der vorausgesetzten Rangbedingung für auch impliziert.

q.e.d.

Man beachte, dass die erste Bedingung in (10.5) zusammen mit der für einen lokalen Minimierer von implizit geltenden Bedingung mit der Bedingung äquivalent ist.

Für die quadratische Konvergenz von Algorithmus 10.1 benötigt man gemäß Satz 6.3 die lokale Lipschitz-Stetigkeit der durch (10.3) definierten Abbildung in .

Definition 10.3[Bearbeiten]

Eine Abbildung heißt lokal Lipschitz-stetig in

, wenn mit einem und einem

(10.8)
gilt, wobei eine -Umgebung und eine Vektornorm auf bzw. die dadurch induzierte Matrixnorm auf ist.

Eine mit bezeichnete -Umgebung von wird in diesem Manuskript ausschließlich mittels der Euklidischen Norm definiert und wird daher in dieser Definition nicht verwendet.

Unter Verwendung der Tatsache, dass Normen auf einem endlich-dimensionalen Vektorraum äquivalent sind (s. Satz 2.4, Optimierung I), sieht man leicht ein, dass eine Abbildung , die in bezüglich einer gegebenen Vektornorm und der durch sie induzierten Matrixnorm lokal Lipschitz-stetig ist, diese Eigenschaft auch bezüglich jeder anderen Vektornorm und induzierten Matrixnorm besitzt.

Lemma 10.4[Bearbeiten]

Seien . Sind die Abbildungen und in lokal Lipschitz-stetig, so ist die durch (10.3) definierte Abbildung in lokal Lipschitz-stetig.

Beweis.[Bearbeiten]

Für und sei

wobei sich die Dimension des zugrunde gelegten Raums aus dem Zusammenhang ergebe. Offenbar gilt für alle und

Laut Voraussetzung existieren Konstanten und , so dass für alle gilt:

Weiter gibt es Konstanten und , so dass für alle folgt

Ferner gibt es wegen ein , so dass für alle gilt:

Da man überdies wegen der Äquivalenz von Normen auf endlich-dimensionalen Räumen für ein die folgenden Beziehungen hat

erschließt man zusammen für alle

q.e.d.

Aus dem Konvergenzsatz 6.3 für das Newton-Verfahren können wir nun unter Anwendung von Lemma 10.2 und Aufgabe 10.4 die folgende Aussage für Algorithmus 10.1 ableiten, wobei wir statt schreiben.

Satz 10.5[Bearbeiten]

Es seien und es sei ein strikt lokaler Minimalpunkt von mit zugehörigen Multiplikatoren , für den gilt und die hinreichenden Optimalitätsbedingungen zweiter Ordnung aus (10.5) erfüllt sind. Dann gibt es eine Umgebung von für ein , so dass Algorithmus 10.1 für jeden Startpunkt durchführbar ist und er, sofern er nicht nach endlich vielen Schritten mit abbricht, eine Folge erzeugt, für welche gilt:
(i) konvergiert superlinear gegen .
(ii) Sind und in lokal Lipschitz-stetig, so konvergiert quadratisch gegen .

10.2 Das Lagrange-Newton-Verfahren als SQP-Verfahren[Bearbeiten]

Wendet man das lokale oder globalisierte Newton-Verfahren zur unrestringierten Minimierung einer Funktion an (Algorithmen 6.5 und 6.7), so hat man in der -ten Iteration das lineare Gleichungssystem

(10.9)

zu lösen. Ist dann die Matrix positiv definit, was für jedes in der Umgebung eines lokalen Minimierers von , für den positiv definit ist, garantiert werden kann, so ist das System in (10.9) eindeutig lösbar und kann dieses System auch als Optimalitätsbedingung erster Ordnung für den eindeutigen Minimalpunkt des quadratischen Optimierungsproblems

(10.10)

aufgefasst werden (vgl. Abschnitt 6.1.2). Unter den genannten Voraussetzungen existiert also eine Umgebung von , für die im Newton-Verfahren die Aufgabe, das System in (10.9) zu lösen, äquivalent gegen die Minimierungsaufgabe (10.10) ausgetauscht werden kann. Gemäß dieser Interpretation minimiert man in der -ten Iteration des Newton-Verfahrens eine quadratische Näherung der Zielfunktion des Problems bei . (Man addiere die Konstante zu der Funktion in (10.10) hinzu.)

Ähnlich kann man nun das lineare Gleichungssystem (10.4) im -ten Schritt des Lagrange-Newton-Verfahrens, welches sich auf das gleichungsrestringierte Optimierungsproblem bezieht, als KKT-Bedingungen zu folgendem in definierten quadratischen Optimierungsproblem interpretieren:

(10.11)

Denn ist wieder wie in (10.1) definiert, so sind die KKT-Bedingungen zu diesem Problem durch die Gleichungen

gegeben bzw. in Matrix-Vektor-Schreibweise durch

(10.12)

Das lineare Gleichungssystem in (10.12) ist zu dem in (10.4) äquivalent, was man erkennt, wenn man in (10.12) sowie setzt. Besitzt also das KKT-System (10.12) eine eindeutige Lösung , so löst

(10.13)

das System (10.4). Umgekehrt gewinnt man aus einer Lösung von (10.4) mittels

(10.14)

eine Lösung von (10.12).

Wenn wir das lineare Gleichungssystem (10.4) im Lagrange-Newton-Verfahren durch die Minimierungsaufgabe (10.11) ersetzen wollen, haben wir allerdings noch zu garantieren, dass diese überhaupt eine lokale Lösung besitzt. Wie wir unten zeigen werden, ist Letzteres aber unter den Voraussetzungen des Konvergenzsatzes für das Lagrange-Newton-Verfahren (Satz 10.5) in einer geeigneten gewählten Umgebung des lokalen Minimierers von gesichert.

Wir wollen noch eine Interpretation für das quadratische Optimierungsproblem in (10.11) geben. Multipliziert man die Gleichungsnebenbedingungen in diesem Problem von links mit , so erhält man

Der Ausdruck ist also für alle für (10.11) zulässigen Punkte konstant. Folglich könnten wir diesen Ausdruck sowie die Konstante zur Zielfunktion von Problem (10.11) hinzu addieren und könnten wir diese in der Form

darstellen. Die Aufgabe (10.11) können wir demnach so interpretieren, dass eine quadratische Näherung der Lagrange-Funktion von bezüglich in unter linearen Näherungen der Gleichungsnebenbedingungen von in zu minimieren ist.

Algorithmus 10.1 lässt sich also auch äquivalent als SQP-Verfahren formulieren, wobei SQP für Sequential Quadratic Programming steht und sich auf die Tatsache bezieht, dass in jeder Iteration des Verfahrens ein quadratisches Optimierungsproblem zu lösen ist.

Algorithmus 10.6 (Lokales SQP-Verfahren für Gleichungsnebenbedingungen)[Bearbeiten]

(0) Wähle und setze .
(1) Falls für aus (10.2) ist, stop! (Dann ist ein KKT-Punkt für .)
(2) Berechne eine lokale Lösung des quadratischen Optimierungsproblems
und berechne zugehörige Multiplikatoren . Setze
(3) Setze und gehe nach (1).

Das Problem kann mittels irgendeiner Methode zur Lösung gleichungsrestringierter quadratischer Optimierungsprobleme gelöst werden, welche gleichzeitig auch Multiplikatoren zu einer Lösung mitliefert. Siehe z. B. die in Abschnitt 7.4, Optimierung I, beschriebene Nullraum-Methode oder die Methode der direkten Lösung des KKT-Systems zu , welches hier durch (10.12) gegeben ist und dessen Lösung gemäß (10.14) die Lösung von liefert.

Für den Nachweis der Durchführbarkeit und Konvergenz dieses Verfahrens benötigen wir nun zwei Resultate.

Lemma 10.7[Bearbeiten]

Es seien und gegeben, wobei symmetrisch und seien. Gilt
(10.15)
so besitzt das Problem
(10.16)
eine eindeutige (lokale und gleichzeitig globale) Lösung mit eindeutigen Multiplikatoren.

Beweis.[Bearbeiten]

Ist eine Matrix, deren Spalten eine Basis von bilden, so ist jedes in der Form mit einem darstellbar. Gemäß der Voraussetzung in (10.15) gilt somit

Nach Satz 7.13, Optimierung I, sind daher das Problem (10.16) und das zugehörige KKT-System eindeutig lösbar.

q.e.d.

Im nächsten Lemma wird verwendet, dass die Definitionen der Zeilensummen- und Spaltensummennorm für -Matrizen auf -Matrizen ausgedehnt werden können. Wie man durch eine direkte Abschätzung sofort erkennt, hat man auch in diesem Fall für alle die Abschätzungen

Lemma 10.8[Bearbeiten]

Es sei eine symmetrische Matrix und eine Matrix mit und es gelte
(10.17)
Dann existiert ein , so dass für alle und für alle symmetrischen Matrizen mit

folgt:

(10.18)

Beweis.[Bearbeiten]

Wäre die Definitheitsbedingung in (10.18) nicht richtig, dann gäbe es Folgen und mit

und

wobei ohne Beschränkung der Allgemeinheit und für ein mit angenommen werden könnte. Damit erhielte man

und

(10.19)

Im Widerspruch zu (10.17) folgte daraus aber und .

Ähnlich könnte man schließen: gäbe es Folgen und mit

so könnte man analog zu (10.19) schließen:

Damit wäre , was jedoch wegen im Widerspruch zur Voraussetzung steht.

q.e.d.

Mit dem Vorangehenden lässt sich nun der folgende Satz beweisen.

Satz 10.9[Bearbeiten]

Es seien und es sei ein strikt lokaler Minimalpunkt von , in dem gilt und mit Multiplikatoren die hinreichenden Optimalitätsbedingungen zweiter Ordnung aus Satz 9.12
(10.20)
erfüllt sind. Dann gibt es eine Umgebung von für ein , so dass für Algorithmus 10.6 mit gilt:
(i) Für jedes hat das Problem eine eindeutige (lokale und gleichzeitig globale) Lösung mit eindeutigen zugehörigen Multiplikatoren .
(ii) Bricht Algorithmus 10.6 nicht nach endlich vielen Iterationen ab, so konvergiert die durch ihn erzeugte Folge superlinear und, falls und in lokal Lipschitz-stetig sind, sogar quadratisch gegen .

Beweis.[Bearbeiten]

Es sei das aus Satz 10.5, welches dem aus Satz 6.3 und dessen Beweis entspreche.

Aufgrund der Stetigkeit von und in bzw. folgt wegen (10.20) mit Lemma 10.8, dass ein existiert, so dass für alle gilt:

Für besitzt somit Problem nach Lemma 10.7 eine eindeutige Lösung mit eindeutigen Multiplikatoren (s. Lemma 9.8). Demnach löst die KKT-Bedingungen in (10.12) und ist die Lösung des Systems (10.4) für im Lagrange-Newton-Verfahren (vgl. (10.13)). Der Beweis von Satz 6.3 zeigt, dass dann auch für das Lagrange-Newton-Verfahren und, wie (10.14) zeigt, auch für Algorithmus (10.6) gegeben ist. Die Aussagen des Satzes folgen damit induktiv, wobei sich Aussage (ii) aus Satz 10.5 ergibt.

q.e.d.

Unter den Voraussetzungen von Satz 10.9 bzw. von Satz 10.5 erzeugen also die Algorithmen 10.6 und 10.1 dieselben Iterierten , wenn man in beiden Fällen denselben Startpunkt wählt und dieser nahe genug bei liegt.

10.3 Das SQP-Verfahren für allgemeine Probleme[Bearbeiten]

Es liegt nun nahe, den Algorithmus 10.6 auf allgemeine nichtlineare Optimierungsprobleme der Gestalt

zu erweitern, indem man die Ungleichungsbedingungen aus Problem in linearisierter Form mit in das Unterproblem aufnimmt. Setzen wir voraus und definieren wir die zu gehörende Lagrange-Funktion durch

so gelangen wir auf diese Weise zu dem nachstehenden Algorithmus.

Algorithmus 10.10 (Lokales SQP-Verfahren für allgemeine Probleme)[Bearbeiten]

(0) Wähle mit und . Setze .
(1) Falls die KKT-Bedingungen von erfüllt, stop!
(2) Berechne eine lokale Lösung des quadratischen Optimierungsproblems
und zugehörige Multiplikatoren (mit ). Setze
(3) Setze und gehe nach (1).

Im Folgenden sei wieder der zulässige Bereich von und

die Menge der in aktiven Indizes. Weiter sei die Matrix mit Zeilen

Der Beweis der lokalen Konvergenz von Algorithmus 10.10 beruht darauf, dass die Menge der aktiven Indizes des Problems für alle aus einer Umgebung eines lokalen Minimalpunktes von unter geeigneten Voraussetzungen an konstant bleibt und gleich der (im Allgemeinen a priori unbekannten) Menge ist. Damit lässt sich zeigen, dass eine Folge von lokalen Lösungen der Teilprobleme mit zugehörigen Multiplikatoren existiert, so dass Algorithmus 10.10 lokal dieselben Iterierten erzeugt wie das Lagrange-Newton-Verfahren für das gleichungsrestringierte Optimierungsproblem

(10.21)

Demzufolge kann der Konvergenzsatz für den gleichungsrestringierten Fall lokal auf den allgemeinen Fall angewandt werden.

Der etwas knifflige Beweis des folgenden Konvergenzsatzes mag übergangen werden. Wir geben ihn der Vollständigkeit halber für den interessierten Leser an, weil der Satz nicht in genau der Form, wie er hier formuliert ist, in der Standardliteratur zu finden ist und weil der Beweis auch nur auf Ergebnisse zurückgreift, die an dieser Stelle zur Verfügung stehen.

Satz 10.11[Bearbeiten]

Es seien und es sei ein strikt lokaler Minimalpunkt von mit Multiplikatoren , in dem die LICQ, d. h.
(10.22)
gilt und für den die strikte Komplementaritätsbedingung, d. h.
(10.23)
für alle erfüllt ist. Ferner genüge den hinreichenden Optimalitätsbedingungen zweiter Ordnung aus Satz 9.12:
(10.24)
Dann gibt es ein , so dass bei Wahl für Algorithmus 10.10 gilt:
Bricht der Algorithmus nicht nach endlich vielen Iterationen ab, so existiert eine Folge lokaler Lösungen der Probleme und eine Folge zugehöriger Multiplikatoren , so dass die durch den Algorithmus erzeugte Folge superlinear und, falls und in lokal Lipschitz-stetig sind, sogar quadratisch gegen konvergiert.

Beweis.[Bearbeiten]

Siehe Geiger/Kanzow.

10.4 Hinweise[Bearbeiten]

Die Hesse-Matrix der Lagrange-Funktion in Algorithmus 10.10 kann durch eine geeignete Quasi-Newton-Approximation ersetzt werden. Allerdings muss dann sichergestellt werden, dass die im Verfahren erzeugten Matrizen positiv definit bleiben. Letzteres ist insbesondere für eine bestimmte Modifikation der BFGS-Update-Formel der Fall (s. [GeiKa02]).

Ferner verwendet man SQP-Verfahren im Allgemeinen in globalisierter Form, d. h. in Verbindung mit einer Schrittweitenregel. In diesem Zusammenhang kann man zeigen, dass die durch Lösung des quadratischen Unterproblems gewonnene Richtung unter gewissen Voraussetzungen eine Abstiegsrichtung für die exakte -Penalty-Funktion ist. Die Schrittweite in einem globalisierten SQP-Verfahren wird deshalb häufig mittels dieser Funktion und einer Armijo-artigen Regel bestimmt.

Im Hinblick auf die Globalisierung und praktische Effizienz von SQP-Verfahren sind aber noch weitere Schwierigkeiten zu bewältigen. So kann der zulässige Bereich des quadratischen Unterproblems leer sein, so dass dieses Problem modifiziert werden muss. Darüber hinaus ist es möglich, dass die gewünschte superlineare Konvergenz nicht eintritt, so dass man geeignete Gegenmaßnahmen zu treffen hat. Letzteres Phänomen wird als Maratos-Effekt bezeichnet. Für die Details verweisen wir wieder auf [GeiKa02] und [NoWri06].

Die so modifizierten SQP-Verfahren gehören zu den besten Methoden zur Lösung nichtlinearer Optimierungsprobleme, zumindest für Probleme, die nicht mehr als einige Hundert Variable haben. Es sei aber darauf hingewiesen, dass die hier diskutierten Lagrange-Multiplier- und SQP-Verfahren typischerweise keine Iterierten erzeugen, die zulässige Punkte für das Ausgangsproblem sind. Ein spezielles SQP-Verfahren, welches zulässige Iterierte liefert, ist in [LawTi01] vorgeschlagen worden. Die Zulässigkeit der Iterierten ist in einem solchen Verfahren zumeist aber nur für den Preis eines erhöhten Rechenaufwands zu erreichen.