Eine von der Struktur her zumindest im konvexen Fall einfache Klasse nichtlinearer Optimierungsprobleme mit Nebenbedingungen ist die der linear restringierten Optimierungsprobleme mit einer quadratischen Zielfunktion. Wie wir bereits in Abschnitt 1.1 gesagt haben, bezeichnet man solche Probleme als quadratische Optimierungsprobleme. Die theoretische und numerische Beherrschung quadratischer Optimierungsprobleme ist nicht nur im Hinblick auf Anwendungen von Interesse, die direkt auf diesen Problemtypus führen (z.B. [Alt02], [NoWri06]), sondern auch im Hinblick auf wichtige Algorithmen der restringierten nichtlinearen Optimierung wie z.B. den Sequential-Quadratic-Programming-Verfahren, bei denen quadratische Optimierungsprobleme als Teilprobleme gelöst werden müssen. Die effiziente Lösung quadratischer Optimierungsprobleme ist also insbesondere auch ein Erfordernis für die Lösung allgemeiner nichtlinearer Optimierungsprobleme.
Im Hinblick auf die Untersuchung quadratischer Optimierungsprobleme ist es oft nützlich, von der folgenden Normalform eines quadratischen Optimierungsproblems auszugehen, für das eine symmetrische Matrix und Daten und gegeben sind:
Mit den in Bemerkung 2.32 und Abschnitt 4.1 beschriebenen Operationen lässt sich erforderlichenfalls jedes Problem mit einer quadratischen Zielfunktion und linearen Nebenbedingungen in diese Form transformieren. Im Fall allerdings, dass ein Problem nur Gleichungsnebenbedingungen aufweist, sollte man und werden wir diese numerisch direkt behandeln und werden wir also nicht die Schrankenbedingungen für die Variablen durch Einführung zusätzlicher Variablen erzwingen.
Zumeist setzt man im Zusammenhang mit der Einfachheit halber - zumindest für theoretische Zwecke - die Rangbedingung voraus, so dass insbesondere ist. In Abschnitt 4.2 war festgestellt worden, dass das System im Fall entweder keine Lösung besitzt und damit der zulässige Bereich von leer ist oder dass in diesem Fall überflüssige Gleichungen im System auftreten, welche gestrichen werden können. In letzterem Fall hat dann die Systemmatrix des resultierenden Gleichungssystems den gewünschten vollen Rang.
Den zulässigen Bereich von Problem bezeichnen wir mit
- (7.1)
Im Fall eines konvexen quadratischen Optimierungsproblems, also im Fall, dass eine konvexe Funktion bzw. positiv semidefinit ist (s. Lemma 2.33), ist jede lokale Lösung des Problems auch eine globale, so dass wir in diesem Fall wie zuvor nur von Lösungen des Problems sprechen.
Im speziellen Fall handelt es sich bei dem Problem offenbar um ein lineares Optimierungsproblem in Normalform. Üblicherweise diskutiert man lineare Optimierungsprobleme gesondert, wie wir das auch hier getan haben, weil lineare Optimierungsprobleme im Vergleich zu nichtlinearen quadratischen Optimierungsproblemen zusätzliche Eigenschaften aufweisen, die sich auch numerisch nutzen lassen. Manche der in diesem Kapitel präsentierten Ergebnisse schließen aber den linearen Fall und bekannte Ergebnisse für diesen mit ein und zwar immer dann, wenn nicht die positive Definitheit von auf dem oder auf einem Teilraum des gefordert wird. So ist insbesondere der Existenzsatz 7.2 und die Dualitätstheorie in Abschnitt 7.2 auch auf lineare Probleme anwendbar.
Ist nicht positiv semidefinit, d. h., ist kein konvexes Optimierungsproblem, so kann lokale Minimierer besitzen, die nicht globale Minimierer des Problems sind. Es gibt inzwischen numerische Ansätze dafür, wie man auch in einem derartigen Fall einen globalen Minimalpunkt finden kann. Die Behandlung einer solchen Aufgabe der globalen Optimierung geht jedoch über den Rahmen dieses Kurses hinaus.
Zum Inhalt dieses Kapitels: In Abschnitt 7.1 werden wir einen zentralen Satz zur Existenz einer Lösung von Problem beweisen. Thema von Abschnitt 7.2 ist eine Dualitätstheorie für konvexe quadratische Optimierungsprobleme, die den (engen) Zusammenhang zwischen dem Problem und dem sog. dualen quadratischen Optimierungsproblem, das mit den Daten von gebildet wird, zum Inhalt hat. Die diesbezüglichen Resultate sind für die Praxis insofern von großer Bedeutung, als mit einer Lösung des dualen Problems auch eine Lösung von Problem gewonnen werden kann und als das duale Problem möglicherweise leichter oder schneller als numerisch zu lösen ist.
In Abschnitt 7.4 diskutieren wir dann zunächst mehrere unterschiedliche Vorgehensweisen für die Lösung quadratischer Optimierungsprobleme, welche nur Gleichungsrestriktionen aufweisen. Anschließend werden wir in Abschnitt 7.5 ein oder zwei Verfahren für allgemeine quadratische Optimierungsprobleme diskutieren, und zwar ein Active-Set-Verfahren und wenn noch genügend Zeit dafür bleibt, ein modifiziertes Gradientenprojektionsverfahren.
Für ein beliebiges nichtlineares Optimierungsproblem mit nichtleerem zulässigen Bereich ist es prinzipiell möglich, dass sein Minimalwert endlich ist, dass dieser aber für keinen zulässigen Punkt angenommen wird. Ein Beispiel dafür ist
Der folgende Satz impliziert, dass eine derartige Situation bei einem beliebigen quadratischen und damit, wie wir schon gesehen haben (s. Satz 4.13), auch bei einem linearen Optimierungsproblem nicht auftreten kann. Ein Problem dieses Typs mit nichtleerem zulässigen Bereich besitzt also entweder eine Lösung oder sein Minimalwert ist . Der Beweis dieser Aussage, auf die wir uns in diesem Kapitel mehrfach beziehen werden, ist erstaunlich knifflig. Er mag beim ersten Lesen übersprungen werden. (Der folgende Satz schließt also die Aussage von Satz 4.13 für lineare Probleme mit ein, jedoch nicht die Aussage von Satz 4.14, weswegen wir den Existenzsatz für lineare Probleme gesondert bewiesen haben.)
- Es seien und . Dann hat das Problem eine globale Lösung.
Wegen können wir ein finden, so dass die Menge
für alle nichtleer ist. Da kompakt und stetig ist, besitzt das Problem
nach dem Satz 2.38 von Weierstraß für jedes eine Lösung. Wir nehmen nun im Folgenden an, dass ist und wir setzen
Offenbar gilt aufgrund der Voraussetzung des Satzes und wegen
- (7.2)
Die Lösungsmenge von ist, wie festgestellt wurde, nichtleer und sie ist als Teilmenge von kompakt. Also nimmt die stetige Funktion über der Lösungsmenge von ihr Infimum an und gibt es somit unter allen Lösungen von mindestens eine Lösung mit minimaler -Norm. Wir zeigen nun als nächstes:
- (7.3) Es gibt ein , so dass für alle gilt.
Wäre Letzteres nicht richtig, so gäbe es eine Folge mit
Wir setzen nun
und können ohne Beschränkung der Allgemeinheit annehmen, dass für ein mit gilt. Weil nach unserer Konstruktion ist und damit
folgt, hat man für dieses
- (7.4)
Es ist ferner und für optimal. Wegen können wir daher mit (7.2) schließen:
- (7.5)
Diese Abschätzungen implizieren, dass ist, denn für würde im Widerspruch zu (7.5) folgen:
Wegen (7.4) und hat man als nächstes für . Also ergibt sich unter Verwendung der Beziehung für
- (7.6)
Da der Ausdruck in (7.6) im Fall, dass für ein gelten würde, für gegen strebte, folgt damit
- (7.7)
Wir wollen nun als nächstes zeigen, dass unter den gemachten Annahmen
- (7.8)
für alle und alle mit einem und ein gilt. Diese Beziehungen stehen im Widerspruch dazu, dass eine Lösung von mit kleinster Euklidischer Norm ist, so dass (7.3) richtig sein muss.
Sei nun . Gemäß (7.4) ist , so dass wir setzen können:
Wegen können wir also ein wählen, so dass für alle gilt. Weil für alle ist, haben wir somit bei festem für alle mit
Offenbar ist ferner wegen und (7.4) auch sowie . Damit ist die erste Beziehung in (7.8) für alle genannten und gezeigt.
Wegen gibt es ein , so dass für alle gilt. Demzufolge erhalten wir bei festem und fest gewähltem mit für alle
Damit ist für die genannten und auch die zweite Beziehung in (7.8) bewiesen. Für diese , so dass man analog zu (7.6) unter Verwendung von (7.7) erschließt:
Somit ist die Gültigkeit von (7.8) und weiter die von (7.3) bewiesen.
Gemäß der Definition eines Infimums existiert eine Folge mit
- (7.9)
Im Fall, dass beschränkt ist, gibt es ferner eine Teilfolge von mit , wobei wegen der Abgeschlossenheit von geschlossen werden kann. Aufgrund der Stetigkeit von folgt außerdem und daher . Somit ist für diesen Fall der Satz bewiesen und müssen wir abschließend noch den Fall betrachten, dass die Folge unbeschränkt ist.
Sei also eine unbeschränkte Folge mit (7.9) und sei . Dann folgt , und man erschließt daher mit (7.2)
Letzteres impliziert wegen (7.9) die Konvergenz . Also existiert eine Folge mit
- (7.10)
wobei durch (7.3) bestimmt ist. Wir wollen nun als Letztes zeigen, dass
- (7.11)
gilt und demnach für alle das Problem löst. Wir nehmen dazu an, dass (7.11) nicht richtig ist.
Für bzw. für hat man offenbar . Also konvergiert die Folge monoton fallend gegen . Wenn (7.11) nicht gilt, muss es weiter zwei Glieder und der Folge .
Für und folgt dann mit (7.3)
da die Annahme zunächst und damit den Widerspruch zu (7.12) nach sich ziehen würde.
Wir setzen nun , so dass gilt. Insbesondere ist dann mit (7.12) und (7.3) und . Wäre nun , dann wäre wegen Element von und damit Lösung von . Dies ist jedoch wegen und der Minimaleigenschaft von bezüglich der Lösungsmenge von nicht möglich. Wegen ist und damit aber auch der Fall ausgeschlossen. Also ist die Implikation (7.11) gültig und der Satz damit bewiesen.
q.e.d.
Aus Satz 2.41 in Verbindung mit Lemma 2.33 können wir ferner direkt den folgenden Existenzsatz für konvexe quadratische Optimierungsprobleme ableiten.
- Ist positiv definit und , so besitzt das Problem genau eine Lösung.
Die Voraussetzung der positiven Definitheit von im letzten Satz garantiert, dass die Zielfunktion von auf dem ganzen Raum gleichmäßig konvex ist, was die Existenz einer Lösung für sicherstellt. Wenn Gleichungsnebenbedingungen in vorliegen, muss die gleichmäßige Konvexität von für eine solche Existenzaussage jedoch nur auf einem geeigneten Teilraum des gegeben sein, da ja Gleichungsnebenbedingungen die Dimension des Suchraumes reduzieren (s. dazu Abschnitt 7.4).
Wir nehmen in diesem Abschnitt grundsätzlich an
- ist positiv semidefinit
und wir betrachten das damit konvexe quadratische Optimierungsproblem in Normalform
In dem hier diskutierten Zusammenhang nennen wir das primale Problem. Den zulässigen Bereich von bezeichnen wir wie zuvor in (7.1) mit .
Gemäß Beispiel 3.16 (1) ist genau dann eine Lösung des Problems , wenn die nachstehenden KKT-Bedingungen erfüllt:
Wir wollen nun als erstes zeigen, dass aus einer Lösung des KKT-Systems für das Minimierungsproblem eine Lösung des KKT-Systems für das folgende, mit den Daten von erzeugte Maximierungsproblem gewonnen werden kann und umgekehrt und dass somit zwischen diesen beiden Problemen enge Beziehungen bestehen:
Das Problem nennt man in diesem Zusammenhang das zu duale Problem. Seinen zulässigen Bereich bezeichnen wir mit
Das Problem lässt sich offenbar auch äquivalent darstellen in der Form
- (7.13)
Zur Herleitung der zugehörigen KKT-Bedingungen ersetzen wir das Maximierungsproblem äquivalent durch das folgende Minimierungsproblem (der Vorzeichenwechsel bezüglich des optimalen Zielfunktionswertes kann dabei vernachlässigt werden, da er für diesen Zweck keine Rolle spielt):
- Fehler beim Parsen (Unbekannte Funktion „\begin{array}“): {\displaystyle \begin{array}{lll} (QD)': & \text{Minimiere} & \frac 12 \begin{pmatrix} x \\ y \\ s \end{pmatrix}^T \begin{pmatrix} Q & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} x \\ y \\ s \end{pmatrix} - \begin{pmatrix} 0 \\ b \\ 0 \end{pmatrix}^T \begin{pmatrix} x \\ y \\ s \end{pmatrix} \\ & \text{u. d. N.} & \begin{pmatrix} - Q \\ A \\ I \end{pmatrix}^T \begin{pmatrix} x \\ y \\ s \end{pmatrix} = c, \quad \begin{pmatrix} 0 \\ 0 \\ -I \end{pmatrix}^T \begin{pmatrix} x \\ y \\ s \ge 0 \end{pmatrix}.}
Dabei ist die -Einheitsmatrix. Die in der Zielfunktion von vorkommende Matrix ist wiederum eine symmetrische, positiv semidefinite Matrix, so dass es sich bei diesem Problem wie bei um ein linear restringiertes, konvexes quadratisches Optimierungsproblem handelt.
Nach Korollar 3.14 ist somit genau dann eine Lösung von , wenn es Vektoren und gibt, so dass das folgende System von Gleichungen und Ungleichungen löst (im Hinblick auf berücksichtige man dabei Bemerkung 3.6 (iii)):
- (7.14)
Unter Ausnutzung der darin enthaltenen Beziehungen und können wir dieses System wie folgt schreiben:
- (7.15)
Berücksichtigt man nun, dass ein System in den Variablen und letzteres System eines in den Variablen ist, so können wir offenbar schließen:
- (7.16) löst löst (7.15) für gewisse löst löst
sowie
- (7.17) löst löst für gewisse löst (7.15) löst .
Ist eine Lösung von und der zu der Gleichungsnebenbedingung in gehörende Multiplikator, so ist gemäß (7.16) eine Lösung von . (Viele Verfahren der nichtlinearen Optimierung zur Lösung eines Problems erzeugen zugehörige Multiplikatoren gleich mit.) Dabei unterscheiden sich und wegen nur durch eine Lösung von .
Weiter können wir festhalten: Besitzt das Problem eine Lösung, so besitzt es auch eine Lösung derart, dass das Problem löst. Dies folgt aus (7.17), da mit nach (7.16) auch lösbar ist. Im Fall, dass positiv definit ist, liefert sogar der -Anteil jeder Lösung des dualen Problems eine Lösung des primalen Problems, da in diesem Fall die beiden letzten Gleichungen in (7.15) bedeuten, dass gilt und damit und in den Implikationen (7.16) durch ersetzt werden können. Wenn positiv definit ist sowie im Fall sind also die KKT-Bedingungen für mit denen für identisch.
Wir haben damit unter anderem den folgenden Satz bewiesen:
- (i) Es gilt:
- ist lösbar ist lösbar ist lösbar.
- (ii) Ist eine Lösung von , so löst das Problem und das Problem .
- (iii) Besitzt das Problem eine Lösung, so besitzt es auch eine Lösung derart, dass ist und das Problem löst. Ist positiv definit, so hat jede Lösung von die letztere Eigenschaft.
Die drei Zeilen im System drücken offenbar die primale Zulässigkeit, die duale Zulässigkeit und die Komplementarität aus. Eine Lösung dieses Systems liefert nach Satz 7.3 Lösungen des primalen und dualen quadratischen Optimierungsproblems. Ist eine Lösung von einem der beiden Probleme bekannt, so lässt sich ferner über eine Lösung des anderen Problems gewinnen. Wenn positiv definit ist, liefert eine Lösung von gemäß Satz 7.3 sogar direkt eine Lösung von mit. Das duale Problem zu lösen kann also dann nützlich sein, wenn dieses schneller als zu lösen oder für den gerade verfügbaren Algorithmus günstiger als formuliert ist. Algorithmen gehen nämlich typischerweise von einer bestimmten Gestalt eines Problems aus, und die Überführung eines gegebenen Problems in diese Gestalt kann ja die Einführung vieler neuer Variablen bedeuten (vgl. Beispiel 4.2).
Überführt man das Problem unter Einführung zusätzlicher Variablen in ein Problem des Typs und stellt man anschließend das dazu duale Problem auf, so gelangt man ferner zu der folgenden Aussage.
- Das duale Problem zu ist äquivalent mit .
Übung!
Es sei abschließend gesagt, dass man im linearen Fall, d. h. im Fall , mit Hilfe von (7.16) und (7.17) gerade Satz 4.17 erhält und Satz 7.4 in Satz 4.15 übergeht.
Als nächstes wollen wir weitere Beziehungen zwischen dem primalen Problem und dem dualen Problem herleiten. Offenbar erhält man für ein Punktepaar zulässiger Punkte und unter Verwendung der Nebenbedingungen und der Zielfunktionen beider Probleme
- (7.18)
Da man hat, führt diese Beobachtung zu der folgenden Aussage.
- Für ein Paar zulässiger Punkte und der Probleme und gilt
- Für und folgt insbesondere
Speziell für den linearen Fall gewinnt man unter Verwendung von (7.18) die nachstehende Folgerung.
Korollar 7.8 (Schwacher Dualitätssatz)
[Bearbeiten]
- Für ein Paar zulässiger Punkte und der Probleme und gilt
Für ein Punktepaar und bezeichnet man den Abstand der Zielfunktionswerte des primalen und dualen Problems als Dualitätslücke. Im linearen Fall entspricht sie nach Korollar (7.8) der Zahl . Der folgende Satz besagt unter anderem, dass die Dualitätslücke für ein Paar von Lösungen des primalen und dualen Problems identisch 0 ist.
- (i) Gilt und , so besitzen die beiden Probleme und eine Lösung.
- (ii) und sind genau dann Lösungen von und , wenn und für und zulässig sind und wenn bzw. wenn äquivalent dazu gilt.
(i) Seien und . Für ein bekommt man dann aus Satz 7.7
Gemäß Satz 7.1 ist damit lösbar. Die Lösbarkeit von folgt nun aus Satz 7.3 (i).
(ii) Gilt , so folgt offenbar aus Satz 7.7 . Seien jetzt zunächst und Lösungen von und . Nach (7.17) existieren dann Vektoren und , so dass sowohl das System als auch das Problem löst. Insbesondere ist damit . Mit Satz 7.7 schließt man daher
Nun seien umgekehrt und zulässige Punkte von und mit . Nach Aussage (i) besitzt dann das Problem eine Lösung und nach (7.17) das Problem eine Lösung . Anwendung des ersten Teil des Beweises und von Satz 7.7 liefert schließlich
Also sind auch und Lösungen von und .
q.e.d.
Eine weitere wichtige Folgerung aus dem Vorangegangenen ist die folgende.
- (i) Es sei . Dann gilt
- (ii) Es sei . Dann gilt
Man beweise die Gültigkeit von Korollar 7.10.
Die Einschränkung von Satz 4.18 und Korollar 7.10 auf den linearen Fall erhält man, indem man die - bzw. -Anteile für Punkte des dualen Problems streicht.
Über und lässt sich für ein gegebenes quadratisches Optimierungsproblem beliebiger Gestalt das zugehörige duale Problem sofort ableiten. Insbesondere stellen offenbar und einen Spezialfall dieses allgemeinen Problempaares dar. Es können ferner alle Aussagen für und direkt auf und übertragen werden, da letztere Probleme ja gemäß ihrer Herleitung äquivalent mit Problemen der Gestalt von und sind. Wir fassen diese Aussagen nochmals zusammen, wobei und die zulässigen Gebiete von und seien.
- Man beweise:
- (i) Besitzt das Problem eine Lösung, so tut dies auch das Problem und die optimalen Zielfunktionswerte beider Probleme sind identisch.
- (ii) Jede Lösung von mit nichtnegativem -Anteil löst und jede Lösung von löst .
Übung!
Ein anderer relevanter Spezialfall des Problempaares und ist das Problempaar
und
Im Fall, dass positiv definit ist, lässt sich die Gleichungsnebenbedingung in nach auflösen, was
- (7.19)
ergibt. Setzt man letzteren Ausdruck in die Zielfunktion von ein, so erhält man
Folglich kann man das duale Problem für positiv definites durch das folgende äquivalente Problem ersetzen:
Die Matrix darin ist symmetrisch und positiv semidefinit und im Fall sogar positiv definit (s. Lemma 2.21). Insbesondere ist also das Problem , wenn man es äquivalent als ein Minimierungsproblem formuliert, wiederum ein konvexes quadratisches Optimierungsproblem.
Hat man eine Lösung von gefunden (im Fall ist diese eindeutig), so lässt sich der zugehörige -Anteil der Lösung von gemäß (7.19) als eindeutige Lösung des linearen Gleichungssystems
berechnen. Weiter besitzt offenbar für positiv definites eine eindeutige Lösung und ist gerade diese Lösung. (Man stelle z.B. für und die KKT-Bedingungen auf und schließe analog wie in (7.17), wobei man die Eindeutigkeit von für und berücksichtige.)
Eine Lösung von liefert also gleichzeitig eine Lösung von mit. Da das Problem nur einfache Schrankenbedingungen als Nebenbedingungen enthält, kann es wesentlich einfacher als Problem zu lösen sein. Allerdings benötigt man bei dieser Vorgehensweise die Matrix , so dass diese ohne allzu großen Aufwand zu berechnen sein sollte.
7.3 Elimination bei linearen Gleichungsrestriktionen
[Bearbeiten]
Bevor wir uns speziell mit nur gleichungsrestringierten quadratischen Optimierungsproblemen beschäftigen, wollen wir allgemein die Möglichkeit der Variablenelemination bei nichtlinearen Optimierungsproblemen mit linearen Gleichungsnebenbedingungen untersuchen.
Wir betrachten für eine Funktion und Daten und das durch lineare Gleichungen restringierte Problem
Den zulässigen Bereich von bezeichnen wir mit
(„GN“ steht für „Gleichungsnebenbedingungen“.) Falls linear ist, hat man die folgende Aussage:
- Es sei mit einem und . Dann gilt:
- (i) , falls ein mit existiert.
- (ii) , falls kein mit existiert.
Übung!
Der Fall, dass das Problem eine lineare Zielfunktion hat, ist folglich uninteressant, da diese dann auf dem zulässigen Bereich entweder konstant oder nach unten unbeschränkt ist. Im Folgenden werden wir daher implizit davon ausgehen, dass in Problem eine nichtlineare Funktion ist.
Wir nehmen nun wieder und damit insbesondere an. Dabei ist der Fall nicht von Interesse, weil dann das System genau eine Lösung besitzt, welche die eindeutige Lösung von Problem ist. Für die folgenden beiden Unterabschnitte setzen wir daher
- (7.20)
voraus. In diesem Fall lassen sich einige der Variablen durch die anderen ausdrücken und kann man somit zu einer Formulierung des Problems gelangen, welche weniger Variable als aufweist und überdies keine Restriktionen enthält. Wir beschreiben in diesem Zusammenhang zunächst die sog. einfache Elimination.
Nach der Voraussetzung in (7.20) sind Spalten von linear unabhängig. Wir können annehmen, dass dies die ersten Spalten von sind. (Anderenfalls vertausche man die Spalten und die Variablen im System entsprechend.) Bezeichnen wir die nichtsinguläre Matrix, welche aus diesen Spalten von gebildet wird, mit , so können wir die Matrix blockweise in der Form
darstellen, wobei die aus den verbleibenden Spalten von bestehende Matrix ist. Dabei steht „“ hier für „Basis“ und „“ für „Nichtbasis“. Entsprechend schreiben wir den Variablenvektor mit Vektoren und in der Form
Für jedes können wir somit die Darstellung
erhalten, welche für die explizite Darstellung
- (7.21)
impliziert (vgl. dazu die Darstellung (5.3)). Wählt man umgekehrt einen beliebigen Vektor und berechnet man anschließend nach (7.21), so ist eine Lösung des Systems und folglich ein zulässiger Punkt für das Problem .
Weiter bekommt man für die Zielfunktion von Problem die Darstellung
und damit für die alternative Formulierung
- (7.22)
Besitzt das rechte der beiden Probleme eine Lösung , so rechnet man nach (7.21) aus. Der Vektor ist dann Lösung von . Unsere Herleitung zeigt insbesondere, dass das gleichungsrestringierte Problem mathematisch mit einem unrestringierten Problem äquivalent ist, welches überdies Variable weniger als aufweist. Den Vektor bezeichnet man in diesem Zusammenhang auch als Vektor der reduzierten Variablen.
Sind linear unabhängige Spalten von nicht wie in dem folgenden Beispiel unmittelbar identifizierbar, dann könnte man z. B. durch Gauß-Elimination mittels Spalten- und Zeilenpivotsuche feststellen, ob ist und könnte man in diesem Fall die Matrix aus den Spalten von bilden, die im letzten Gauß-Tableau an den ersten Positionen stehen, da diese linear unabhängig sein müssen. Man beachte aber, dass für die Aufstellung von Problem (7.22) eine explizite Darstellung der Inversen von benötigt wird, so dass idealerweise leicht zu invertieren und gut konditioniert sein sollte. Wir geben dazu ein Beispiel.
Wir betrachten das Problem
und wir setzen sowie
Offenbar sind die 3. und die 6. Spalte von linear unabhängig und bilden diese eine einfach zu invertierende Matrix. Wir vertauschen daher die 3. mit der 1. sowie die 6. mit der 2. Spalte von und entsprechend die Variablen im System . Mit
und
schreiben wir dann das System in der Form .
Als nächstes berechnen wir
und damit unter Verwendung von (7.21)
Einsetzen dieser Beziehung in die Zielfunktion des Problems führt auf das unrestringierte Optimierungsproblem
Man hätte die Matrix natürlich auch mit zwei anderen linear unabhängigen Spalten von bilden können, aber für diese wäre dann die Berechnung der Inversen und des Produktes aufwändiger gewesen.
Wir machen weiter die folgende Beobachtung (Im Zusammenhang mit Eliminationstechniken verwenden wir den Buchstaben für eine Matrix. Eine Verwechslung mit dem zulässigen Gebiet (3.12) des allgemeinen nichtlinearen Optimierungsproblems sollte ausgeschlossen sein.): Mit den Blockmatrizen
- (7.23)
können wir jeden Vektor gemäß (7.21) darstellen in der Form
- (7.24)
Dabei enthält die Matrix die -Einheitsmatrix und sind somit ihre Spalten linear unabhängig. Außerdem gilt
Demnach bilden die Spalten von eines Basis des Nullraums von
Wir stellen weiter mit Lemma 3.12 fest, dass für jedes genau dann eine zulässige Richtung für ist, wenn gilt.
Ferner hat man
Wie ein Vergleich mit (7.24) zeigt, drückt also die einfache Eliminationstechnik zulässige Punkte von als Summe der speziellen Lösung von und der zulässigen Richtung für aus. Insbesondere erhält man die spezielle Lösung , indem man Variable, d. h. gleich 0 setzt.
Einfache Elimination ist numerisch relativ „billig“, kann aber zu numerischen Instabilitäten führen, wie man sich im Fall eines Beispiels in zwei Veränderlichen geometrisch klarmacht. Verläuft nämlich die Lösungsmenge von fast parallel zur -Achse und ist eine Lösung von , die fast in Richtung der positiven -Achse zeigt, dann ist sehr klein und sind sowie sehr groß, so dass als Differenz zweier sehr großer Vektoren berechnet werden muss. Letzteres führt typischerweise zu numerischer Auslöschung. In einer solchen Situation sollte man die spezielle Lösung des Systems - hier ist dies - in Richtung der -Achse, d. h. sollte man eine andere Basis wählen. Eine geeignete Basis zu finden ist in der Praxis aber häufig eine nichttriviale Aufgabe. Weitere numerische Schwierigkeiten können bei der Invertierung der Basis auftreten, wenn schlecht konditioniert ist. Daher wollen wir im nächsten Unterabschnitt noch andere Reduktionstechniken betrachten.
Im Hinblick darauf bemerken wir noch, dass offenbar die Spalten von und die von zusammen genommen linear unabhängig sind und folglich den aufspannen. Nun ist aus der Linearen Algebra bekannt, dass für
gilt, wobei der Bildraum von ist und „“ die direkte Summe zweier Halbräume des bezeichnet. Da die Spalten von eine Basis von bilden, generieren die Spalten von daher eine Basis von .
In Anlehnung an den vorangehenden Unterabschnitt seien und Matrizen, für die gilt:
- (7.25)
Wie bei der einfachen Elimination bilden demnach die Spalten von eine Basis des Nullraumes von . Dagegen ist hier nur durch die erste Bedingung in (7.25) spezifiziert. Für die bei der einfachen Elimination verwendete Matrix ist diese Bedingung wegen
erfüllt, so dass die einfache Elimination einen Spezialfall der hier betrachteten Situation darstellt.
Bekanntlich lässt sich jede Lösung des inhomogenen Gleichungssystems als Summe einer beliebigen speziellen Lösung des Systems und einer Lösung des homogenen Systems , also jedes durch ein beliebiges und ein in der Form beschreiben. Da die Spalten von nach Voraussetzung eine Basis des Nullraumes bilden, gibt es zu jedem solchen ein mit .
Weiter ist mit einem Vektor eine spezielle Lösung von , wenn
bzw. wenn wegen der vorausgesetzten Invertierbarkeit von
gilt. Folglich erlaubt eine wie in (7.25) vorausgesetzte Wahl von und , dass jedes mittels Vektoren und in der Form
- (7.26)
bzw. mit einem Vektor in der Form
- (7.27)
geschrieben werden kann. Umgekehrt erhält man für jedes mittels (7.27) einen für zulässigen Punkt . Insbesondere liefert den Vektor und ist das Problem aufgrund von (7.27) mit folgendem unrestringierten Problem äquivalent:
Die Matrix wird idealerweise so gewählt, dass die Kondition der Matrix so klein wie möglich ist, weil zur Berechnung des Vektors das lineare Gleichungssystem gelöst werden muss. Wie wir zeigen wollen, ist es darum günstig, z. B. mit dem Householder-Verfahren eine -Zerlegung von der Art
zu berechnen, wie sie aus der Numerischen Mathematik bekannt ist. Dabei ist eine orthogonale Matrix und eine nichtsinguläre obere Dreiecksmatrix. Insbesondere haben somit die Untermatrizen und orthonormale Spalten.
Man definiert nun
d. h. , so dass die Spalten von und gemeinsam eine Orthonormalbasis des bilden. (Bei der einfachen Eliminationstechnik ist dies typischerweise nicht der Fall.) Wie man sich leicht klarmacht, gilt damit insbesondere und , so dass man aus
- (7.28)
die Beziehungen
- (7.29)
schließen kann.
Letzteres zeigt, dass die Matrizen und alle in (7.25) geforderten Bedingungen erfüllen. Mit den Eigenschaften der verwendeten Matrizen kann man ferner leicht zeigen (was wir hier nicht tun wollen), dass die Matrizen und im Fall dieselben Konditionen bezüglich der Spektralnorm besitzen. Schließlich folgt mit (7.27), dass jedes mit einem dargestellt werden kann als
- (7.30)
wobei ist. Dabei muss man für die Bestimmung des Vektors nur das lineare Gleichungssystem mit der unteren Dreiecksmatrix auflösen, wobei , wie oben festgestellt wurde, im Fall dieselbe Kondition wie hat.
Für die in (7.30) auftretende spezielle Lösung von folgert man unter Verwendung von (7.29) und der Identität
- (7.31)
Also ist gerade die bezüglich der -Norm kleinste aller Lösungen des Systems (vgl. Beispiel 3.16 (3)). Wie die letzte Identität in (7.31) weiter zeigt, ist Element von und somit orthogonal zu . Wenn und mittels einer -Zerlegung von bestimmt werden, wird folglich jedes Element durch (7.30) als Summe bzw. Differenz von und einem dazu orthogonalen Vektor aus berechnet.
Vom Standpunkt der numerischen Stabilität her ist eine solche Wahl von und also ideal. Allerdings ist der für die Berechnung einer -Zerlegung von erforderliche numerische Aufwand bei voll besetzten Matrizen etwa doppelt so groß wie für die Gauß-Elimination, die bei der einfachen Eliminationstechnik verwendet wird. Aus letzterem Grund wurden auch noch andere Eliminationsstrategien vorgeschlagen, die versuchen, einen Kompromiss zwischen numerischer Stabilität und numerischem Aufwand zu erreichen (siehe z. B. [NoWri06]).
7.4 Probleme mit Gleichungsnebenbedingungen
[Bearbeiten]
Wir wollen nun quadratische Optimierungsprobleme genauer betrachten, welche nur Gleichungsnebenbedingungen aufweisen, welche also Probleme des folgenden Typs sind:
Dabei seien eine symmetrische Matrix, und eine Matrix mit
- (7.32)
Die Rangbedingung (7.32) stellt zumindest für die Theorie keine Einschränkung dar, wie bereits mehrfach bemerkt wurde. Sie impliziert bekanntlich, dass ist und dass das inhomogene Gleichungssystem eine Lösung besitzt. Bezeichnen wir den zulässigen Bereich von mit
so ist also hier .
Nach Beispiel 3.16 (2) lassen sich die KKT-Bedingungen für als lineares Gleichungssystem der Gestalt
- (7.33)
darstellen. Die -Systemmatrix
- (7.34)
in (7.33) bezeichnen wir als KKT-Matrix. Offenbar ist eine symmetrische Matrix.
Wir gehen nun wie in Abschnitt 7.3.3 davon aus, dass Matrizen und bekannt sind mit den Eigenschaften
- (7.35)
Wie wir dort gezeigt haben, lässt sich in diesem Fall jeder Vektor mit einem sog. Vektor der reduzierten Variablen und einem Vektor in der Form
- (7.36)
darstellen, wobei
- (7.37)
eine spezielle Lösung von ist. Beispiele für Matrizen und , welche die Bedingungen in (7.35) erfüllen, ergaben sich aus der einfachen Elimination und aus einer -Zerlegung von .
Zur Reduktion der Variablen ersetzen wir nun in der Zielfunktion des Problems durch die rechte Seite von (7.36). Auf diese Weise erhalten wir
wobei wir schreiben in der Form
- (7.38)
Gilt nun für die symmetrische Matrix in (7.38)
- ist positiv definit,
so minimiert offenbar ein Vektor die Funktion genau dann, wenn das System löst, welches ausgeschrieben lautet:
- (7.39)
Die Matrix und der Vektor
in diesem System werden häufig als reduzierte Hesse-Matrix und als reduzierter Gradient bezeichnet.
Aufgrund der Rangvoraussetzung für in (7.35) ist die positive Definitheit von insbesondere dann gegeben, wenn positiv definit ist (vgl. Lemma 2.21). Man beachte aber, dass die Matrix im Einzelfall selbst dann positiv definit sein kann, wenn indefinit oder singulär ist. Die Voraussetzung der positiven Definitheit von stellt also im Allgemeinen eine viel schwächere Voraussetzung als die der positiven Definitheit von dar.
Wenn positiv definit ist, hat das System (7.39) eine eindeutige Lösung und ist damit
- (7.40)
die eindeutige Lösung von Problem . Speziell für und ergibt sich in diesem Fall aus (7.37) und (7.39) sowie und ist demzufolge . Wegen folgt dann weiter aus der ersten Zeile des Systems in (7.33), dass ist. Wenn positiv definit ist, besitzt das zu (7.33) gehörende homogene System also nur die Nulllösung, was gleichbedeutend damit ist, dass die Matrix in (7.34) nichtsingulär ist. Zusammengefasst haben wir also gezeigt:
- Die Matrix sei positiv definit. Dann folgt:
- (i) Das Problem besitzt eine eindeutige Lösung.
- (ii) Die KKT-Matrix in (7.34) ist nichtsingulär.
In diesem Zusammenhang kann man darüber hinaus beweisen:
- (i) Ist die Matrix nicht positiv semidefinit, dann gilt
- (ii) Ist die Matrix positiv semidefinit, aber nicht positiv definit und besitzt Problem eine Lösung , so ist auch jeder Vektor mit Lösung von , wobei Eigenvektor zum Eigenwert 0 von ist.
Wegen ist . Wir nehmen nun an, so dass das Problem gemäß Satz 7.1 eine Lösung und somit das KKT-System (7.33) gemäß Satz 3.13 eine Lösung besitzt. Sei nun ein negativer Eigenwert von und zugehöriger Eigenvektor, d. h. sei mit und . Dann ist
und ergibt sich für somit .
Weil gilt, folgt als nächstes und demnach
- (7.41)
Aus den KKT-Bedingungen für in (7.33) erhält man weiter und dies impliziert wiederum wegen
Demnach gilt
- (7.42)
In Verbindung mit (7.41) widerspricht dies aber der Optimalität von . Also ist die Aussage (i) des Satzes richtig.
Ist weiter die Matrix positiv semidefinit und nicht positiv definit, so ist mindestens einer ihrer Eigenwerte identisch 0. Für den Nachweis von (ii) folge man nun dem Beweis von (i) für . Man erhält dann für und daher (vgl. (7.42))
q.e.d.
Umgekehrt kann man im Fall der Lösbarkeit des Problems aus Satz 7.14 schließen:
- (i) Hat das Problem eine Lösung, so ist die Matrix positiv semidefinit.
- (ii) Hat das Problem eine eindeutige Lösung, so ist positiv definit.
Wenn positiv semidefinit, aber nicht positiv definit ist, was z. B. für der Fall ist, besitzt also das gleichungsrestringierte quadratische Optimierungsproblem entweder eine Lösung (Satz 7.14 (ii)), oder es gilt (Satz 7.11). Ist andererseits positiv definit, so hat gemäß Satz 7.13 eine eindeutige Lösung.
Darüber hinaus zeigen die Herleitungen in diesem Unterabschnitt einen Weg auf, wie diese Lösung und zugehörige Multiplikatoren, sofern solche benötigt werden, bestimmt werden können. Diesen Lösungsweg für werden wir im folgenden Unterabschnitt 7.4.2 nochmals zusammenfassen und kommentieren. Anschließend werden wir im Unterabschnitt 7.4.3 diskutieren, wie man vorgehen kann, wenn man eine Lösung von über die direkte Lösung des KKT-Systems (7.33) anstrebt. Letzterer Lösungsweg hat den Vorteil, dass man dafür nur die Nichtsingularität der KKT-Matrix benötigt.
Wie im vorangegangenen Unterabschnitt sei insbesondere eine Matrix mit und seien Matrizen und bekannt, für die gilt:
- (7.43)
Darüber hinaus gelte:
- (7.44) ist positiv definit.
Nach Satz 7.13 besitzt dann das Problem eine eindeutige Lösung und einen eindeutigen zugehörigen Multiplikator .
Wie aus Abschnitt 7.3.3 hervorgeht, lässt sich eine Lösung von Problem unter diesen Voraussetzungen mit einer speziellen Lösung des Systems und mit einem Vektor in der Form
- (7.45)
aufspalten. Insbesondere gilt
- (7.46)
Wegen der in (7.43) vorausgesetzten Nichtsingularität von kann dabei als eindeutige Lösung des linearen Gleichungssystems
- (7.47)
berechnet werden. Wie im Unterabschnitt 7.4.1 gezeigt wurde, ergibt sich ferner als eindeutige Lösung des linearen Gleichungssystems
- (7.48)
Da die Matrix in diesem System nach Voraussetzung positiv definit ist, sollte man für die Lösung von (7.48) eine Cholesky-Zerlegung verwenden. Zusammengefasst gewinnt man also die Lösung von bei einer solchen Vorgehensweise folgendermaßen:
- Man berechne Matrizen und , welche den Bedingungen in (7.43) genügen.
- Man bestimme die eindeutigen Lösungen und der linearen Gleichungssysteme (7.47) und (7.48).
- Man berechne .
Vergleicht man diese Vorgehensweise mit den Ergebnissen aus dem Unterabschnitt 7.4.1, so stellt man fest, dass sie sich genau dann ergibt, wenn man das Problem über die unrestringierte Minimierung von aus (7.38) löst.
Für manche Zwecke, wie z. B. für die wichtigen SQP-Verfahren der nichtlinearen Optimierung, wird neben auch ein zu gehörender Vektor von Multiplikatoren benötigt. Unter der Voraussetzung (7.44) ist dieser Vektor eindeutig bestimmt (s. Satz 7.13). In diesem Zusammenhang beachte man, dass Multiplikation der ersten Gleichung in (7.33) von links mit die Beziehung
liefert und dass mit auch invertierbar ist. Also kann folgendermaßen berechnet werden:
- Man bestimme die eindeutige Lösung des linearen Gleichungssystems
- (7.49)
Die beschriebene Vorgehensweise zur Lösung von bezeichnet man als Nullraum-Methode, da sie vorrangig von der Matrix , d. h. von einer Basis des Nullraumes von Gebrauch macht. Denn die Matrix kann ja im Prinzip als Einheitsmatrix gewählt werden (siehe die einfache Elimination in Abschnitt 7.3.2). Verschiedene Nullraum-Methoden unterscheiden sich im wesentlichen durch die Wahl von und .
Die Bestimmung einer Basis des Nullraumes von kann zumindest bei großen Problemen numerisch sehr teuer sein. Deshalb bietet sich die Nullraum-Methode insbesondere dann zur Lösung von an, wenn die Dimension des Nullraums von , d. h. wenn die Zahl relativ klein ist. Die Basis des Nullraums von ist außerdem nicht eindeutig definiert, so dass das lineare Gleichungssystem in (7.48), wenn diese ungünstig gewählt wird, schlecht konditioniert sein kann. Normalerweise wählt man die Matrix für kleine und mittelgroße Probleme so, dass die Spalten von orthonormal sind. Die Kondition der Matrix ist dann, wie man zeigen kann, höchstens so groß wie die von . Für große, dünn besetzte Matrizen ist eine solche Wahl von aber numerisch zu teuer, so dass man oft gezwungen wird, in ungünstigerer Weise festzulegen.
Die Durchführung der Nullraum-Methode an einem Beispiel stellen wir als Aufgabe:
Man betrachte das Problem
mit und
- (a) Man bestimme mittels der einfachen Elimination Matrizen und mit den Eigenschaften in (7.43).
- (b) Man weise nach, dass auch die folgenden Matrizen die in (7.43) geforderten Eigenschaften besitzen:
- (7.50)
- (c) Man verwende die Nullraum-Methode mit und aus (7.50) zur Bestimmung der Lösung und des zugehörigen Multiplikators des gegebenen Problems. (Die Rechnungen mit und aus (7.50) sind etwas einfacher als entsprechende Rechnungen mit den Matrizen, die sich in Teil (a) anbieten.)
Eine Lösung des Problems lässt sich auch dadurch bestimmen, dass man das zugehörige KKT-System (7.33) direkt löst. Wir betrachten in diesem Zusammenhang zunächst den Fall
- ist positiv definit.
Das KKT-System für , welches durch
- (7.51)
gegeben ist, besitzt dann eine eindeutige Lösung (vgl. Beispiel 3.16 (2)). Insbesondere lässt sich in diesem Fall der zu gehörende Multiplikator gemäß (3.41) als Lösung des linearen Gleichungssystems
- (7.52)
berechnen. Da wir für das Problem grundsätzlich die Rangbedingung vorausgesetzt haben, ist die Matrix in diesem System symmetrisch und positiv definit (s. Lemma 2.21). Ihre Aufstellung erfordert die Kenntnis der Inversen von , so dass man auch dazu verwenden kann, anschließend gemäß der Formel (3.40) zu berechnen:
- (7.53)
Wenn bekannt ist, besteht die Hauptarbeit bei einer solchen Vorgehensweise darin, das Gleichungssystem in (7.52) zu lösen. Dieses hat nur Gleichungen in Veränderlichen. Demgegenüber ist das KKT-System (7.51) selbst, dessen direkte Lösung wir anschließend diskutieren werden, ein System von Gleichungen mit Unbekannten.
Bei dem beschriebenen Vorgehen benötigt man aber neben der Inversen von eine Zerlegung der symmetrischen, positiv definiten Matrix . Daher ist die beschriebene Methode zur Lösung von nur dann sinnvoll, wenn leicht zu invertieren, d. h., wenn z. B. eine Diagonal- oder Blockdiagonalmatrix ist oder wenn z. B. aufgrund der Verwendung einer Quasi-Newton-Update-Formel für explizit bekannt ist. (Letzteres ist für die sog. SQP-Verfahren für allgemeine nichtlineare Optimierungsprobleme der Fall.)
Für die eindeutige Lösbarkeit des KKT-Systems in (7.51) bzw. des Systems
mit
- (7.54)
muss jedoch nicht positiv definit und nicht einmal regulär sein, sondern genügt es, dass die Systemmatrix in (7.54) nichtsingulär ist. Gemäß Satz 7.13 ist dies insbesondere der Fall, wenn eine Matrix existiert, für die gilt und für die die Matrix positiv definit ist. Es sei in diesem Zusammenhang bemerkt, dass die symmetrische KKT-Matrix immer indefinit ist, selbst dann, wenn positiv definit ist (s. [NoWri06, S. 454]):
- Die Matrix sei positiv definit. Dann hat die KKT-Matrix in (7.54) positive und negative Eigenwerte und keiner ihrer Eigenwerte ist Null.
Wir setzen nun für die KKT-Matrix nur voraus, dass sie nichtsingulär ist, so dass sich die im Folgenden beschriebene Vorgehensweise auch zur Bestimmung von KKT-Punkten für nichtkonvexe Probleme eignet. Im Prinzip könnte man in einem solchen Fall die Lösung des linearen Gleichungssystems in (7.54) mittels Gauß-Elimination oder gegebenenfalls mit einer ihrer Varianten für dünn besetzte Matrizen ermitteln. Jedoch lässt sich bei solchen Methoden nicht die Symmetrie der Matrix ausnutzen. Daher ist es in diesem Zusammenhang am effektivsten, eine sog. symmetrische indefinite Faktorisierung von zu berechnen und damit das System in (7.54) zu lösen.
Ist eine beliebige symmetrische nichtsinguläre (und nicht notwendig positiv definite) Matrix, so besitzt eine symmetrische indefinite Zerlegung der Gestalt
- (7.55)
wobei eine Permutationsmatrix, eine untere Dreiecksmatrix mit Einsen in der Diagonale und eine Blockdiagonalmatrix mit Blöcken der Dimension 1 oder 2 ist. Insbesondere hat dieselbe Anzahl von negativen und positiven Eigenwerten wie und haben die -Blockmatrizen in jeweils einen positiven und negativen Eigenwert (s. [GiMuWr91], [GolLoa96], [NoWri06]).
Die Matrix
hat, wie man z. B. mit MATLAB ermittelt, die Eigenwerte
Man prüft leicht nach, dass mit , wobei die -te Spalte der Einheitsmatrix ist und mit den folgenden Matrizen in der Form (7.55) geschrieben werden kann:
Man beachte, dass beide Diagonalblockmatrizen in -Matrizen sind, wobei die obere die Eigenwerte und und die untere die Eigenwerte und besitzt.
Auf die Berechnung einer solchen Zerlegung von können wir hier nicht eingehen. Wir verweisen dafür auf die oben angegebene Literatur. Hat man speziell für aus (7.54) eine Zerlegung wie in (7.55) berechnet (dies ist numerisch die wesentliche Arbeit), so folgt wegen
Das lineare Gleichungssystem entspricht in diesem Fall also dem System
- (7.56)
Wie man den obigen Angaben zu den darin vorkommenden Matrizen und entnehmen kann, sind diese Matrizen nichtsingulär. Daher kann man die eindeutige Lösung des Systems (7.56) auf folgende effiziente Weise berechnen, bei der man die Struktur der in der Zerlegung vorkommenden Matrizen ausnutzt (man setze dazu zunächst und fahre in ähnlicher Weise mit , usw. fort):
- Man bestimme eine Lösung von .
- Man bestimme eine Lösung von .
- Man bestimme eine Lösung von .
- Man setze .
Die Lösung des Gleichungssystems unter 2. lässt sich aufgrund der speziellen Blockstruktur von auf die Lösung von - bzw. -Systemen reduzieren. Ferner müssen in 1. und 3. nur gestaffelte Gleichungssysteme mit einer Dreiecksmatrix aufgelöst werden. Schließlich beachte man, dass Multiplikation eines Vektors von links mit bzw. nur eine Umstellung seiner Komponenten bedeutet, also numerisch billig ist.
Eine solche Vorgehensweise ist für viele Probleme recht effektiv. Ungünstig kann sie für große Probleme werden, bei denen die Matrix sehr viel dichter besetzt ist als die Ausgangsmatrix . Es sei abschließend hierzu noch ohne weitere Erläuterung erwähnt, dass die anfänglich beschriebene Vorgehensweise für den Fall, dass positiv definit ist, als ein Spezialfall der Lösung des Systems (7.54) mittels einer symmetrischen indefiniten Faktorisierung von interpretiert werden kann.
7.5 Probleme mit Ungleichungsnebenbedingungen
[Bearbeiten]
Als nächstes wenden wir uns der Lösung quadratischer Optimierungsprobleme mit linearen Gleichungs- und Ungleichungsrestriktionen zu. Wir gehen dazu von der folgenden Gestalt eines solchen Problems aus, weil diese für die Darstellung der Methoden, die wir vorstellen möchten, zweckmäßiger als die Normalform eines quadratischen Optimierungsproblems ist:
Dabei seien eine symmetrische Matrix, und
Die Gleichungs- und Ungleichungsnebenbedingungen sind hier also von 1 bis durchnummeriert.
Wir bezeichnen dieses allgemeine quadratische Optimierungsproblem wiederum mit (es ließe sich ja äquivalent in eines in Normalform umschreiben). Der zulässige Bereich von ist dann hier durch
gegeben. Weiter definieren wir
Der Einfachheit halber bezeichnen wir als Menge der aktiven Indizes. (In Abschnitt 3.2 hatten wir diese Bezeichnung ja nur für Ungleichungsnebenbedingungen eingeführt.)
Jeder lokale Minimalpunkt von Problem ist nach Satz 3.13 ein KKT-Punkt des Problems. Im Fall, dass positiv semidefinit und damit ein konvexes Problem ist, ist ferner nach Satz 3.7 jeder KKT-Punkt von ein globaler Minimalpunkt von . Im konvexen Fall ist also die Existenz eines KKT-Punktes notwendig und hinreichend dafür, dass das Problem löst.
In diesem Zusammenhang seien zwei Phänomene erwähnt, die für einen KKT-Punkt von auftreten können und die bei der Durchführung einiger Algorithmen Schwierigkeiten bereiten können. In beiden Fällen bezeichnet man als in degeneriert. (Der Begriff der Degeneriertheit wird in der Literatur leider nicht einheitlich verwendet.)
Und zwar liegt eine Art von Degeneriertheit bei vor, wenn die Gradienten aller in aktiven Restriktionen linear abhängig sind. (In der Sprache der nichtlinearen Optimierung, ist in diesem Fall die „Linear Independence Constraint Qualification (LICQ)“ in nicht erfüllt.) Eine solche Situation tritt z. B. auf, wenn mehr als Restriktionen in aktiv sind.
Die Aufgabe
hat offenkundig die Lösung . Die drei Restriktionen des Problems sind in aktiv, so dass die zugehörigen Gradienten linear abhängig sind.
Die lineare Abhängigkeit der kann beispielsweise Schwierigkeiten bei dem im Unterabschnitt 7.5.2 beschriebenen Active-Set-Verfahren verursachen, bei dem in jeder Iteration ein gleichungsrestringiertes Problem bezüglich der für die aktuelle Iterierte aktiven Restriktionen gelöst werden muss. Ist dann nämlich diejenige Matrix, welche die zu den aktiven Restriktionen gehörenden Vektoren als Zeilen hat und sind die entsprechenden linear abhängig, so kann die Berechnung der Nullraummatrix zu Schwierigkeiten bereiten. Auch Matrizen in anderen Verfahren, die für deren Durchführung invertierbar sein müssen, sind in diesem Fall singulär. Dies trifft z. B. auf die Matrix zu, die bei der ersten im Unterabschnitt 7.4.3 beschriebenen Methode zur direkten Lösung des KKT-Systems benötigt wird.
Eine zweite Art von Degeneriertheit liegt vor, wenn die strikte Komplementaritätsbedingung
für die zu gehörenden Multiplikatoren verletzt ist, d. h., wenn für mindestens einen zu einer aktiven Ungleichungsrestriktion gehörenden Index gilt.
Man betrachte das Problem
Es besitzt offenbar die Lösung und beide Restriktionen sind in aktiv. Die Bedingung (3.15) der KKT-Bedingungen lautet hier in
- (7.57)
Also ergibt sich und .
Offenbar ist hier die -Komponente von identisch mit der des (unrestringierten) Minimalpunktes von . Die erste Komponente des ersten Vektors in (7.57) entspricht also gerade , so dass die ersten Komponenten der beiden anderen Summanden auf der linken Seite von (7.57) wegen in der Summe keinen Beitrag mehr leisten dürfen.
Ist die strikte Komplementaritätsbedingung in verletzt und gilt für eine durch ein numerisches Verfahren erzeugte Näherung von , dass für ein ist, so ist es zumeist schwierig zu entscheiden, ob die zugehörige Restriktion im Grenzwert aktiv ist oder nicht. Insbesondere Active-Set- und Gradientenprojektionsverfahren, die wir im Folgenden vorstellen wollen, neigen dann zu einem Zick-Zack-Verhalten, wenn eine solche Restriktion mal in das zu lösende Unterproblem mit aufgenommen wird und mal nicht. Es sollten daher erforderlichenfalls Maßnahmen in Algorithmen vorgesehen werden, die ein derartiges Verhalten verhindern.
In den folgenden beiden Unterabschnitten wollen wir nun ein Active-Set- und ein modifiziertes Gradientenprojektionsverfahren für die Lösung quadratischer Optimierungsprobleme vom Typ diskutieren. Die Beschreibung weiterer Methoden für solche Probleme, wie die von Pfadverfolgungsmethoden (z. B. [NoWri06], [Wri97]) oder die des Goldfarb-Idnani-Verfahrens (z. B. [GeiKa02], [Spe93], [SuYu06]), wäre wünschenswert, aber übersteigt den begrenzten Rahmen dieses Kurses.
In diesem Unterabschnitt beschreiben wir ein primales Active-Set-Verfahren zur Lösung konvexer quadratischer Optimierungsprobleme, d. h. für Probleme der Gestalt mit der Eigenschaft
- ist positiv semidefinit.
„Primales Verfahren“ bedeutet hier, dass bei diesem Verfahren Näherungen einer Lösung des primalen Problems erzeugt werden. (Es gibt auch duale und primal-duale Active-Set-Verfahren.)
Einführung: Wir stellen zunächst die folgende, in der Optimierung häufig verwendete und geometrisch einleuchtende Aussage bereit:
- Seien und sei das Problem
- Ist ein lokaler Minimalpunkt von , so ist auch ein lokaler Minimalpunkt von
- Minimiere über alle
- für
- mit
Übung!
Man betrachte zunächst für ein und für die damit festliegende Menge der aktiven Indizes das folgende gleichungsrestringierte quadratische Optimierungsproblem:
- (7.58)
Ist eine Lösung des Problems , so ist offenbar und löst gemäß Lemma 7.21 auch das Problem (7.58). Ist umgekehrt und ist selbst auch Lösung von (7.58), so gibt es Multiplikatoren , so dass die folgenden KKT-Bedingungen für das Problem (7.58) erfüllt sind:
Gilt in diesem Fall zusätzlich
- (7.59)
so erfüllt offenbar auch die KKT-Bedingungen für das Problem und ist damit eine Lösung von .
Ziel der im Folgenden beschriebenen Methode ist es, ausgehend von einem für das Problem zulässigen Punkt , zulässige Punkte für zu erzeugen, so dass für ein das Problem (7.58) löst und die zugehörigen Multiplikatoren die Bedingung in (7.59) erfüllen. Nach dem Gesagten ist dann auch eine Lösung des Ausgangsproblems . Auf Methoden zur Auffindung eines Startpunktes werden wir weiter unten eingehen.
Ein primales Active-Set-Verfahren geht im -ten Schritt von einem Punkt und einer Arbeitsmenge (working set) von Indizes aus, wobei
- (7.60)
und demnach insbesondere
- (7.61)
gilt. Die Indexmenge muss also alle Indizes der Gleichungsrestriktionen und kann einige oder alle Indizes von Ungleichungsrestriktionen enthalten, welche in aktiv sind. In der -ten Iteration ist dann ein quadratisches Optimierungsproblem mit linearen Gleichungsnebenbedingungen für Indizes zu lösen. Anschließend werden unter Verwendung von Informationen, die man aus der Lösung dieses Unterproblems gewinnt, ein neuer Vektor und eine neue Arbeitsmenge gebildet.
Für jedes muss dabei derart sein, dass für die Gradienten der im Unterproblem auftretenden Restriktionen gilt:
- (7.62)
Die letztere Bedingung muss auch dann erfüllt sein, wenn die Vektoren linear abhängig sein sollten.
Auf diese Weise wird sukzessive eine Folge zulässiger Punkte für erzeugt, für welche die Zielfunktion von von einem Schritt zum nächsten zumindest nicht zunimmt. Darüber hinaus wird sukzessive die Bestimmung der Menge der in einer Lösung von aktiven Indizes sowie die Erzeugung nichtnegativer Multiplikatoren zu den Ungleichungsnebenbedingungen von angestrebt.
Herleitung der einzelnen Verfahrensschritte: Wir wollen jetzt die einzelnen Schritte, die in der -ten Iteration des Verfahrens zu durchlaufen sind, im Detail herleiten. Dazu setzen wir die Bedingungen in (7.60) und (7.62) voraus und definieren wir
Ein beliebiger Vektor kann mit einem in der Form dargestellt werden. Mittels einer Taylor-Entwicklung erhält man daher
- (7.63)
Folglich kann man minimieren, indem man das Funktional auf der rechten Seite von (7.63) bezüglich minimiert. Die Konstante kann dabei fortgelassen werden.
Weiter soll zunächst gesichert werden, dass mit auch für die zur Arbeitsmenge gehörenden Restriktionen von zulässig ist. Die gesuchte Richtung sollte also eine hinsichtlich der Gleichungsnebenbedingungen in (7.61) zulässige Richtung sein. Gemäß Lemma 3.12 führen diese Überlegungen zu dem folgenden Unterproblem, das in der -ten Iteration zu lösen ist:
Besitzt das Problem eine Lösung , so erfüllt mit offenbar auch für jedes die Bedingungen in (7.61). Dabei ist genau dann eine Lösung von , wie wir mehrfach ausnutzen werden, wenn Multiplikatoren existieren, so dass gilt (vgl. Korollar 3.14):
- (7.64)
Aufgrund der Voraussetzung in (7.62) hat die Systemmatrix zu den Gleichungsnebenbedingungen von Problem vollen Rang und ist damit die Voraussetzung (7.32) im Abschnitt 7.4 über gleichungsrestringierte quadratische Probleme für erfüllt. Die Existenz einer eindeutigen Lösung des Unterproblems ist gewährleistet, wenn die Matrix für eine Nullraummatrix zu dieser Systemmatrix positiv definit ist (Satz 7.13). Die positive Definitheit von ist insbesondere dann gesichert, wenn positiv definit ist. Eine Lösung des Unterproblems kann dann mit einer der Methoden aus Abschnitt 7.4 gewonnen werden.
Wir definieren nun
- (7.65)
wobei von abhängt. Als nächstes analysieren wir die folgenden drei Fälle:
- Fall 1: .
- Fall 2: und .
- Fall 3: und .
Wir beginnen mit einem Ergebnis für den Fall 1, wobei die Zielfunktion des Problems ist.
- Es sei eindeutige Lösung des Unterproblems . Ist , so ist Abstiegsrichtung für in .
Da für das Problem zulässig und die nach Voraussetzung eindeutige Lösung dieses Problems ist, erhält man
Weil generell als positiv semidefinit vorausgesetzt wurde, ist weiter und daher . Damit folgt die Behauptung aus Lemma 3.9.
q.e.d.
Zu sei nun die maximale Schrittweite im Intervall , so dass mit auch noch in liegt. Diese Schrittweite lässt sich leicht berechnen:
- Es sei Lösung des Unterproblems und
- (7.66) mit
- Dann ist das größte , so dass in liegt.
Wegen und gilt für alle
Sei nun , also insbesondere . Ist dann , so hat man für alle
Ist schließlich und , so folgert man
Zusammen genommen erschließt man die Behauptung.
q.e.d.
Im Fall bezeichnen wir eine Restriktion mit Index , für welche das Minimum in (7.66) angenommen wird, als blockierende Restriktion. Man beachte in diesem Zusammenhang, dass sich ergibt, wenn für einen Index mit gleichzeitig und damit gilt (siehe die Bemerkungen dazu im Anschluss an den Konvergenzsatz 7.28).
Ist die in der Definition von in (7.66) vorkommende Indexmenge leer und somit oder ist , also keine Restriktion blockierend, so ist und offenbar keine neue Restriktion in aktiv. Ist andererseits , dann wurde der Schritt der Länge von in Richtung durch eine Restriktion mit Index blockiert. Wie man aus der Definition von erschließt, ist dann die Restriktion mit diesem Index in aktiv, d. h. ist . In diesem Fall wählt man einen Index zu einer blockierenden Restriktion aus und bildet man eine neue Arbeitsmenge , indem man zu hinzufügt.
Wenn das Problem eine Lösung besitzt, ist also gesichert, dass wieder zulässig für ist. In der beschriebenen Weise fährt man dann so lange fort, bis das aktuelle Unterproblem die Lösung besitzt, bis also einer der Fälle 2 und 3 oben eintritt. Im Hinblick auf diese Fälle beweisen wir als nächstes:
- Ist Lösung des Unterproblems , dann ist Lösung des Problems
- (7.67)
- Sind ferner die zur Lösung von gehörenden Multiplikatoren und gilt für aus (7.65), so löst auch das Problem .
Für sind mit Multiplikatoren die KKT-Bedingungen für in (7.64) erfüllt. Wegen und folgt aus diesen
- (7.68)
Aufgrund der generellen Voraussetzung in (7.60) hat man weiter
- (7.69)
Die Bedingungen (7.68) und (7.69) zusammen implizieren, dass das Problem (7.67) löst. Gilt ferner
und setzt man , so erfüllt mit den offenbar auch die KKT-Bedingungen für Problem und ist daher eine Lösung von .
q.e.d.
Im Fall hat man insbesondere , so dass man aus Lemma 7.24 folgern kann:
- Ist Lösung des Unterproblems und ist , so löst das Problem .
Es sei nun Lösung von Problem . Ist , so ist eine Lösung des Ausgangsproblems gefunden. Also müssen wir noch den Fall 3 betrachten, dass ist.
Es gibt verschiedene Möglichkeiten, in diesem Fall zu einer Abstiegsrichtung in zu kommen, die für alle zu gehörenden Restriktionen zulässig bleibt. Das folgende Lemma gibt an, dass eine Lösung des Problems
- (7.70)
eine solche liefert, zumindest wenn diese Lösung eindeutig ist (vgl. Lemma 3.12). Diese Vorgehensweise hat gegenüber anderen den Vorteil, dass das zu lösende Unterproblem (7.70) von demselben Typ wie das Unterproblem ist.
- Es sei Lösung des Unterproblems mit Multiplikatoren und es sei für aus (7.65). Ist Lösung des Problems (7.70), dann gilt . Ist die einzige Lösung von (7.70), so folgt
- (7.71)
Die Lösung des Problems (7.70) erfüllt mit Multiplikatoren die zu diesem Problem gehörenden KKT-Bedingungen, d. h., es gilt
- (7.72)
Ist nun die Matrix mit den gemäß (7.62) linear unabhängigen Spalten und ist eine Matrix, deren Spalten eine Basis des Nullraums von bilden, so können wir weiter mit Korollar 7.15 schließen, dass die Matrix positiv semidefinit ist. Wegen gibt es ferner ein mit , so dass folgt:
- (7.73)
Da Problem löst, folgt aus den Optimalitätsbedingungen (7.64) für in Verbindung mit der ersten Gleichung in (7.72)
- (7.74)
Multipliziert man diese Gleichung mit und verwendet man die zweite Gleichung in (7.72), so gelangt man zu
- (7.75)
Aus und folgt somit .
Es sei jetzt die einzige Lösung des Problems (7.70). Nach Korollar 7.15 ist dann die Matrix positiv definit. Wäre nun , so wäre wegen (7.75) und wegen (7.73) . Aufgrund der linearen Unabhängigkeit der Spalten von folgte daher . Letzteres würde jedoch wegen der linearen Unabhängigkeit der mit (7.74) implizieren, was der Voraussetzung widerspricht. Demnach ist
Damit liefert schließlich Multiplikation der ersten Gleichung in (7.72) mit und anschließende Verwendung der zweiten Gleichung aus (7.72)
q.e.d.
Setzt man also im Fall 3
so gilt trivialerweise und ist zumindest dann, wenn eine eindeutige Lösung besitzt, gesichert, dass eine Abstiegsrichtung für in ist. Insbesondere ist in diesem Fall also und liegt damit in der -Iteration wieder der Fall 1 vor.
Das letzte Lemma bleibt richtig, wie dessen Beweis zeigt, wenn der Multiplikator dort ein beliebiger negativer Multiplikator zu ist. Die Wahl eines kleinsten Multiplikators ist aber dadurch gerechtfertigt, dass man sich mittels einer Sensitivitätsanalyse klarmachen kann, dass sie zumindest lokal den größten Abstieg des Zielfunktionswertes von im Verfahren bewirkt. Allerdings kann man für jede Restriktion in mit Index und Multiplikator durch eine geeignete Skalierung erreichen, dass zu ihr der kleinste negative Multiplikator gehört. (Es gilt ja für .) Deshalb verwendet man in der Praxis manchmal eine kompliziertere Regel zur Auswahl des Multiplikators.
Beschreibung des Verfahrens und Konvergenzsatz: Mit den gewonnenen Ergebnissen können wir das Active-Set-Verfahren vollständig beschreiben:
Algorithmus 7.27 (Active-Set-Verfahren)
[Bearbeiten]
- (0) Wähle und eine Menge mit . Setze .
- (1) Berechne eine Lösung des Problems
- (2) Falls ist, gehe nach (3).
- Falls und ist, stop! ( löst Problem .)
- Falls und ist, berechne zugehörige Lagrange-Multiplikatoren, d. h., berechne eine Lösung von
- (7.76)
- und bestimme
- Falls ist, stop! ( löst Problem .)
- Falls ist, setze
- und gehe nach (4).
- (3) Berechne
- (7.77)
- und definiere
- Falls ist, setze .
- Falls ist, setze mit einem Index , für den der Minimalwert in (7.77) angenommen wird.
- (4) Setze und gehe nach (1).
Wir beweisen die Konvergenz dieses Verfahrens unter etwas vereinfachenden Voraussetzungen.
- Es sei positiv definit und . Weiter seien in Algorithmus 7.27 für alle die Vektoren linear unabhängig und gelte . Dann bricht Algorithmus 7.27 nach endlich vielen Iterationen mit der eindeutigen Lösung von ab.
Ist für ein , dann ist nach Lemma 7.24 Lösung und wegen der vorausgesetzten positiven Definitheit von eindeutige Lösung des Problems (7.67). Wenn nicht die Lösung von ist und damit das Verfahren abbricht, gilt und damit sowie . Nach Lemma 7.26 ist dann Abstiegsrichtung für und somit insbesondere . Da man weiter nach Voraussetzung hat, gilt als Folge der Lemmata 7.22 und 7.26
- für alle .
Somit kann, wie Lemma 7.24 anzeigt, der Fall mit für nicht mehr auftreten, da dann wäre.
Wir zeigen als nächstes, dass das Unterproblem im Algorithmus spätestens für jede -te Iteration die Lösung 0 haben muss. Wir nehmen dazu für ein an. Im Fall ist insbesondere und damit und . Aufgrund der Identität in (7.63) und der Äquivalenz
- (7.78)
ist die eindeutige Lösung des Problems
- (7.79)
Wegen kann man für die Lösung des Problems analog schließen, dass ebenfalls eine Lösung von (7.79) und damit ist.
Der Fall und kann höchstens -mal hintereinander eintreten. Denn in diesem Fall wird die Arbeitsmenge um jeweils einen Index erweitert. Aufgrund der vorausgesetzten linearen Unabhängigkeit der besitzt daher das Gleichungssystem und demzufolge das Unterproblem die eindeutige Lösung , sobald aus Elementen besteht.
Also ist nach jeweils spätestens Schritten . Da weiter anfangs gezeigt wurde, dass der Fall nur für unterschiedliche Arbeitsmengen möglich ist und da es nur endlich viele solcher Mengen gibt, bricht Algorithmus 7.27 entweder in Schritt (2) des Verfahrens mit der Lösung von ab, bevor auf allen möglichen Arbeitsmengen die Nulllösung erreicht wurde oder es wird nach insgesamt endlich vielen Schritten die Lösung auf der letzten, zuvor noch nicht durchlaufenen Menge erzielt. Es muss dann gelten, so dass die Lösung von ist (Lemma 7.24). Denn anderenfalls käme man nach spätestens Schritten zu einer Nulllösung auf einer früheren Arbeitsmenge, was aber, wie bereits gesagt wurde, ausgeschlossen ist.
q.e.d.
Wie im Anschluss an Lemma 7.23 erläutert wurde, kann im Algorithmus 7.27 auch der Fall auftreten. Es ist daher möglich, dass über mehrere Iterationen hinweg aus der Arbeitsmenge Indizes entfernt und hinzu gefügt werden, ohne dass sich die Iterierte verändert. Kehrt dann Algorithmus 7.27 nach endlich vielen Schritten zu derselben Arbeitsmenge zurück, so tritt, ähnlich wie es auch beim Simplexalgorithmus der linearen Optimierung geschehen kann, ein Zyklus auf, aus dem der Algorithmus nicht mehr herauskommt. Letzteres wurde in Satz 7.28 durch die Annahme für alle ausgeschlossen. Wie beim Simplexalgorithmus könnte man aber auch eine Strategie in den Algorithmus einbauen, die das Auftreten von Zyklen verhindert. In den meisten Implementierungen wird Letzteres jedoch nicht getan, da unvermeidliche Rundungsfehler auf einem Computer solche Zyklen sehr unwahrscheinlich machen.
Die Durchführung des Verfahrens an einem Beispiel wird als eine Aufgabe gestellt.
Berechnung eines Startpunktes: Ein für das Problem zulässiger Punkt, welcher als Startpunkt für Algorithmus 7.27 benötigt wird, lässt sich in vielen konkreten Fällen direkt angeben. Wenn dies nicht möglich ist, kann man einen solchen Punkt auf verschiedene Weisen berechnen. So kann man die Phase I des Simplexalgorithmus verwenden, welche für lineare Restriktionen entweder einen zulässigen Punkt liefert oder feststellt, dass es keinen solchen Punkt gibt. In diesem Zusammenhang sei erwähnt, dass die Phase II des Simplexalgorithmus, sofern dieser dem Leser bekannt sein sollte, als ein Active-Set-Verfahren aufgefasst werden kann. Im Unterschied zum Simplexverfahren erzeugen Active-Set-Verfahren für quadratische Optimierungsprobleme aber nicht notwendig Iterierte, die auf dem Rand des zulässigen Gebietes liegen oder Ecken von diesem sind. (Es kann ja sogar der Fall eintreten.)
Zur Bestimmung eines Punktes, der für das Problem zulässig ist, kann man auch das folgende Hilfsproblemin den Variablen lösen (die Vorgehensweise lässt sich auf allgemeine nichtlineare Optimierungsprobleme ausdehnen):
- (7.80)
Im Fall kann die Nebenbedingung in diesem Problem gestrichen werden, da dann für jeden Punkt , der für (7.80) zulässig ist, automatisch gilt. Gibt man sich nun irgendein vor und berechnet man dazu den maximalen Wert aller Funktionen auf den linken Seiten der Restriktionen, so erhält man offenbar einen für dieses Problem zulässigen Punkt , indem man wählt. Insbesondere ist also der zulässige Bereich dieses Problems nichtleer. Da seine Zielfunktion außerdem nach unten durch 0 beschränkt ist, besitzt das Problem (7.80) gemäß Satz 7.1 eine Lösung .
Ist dann weiter , so ist der zulässige Bereich von offenbar leer. Im Fall dagegen ist ein zulässiger Punkt für . Für könnte man alternativ auch die Nebenbedingung weglassen und nur so lange mit einem Verfahren iterieren, bis man ein mit gefunden hat (oder bis man zu einer Lösung des Problems mit gelangt).
Da ja für Problem (7.80) ein zulässiger Punkt sofort angegeben werden kann, kann eine Lösung dieses Problems im Prinzip mit Algorithmus 7.27 bestimmt werden. (Satz 7.28 sichert in diesem Fall aber nicht die Konvergenz des Verfahrens.) Diese Vorgehensweise sowie die Verwendung des Simplexalgorithmus haben aber den Nachteil, dass man zusätzlich ein lineares Problem von derselben Größenordnung wie der des gegebenen Problems selbst zu lösen hat, ohne dass man dabei dessen Zielfunktion berücksichtigt. Außerdem ist es auch nicht erstrebenswert, das Problem mit zwei unterschiedlichen Verfahren zu lösen. Aus diesen Gründen ist die im folgenden beschriebene Methode attraktiv, welche man als Modifikation des zuletzt beschriebenen Vorgehens ansehen kann.
Bei der sog. Big-M-Methode löst man für ein hinreichend großes, vorab gewähltes das folgende Problem in den Variablen :
Man kann nun zeigen, was als zu bearbeitende Übungsaufgabe gestellt ist: Ist positiv semidefinit und besitzt das Problem eine Lösung , so gibt es ein , so dass mit für jedes eine Lösung von Problem ist. Ist weiter eine Lösung von Problem mit , so ist eine Lösung von Problem .
Setzt man zusätzlich z. B. voraus, dass positiv definit und für jede Lösung von mit die Gradienten der aktiven Nebenbedingungen von linear unabhängig sind, d. h. dass für jede solche Lösung die LICQ erfüllt ist (siehe den Absatz vor Beispiel 7.19), so besitzt für alle hinreichend großen keine Lösung mit . (Man hat dafür zu beweisen, dass dann die -Anteile aller Lösungen von und damit alle zu diesen Lösungen gehörenden Multiplikatoren für die „“-Restriktionen von beschränkt sind. Wählt man dann groß genug, so muss der zur Ungleichung gehörende Multiplikator positiv sein und folgt damit aus der Komplementaritätsbedingung .)
Für das Problem kann man wie für Problem (7.80) einen zulässigen Punkt direkt angeben, so dass Algorithmus 7.27 zu seiner Lösung verwendet werden kann. In der Praxis wird dabei die Konstante zumeist mittels einer Heuristik gewählt. Man beginnt mit einem beliebigem . Hat dann die Variable in der berechneten Lösung des Problems einen positiven Wert, so löst man das Problemmit einem vergrößerten erneut, wobei man die zuletzt erzielte Lösung als Startlösung wählen kann. Diese Prozedur setzt man so lange fort, bis in der Lösung des aktuellen Problems den Wert 0 annimmt.
Bemerkungen und Hinweise: Die durch Algorithmus 7.27 erzeugten Arbeitsmengen und folglich auch die Anzahl der von ihm zur Lösung des Problems benötigten Iterationen können in Abhängigkeit von der Wahl der Startmenge zu sehr variieren. Sind die linear unabhängig, so kann man insbesondere setzen. Aber selbst in diesem Fall muss die Folge der erzeugten Arbeitsmengen nicht eindeutig sein, da die im Verfahren auftretenden Indizes und nicht eindeutig bestimmt sind.
Weiter sei bemerkt: Startet man mit einer Menge , für welche die Vektoren , wie im Konvergenzsatz gefordert, linear unabhängig sind, so sind die Vektoren für alle linear unabhängig, wie man sich leicht überlegt:
Man zeige für Algorithmus 7.27: Sind die Vektoren linear unabhängig, so sind dies auch die Vektoren .
In jeder Iteration des Verfahrens muss ein gleichungsrestringiertes konvexes quadratisches Optimierungsproblem gelöst werden, wobei sich die Anzahl der Nebenbedingungen von einer Iteration zur nächsten höchstens um eine Nebenbedingung verringert oder vergrößert. Ist die Matrix, welche die Vektoren als Zeilen hat, so geht also aus hervor, indem höchstens eine Zeile aus gestrichen oder zu mit hinzu genommen wird. Folglich ändert sich die KKT-Matrix für das quadratische Unterproblem von einem Schritt zum nächsten maximal nur in einer Zeile und Spalte. Diese Tatsache kann man für die effiziente Lösung der Unterprobleme ausnutzen. Für diesbezügliche Details verweisen wir auf [NoWri06].
Eine schlechte Eigenschaft des Verfahrens ist es, dass in jeder Iteration nur höchstens ein Index neu in die Arbeitsmenge mit aufgenommen wird. Startet man nun mit einem Punkt , für den keine der Ungleichungsrestriktionen aktiv ist und sind in jeder Lösung des Problems von diesen aktiv, so benötigt Algorithmus 7.27 mindestens Iterationen. Diese Zahl erhöht sich noch, wenn im Verlauf des Verfahrens Indizes wieder aus den Arbeitsmengen entfernt werden. Deshalb sollte man Active-Set-Verfahren nur für Probleme kleiner und mittlerer Größe verwenden. Für solche Probleme sind sie laut [NoWri06] im Allgemeinen die effizientesten Verfahren.
Active-Set-Verfahren wurden für die Bestimmung lokaler Minima nichtkonvexer quadratischer Optimierungsprobleme modifiziert (z. B. [NoWri06]). Ferner wurden sie auch auf nichtquadratische Probleme mit linearen Restriktionen übertragen (z.B. [Fle91]). Die zu lösenden Unterprobleme sind dann allerdings ebenfalls linear restringierte Probleme mit einer nichtquadratischen Zielfunktion.
7.5.3 Ein modifiziertes Gradientenprojektionsverfahren
[Bearbeiten]
Einführung: Wir wollen ein weiteres Verfahren, ein modifiziertes Gradientenprojektionsverfahren, für die Lösung des allgemeinen quadratischen Optimierungsproblems
diskutieren. Den zulässigen Bereich von bezeichnen wir wieder mit , wobei wir annehmen. Das Verfahren verlangt abgesehen von der Symmetrie keine weitere Voraussetzung an und ist somit auch für nichtkonvexe quadratische Optimierungsprobleme einsetzbar. Die Durchführung des Verfahrens ist allerdings für Probleme mit allgemeinen linearen Restriktionen nicht sinnvoll, weswegen wir es unten nur für einen in der Praxis häufig vorkommenden, speziellen Typ linearer Nebenbedingungen, den von Schrankenbedingungen an die Variablen, vorstellen werden.
Ein bekanntes, im Kurs „Optimierung II“ genauer betrachtetes Verfahren zur unrestringierten Minimierung einer Funktion ist das Gradientenverfahren. Bei diesem wählt man in einer Iterierten mit die Richtung des steilsten Abstiegs als Abstiegsrichtung (vgl. Bemerkung 3.10), bestimmt man anschließend eine geeignete Schrittweite und setzt man dann . Als zunächst nahe liegende Schrittweite bietet sich dabei die Minimumschrittweite, d. h. die folgende Wahl von an:
- (7.81)
(Wir werden in der „Optimierung II“ zeigen, dass ein solches existiert.) Das Verfahren bricht man z. B. ab, wenn bzw. wenn für ein vorgegebenes ist. Da die Schrittweitenwahl in (7.81) die Bestimmung eines globalen Minimierers einer Funktion in einer Veränderlichen bedeutet, hat man alternativ eine ganze Reihe anderer Schrittweitenstrategien entwickelt. Einige davon sind ebenfalls ein Thema der „Optimierung II“. Das Gradientenverfahren macht in der Praxis häufig über einige Iterationen hinweg ganz gute Fortschritte, kann dann aber unerträglich langsam werden, so dass es in der Praxis heute kaum noch eine Rolle spielt.
Das klassische Gradientenprojektionsverfahren stellt nun eine Verallgemeinerung des Gradientenverfahrens auf linear restringierte Optimierungsprobleme und insbesondere auf Probleme des Typs dar. Wie beim Active-Set-Verfahren startet man mit einem für das Problem zulässigen Punkt. In der -ten Iteration liegt dann eine Näherung vor, von der aus man in Richtung des steilsten Abstiegs fortschreitet, sofern nicht bereits ein KKT-Punkt von ist. Um Zulässigkeit der Iterierten zu bewahren, „projiziert“ man als nächstes den Strahl auf die zulässige Menge . Bezüglich dieses auf projizierten Strahls sucht man nun den kleinsten positiven lokalen Minimierer von , den sog. Cauchy-Punkt.
Zur Berechnung dieses Punktes hat man die kleinste positive lokale Lösung eines eindimensionalen quadratischen Optimierungsproblems in der Variablen zu bestimmen. Wir werden zeigen, dass man diese Lösung für Schrankennebenbedingungen mit wenig Aufwand explizit ausrechnen kann. Beim klassischen Gradientenprojektionsverfahren setzt man anschließend (z. B. [Ber95], [Gei-Ka02]). Da dieses Verfahren im unrestringierten Fall genau dem Gradientenverfahren mit der Minimumschrittweitenregel (7.81) entspricht, kann es aber ein ähnlich schlechtes Konvergenzverhalten wie dieses aufweisen.
Daher variiert man das klassische Verfahren, indem man den Cauchy-Punkt nur insoweit verwendet, als man mit den für ihn aktiven Indizes, ähnlich wie beim Active-Set-Verfahren, eine aktuelle Arbeitsmenge von Indizes festlegt. Anders als beim Active-Set-Verfahren muss man nun aber das zugehörige gleichungsrestringierte quadratische Optimierungsproblem nicht vollständig lösen. Da die Konvergenz des klassischen Gradientenprojektionsverfahrens, also des Verfahrens für die Wahl , unter relativ schwachen Voraussetzungen gesichert ist, genügt es, als nächste Iterierte einen für zulässigen Punkt zu bestimmen, in dem der Funktionswert von zumindest nicht größer als der im Cauchy-Punkt ist. Für die Bestimmung eines solchen Punktes gibt es verschiedene Möglichkeiten, die wir hier nur andeuten und nicht ausformulieren können.
Die durch ein derartiges modifiziertes Gradientenprojektionsverfahren erzeugten Arbeitsmengen streben im Allgemeinen sehr viel schneller gegen die Menge der aktiven Indizes in einer Lösung des Problems als es die Arbeitsmengen bei einem Active-Set-Verfahren tun. Solche Projektionsverfahren haben sich daher als sehr effiziente Verfahren für die Lösung großer quadratischer Optimierungsprobleme insbesondere mit Schrankennebenbedingungen erwiesen.
Berechnung der Projektion: Für einen gegebenen Vektor und eine nichtleere, abgeschlossene konvexe Menge bezeichnet man die nach Satz 2.41 existierende eindeutige Lösung des quadratischen Optimierungsproblems
- (7.82)
als Projektion von auf . Die Projektion von auf ist also derjenige Vektor , der in der Menge am nächsten liegt.
Insbesondere ist der zulässige Bereich von eine abgeschlossene, konvexe und nach Voraussetzung auch nichtleere Menge. Der numerische Aufwand zur Lösung des Problems (7.82) für die Menge kann aber bei allgemeinen linearen Nebenbedingungen so groß wie der zur Lösung von selbst sein. Deshalb sollte man Projektionsverfahren nur auf solche Probleme anwenden, für welche die benötigte Projektion einfach zu berechnen ist. Dies ist hier z. B. der Fall, wenn das quadratische Problem nur Schrankenrestriktionen des Typs
aufweist („box constraints“). Dabei sind und reelle Zahlen mit und sind und zugelassen.
Wir betrachten daher ab jetzt nur das quadratische Optimierungsproblem mit Schrankennebenbedingungen
Seinen zulässigen Bereich bezeichnen wir mit
wobei die Vektoren sind, welche die Komponenten und haben. Da für alle vorausgesetzt wurde, gilt .
Probleme des Typs muss man z. B. als Unterprobleme bei einem sog. Trust-Region-Verfahren lösen, wie es in der Vorlesung „Optimierung II“ vorgestellt werden wird. Weiter beachte man, dass jedes linear restringierte, quadratische Optimierungsproblem als ein Problem formuliert werden kann, das nur lineare Ungleichungen als Nebenbedingungen hat und dass sich ein solches Problem, wenn positiv definit ist, lösen lässt, indem man eine Lösung des zugehörigen dualen Problems, das vom Typ ist, bestimmt (vgl. die Probleme und in Abschnitt 7.2.4). Im Prinzip lässt sich also jedes quadratische Optimierungsproblem mit gleichmäßig konvexer Zielfunktion dadurch lösen, dass man eine Lösung eines schrankenrestringierten quadratischen Optimierungsproblems berechnet. Allerdings macht eine solche Vorgehensweise nur dann Sinn, wenn die Berechnung der Matrizen und nicht zu viele Rechenoperationen erfordert (siehe Abschnitt 7.2.4 für die Details).
Das Problem (7.82) lautet nun für
- (7.83)
Seine eindeutige Lösung, die Projektion von auf , bezeichnen wir mit . Die Zielfunktion von (7.83) ist offenbar separierbar, d. h. sie wird minimal, wenn jeder ihrer Summanden minimal wird. Somit ergibt sich sofort
- (7.84)
Es sei nun ein für zulässiger Punkt, d. h. und es sei
(Im Verfahren unten ist die aktuelle Iterierte.) Im Hinblick auf die Minimierung von bietet es sich an, wie beim Gradientenverfahren den von ausgehenden Strahl in Richtung des steilsten Abstiegs, d. h. für zu betrachten und dann auf diesem Strahl einen Punkt mit einer geeigneten Schrittweite zu bestimmen, für den gilt und der wieder zulässig für das Problem ist.
Es liegt somit nahe, für zunächst die Projektion
von auf den zulässigen Bereich von zu bestimmen. Gemäß (7.84) ist diese gegeben durch
- (7.85)
Wie deutlich werden wird, beschreibt für einen stückweise linearen Pfad in . Zur Bestimmung einer geeigneten Schrittweite berechnet man anschließend eine Lösung des einparametrischen, stückweise quadratischen Optimierungsproblems
- (7.86)
Den kleinsten lokalen Minimierer dieses Problems bezeichnet man als Cauchy-Punkt. Diesen Punkt kann man leicht berechnen, wie wir als nächstes zeigen werden.
Man beachte in diesem Zusammenhang, dass für
gilt. Die Bestimmung der Projektion von auf entspricht somit der Bestimmung der Projektion des skalierten Gradienten auf die Menge
Dies erklärt den Namen „Gradientenprojektionsverfahren“ für das hier beschriebene Verfahren.
Berechnung des Cauchy-Punktes: Es sei nun und damit für alle . Zunächst wollen die Projektion von auf die Menge für genauer analysieren.
Die Komponente des Vektors erreicht offenbar mit wachsendem für ein den Rand von . Und zwar erreicht für die untere Schranke , wenn ist und die obere Schranke , wenn ist. Dabei gilt , wenn oder oder wenn ist. Dieses ist somit gegeben durch
- (7.87)
Je nachdem, ob für die Schranke oder erreicht wird, ob also
- oder
gilt, ist dann gemäß (7.85) für alle entweder
- oder .
Zusammengefasst folgt also und zwar auch im Fall ,
- (7.88)
Dieses Ergebnis ist anschaulich klar: eine Komponente von bewegt sich mit wachsendem von aus in Richtung des steilsten Abstiegs auf die Schranken und zu und sie bleibt konstant, sobald sie diese Schranke erreicht hat.
Die in liegende Kurve ist somit stückweise linear. Denn folgt man dem Strahl für wachsendes , so liegt zum „ersten Mal“ auf dem Rand von , wenn den Wert
annimmt. Dabei ist , wenn für alle gilt, und ist , wenn selbst sich schon auf dem Rand von befindet.
Ist , so werden dann für alle die Komponenten von , für die ist, entsprechend der erreichten Schranke konstant gehalten. (Es können ja mehrere solcher Komponenten den Rand von gleichzeitig erreichen.) Dem so „geknickten Strahl“ folgt man nun von aus mit wachsendem bis zu dem nächst größeren , für welches eine oder mehrere weitere Komponenten von auf den Rand von stoßen, usw. Die Kurve , welche durch die Projektion des Strahls auf entsteht, ist somit eine stückweise lineare Kurve.
Es gibt also ein Intervall oder mehrere Intervalle , so dass in dem Intervall eine lineare Funktion ist. Dabei gewinnt man diese von den in (7.87) definierten so, dass man diejenigen der entfernt, welche identisch 0 sind oder denselben Wert wie ein mit kleinerem Index haben und indem man die verbleibenden Werte der der Größe nach sortiert. Auf diese Weise erhält man dann
wobei möglich ist. Den Fall für alle können wir ignorieren, da dann Multiplikatoren existieren, so dass mit diesen Multiplikatoren die KKT-Bedingungen von erfüllt:
Man zeige: Ist für aus (7.87), so ist ein KKT-Punkt des Problems .
Um den Cauchy-Punkt zu ermitteln (vgl. (7.86)), untersuchen wir nun der Reihe nach auf den Intervallen , auf denen eine lineare Funktion ist. Es sei dazu angenommen, dass wir dies bereits bis zum Intervall getan und dabei festgestellt hätten, dass der Cauchy-Punkt für einen Wert angenommen wird. Da der Cauchy-Punkt per Definition der kleinste lokale Minimierer von ist, muss demzufolge auf dem gesamten Intervall streng monoton fallend sein.
Für alle wollen wir zunächst als Summe von und einem Korrekturvektor ausdrücken. Gemäß (7.88) gilt offenbar
sowie
Man berücksichtige nun, dass der Fall „“ aufgrund der Definition der mittels der zunächst und somit für auch nach sich zieht. Ähnlich können wir im Fall „“ schließen, dass für alle die Beziehung gilt. So können wir auf dem Intervall mit
und
- (7.89)
in der Form schreiben:
Damit erhalten wir weiter für auf die Darstellung
mit und
Differentiation von nach und anschließende Nullsetzung liefert weiter im Fall
Ist und , so können wir schließen, dass ein lokales Minimum bei annimmt. Ist , dann ändert die Ableitung von bei ihr Vorzeichen und hat somit einen lokalen Minimalpunkt bei . In den anderen Fällen ist auf und demzufolge auf streng monoton fallend.
Ist dann und , so ist demnach auf streng monoton fallend. Ist andererseits endlich, was für jeden Index immer gegeben ist, so hat dann bei einen lokalen Minimalpunkt und geht man im Fall zum nächsten Intervall über. Insbesondere muss in letzterer Situation die neue Richtung mittels (7.89) bestimmt werden. Da sich von häufig nur in einer Komponente unterscheidet, kann man manchmal Rechenzeit sparen, wenn man die Koeffizienten des neuen Polynoms durch eine geeignete Aufdatierung aus denen für gewinnt.
Die beschriebene Vorgehensweise liefert also entweder ein (endliches) und damit den gesuchten Cauchy-Punkt oder sie ergibt, dass auf der zulässigen Menge von nach unten unbeschränkt ist und das Problem somit keine Lösung besitzt.
Das Verfahren: Es sei nun der berechnete Cauchy-Punkt von . Beim (klassischen) Gradientenprojektionsverfahren wählt man nun und verfährt man weiter mit in derselben Weise wie mit . Dieses Verfahren stimmt im unrestringierten Fall genau mit dem Gradientenverfahren überein, wenn dieses mit der entsprechenden Minimumschrittweitenregel versehen wird. Deshalb ist es nicht überraschend, dass für das Gradientenprojektionsverfahren, ähnlich wie für das Gradientenverfahren, unter schwachen Voraussetzungen globale Konvergenz bewiesen werden kann (siehe z. B. [Ber95] und [GeiKa02], wo eine sog. Armijo-Schrittweitenregel für benutzt wird und beachte, dass alle z. B. dann in einer kompakten Menge liegen, wenn beschränkt ist). Ferner kann damit natürlich das Gradientenprojektionsverfahren wie das Gradientenverfahren im Einzelfall extrem langsam konvergieren.
Aus letzterem Grund modifiziert man die klassische Vorgehensweise wie folgt, wobei
die Menge der in aktiven Indizes für sei. Um zu einer neuen Iterierten zu gelangen, betrachtet man das quadratische Optimierungsproblem
- (7.90)
Die Lösung dieses Problems kann genauso schwierig sein wie die des Ausgangsproblems , so dass es nicht sinnvoll ist, dieses Problem vollständig zu lösen. Eine „exakte“ Lösung ist auch gar nicht erforderlich. Wie man aufgrund der für das klassische Gradientenprojektionsverfahren garantierten Konvergenz vermuten kann, genügt es im Hinblick auf die Sicherstellung der globalen Konvergenz, einen Punkt zu finden, welcher die Nebenbedingungen in (7.90) und damit auch die in erfüllt und für den gilt.
Eine Strategie, die man als einen Kompromiss zwischen der Wahl und einer vollständigen Lösung von Problem (7.90) interpretieren kann, ist es, die Ungleichungen in (7.90) zunächst zu ignorieren und das verbleibende gleichungsrestringierte Problem wenigstens teilweise zu lösen. Da die zu den Gleichungsrestriktionen gehörende Matrix die Zeilen hat und somit zu ihr sofort eine Nullraummatrix angegeben werden kann, bietet es sich an, für die Minimierung der zugehörigen reduzierten quadratischen Funktion aus (7.38) ein sog. CG-Verfahren mit Startpunkt anzuwenden („CG“ steht für „Conjugate Gradient“, siehe „Optimierung II“). Im Fall, dass positiv definit ist, entspricht dieses Vorgehen für das gleichungsrestringierte Problem der Nullraum-Methode aus Abschnitt 7.4.2. Zur gleichzeitigen Einhaltung der Ungleichungsrestriktionen in (7.90) hat man nun weiter CG-Verfahren so variiert, dass man damit zwar das Problem (7.90) im Allgemeinen nicht löst, aber zumindest einen Punkt erhält, der die gewünschten Eigenschaften besitzt. Ein solches modifiziertes CG-Verfahren ist das Verfahren von Steihaug, für dessen Details wir z. B. auf [NoWri06] oder [SuYu06] verweisen.
Zusammengefasst erhalten wir also den folgenden, im Detail nicht ausformulierten Algorithmus. Da wir für die Zielfunktion des Problems keine Konvexität vorausgesetzt haben, kann dieser nur einen Punkt finden, in dem die notwendigen Optimalitätsbedingungen erster Ordnung für erfüllt sind.
Algorithmus 7.32 (Modifiziertes Gradientenprojektionsverfahren)
[Bearbeiten]
- (0) Wähle . Setze .
- (1) Falls ein KKT-Punkt für ist, stop!
- (2) Zu bestimme den Cauchy-Punkt gemäß der oben beschriebenen Vorgehensweise.
- (3) Bestimme mit als Startpunkt einen Punkt , für den
- gilt. Tue dies z. B. mit dem Steihaug-Verfahren für das gleichungsrestringierte quadratische Optimierungsproblem
- (7.91)
- (4) Setze und gehe nach (1).
Für Aussagen zur Konvergenz dieses Verfahrens verweisen wir auf die Arbeit [CGT88b], welche sich auf die allgemeine Theorie in [CGT88a] bezieht (setze dort und und beachte, dass in diesem Fall ist). Für den Fall, dass die strikte Komplementaritätsbedingung in KKT-Punkten von erfüllt ist, kann man zeigen, dass sich die Arbeitsmenge nach endlich vielen Schritten nicht mehr ändert und dass dann das Problem wie ein unrestringiertes Problem behandelt werden kann. Im degenerierten Fall können Zyklen bezüglich der aktiven Mengen auftreten. In der Literatur findet man aber verschiedene Vorgehensweisen, wie man solche vermeiden kann.