Eine von der Struktur her zumindest im konvexen Fall einfache Klasse nichtlinearer Optimierungsprobleme mit Nebenbedingungen ist die der linear restringierten Optimierungsprobleme mit einer quadratischen Zielfunktion. Wie wir bereits in Abschnitt 1.1 gesagt haben, bezeichnet man solche Probleme als quadratische Optimierungsprobleme. Die theoretische und numerische Beherrschung quadratischer Optimierungsprobleme ist nicht nur im Hinblick auf Anwendungen von Interesse, die direkt auf diesen Problemtypus führen (z.B. [Alt02], [NoWri06]), sondern auch im Hinblick auf wichtige Algorithmen der restringierten nichtlinearen Optimierung wie z.B. den Sequential-Quadratic-Programming-Verfahren, bei denen quadratische Optimierungsprobleme als Teilprobleme gelöst werden müssen. Die effiziente Lösung quadratischer Optimierungsprobleme ist also insbesondere auch ein Erfordernis für die Lösung allgemeiner nichtlinearer Optimierungsprobleme.
Im Hinblick auf die Untersuchung quadratischer Optimierungsprobleme ist es oft nützlich, von der folgenden Normalform eines quadratischen Optimierungsproblems auszugehen, für das eine symmetrische Matrix
und Daten
und
gegeben sind:

Mit den in Bemerkung 2.32 und Abschnitt 4.1 beschriebenen Operationen lässt sich erforderlichenfalls jedes Problem mit einer quadratischen Zielfunktion und linearen Nebenbedingungen in diese Form transformieren. Im Fall allerdings, dass ein Problem nur Gleichungsnebenbedingungen aufweist, sollte man und werden wir diese numerisch direkt behandeln und werden wir also nicht die Schrankenbedingungen
für die Variablen durch Einführung zusätzlicher Variablen erzwingen.
Zumeist setzt man im Zusammenhang mit
der Einfachheit halber - zumindest für theoretische Zwecke - die Rangbedingung
voraus, so dass insbesondere
ist. In Abschnitt 4.2 war festgestellt worden, dass das System
im Fall
entweder keine Lösung besitzt und damit der zulässige Bereich von
leer ist oder dass in diesem Fall überflüssige Gleichungen im System
auftreten, welche gestrichen werden können. In letzterem Fall hat dann die Systemmatrix des resultierenden Gleichungssystems den gewünschten vollen Rang.
Den zulässigen Bereich von Problem
bezeichnen wir mit
- (7.1)

Im Fall eines konvexen quadratischen Optimierungsproblems, also im Fall, dass
eine konvexe Funktion bzw.
positiv semidefinit ist (s. Lemma 2.33), ist jede lokale Lösung des Problems
auch eine globale, so dass wir in diesem Fall wie zuvor nur von Lösungen des Problems sprechen.
Im speziellen Fall
handelt es sich bei dem Problem
offenbar um ein lineares Optimierungsproblem in Normalform. Üblicherweise diskutiert man lineare Optimierungsprobleme gesondert, wie wir das auch hier getan haben, weil lineare Optimierungsprobleme im Vergleich zu nichtlinearen quadratischen Optimierungsproblemen zusätzliche Eigenschaften aufweisen, die sich auch numerisch nutzen lassen. Manche der in diesem Kapitel präsentierten Ergebnisse schließen aber den linearen Fall und bekannte Ergebnisse für diesen mit ein und zwar immer dann, wenn nicht die positive Definitheit von
auf dem
oder auf einem Teilraum des
gefordert wird. So ist insbesondere der Existenzsatz 7.2 und die Dualitätstheorie in Abschnitt 7.2 auch auf lineare Probleme anwendbar.
Ist
nicht positiv semidefinit, d. h., ist
kein konvexes Optimierungsproblem, so kann
lokale Minimierer besitzen, die nicht globale Minimierer des Problems sind. Es gibt inzwischen numerische Ansätze dafür, wie man auch in einem derartigen Fall einen globalen Minimalpunkt finden kann. Die Behandlung einer solchen Aufgabe der globalen Optimierung geht jedoch über den Rahmen dieses Kurses hinaus.
Zum Inhalt dieses Kapitels: In Abschnitt 7.1 werden wir einen zentralen Satz zur Existenz einer Lösung von Problem
beweisen. Thema von Abschnitt 7.2 ist eine Dualitätstheorie für konvexe quadratische Optimierungsprobleme, die den (engen) Zusammenhang zwischen dem Problem
und dem sog. dualen quadratischen Optimierungsproblem, das mit den Daten von
gebildet wird, zum Inhalt hat. Die diesbezüglichen Resultate sind für die Praxis insofern von großer Bedeutung, als mit einer Lösung des dualen Problems auch eine Lösung von Problem
gewonnen werden kann und als das duale Problem möglicherweise leichter oder schneller als
numerisch zu lösen ist.
In Abschnitt 7.4 diskutieren wir dann zunächst mehrere unterschiedliche Vorgehensweisen für die Lösung quadratischer Optimierungsprobleme, welche nur Gleichungsrestriktionen aufweisen. Anschließend werden wir in Abschnitt 7.5 ein oder zwei Verfahren für allgemeine quadratische Optimierungsprobleme diskutieren, und zwar ein Active-Set-Verfahren und wenn noch genügend Zeit dafür bleibt, ein modifiziertes Gradientenprojektionsverfahren.
Für ein beliebiges nichtlineares Optimierungsproblem mit nichtleerem zulässigen Bereich ist es prinzipiell möglich, dass sein Minimalwert endlich ist, dass dieser aber für keinen zulässigen Punkt angenommen wird. Ein Beispiel dafür ist

Der folgende Satz impliziert, dass eine derartige Situation bei einem beliebigen quadratischen und damit, wie wir schon gesehen haben (s. Satz 4.13), auch bei einem linearen Optimierungsproblem nicht auftreten kann. Ein Problem dieses Typs mit nichtleerem zulässigen Bereich besitzt also entweder eine Lösung oder sein Minimalwert ist
. Der Beweis dieser Aussage, auf die wir uns in diesem Kapitel mehrfach beziehen werden, ist erstaunlich knifflig. Er mag beim ersten Lesen übersprungen werden. (Der folgende Satz schließt also die Aussage von Satz 4.13 für lineare Probleme mit ein, jedoch nicht die Aussage von Satz 4.14, weswegen wir den Existenzsatz für lineare Probleme gesondert bewiesen haben.)
- Es seien
und
. Dann hat das Problem
eine globale Lösung.
Wegen
können wir ein
finden, so dass die Menge

für alle
nichtleer ist. Da
kompakt und
stetig ist, besitzt das Problem

nach dem Satz 2.38 von Weierstraß für jedes
eine Lösung. Wir nehmen nun im Folgenden an, dass
ist und wir setzen

Offenbar gilt aufgrund der Voraussetzung des Satzes und wegen
- (7.2)

Die Lösungsmenge von
ist, wie festgestellt wurde, nichtleer und sie ist als Teilmenge von
kompakt. Also nimmt die stetige Funktion
über der Lösungsmenge von
ihr Infimum an und gibt es somit unter allen Lösungen von
mindestens eine Lösung
mit minimaler
-Norm. Wir zeigen nun als nächstes:
- (7.3) Es gibt ein
, so dass
für alle
gilt.
Wäre Letzteres nicht richtig, so gäbe es eine Folge
mit

Wir setzen nun

und können ohne Beschränkung der Allgemeinheit annehmen, dass
für ein
mit
gilt. Weil nach unserer Konstruktion
ist und damit

folgt, hat man für dieses
- (7.4)

Es ist ferner
und
für
optimal. Wegen
können wir daher mit (7.2) schließen:
- (7.5)

Diese Abschätzungen implizieren, dass
ist, denn für
würde im Widerspruch zu (7.5) folgen:

Wegen (7.4) und
hat man als nächstes
für
. Also ergibt sich unter Verwendung der Beziehung
für

- (7.6)
![{\displaystyle =q(\varrho _{k})+t\left[y^{T}Qx^{\varrho _{k}}+c^{T}y\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/43dcab89a402a7fb18f774445f53ce751cda113e)
Da der Ausdruck in (7.6) im Fall, dass
für ein
gelten würde, für
gegen
strebte, folgt damit
- (7.7)

Wir wollen nun als nächstes zeigen, dass unter den gemachten Annahmen
- (7.8)

für alle
und alle
mit einem
und ein
gilt. Diese Beziehungen stehen im Widerspruch dazu, dass
eine Lösung von
mit kleinster Euklidischer Norm ist, so dass (7.3) richtig sein muss.
Sei nun
. Gemäß (7.4) ist
, so dass wir setzen können:
![{\displaystyle J:=\{j\in \{1,\ldots ,n\}{\big |}y_{j}=0\},\quad \xi :=\min _{j\notin J}y_{j}\in (0,1].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2ddf067c0cd81d9eb37ab532e17e78cbcbea99c0)
Wegen
können wir also ein
wählen, so dass
für alle
gilt. Weil
für alle
ist, haben wir somit bei festem
für alle
mit

Offenbar ist ferner wegen
und (7.4) auch
sowie
. Damit ist die erste Beziehung in (7.8) für alle genannten
und
gezeigt.
Wegen
gibt es ein
, so dass
für alle
gilt. Demzufolge erhalten wir bei festem
und fest gewähltem
mit
für alle

Damit ist für die genannten
und
auch die zweite Beziehung in (7.8) bewiesen. Für diese
, so dass man analog zu (7.6) unter Verwendung von (7.7) erschließt:
![{\displaystyle q(x^{\varrho _{k}})\leq q(x^{\varrho _{k}}-ty)=q(x^{\varrho _{k}})-t\left[y^{T}Qx^{\varrho _{k}}+c^{T}y\right]\leq q(x^{\varrho _{k}}).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bdee0969b8ff8148a9fc1c3508965364ec331e1e)
Somit ist die Gültigkeit von (7.8) und weiter die von (7.3) bewiesen.
Gemäß der Definition eines Infimums existiert eine Folge
mit
- (7.9)

Im Fall, dass
beschränkt ist, gibt es ferner eine Teilfolge
von
mit
, wobei
wegen der Abgeschlossenheit von
geschlossen werden kann. Aufgrund der Stetigkeit von
folgt außerdem
und daher
. Somit ist für diesen Fall der Satz bewiesen und müssen wir abschließend noch den Fall betrachten, dass die Folge
unbeschränkt ist.
Sei also
eine unbeschränkte Folge mit (7.9) und sei
. Dann folgt
, und man erschließt daher mit (7.2)

Letzteres impliziert wegen (7.9) die Konvergenz
. Also existiert eine Folge
mit
- (7.10)

wobei
durch (7.3) bestimmt ist. Wir wollen nun als Letztes zeigen, dass
- (7.11)

gilt und demnach
für alle
das Problem
löst. Wir nehmen dazu an, dass (7.11) nicht richtig ist.
Für
bzw. für
hat man offenbar
. Also konvergiert die Folge
monoton fallend gegen
. Wenn (7.11) nicht gilt, muss es weiter zwei Glieder
und
der Folge
.
Für
und
folgt dann mit (7.3)

da die Annahme
zunächst
und damit den Widerspruch
zu (7.12) nach sich ziehen würde.
Wir setzen nun
, so dass
gilt. Insbesondere ist dann mit (7.12) und (7.3)
und
. Wäre nun
, dann wäre
wegen
Element von
und damit Lösung von
. Dies ist jedoch wegen
und der Minimaleigenschaft von
bezüglich der Lösungsmenge von
nicht möglich. Wegen
ist
und damit aber auch der Fall
ausgeschlossen. Also ist die Implikation (7.11) gültig und der Satz damit bewiesen.
q.e.d.
Aus Satz 2.41 in Verbindung mit Lemma 2.33 können wir ferner direkt den folgenden Existenzsatz für konvexe quadratische Optimierungsprobleme ableiten.
- Ist
positiv definit und
, so besitzt das Problem
genau eine Lösung.
Die Voraussetzung der positiven Definitheit von
im letzten Satz garantiert, dass die Zielfunktion
von
auf dem ganzen Raum
gleichmäßig konvex ist, was die Existenz einer Lösung für
sicherstellt. Wenn Gleichungsnebenbedingungen in
vorliegen, muss die gleichmäßige Konvexität von
für eine solche Existenzaussage jedoch nur auf einem geeigneten Teilraum des
gegeben sein, da ja Gleichungsnebenbedingungen die Dimension des Suchraumes reduzieren (s. dazu Abschnitt 7.4).
Wir nehmen in diesem Abschnitt grundsätzlich an
ist positiv semidefinit
und wir betrachten das damit konvexe quadratische Optimierungsproblem in Normalform

In dem hier diskutierten Zusammenhang nennen wir
das primale Problem. Den zulässigen Bereich von
bezeichnen wir wie zuvor in (7.1) mit
.
Gemäß Beispiel 3.16 (1) ist
genau dann eine Lösung des Problems
, wenn
die nachstehenden KKT-Bedingungen erfüllt:

Wir wollen nun als erstes zeigen, dass aus einer Lösung des KKT-Systems
für das Minimierungsproblem
eine Lösung des KKT-Systems für das folgende, mit den Daten von
erzeugte Maximierungsproblem
gewonnen werden kann und umgekehrt und dass somit zwischen diesen beiden Problemen enge Beziehungen bestehen:

Das Problem
nennt man in diesem Zusammenhang das zu
duale Problem. Seinen zulässigen Bereich bezeichnen wir mit

Das Problem
lässt sich offenbar auch äquivalent darstellen in der Form
- (7.13)

Zur Herleitung der zugehörigen KKT-Bedingungen ersetzen wir das Maximierungsproblem
äquivalent durch das folgende Minimierungsproblem (der Vorzeichenwechsel bezüglich des optimalen Zielfunktionswertes kann dabei vernachlässigt werden, da er für diesen Zweck keine Rolle spielt):
- Fehler beim Parsen (Unbekannte Funktion „\begin{array}“): {\displaystyle \begin{array}{lll} (QD)': & \text{Minimiere} & \frac 12 \begin{pmatrix} x \\ y \\ s \end{pmatrix}^T \begin{pmatrix} Q & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} x \\ y \\ s \end{pmatrix} - \begin{pmatrix} 0 \\ b \\ 0 \end{pmatrix}^T \begin{pmatrix} x \\ y \\ s \end{pmatrix} \\ & \text{u. d. N.} & \begin{pmatrix} - Q \\ A \\ I \end{pmatrix}^T \begin{pmatrix} x \\ y \\ s \end{pmatrix} = c, \quad \begin{pmatrix} 0 \\ 0 \\ -I \end{pmatrix}^T \begin{pmatrix} x \\ y \\ s \ge 0 \end{pmatrix}.}
Dabei ist
die
-Einheitsmatrix. Die in der Zielfunktion von
vorkommende Matrix ist wiederum eine symmetrische, positiv semidefinite Matrix, so dass es sich bei diesem Problem wie bei
um ein linear restringiertes, konvexes quadratisches Optimierungsproblem handelt.
Nach Korollar 3.14 ist somit
genau dann eine Lösung von
, wenn es Vektoren
und
gibt, so dass
das folgende System von Gleichungen und Ungleichungen löst (im Hinblick auf
berücksichtige man dabei Bemerkung 3.6 (iii)):
- (7.14)

Unter Ausnutzung der darin enthaltenen Beziehungen
und
können wir dieses System wie folgt schreiben:
- (7.15)

Berücksichtigt man nun, dass
ein System in den Variablen
und letzteres System eines in den Variablen
ist, so können wir offenbar schließen:
- (7.16)
löst
löst (7.15) für gewisse
löst
löst 
sowie
- (7.17)
löst
löst
für gewisse
löst (7.15)
löst
.
Ist
eine Lösung von
und
der zu der Gleichungsnebenbedingung in
gehörende Multiplikator, so ist
gemäß (7.16) eine Lösung von
. (Viele Verfahren der nichtlinearen Optimierung zur Lösung eines Problems erzeugen zugehörige Multiplikatoren gleich mit.) Dabei unterscheiden sich
und
wegen
nur durch eine Lösung
von
.
Weiter können wir festhalten: Besitzt das Problem
eine Lösung, so besitzt es auch eine Lösung
derart, dass
das Problem
löst. Dies folgt aus (7.17), da mit
nach (7.16) auch
lösbar ist. Im Fall, dass
positiv definit ist, liefert sogar der
-Anteil jeder Lösung des dualen Problems eine Lösung des primalen Problems, da in diesem Fall die beiden letzten Gleichungen in (7.15) bedeuten, dass
gilt und damit
und
in den Implikationen (7.16) durch
ersetzt werden können. Wenn
positiv definit ist sowie im Fall
sind also die KKT-Bedingungen für
mit denen für
identisch.
Wir haben damit unter anderem den folgenden Satz bewiesen:
- (i) Es gilt:
ist lösbar
ist lösbar
ist lösbar.
- (ii) Ist
eine Lösung von
, so löst
das Problem
und
das Problem
.
- (iii) Besitzt das Problem
eine Lösung, so besitzt es auch eine Lösung
derart, dass
ist und
das Problem
löst. Ist
positiv definit, so hat jede Lösung von
die letztere Eigenschaft.
Die drei Zeilen im System
drücken offenbar die primale Zulässigkeit, die duale Zulässigkeit und die Komplementarität aus. Eine Lösung dieses Systems liefert nach Satz 7.3 Lösungen des primalen und dualen quadratischen Optimierungsproblems. Ist eine Lösung von einem der beiden Probleme bekannt, so lässt sich ferner über
eine Lösung des anderen Problems gewinnen. Wenn
positiv definit ist, liefert eine Lösung von
gemäß Satz 7.3 sogar direkt eine Lösung von
mit. Das duale Problem zu lösen kann also dann nützlich sein, wenn dieses schneller als
zu lösen oder für den gerade verfügbaren Algorithmus günstiger als
formuliert ist. Algorithmen gehen nämlich typischerweise von einer bestimmten Gestalt eines Problems aus, und die Überführung eines gegebenen Problems in diese Gestalt kann ja die Einführung vieler neuer Variablen bedeuten (vgl. Beispiel 4.2).
Überführt man das Problem
unter Einführung zusätzlicher Variablen in ein Problem des Typs
und stellt man anschließend das dazu duale Problem auf, so gelangt man ferner zu der folgenden Aussage.
- Das duale Problem zu
ist äquivalent mit
.
Übung!
Es sei abschließend gesagt, dass man im linearen Fall, d. h. im Fall
, mit Hilfe von (7.16) und (7.17) gerade Satz 4.17 erhält und Satz 7.4 in Satz 4.15 übergeht.
Als nächstes wollen wir weitere Beziehungen zwischen dem primalen Problem
und dem dualen Problem
herleiten. Offenbar erhält man für ein Punktepaar zulässiger Punkte
und
unter Verwendung der Nebenbedingungen und der Zielfunktionen beider Probleme


- (7.18)

Da man
hat, führt diese Beobachtung zu der folgenden Aussage.
- Für ein Paar zulässiger Punkte
und
der Probleme
und
gilt

- Für
und
folgt insbesondere

Speziell für den linearen Fall gewinnt man unter Verwendung von (7.18) die nachstehende Folgerung.
Korollar 7.8 (Schwacher Dualitätssatz)
[Bearbeiten]
- Für ein Paar zulässiger Punkte
und
der Probleme
und
gilt

Für ein Punktepaar
und
bezeichnet man den Abstand
der Zielfunktionswerte des primalen und dualen Problems als Dualitätslücke. Im linearen Fall entspricht sie nach Korollar (7.8) der Zahl
. Der folgende Satz besagt unter anderem, dass die Dualitätslücke für ein Paar von Lösungen des primalen und dualen Problems identisch 0 ist.
- (i) Gilt
und
, so besitzen die beiden Probleme
und
eine Lösung.
- (ii)
und
sind genau dann Lösungen von
und
, wenn
und
für
und
zulässig sind und wenn
bzw. wenn äquivalent dazu
gilt.
(i) Seien
und
. Für ein
bekommt man dann aus Satz 7.7

Gemäß Satz 7.1 ist damit
lösbar. Die Lösbarkeit von
folgt nun aus Satz 7.3 (i).
(ii) Gilt
, so folgt offenbar aus Satz 7.7
. Seien jetzt zunächst
und
Lösungen von
und
. Nach (7.17) existieren dann Vektoren
und
, so dass
sowohl das System
als auch das Problem
löst. Insbesondere ist damit
. Mit Satz 7.7 schließt man daher

Nun seien umgekehrt
und
zulässige Punkte von
und
mit
. Nach Aussage (i) besitzt dann das Problem
eine Lösung
und nach (7.17) das Problem
eine Lösung
. Anwendung des ersten Teil des Beweises und von Satz 7.7 liefert schließlich

Also sind auch
und
Lösungen von
und
.
q.e.d.
Eine weitere wichtige Folgerung aus dem Vorangegangenen ist die folgende.
- (i) Es sei
. Dann gilt

- (ii) Es sei
. Dann gilt

Man beweise die Gültigkeit von Korollar 7.10.
Die Einschränkung von Satz 4.18 und Korollar 7.10 auf den linearen Fall erhält man, indem man die
- bzw.
-Anteile für Punkte des dualen Problems streicht.
Über
und
lässt sich für ein gegebenes quadratisches Optimierungsproblem beliebiger Gestalt das zugehörige duale Problem sofort ableiten. Insbesondere stellen offenbar
und
einen Spezialfall dieses allgemeinen Problempaares dar. Es können ferner alle Aussagen für
und
direkt auf
und
übertragen werden, da letztere Probleme ja gemäß ihrer Herleitung äquivalent mit Problemen der Gestalt von
und
sind. Wir fassen diese Aussagen nochmals zusammen, wobei
und
die zulässigen Gebiete von
und
seien.
- Man beweise:
- (i) Besitzt das Problem
eine Lösung, so tut dies auch das Problem
und die optimalen Zielfunktionswerte beider Probleme sind identisch.
- (ii) Jede Lösung von
mit nichtnegativem
-Anteil löst
und jede Lösung von
löst
.
Übung!
Ein anderer relevanter Spezialfall des Problempaares
und
ist das Problempaar

und

Im Fall, dass
positiv definit ist, lässt sich die Gleichungsnebenbedingung in
nach
auflösen, was
- (7.19)

ergibt. Setzt man letzteren Ausdruck in die Zielfunktion von
ein, so erhält man


Folglich kann man das duale Problem
für positiv definites
durch das folgende äquivalente Problem ersetzen:

Die Matrix
darin ist symmetrisch und positiv semidefinit und im Fall
sogar positiv definit (s. Lemma 2.21). Insbesondere ist also das Problem
, wenn man es äquivalent als ein Minimierungsproblem formuliert, wiederum ein konvexes quadratisches Optimierungsproblem.
Hat man eine Lösung
von
gefunden (im Fall
ist diese eindeutig), so lässt sich der zugehörige
-Anteil
der Lösung von
gemäß (7.19) als eindeutige Lösung des linearen Gleichungssystems

berechnen. Weiter besitzt offenbar
für positiv definites
eine eindeutige Lösung und ist
gerade diese Lösung. (Man stelle z.B. für
und
die KKT-Bedingungen auf und schließe analog wie in (7.17), wobei man die Eindeutigkeit von
für
und
berücksichtige.)
Eine Lösung von
liefert also gleichzeitig eine Lösung von
mit. Da das Problem
nur einfache Schrankenbedingungen als Nebenbedingungen enthält, kann es wesentlich einfacher als Problem
zu lösen sein. Allerdings benötigt man bei dieser Vorgehensweise die Matrix
, so dass diese ohne allzu großen Aufwand zu berechnen sein sollte.
7.3 Elimination bei linearen Gleichungsrestriktionen
[Bearbeiten]
Bevor wir uns speziell mit nur gleichungsrestringierten quadratischen Optimierungsproblemen beschäftigen, wollen wir allgemein die Möglichkeit der Variablenelemination bei nichtlinearen Optimierungsproblemen mit linearen Gleichungsnebenbedingungen untersuchen.
Wir betrachten für eine Funktion
und Daten
und
das durch lineare Gleichungen restringierte Problem

Den zulässigen Bereich von
bezeichnen wir mit

(„GN“ steht für „Gleichungsnebenbedingungen“.) Falls
linear ist, hat man die folgende Aussage:
- Es sei
mit einem
und
. Dann gilt:
- (i)
, falls ein
mit
existiert.
- (ii)
, falls kein
mit
existiert.
Übung!
Der Fall, dass das Problem
eine lineare Zielfunktion hat, ist folglich uninteressant, da diese dann auf dem zulässigen Bereich entweder konstant oder nach unten unbeschränkt ist. Im Folgenden werden wir daher implizit davon ausgehen, dass
in Problem
eine nichtlineare Funktion ist.
Wir nehmen nun wieder
und damit insbesondere
an. Dabei ist der Fall
nicht von Interesse, weil dann das System
genau eine Lösung besitzt, welche die eindeutige Lösung von Problem
ist. Für die folgenden beiden Unterabschnitte setzen wir daher
- (7.20)

voraus. In diesem Fall lassen sich einige der Variablen
durch die anderen ausdrücken und kann man somit zu einer Formulierung des Problems gelangen, welche weniger Variable als
aufweist und überdies keine Restriktionen enthält. Wir beschreiben in diesem Zusammenhang zunächst die sog. einfache Elimination.
Nach der Voraussetzung in (7.20) sind
Spalten von
linear unabhängig. Wir können annehmen, dass dies die ersten
Spalten von
sind. (Anderenfalls vertausche man die Spalten und die Variablen im System
entsprechend.) Bezeichnen wir die nichtsinguläre Matrix, welche aus diesen Spalten von
gebildet wird, mit
, so können wir die Matrix
blockweise in der Form

darstellen, wobei
die aus den verbleibenden Spalten von
bestehende Matrix ist. Dabei steht „
“ hier für „Basis“ und „
“ für „Nichtbasis“. Entsprechend schreiben wir den Variablenvektor
mit Vektoren
und
in der Form

Für jedes
können wir somit die Darstellung

erhalten, welche für
die explizite Darstellung
- (7.21)

impliziert (vgl. dazu die Darstellung (5.3)). Wählt man umgekehrt einen beliebigen Vektor
und berechnet man anschließend
nach (7.21), so ist
eine Lösung des Systems
und folglich ein zulässiger Punkt für das Problem
.
Weiter bekommt man für die Zielfunktion von Problem
die Darstellung

und damit für
die alternative Formulierung
- (7.22)

Besitzt das rechte der beiden Probleme eine Lösung
, so rechnet man
nach (7.21) aus. Der Vektor
ist dann Lösung von
. Unsere Herleitung zeigt insbesondere, dass das gleichungsrestringierte Problem
mathematisch mit einem unrestringierten Problem äquivalent ist, welches überdies
Variable weniger als
aufweist. Den Vektor
bezeichnet man in diesem Zusammenhang auch als Vektor der reduzierten Variablen.
Sind
linear unabhängige Spalten von
nicht wie in dem folgenden Beispiel unmittelbar identifizierbar, dann könnte man z. B. durch Gauß-Elimination mittels Spalten- und Zeilenpivotsuche feststellen, ob
ist und könnte man in diesem Fall die Matrix
aus den Spalten von
bilden, die im letzten Gauß-Tableau an den ersten
Positionen stehen, da diese linear unabhängig sein müssen. Man beachte aber, dass für die Aufstellung von Problem (7.22) eine explizite Darstellung der Inversen
von
benötigt wird, so dass
idealerweise leicht zu invertieren und gut konditioniert sein sollte. Wir geben dazu ein Beispiel.
Wir betrachten das Problem

und wir setzen
sowie

Offenbar sind die 3. und die 6. Spalte von
linear unabhängig und bilden diese eine einfach zu invertierende Matrix. Wir vertauschen daher die 3. mit der 1. sowie die 6. mit der 2. Spalte von
und entsprechend die Variablen im System
. Mit

und

schreiben wir dann das System
in der Form
.
Als nächstes berechnen wir

und damit unter Verwendung von (7.21)

Einsetzen dieser Beziehung in die Zielfunktion des Problems führt auf das unrestringierte Optimierungsproblem
![{\displaystyle \inf _{x_{1},x_{2},x_{4},x_{5}}\sin(x_{1}+x_{2})+(-8x_{1}-9x_{4}-4x_{5}+6x_{2}+6)^{2}+{\frac {1}{3}}\left[x_{4}+x_{5}^{4}+\left(-{\frac {3}{8}}x_{1}+{\frac {1}{8}}x_{4}-{\frac {3}{4}}x_{5}-{\frac {1}{4}}x_{2}-{\frac {1}{2}}\right)\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/694bfacee05ea4c135b8c9fc0d0a38ff3fedcb86)
Man hätte die Matrix
natürlich auch mit zwei anderen linear unabhängigen Spalten von
bilden können, aber für diese wäre dann die Berechnung der Inversen
und des Produktes
aufwändiger gewesen.
Wir machen weiter die folgende Beobachtung (Im Zusammenhang mit Eliminationstechniken verwenden wir den Buchstaben
für eine Matrix. Eine Verwechslung mit dem zulässigen Gebiet
(3.12) des allgemeinen nichtlinearen Optimierungsproblems sollte ausgeschlossen sein.): Mit den Blockmatrizen
- (7.23)

können wir jeden Vektor
gemäß (7.21) darstellen in der Form
- (7.24)

Dabei enthält die Matrix
die
-Einheitsmatrix und sind somit ihre
Spalten linear unabhängig. Außerdem gilt

Demnach bilden die
Spalten von
eines Basis des Nullraums von

Wir stellen weiter mit Lemma 3.12 fest, dass
für jedes
genau dann eine zulässige Richtung für
ist, wenn
gilt.
Ferner hat man

Wie ein Vergleich mit (7.24) zeigt, drückt also die einfache Eliminationstechnik zulässige Punkte von
als Summe der speziellen Lösung
von
und der zulässigen Richtung
für
aus. Insbesondere erhält man die spezielle Lösung
, indem man
Variable, d. h.
gleich 0 setzt.
Einfache Elimination ist numerisch relativ „billig“, kann aber zu numerischen Instabilitäten führen, wie man sich im Fall eines Beispiels in zwei Veränderlichen geometrisch klarmacht. Verläuft nämlich die Lösungsmenge von
fast parallel zur
-Achse und ist
eine Lösung von
, die fast in Richtung der positiven
-Achse zeigt, dann ist
sehr klein und sind
sowie
sehr groß, so dass
als Differenz zweier sehr großer Vektoren berechnet werden muss. Letzteres führt typischerweise zu numerischer Auslöschung. In einer solchen Situation sollte man die spezielle Lösung des Systems - hier ist dies
- in Richtung der
-Achse, d. h. sollte man eine andere Basis wählen. Eine geeignete Basis zu finden ist in der Praxis aber häufig eine nichttriviale Aufgabe. Weitere numerische Schwierigkeiten können bei der Invertierung der Basis
auftreten, wenn
schlecht konditioniert ist. Daher wollen wir im nächsten Unterabschnitt noch andere Reduktionstechniken betrachten.
Im Hinblick darauf bemerken wir noch, dass offenbar die
Spalten von
und die
von
zusammen genommen linear unabhängig sind und folglich den
aufspannen. Nun ist aus der Linearen Algebra bekannt, dass für

gilt, wobei
der Bildraum von
ist und „
“ die direkte Summe zweier Halbräume des
bezeichnet. Da die Spalten von
eine Basis von
bilden, generieren die Spalten von
daher eine Basis von
.
In Anlehnung an den vorangehenden Unterabschnitt seien
und
Matrizen, für die gilt:
- (7.25)

Wie bei der einfachen Elimination bilden demnach die Spalten von
eine Basis des Nullraumes
von
. Dagegen ist
hier nur durch die erste Bedingung in (7.25) spezifiziert. Für die bei der einfachen Elimination verwendete Matrix
ist diese Bedingung wegen

erfüllt, so dass die einfache Elimination einen Spezialfall der hier betrachteten Situation darstellt.
Bekanntlich lässt sich jede Lösung
des inhomogenen Gleichungssystems
als Summe einer beliebigen speziellen Lösung des Systems und einer Lösung des homogenen Systems
, also jedes
durch ein beliebiges
und ein
in der Form
beschreiben. Da die Spalten von
nach Voraussetzung eine Basis des Nullraumes
bilden, gibt es zu jedem solchen
ein
mit
.
Weiter ist
mit einem Vektor
eine spezielle Lösung von
, wenn

bzw. wenn wegen der vorausgesetzten Invertierbarkeit von

gilt. Folglich erlaubt eine wie in (7.25) vorausgesetzte Wahl von
und
, dass jedes
mittels Vektoren
und
in der Form
- (7.26)

bzw. mit einem Vektor
in der Form
- (7.27)

geschrieben werden kann. Umgekehrt erhält man für jedes
mittels (7.27) einen für
zulässigen Punkt
. Insbesondere liefert
den Vektor
und ist das Problem
aufgrund von (7.27) mit folgendem unrestringierten Problem äquivalent:

Die Matrix
wird idealerweise so gewählt, dass die Kondition der Matrix
so klein wie möglich ist, weil zur Berechnung des Vektors
das lineare Gleichungssystem
gelöst werden muss. Wie wir zeigen wollen, ist es darum günstig, z. B. mit dem Householder-Verfahren eine
-Zerlegung von
der Art

zu berechnen, wie sie aus der Numerischen Mathematik bekannt ist. Dabei ist
eine orthogonale Matrix und
eine nichtsinguläre obere Dreiecksmatrix. Insbesondere haben somit die Untermatrizen
und
orthonormale Spalten.
Man definiert nun

d. h.
, so dass die Spalten von
und
gemeinsam eine Orthonormalbasis des
bilden. (Bei der einfachen Eliminationstechnik ist dies typischerweise nicht der Fall.) Wie man sich leicht klarmacht, gilt damit insbesondere
und
, so dass man aus
- (7.28)

die Beziehungen
- (7.29)

schließen kann.
Letzteres zeigt, dass die Matrizen
und
alle in (7.25) geforderten Bedingungen erfüllen. Mit den Eigenschaften der verwendeten Matrizen kann man ferner leicht zeigen (was wir hier nicht tun wollen), dass die Matrizen
und
im Fall
dieselben Konditionen bezüglich der Spektralnorm besitzen. Schließlich folgt mit (7.27), dass jedes
mit einem
dargestellt werden kann als
- (7.30)

wobei
ist. Dabei muss man für die Bestimmung des Vektors
nur das lineare Gleichungssystem
mit der unteren Dreiecksmatrix
auflösen, wobei
, wie oben festgestellt wurde, im Fall
dieselbe Kondition wie
hat.
Für die in (7.30) auftretende spezielle Lösung
von
folgert man unter Verwendung von (7.29) und der Identität
- (7.31)
![{\displaystyle x_{s}=Q_{1}R^{-T}b=(Y\overbrace {R)(R^{-1}} ^{=I}R^{-T})b=A^{T}R^{-T}R^{-T}b=A^{T}[(R^{T})\underbrace {\left(Y^{T}Y\right)} _{=I}(R)]^{-1}b=A^{T}\left(AA^{T}\right)b.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ca1a73469158e890cdef5260a6b5c638ee2c11e7)
Also ist
gerade die bezüglich der
-Norm kleinste aller Lösungen des Systems
(vgl. Beispiel 3.16 (3)). Wie die letzte Identität in (7.31) weiter zeigt, ist
Element von
und somit orthogonal zu
. Wenn
und
mittels einer
-Zerlegung von
bestimmt werden, wird folglich jedes Element
durch (7.30) als Summe bzw. Differenz von
und einem dazu orthogonalen Vektor
aus
berechnet.
Vom Standpunkt der numerischen Stabilität her ist eine solche Wahl von
und
also ideal. Allerdings ist der für die Berechnung einer
-Zerlegung von
erforderliche numerische Aufwand bei voll besetzten Matrizen etwa doppelt so groß wie für die Gauß-Elimination, die bei der einfachen Eliminationstechnik verwendet wird. Aus letzterem Grund wurden auch noch andere Eliminationsstrategien vorgeschlagen, die versuchen, einen Kompromiss zwischen numerischer Stabilität und numerischem Aufwand zu erreichen (siehe z. B. [NoWri06]).
7.4 Probleme mit Gleichungsnebenbedingungen
[Bearbeiten]
Wir wollen nun quadratische Optimierungsprobleme genauer betrachten, welche nur Gleichungsnebenbedingungen aufweisen, welche also Probleme des folgenden Typs sind:

Dabei seien
eine symmetrische Matrix,
und
eine Matrix mit
- (7.32)

Die Rangbedingung (7.32) stellt zumindest für die Theorie keine Einschränkung dar, wie bereits mehrfach bemerkt wurde. Sie impliziert bekanntlich, dass
ist und dass das inhomogene Gleichungssystem
eine Lösung besitzt. Bezeichnen wir den zulässigen Bereich von
mit

so ist also hier
.
Nach Beispiel 3.16 (2) lassen sich die KKT-Bedingungen für
als lineares Gleichungssystem der Gestalt
- (7.33)

darstellen. Die
-Systemmatrix
- (7.34)

in (7.33) bezeichnen wir als KKT-Matrix. Offenbar ist
eine symmetrische Matrix.
Wir gehen nun wie in Abschnitt 7.3.3 davon aus, dass Matrizen
und
bekannt sind mit den Eigenschaften
- (7.35)

Wie wir dort gezeigt haben, lässt sich in diesem Fall jeder Vektor
mit einem sog. Vektor der reduzierten Variablen
und einem Vektor
in der Form
- (7.36)

darstellen, wobei
- (7.37)

eine spezielle Lösung von
ist. Beispiele für Matrizen
und
, welche die Bedingungen in (7.35) erfüllen, ergaben sich aus der einfachen Elimination und aus einer
-Zerlegung von
.
Zur Reduktion der Variablen ersetzen wir nun
in der Zielfunktion des Problems
durch die rechte Seite von (7.36). Auf diese Weise erhalten wir

wobei wir
schreiben in der Form
- (7.38)

Gilt nun für die symmetrische Matrix
in (7.38)
ist positiv definit,
so minimiert offenbar ein Vektor
die Funktion
genau dann, wenn
das System
löst, welches ausgeschrieben lautet:
- (7.39)

Die Matrix
und der Vektor

in diesem System werden häufig als reduzierte Hesse-Matrix und als reduzierter Gradient bezeichnet.
Aufgrund der Rangvoraussetzung für
in (7.35) ist die positive Definitheit von
insbesondere dann gegeben, wenn
positiv definit ist (vgl. Lemma 2.21). Man beachte aber, dass die Matrix
im Einzelfall selbst dann positiv definit sein kann, wenn
indefinit oder singulär ist. Die Voraussetzung der positiven Definitheit von
stellt also im Allgemeinen eine viel schwächere Voraussetzung als die der positiven Definitheit von
dar.
Wenn
positiv definit ist, hat das System (7.39) eine eindeutige Lösung
und ist damit
- (7.40)

die eindeutige Lösung von Problem
. Speziell für
und
ergibt sich in diesem Fall aus (7.37) und (7.39)
sowie
und ist demzufolge
. Wegen
folgt dann weiter aus der ersten Zeile des Systems in (7.33), dass
ist. Wenn
positiv definit ist, besitzt das zu (7.33) gehörende homogene System also nur die Nulllösung, was gleichbedeutend damit ist, dass die Matrix
in (7.34) nichtsingulär ist. Zusammengefasst haben wir also gezeigt:
- Die Matrix
sei positiv definit. Dann folgt:
- (i) Das Problem
besitzt eine eindeutige Lösung.
- (ii) Die KKT-Matrix
in (7.34) ist nichtsingulär.
In diesem Zusammenhang kann man darüber hinaus beweisen:
- (i) Ist die Matrix
nicht positiv semidefinit, dann gilt

- (ii) Ist die Matrix
positiv semidefinit, aber nicht positiv definit und besitzt Problem
eine Lösung
, so ist auch jeder Vektor
mit
Lösung von
, wobei
Eigenvektor zum Eigenwert 0 von
ist.
Wegen
ist
. Wir nehmen nun
an, so dass das Problem
gemäß Satz 7.1 eine Lösung
und somit das KKT-System (7.33) gemäß Satz 3.13 eine Lösung
besitzt. Sei nun
ein negativer Eigenwert von
und
zugehöriger Eigenvektor, d. h. sei
mit
und
. Dann ist

und ergibt sich für
somit
.
Weil
gilt, folgt als nächstes
und demnach
- (7.41)

Aus den KKT-Bedingungen für
in (7.33) erhält man weiter
und dies impliziert wiederum wegen

Demnach gilt

- (7.42)

In Verbindung mit (7.41) widerspricht dies aber der Optimalität von
. Also ist die Aussage (i) des Satzes richtig.
Ist weiter die Matrix
positiv semidefinit und nicht positiv definit, so ist mindestens einer ihrer Eigenwerte identisch 0. Für den Nachweis von (ii) folge man nun dem Beweis von (i) für
. Man erhält dann
für
und daher (vgl. (7.42))

q.e.d.
Umgekehrt kann man im Fall der Lösbarkeit des Problems
aus Satz 7.14 schließen:
- (i) Hat das Problem
eine Lösung, so ist die Matrix
positiv semidefinit.
- (ii) Hat das Problem
eine eindeutige Lösung, so ist
positiv definit.
Wenn
positiv semidefinit, aber nicht positiv definit ist, was z. B. für
der Fall ist, besitzt also das gleichungsrestringierte quadratische Optimierungsproblem
entweder eine Lösung (Satz 7.14 (ii)), oder es gilt
(Satz 7.11). Ist andererseits
positiv definit, so hat
gemäß Satz 7.13 eine eindeutige Lösung.
Darüber hinaus zeigen die Herleitungen in diesem Unterabschnitt einen Weg auf, wie diese Lösung und zugehörige Multiplikatoren, sofern solche benötigt werden, bestimmt werden können. Diesen Lösungsweg für
werden wir im folgenden Unterabschnitt 7.4.2 nochmals zusammenfassen und kommentieren. Anschließend werden wir im Unterabschnitt 7.4.3 diskutieren, wie man vorgehen kann, wenn man eine Lösung von
über die direkte Lösung des KKT-Systems (7.33) anstrebt. Letzterer Lösungsweg hat den Vorteil, dass man dafür nur die Nichtsingularität der KKT-Matrix
benötigt.
Wie im vorangegangenen Unterabschnitt sei insbesondere
eine Matrix mit
und seien Matrizen
und
bekannt, für die gilt:
- (7.43)

Darüber hinaus gelte:
- (7.44)
ist positiv definit.
Nach Satz 7.13 besitzt dann das Problem
eine eindeutige Lösung
und einen eindeutigen zugehörigen Multiplikator
.
Wie aus Abschnitt 7.3.3 hervorgeht, lässt sich eine Lösung
von Problem
unter diesen Voraussetzungen mit einer speziellen Lösung
des Systems
und mit einem Vektor
in der Form
- (7.45)

aufspalten. Insbesondere gilt
- (7.46)

Wegen der in (7.43) vorausgesetzten Nichtsingularität von
kann dabei
als eindeutige Lösung des linearen Gleichungssystems
- (7.47)

berechnet werden. Wie im Unterabschnitt 7.4.1 gezeigt wurde, ergibt sich ferner
als eindeutige Lösung des linearen Gleichungssystems
- (7.48)

Da die Matrix
in diesem System nach Voraussetzung positiv definit ist, sollte man für die Lösung von (7.48) eine Cholesky-Zerlegung verwenden. Zusammengefasst gewinnt man also die Lösung
von
bei einer solchen Vorgehensweise folgendermaßen:
- Man berechne Matrizen
und
, welche den Bedingungen in (7.43) genügen.
- Man bestimme die eindeutigen Lösungen
und
der linearen Gleichungssysteme (7.47) und (7.48).
- Man berechne
.
Vergleicht man diese Vorgehensweise mit den Ergebnissen aus dem Unterabschnitt 7.4.1, so stellt man fest, dass sie sich genau dann ergibt, wenn man das Problem
über die unrestringierte Minimierung von
aus (7.38) löst.
Für manche Zwecke, wie z. B. für die wichtigen SQP-Verfahren der nichtlinearen Optimierung, wird neben
auch ein zu
gehörender Vektor
von Multiplikatoren benötigt. Unter der Voraussetzung (7.44) ist dieser Vektor eindeutig bestimmt (s. Satz 7.13). In diesem Zusammenhang beachte man, dass Multiplikation der ersten Gleichung in (7.33) von links mit
die Beziehung

liefert und dass mit
auch
invertierbar ist. Also kann
folgendermaßen berechnet werden:
- Man bestimme die eindeutige Lösung
des linearen Gleichungssystems
- (7.49)

Die beschriebene Vorgehensweise zur Lösung von
bezeichnet man als Nullraum-Methode, da sie vorrangig von der Matrix
, d. h. von einer Basis des Nullraumes von
Gebrauch macht. Denn die Matrix
kann ja im Prinzip als Einheitsmatrix gewählt werden (siehe die einfache Elimination in Abschnitt 7.3.2). Verschiedene Nullraum-Methoden unterscheiden sich im wesentlichen durch die Wahl von
und
.
Die Bestimmung einer Basis des Nullraumes von
kann zumindest bei großen Problemen numerisch sehr teuer sein. Deshalb bietet sich die Nullraum-Methode insbesondere dann zur Lösung von
an, wenn die Dimension des Nullraums von
, d. h. wenn die Zahl
relativ klein ist. Die Basis des Nullraums von
ist außerdem nicht eindeutig definiert, so dass das lineare Gleichungssystem in (7.48), wenn diese ungünstig gewählt wird, schlecht konditioniert sein kann. Normalerweise wählt man die Matrix
für kleine und mittelgroße Probleme so, dass die Spalten von
orthonormal sind. Die Kondition der Matrix
ist dann, wie man zeigen kann, höchstens so groß wie die von
. Für große, dünn besetzte Matrizen
ist eine solche Wahl von
aber numerisch zu teuer, so dass man oft gezwungen wird,
in ungünstigerer Weise festzulegen.
Die Durchführung der Nullraum-Methode an einem Beispiel stellen wir als Aufgabe:
Man betrachte das Problem

mit
und

- (a) Man bestimme mittels der einfachen Elimination Matrizen
und
mit den Eigenschaften in (7.43).
- (b) Man weise nach, dass auch die folgenden Matrizen die in (7.43) geforderten Eigenschaften besitzen:
- (7.50)

- (c) Man verwende die Nullraum-Methode mit
und
aus (7.50) zur Bestimmung der Lösung und des zugehörigen Multiplikators des gegebenen Problems. (Die Rechnungen mit
und
aus (7.50) sind etwas einfacher als entsprechende Rechnungen mit den Matrizen, die sich in Teil (a) anbieten.)
Eine Lösung des Problems
lässt sich auch dadurch bestimmen, dass man das zugehörige KKT-System (7.33) direkt löst. Wir betrachten in diesem Zusammenhang zunächst den Fall
ist positiv definit.
Das KKT-System für
, welches durch
- (7.51)

gegeben ist, besitzt dann eine eindeutige Lösung
(vgl. Beispiel 3.16 (2)). Insbesondere lässt sich in diesem Fall der zu
gehörende Multiplikator
gemäß (3.41) als Lösung des linearen Gleichungssystems
- (7.52)

berechnen. Da wir für das Problem
grundsätzlich die Rangbedingung
vorausgesetzt haben, ist die Matrix
in diesem System symmetrisch und positiv definit (s. Lemma 2.21). Ihre Aufstellung erfordert die Kenntnis der Inversen von
, so dass man
auch dazu verwenden kann, anschließend
gemäß der Formel (3.40) zu berechnen:
- (7.53)

Wenn
bekannt ist, besteht die Hauptarbeit bei einer solchen Vorgehensweise darin, das Gleichungssystem in (7.52) zu lösen. Dieses hat nur
Gleichungen in
Veränderlichen. Demgegenüber ist das KKT-System (7.51) selbst, dessen direkte Lösung wir anschließend diskutieren werden, ein System von
Gleichungen mit
Unbekannten.
Bei dem beschriebenen Vorgehen benötigt man aber neben der Inversen
von
eine Zerlegung der symmetrischen, positiv definiten Matrix
. Daher ist die beschriebene Methode zur Lösung von
nur dann sinnvoll, wenn
leicht zu invertieren, d. h., wenn
z. B. eine Diagonal- oder Blockdiagonalmatrix ist oder wenn
z. B. aufgrund der Verwendung einer Quasi-Newton-Update-Formel für
explizit bekannt ist. (Letzteres ist für die sog. SQP-Verfahren für allgemeine nichtlineare Optimierungsprobleme der Fall.)
Für die eindeutige Lösbarkeit des KKT-Systems in (7.51) bzw. des Systems

mit
- (7.54)

muss
jedoch nicht positiv definit und nicht einmal regulär sein, sondern genügt es, dass die Systemmatrix
in (7.54) nichtsingulär ist. Gemäß Satz 7.13 ist dies insbesondere der Fall, wenn eine Matrix
existiert, für die
gilt und für die die Matrix
positiv definit ist. Es sei in diesem Zusammenhang bemerkt, dass die symmetrische KKT-Matrix
immer indefinit ist, selbst dann, wenn
positiv definit ist (s. [NoWri06, S. 454]):
- Die Matrix
sei positiv definit. Dann hat die KKT-Matrix
in (7.54)
positive und
negative Eigenwerte und keiner ihrer Eigenwerte ist Null.
Wir setzen nun für die KKT-Matrix
nur voraus, dass sie nichtsingulär ist, so dass sich die im Folgenden beschriebene Vorgehensweise auch zur Bestimmung von KKT-Punkten für nichtkonvexe Probleme eignet. Im Prinzip könnte man in einem solchen Fall die Lösung des linearen Gleichungssystems in (7.54) mittels Gauß-Elimination oder gegebenenfalls mit einer ihrer Varianten für dünn besetzte Matrizen ermitteln. Jedoch lässt sich bei solchen Methoden nicht die Symmetrie der Matrix
ausnutzen. Daher ist es in diesem Zusammenhang am effektivsten, eine sog. symmetrische indefinite Faktorisierung von
zu berechnen und damit das System in (7.54) zu lösen.
Ist
eine beliebige symmetrische nichtsinguläre (und nicht notwendig positiv definite) Matrix, so besitzt
eine symmetrische indefinite Zerlegung der Gestalt
- (7.55)

wobei
eine Permutationsmatrix,
eine untere Dreiecksmatrix mit Einsen in der Diagonale und
eine Blockdiagonalmatrix mit Blöcken der Dimension 1 oder 2 ist. Insbesondere hat
dieselbe Anzahl von negativen und positiven Eigenwerten wie
und haben die
-Blockmatrizen in
jeweils einen positiven und negativen Eigenwert (s. [GiMuWr91], [GolLoa96], [NoWri06]).
Die Matrix

hat, wie man z. B. mit MATLAB ermittelt, die Eigenwerte

Man prüft leicht nach, dass
mit
, wobei
die
-te Spalte der Einheitsmatrix
ist und mit den folgenden Matrizen in der Form (7.55) geschrieben werden kann:

Man beachte, dass beide Diagonalblockmatrizen in
-Matrizen sind, wobei die obere die Eigenwerte
und
und die untere die Eigenwerte
und
besitzt.
Auf die Berechnung einer solchen Zerlegung von
können wir hier nicht eingehen. Wir verweisen dafür auf die oben angegebene Literatur. Hat man speziell für
aus (7.54) eine Zerlegung wie in (7.55) berechnet (dies ist numerisch die wesentliche Arbeit), so folgt wegen

Das lineare Gleichungssystem
entspricht in diesem Fall also dem System
- (7.56)

Wie man den obigen Angaben zu den darin vorkommenden Matrizen
und
entnehmen kann, sind diese Matrizen nichtsingulär. Daher kann man die eindeutige Lösung
des Systems (7.56) auf folgende effiziente Weise berechnen, bei der man die Struktur der in der Zerlegung vorkommenden Matrizen ausnutzt (man setze dazu zunächst
und fahre in ähnlicher Weise mit
, usw. fort):
- Man bestimme eine Lösung
von
.
- Man bestimme eine Lösung
von
.
- Man bestimme eine Lösung
von
.
- Man setze
.
Die Lösung des Gleichungssystems unter 2. lässt sich aufgrund der speziellen Blockstruktur von
auf die Lösung von
- bzw.
-Systemen reduzieren. Ferner müssen in 1. und 3. nur gestaffelte Gleichungssysteme mit einer Dreiecksmatrix aufgelöst werden. Schließlich beachte man, dass Multiplikation eines Vektors von links mit
bzw.
nur eine Umstellung seiner Komponenten bedeutet, also numerisch billig ist.
Eine solche Vorgehensweise ist für viele Probleme recht effektiv. Ungünstig kann sie für große Probleme werden, bei denen die Matrix
sehr viel dichter besetzt ist als die Ausgangsmatrix
. Es sei abschließend hierzu noch ohne weitere Erläuterung erwähnt, dass die anfänglich beschriebene Vorgehensweise für den Fall, dass
positiv definit ist, als ein Spezialfall der Lösung des Systems (7.54) mittels einer symmetrischen indefiniten Faktorisierung von
interpretiert werden kann.
7.5 Probleme mit Ungleichungsnebenbedingungen
[Bearbeiten]
Als nächstes wenden wir uns der Lösung quadratischer Optimierungsprobleme mit linearen Gleichungs- und Ungleichungsrestriktionen zu. Wir gehen dazu von der folgenden Gestalt eines solchen Problems aus, weil diese für die Darstellung der Methoden, die wir vorstellen möchten, zweckmäßiger als die Normalform eines quadratischen Optimierungsproblems ist:

Dabei seien
eine symmetrische Matrix,
und

Die Gleichungs- und Ungleichungsnebenbedingungen sind hier also von 1 bis
durchnummeriert.
Wir bezeichnen dieses allgemeine quadratische Optimierungsproblem wiederum mit
(es ließe sich ja äquivalent in eines in Normalform umschreiben). Der zulässige Bereich von
ist dann hier durch

gegeben. Weiter definieren wir

Der Einfachheit halber bezeichnen wir
als Menge der aktiven Indizes. (In Abschnitt 3.2 hatten wir diese Bezeichnung ja nur für Ungleichungsnebenbedingungen eingeführt.)
Jeder lokale Minimalpunkt von Problem
ist nach Satz 3.13 ein KKT-Punkt des Problems. Im Fall, dass
positiv semidefinit und damit
ein konvexes Problem ist, ist ferner nach Satz 3.7 jeder KKT-Punkt von
ein globaler Minimalpunkt von
. Im konvexen Fall ist also die Existenz eines KKT-Punktes
notwendig und hinreichend dafür, dass
das Problem
löst.
In diesem Zusammenhang seien zwei Phänomene erwähnt, die für einen KKT-Punkt
von
auftreten können und die bei der Durchführung einiger Algorithmen Schwierigkeiten bereiten können. In beiden Fällen bezeichnet man
als in
degeneriert. (Der Begriff der Degeneriertheit wird in der Literatur leider nicht einheitlich verwendet.)
Und zwar liegt eine Art von Degeneriertheit bei
vor, wenn die Gradienten
aller in
aktiven Restriktionen linear abhängig sind. (In der Sprache der nichtlinearen Optimierung, ist in diesem Fall die „Linear Independence Constraint Qualification (LICQ)“ in
nicht erfüllt.) Eine solche Situation tritt z. B. auf, wenn mehr als
Restriktionen in
aktiv sind.
Die Aufgabe

hat offenkundig die Lösung
. Die drei Restriktionen des Problems sind in
aktiv, so dass die zugehörigen Gradienten linear abhängig sind.
Die lineare Abhängigkeit der
kann beispielsweise Schwierigkeiten bei dem im Unterabschnitt 7.5.2 beschriebenen Active-Set-Verfahren verursachen, bei dem in jeder Iteration ein gleichungsrestringiertes Problem bezüglich der für die aktuelle Iterierte aktiven Restriktionen gelöst werden muss. Ist dann nämlich
diejenige Matrix, welche die zu den aktiven Restriktionen gehörenden Vektoren
als Zeilen hat und sind die entsprechenden
linear abhängig, so kann die Berechnung der Nullraummatrix
zu
Schwierigkeiten bereiten. Auch Matrizen in anderen Verfahren, die für deren Durchführung invertierbar sein müssen, sind in diesem Fall singulär. Dies trifft z. B. auf die Matrix
zu, die bei der ersten im Unterabschnitt 7.4.3 beschriebenen Methode zur direkten Lösung des KKT-Systems benötigt wird.
Eine zweite Art von Degeneriertheit liegt vor, wenn die strikte Komplementaritätsbedingung

für die zu
gehörenden Multiplikatoren
verletzt ist, d. h., wenn
für mindestens einen zu einer aktiven Ungleichungsrestriktion gehörenden Index
gilt.
Man betrachte das Problem

Es besitzt offenbar die Lösung
und beide Restriktionen sind in
aktiv. Die Bedingung (3.15) der KKT-Bedingungen lautet hier in
- (7.57)

Also ergibt sich
und
.
Offenbar ist hier die
-Komponente von
identisch mit der des (unrestringierten) Minimalpunktes
von
. Die erste Komponente
des ersten Vektors in (7.57) entspricht also gerade
, so dass die ersten Komponenten der beiden anderen Summanden auf der linken Seite von (7.57) wegen
in der Summe keinen Beitrag mehr leisten dürfen.
Ist die strikte Komplementaritätsbedingung in
verletzt und gilt für eine durch ein numerisches Verfahren erzeugte Näherung
von
, dass
für ein
ist, so ist es zumeist schwierig zu entscheiden, ob die zugehörige Restriktion im Grenzwert
aktiv ist oder nicht. Insbesondere Active-Set- und Gradientenprojektionsverfahren, die wir im Folgenden vorstellen wollen, neigen dann zu einem Zick-Zack-Verhalten, wenn eine solche Restriktion mal in das zu lösende Unterproblem mit aufgenommen wird und mal nicht. Es sollten daher erforderlichenfalls Maßnahmen in Algorithmen vorgesehen werden, die ein derartiges Verhalten verhindern.
In den folgenden beiden Unterabschnitten wollen wir nun ein Active-Set- und ein modifiziertes Gradientenprojektionsverfahren für die Lösung quadratischer Optimierungsprobleme vom Typ
diskutieren. Die Beschreibung weiterer Methoden für solche Probleme, wie die von Pfadverfolgungsmethoden (z. B. [NoWri06], [Wri97]) oder die des Goldfarb-Idnani-Verfahrens (z. B. [GeiKa02], [Spe93], [SuYu06]), wäre wünschenswert, aber übersteigt den begrenzten Rahmen dieses Kurses.
In diesem Unterabschnitt beschreiben wir ein primales Active-Set-Verfahren zur Lösung konvexer quadratischer Optimierungsprobleme, d. h. für Probleme der Gestalt
mit der Eigenschaft
ist positiv semidefinit.
„Primales Verfahren“ bedeutet hier, dass bei diesem Verfahren Näherungen einer Lösung des primalen Problems erzeugt werden. (Es gibt auch duale und primal-duale Active-Set-Verfahren.)
Einführung: Wir stellen zunächst die folgende, in der Optimierung häufig verwendete und geometrisch einleuchtende Aussage bereit:
- Seien
und sei
das Problem

- Ist
ein lokaler Minimalpunkt von
, so ist
auch ein lokaler Minimalpunkt von
Minimiere
über alle 
- für

- mit

Übung!
Man betrachte zunächst für ein
und für die damit festliegende Menge
der aktiven Indizes das folgende gleichungsrestringierte quadratische Optimierungsproblem:
- (7.58)

Ist
eine Lösung des Problems
, so ist offenbar
und löst
gemäß Lemma 7.21 auch das Problem (7.58). Ist umgekehrt
und ist
selbst auch Lösung von (7.58), so gibt es Multiplikatoren
, so dass die folgenden KKT-Bedingungen für das Problem (7.58) erfüllt sind:


Gilt in diesem Fall zusätzlich
- (7.59)

so erfüllt
offenbar auch die KKT-Bedingungen für das Problem
und ist
damit eine Lösung von
.
Ziel der im Folgenden beschriebenen Methode ist es, ausgehend von einem für das Problem
zulässigen Punkt
, zulässige Punkte
für
zu erzeugen, so dass
für ein
das Problem (7.58) löst und die zugehörigen Multiplikatoren die Bedingung in (7.59) erfüllen. Nach dem Gesagten ist
dann auch eine Lösung des Ausgangsproblems
. Auf Methoden zur Auffindung eines Startpunktes
werden wir weiter unten eingehen.
Ein primales Active-Set-Verfahren geht im
-ten Schritt von einem Punkt
und einer Arbeitsmenge (working set)
von Indizes aus, wobei
- (7.60)

und demnach insbesondere
- (7.61)

gilt. Die Indexmenge
muss also alle Indizes der Gleichungsrestriktionen und kann einige oder alle Indizes von Ungleichungsrestriktionen enthalten, welche in
aktiv sind. In der
-ten Iteration ist dann ein quadratisches Optimierungsproblem mit linearen Gleichungsnebenbedingungen für Indizes
zu lösen. Anschließend werden unter Verwendung von Informationen, die man aus der Lösung dieses Unterproblems gewinnt, ein neuer Vektor
und eine neue Arbeitsmenge
gebildet.
Für jedes
muss dabei
derart sein, dass für die Gradienten
der im Unterproblem auftretenden Restriktionen gilt:
- (7.62)

Die letztere Bedingung muss auch dann erfüllt sein, wenn die Vektoren
linear abhängig sein sollten.
Auf diese Weise wird sukzessive eine Folge zulässiger Punkte für
erzeugt, für welche die Zielfunktion
von
von einem Schritt zum nächsten zumindest nicht zunimmt. Darüber hinaus wird sukzessive die Bestimmung der Menge
der in einer Lösung
von
aktiven Indizes sowie die Erzeugung nichtnegativer Multiplikatoren zu den Ungleichungsnebenbedingungen von
angestrebt.
Herleitung der einzelnen Verfahrensschritte: Wir wollen jetzt die einzelnen Schritte, die in der
-ten Iteration des Verfahrens zu durchlaufen sind, im Detail herleiten. Dazu setzen wir die Bedingungen in (7.60) und (7.62) voraus und definieren wir

Ein beliebiger Vektor
kann mit einem
in der Form
dargestellt werden. Mittels einer Taylor-Entwicklung erhält man daher
- (7.63)

Folglich kann man
minimieren, indem man das Funktional auf der rechten Seite von (7.63) bezüglich
minimiert. Die Konstante
kann dabei fortgelassen werden.
Weiter soll zunächst gesichert werden, dass mit
auch
für die zur Arbeitsmenge
gehörenden Restriktionen von
zulässig ist. Die gesuchte Richtung sollte also eine hinsichtlich der Gleichungsnebenbedingungen in (7.61) zulässige Richtung sein. Gemäß Lemma 3.12 führen diese Überlegungen zu dem folgenden Unterproblem, das in der
-ten Iteration zu lösen ist:

Besitzt das Problem
eine Lösung
, so erfüllt mit
offenbar auch
für jedes
die Bedingungen in (7.61). Dabei ist
genau dann eine Lösung von
, wie wir mehrfach ausnutzen werden, wenn Multiplikatoren
existieren, so dass gilt (vgl. Korollar 3.14):
- (7.64)

Aufgrund der Voraussetzung in (7.62) hat die Systemmatrix zu den Gleichungsnebenbedingungen von Problem
vollen Rang und ist damit die Voraussetzung (7.32) im Abschnitt 7.4 über gleichungsrestringierte quadratische Probleme für
erfüllt. Die Existenz einer eindeutigen Lösung des Unterproblems
ist gewährleistet, wenn die Matrix
für eine Nullraummatrix
zu dieser Systemmatrix positiv definit ist (Satz 7.13). Die positive Definitheit von
ist insbesondere dann gesichert, wenn
positiv definit ist. Eine Lösung des Unterproblems
kann dann mit einer der Methoden aus Abschnitt 7.4 gewonnen werden.
Wir definieren nun
- (7.65)

wobei
von
abhängt. Als nächstes analysieren wir die folgenden drei Fälle:
- Fall 1:
.
- Fall 2:
und
.
- Fall 3:
und
.
Wir beginnen mit einem Ergebnis für den Fall 1, wobei
die Zielfunktion des Problems
ist.
- Es sei
eindeutige Lösung des Unterproblems
. Ist
, so ist
Abstiegsrichtung für
in
.
Da
für das Problem
zulässig und
die nach Voraussetzung eindeutige Lösung dieses Problems ist, erhält man

Weil
generell als positiv semidefinit vorausgesetzt wurde, ist weiter
und daher
. Damit folgt die Behauptung aus Lemma 3.9.
q.e.d.
Zu
sei nun
die maximale Schrittweite im Intervall
, so dass mit
auch
noch in
liegt. Diese Schrittweite lässt sich leicht berechnen:
- Es sei
Lösung des Unterproblems
und
- (7.66)
mit 
- Dann ist
das größte
, so dass
in
liegt.
Wegen
und
gilt für alle

Sei nun
, also insbesondere
. Ist dann
, so hat man für alle

Ist schließlich
und
, so folgert man

Zusammen genommen erschließt man die Behauptung.
q.e.d.
Im Fall
bezeichnen wir eine Restriktion mit Index
, für welche das Minimum in (7.66) angenommen wird, als blockierende Restriktion. Man beachte in diesem Zusammenhang, dass sich
ergibt, wenn für einen Index
mit
gleichzeitig
und damit
gilt (siehe die Bemerkungen dazu im Anschluss an den Konvergenzsatz 7.28).
Ist die in der Definition von
in (7.66) vorkommende Indexmenge leer und somit
oder ist
, also keine Restriktion blockierend, so ist
und offenbar keine neue Restriktion in
aktiv. Ist andererseits
, dann wurde der Schritt der Länge
von
in Richtung
durch eine Restriktion mit Index
blockiert. Wie man aus der Definition von
erschließt, ist dann die Restriktion mit diesem Index
in
aktiv, d. h. ist
. In diesem Fall wählt man einen Index
zu einer blockierenden Restriktion aus und bildet man eine neue Arbeitsmenge
, indem man
zu
hinzufügt.
Wenn das Problem
eine Lösung
besitzt, ist also gesichert, dass
wieder zulässig für
ist. In der beschriebenen Weise fährt man dann so lange fort, bis das aktuelle Unterproblem die Lösung
besitzt, bis also einer der Fälle 2 und 3 oben eintritt. Im Hinblick auf diese Fälle beweisen wir als nächstes:
- Ist
Lösung des Unterproblems
, dann ist
Lösung des Problems
- (7.67)

- Sind ferner
die zur Lösung
von
gehörenden Multiplikatoren und gilt
für
aus (7.65), so löst
auch das Problem
.
Für
sind mit Multiplikatoren
die KKT-Bedingungen für
in (7.64) erfüllt. Wegen
und
folgt aus diesen
- (7.68)

Aufgrund der generellen Voraussetzung in (7.60) hat man weiter
- (7.69)

Die Bedingungen (7.68) und (7.69) zusammen implizieren, dass
das Problem (7.67) löst. Gilt ferner

und setzt man
, so erfüllt
mit den
offenbar auch die KKT-Bedingungen für Problem
und ist
daher eine Lösung von
.
q.e.d.
Im Fall
hat man insbesondere
, so dass man aus Lemma 7.24 folgern kann:
- Ist
Lösung des Unterproblems
und ist
, so löst
das Problem
.
Es sei nun
Lösung von Problem
. Ist
, so ist eine Lösung des Ausgangsproblems
gefunden. Also müssen wir noch den Fall 3 betrachten, dass
ist.
Es gibt verschiedene Möglichkeiten, in diesem Fall zu einer Abstiegsrichtung in
zu kommen, die für alle zu
gehörenden Restriktionen zulässig bleibt. Das folgende Lemma gibt an, dass eine Lösung des Problems
- (7.70)

eine solche liefert, zumindest wenn diese Lösung eindeutig ist (vgl. Lemma 3.12). Diese Vorgehensweise hat gegenüber anderen den Vorteil, dass das zu lösende Unterproblem (7.70) von demselben Typ wie das Unterproblem
ist.
- Es sei
Lösung des Unterproblems
mit Multiplikatoren
und es sei
für
aus (7.65). Ist
Lösung des Problems (7.70), dann gilt
. Ist
die einzige Lösung von (7.70), so folgt
- (7.71)

Die Lösung
des Problems (7.70) erfüllt mit Multiplikatoren
die zu diesem Problem gehörenden KKT-Bedingungen, d. h., es gilt
- (7.72)

Ist nun
die Matrix mit den gemäß (7.62) linear unabhängigen Spalten
und ist
eine Matrix, deren Spalten eine Basis des Nullraums
von
bilden, so können wir weiter mit Korollar 7.15 schließen, dass die Matrix
positiv semidefinit ist. Wegen
gibt es ferner ein
mit
, so dass folgt:
- (7.73)

Da
Problem
löst, folgt aus den Optimalitätsbedingungen (7.64) für
in Verbindung mit der ersten Gleichung in (7.72)
- (7.74)

Multipliziert man diese Gleichung mit
und verwendet man die zweite Gleichung in (7.72), so gelangt man zu
- (7.75)

Aus
und
folgt somit
.
Es sei
jetzt die einzige Lösung des Problems (7.70). Nach Korollar 7.15 ist dann die Matrix
positiv definit. Wäre nun
, so wäre wegen (7.75)
und wegen (7.73)
. Aufgrund der linearen Unabhängigkeit der Spalten von
folgte daher
. Letzteres würde jedoch wegen der linearen Unabhängigkeit der
mit (7.74)
implizieren, was der Voraussetzung
widerspricht. Demnach ist

Damit liefert schließlich Multiplikation der ersten Gleichung in (7.72) mit
und anschließende Verwendung der zweiten Gleichung aus (7.72)

q.e.d.
Setzt man also im Fall 3

so gilt trivialerweise
und ist zumindest dann, wenn
eine eindeutige Lösung
besitzt, gesichert, dass
eine Abstiegsrichtung für
in
ist. Insbesondere ist in diesem Fall also
und liegt damit in der
-Iteration wieder der Fall 1 vor.
Das letzte Lemma bleibt richtig, wie dessen Beweis zeigt, wenn der Multiplikator
dort ein beliebiger negativer Multiplikator zu
ist. Die Wahl eines kleinsten Multiplikators ist aber dadurch gerechtfertigt, dass man sich mittels einer Sensitivitätsanalyse klarmachen kann, dass sie zumindest lokal den größten Abstieg des Zielfunktionswertes von
im Verfahren bewirkt. Allerdings kann man für jede Restriktion in
mit Index
und Multiplikator
durch eine geeignete Skalierung erreichen, dass zu ihr der kleinste negative Multiplikator gehört. (Es gilt ja
für
.) Deshalb verwendet man in der Praxis manchmal eine kompliziertere Regel zur Auswahl des Multiplikators.
Beschreibung des Verfahrens und Konvergenzsatz: Mit den gewonnenen Ergebnissen können wir das Active-Set-Verfahren vollständig beschreiben:
Algorithmus 7.27 (Active-Set-Verfahren)
[Bearbeiten]
- (0) Wähle
und eine Menge
mit
. Setze
.
- (1) Berechne eine Lösung
des Problems

- (2) Falls
ist, gehe nach (3).
- Falls
und
ist, stop! (
löst Problem
.)
- Falls
und
ist, berechne zugehörige Lagrange-Multiplikatoren, d. h., berechne eine Lösung
von
- (7.76)

- und bestimme

- Falls
ist, stop! (
löst Problem
.)
- Falls
ist, setze

- und gehe nach (4).
- (3) Berechne
- (7.77)

- und definiere

- Falls
ist, setze
.
- Falls
ist, setze
mit einem Index
, für den der Minimalwert
in (7.77) angenommen wird.
- (4) Setze
und gehe nach (1).
Wir beweisen die Konvergenz dieses Verfahrens unter etwas vereinfachenden Voraussetzungen.
- Es sei
positiv definit und
. Weiter seien in Algorithmus 7.27 für alle
die Vektoren
linear unabhängig und gelte
. Dann bricht Algorithmus 7.27 nach endlich vielen Iterationen mit der eindeutigen Lösung von
ab.
Ist
für ein
, dann ist
nach Lemma 7.24 Lösung und wegen der vorausgesetzten positiven Definitheit von
eindeutige Lösung des Problems (7.67). Wenn
nicht die Lösung von
ist und damit das Verfahren abbricht, gilt
und damit
sowie
. Nach Lemma 7.26 ist dann
Abstiegsrichtung für
und somit insbesondere
. Da man weiter nach Voraussetzung
hat, gilt als Folge der Lemmata 7.22 und 7.26
für alle
.
Somit kann, wie Lemma 7.24 anzeigt, der Fall
mit
für
nicht mehr auftreten, da dann
wäre.
Wir zeigen als nächstes, dass das Unterproblem
im Algorithmus spätestens für jede
-te Iteration die Lösung 0 haben muss. Wir nehmen dazu
für ein
an. Im Fall
ist insbesondere
und damit
und
. Aufgrund der Identität in (7.63) und der Äquivalenz
- (7.78)

ist
die eindeutige Lösung des Problems
- (7.79)

Wegen
kann man für die Lösung
des Problems
analog schließen, dass
ebenfalls eine Lösung von (7.79) und damit
ist.
Der Fall
und
kann höchstens
-mal hintereinander eintreten. Denn in diesem Fall wird die Arbeitsmenge um jeweils einen Index erweitert. Aufgrund der vorausgesetzten linearen Unabhängigkeit der
besitzt daher das Gleichungssystem
und demzufolge das Unterproblem
die eindeutige Lösung
, sobald
aus
Elementen besteht.
Also ist nach jeweils spätestens
Schritten
. Da weiter anfangs gezeigt wurde, dass der Fall
nur für unterschiedliche Arbeitsmengen möglich ist und da es nur endlich viele solcher Mengen gibt, bricht Algorithmus 7.27 entweder in Schritt (2) des Verfahrens mit der Lösung
von
ab, bevor auf allen möglichen Arbeitsmengen die Nulllösung erreicht wurde oder es wird nach insgesamt endlich vielen Schritten die Lösung
auf der letzten, zuvor noch nicht durchlaufenen Menge
erzielt. Es muss dann
gelten, so dass
die Lösung von
ist (Lemma 7.24). Denn anderenfalls käme man nach spätestens
Schritten zu einer Nulllösung auf einer früheren Arbeitsmenge, was aber, wie bereits gesagt wurde, ausgeschlossen ist.
q.e.d.
Wie im Anschluss an Lemma 7.23 erläutert wurde, kann im Algorithmus 7.27 auch der Fall
auftreten. Es ist daher möglich, dass über mehrere Iterationen hinweg aus der Arbeitsmenge Indizes entfernt und hinzu gefügt werden, ohne dass sich die Iterierte
verändert. Kehrt dann Algorithmus 7.27 nach endlich vielen Schritten zu derselben Arbeitsmenge zurück, so tritt, ähnlich wie es auch beim Simplexalgorithmus der linearen Optimierung geschehen kann, ein Zyklus auf, aus dem der Algorithmus nicht mehr herauskommt. Letzteres wurde in Satz 7.28 durch die Annahme
für alle
ausgeschlossen. Wie beim Simplexalgorithmus könnte man aber auch eine Strategie in den Algorithmus einbauen, die das Auftreten von Zyklen verhindert. In den meisten Implementierungen wird Letzteres jedoch nicht getan, da unvermeidliche Rundungsfehler auf einem Computer solche Zyklen sehr unwahrscheinlich machen.
Die Durchführung des Verfahrens an einem Beispiel wird als eine Aufgabe gestellt.
Berechnung eines Startpunktes: Ein für das Problem
zulässiger Punkt, welcher als Startpunkt für Algorithmus 7.27 benötigt wird, lässt sich in vielen konkreten Fällen direkt angeben. Wenn dies nicht möglich ist, kann man einen solchen Punkt auf verschiedene Weisen berechnen. So kann man die Phase I des Simplexalgorithmus verwenden, welche für lineare Restriktionen entweder einen zulässigen Punkt liefert oder feststellt, dass es keinen solchen Punkt gibt. In diesem Zusammenhang sei erwähnt, dass die Phase II des Simplexalgorithmus, sofern dieser dem Leser bekannt sein sollte, als ein Active-Set-Verfahren aufgefasst werden kann. Im Unterschied zum Simplexverfahren erzeugen Active-Set-Verfahren für quadratische Optimierungsprobleme aber nicht notwendig Iterierte, die auf dem Rand des zulässigen Gebietes liegen oder Ecken von diesem sind. (Es kann ja sogar der Fall
eintreten.)
Zur Bestimmung eines Punktes, der für das Problem
zulässig ist, kann man auch das folgende Hilfsproblemin den Variablen
lösen (die Vorgehensweise lässt sich auf allgemeine nichtlineare Optimierungsprobleme ausdehnen):
- (7.80)
![{\displaystyle {\begin{array}{ll}{\text{Minimiere}}&t\\{\text{u. d. N.}}&+\left[(a^{i})^{T}x-b_{i}\right]\leq t\quad (i\in {\mathcal {E}}),\\&-\left[(a^{i})^{T}x-b_{i}\right]\leq t\quad (i\in {\mathcal {E}}),\\&(a^{i})^{T}x-b_{i}\leq t\quad (i\in {\mathcal {I}}),\\&t\geq 0.\end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/13db20eb751142027a42f7cb119e35e555729e7e)
Im Fall
kann die Nebenbedingung
in diesem Problem gestrichen werden, da dann für jeden Punkt
, der für (7.80) zulässig ist, automatisch
gilt. Gibt man sich nun irgendein
vor und berechnet man dazu den maximalen Wert
aller Funktionen auf den linken Seiten der Restriktionen, so erhält man offenbar einen für dieses Problem zulässigen Punkt
, indem man
wählt. Insbesondere ist also der zulässige Bereich dieses Problems nichtleer. Da seine Zielfunktion außerdem nach unten durch 0 beschränkt ist, besitzt das Problem (7.80) gemäß Satz 7.1 eine Lösung
.
Ist dann weiter
, so ist der zulässige Bereich von
offenbar leer. Im Fall
dagegen ist
ein zulässiger Punkt für
. Für
könnte man alternativ auch die Nebenbedingung
weglassen und nur so lange mit einem Verfahren iterieren, bis man ein
mit
gefunden hat (oder bis man zu einer Lösung
des Problems mit
gelangt).
Da ja für Problem (7.80) ein zulässiger Punkt
sofort angegeben werden kann, kann eine Lösung dieses Problems im Prinzip mit Algorithmus 7.27 bestimmt werden. (Satz 7.28 sichert in diesem Fall aber nicht die Konvergenz des Verfahrens.) Diese Vorgehensweise sowie die Verwendung des Simplexalgorithmus haben aber den Nachteil, dass man zusätzlich ein lineares Problem von derselben Größenordnung wie der des gegebenen Problems
selbst zu lösen hat, ohne dass man dabei dessen Zielfunktion berücksichtigt. Außerdem ist es auch nicht erstrebenswert, das Problem
mit zwei unterschiedlichen Verfahren zu lösen. Aus diesen Gründen ist die im folgenden beschriebene Methode attraktiv, welche man als Modifikation des zuletzt beschriebenen Vorgehens ansehen kann.
Bei der sog. Big-M-Methode löst man für ein hinreichend großes, vorab gewähltes
das folgende Problem in den Variablen
:
![{\displaystyle {\begin{array}{lll}(QP_{M}):&{\text{Minimiere}}&q_{M}(x,t):={\frac {1}{2}}x^{T}Qx+c^{T}x+Mt\\&{\text{u. d. N.}}&+\left[(a^{i})^{T}x-b_{i}\right]\leq t\quad (i\in {\mathcal {E}}),\\&&-\left[(a^{i})^{T}x-b_{i}\right]\leq t\quad (i\in {\mathcal {E}}),\\&&(a^{i})^{T}x-b_{i}\leq t\quad (i\in {\mathcal {I}}),\\&&t\geq 0.\end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/98e9e311af06fb7017ae7061055ccde3ff5a7278)
Man kann nun zeigen, was als zu bearbeitende Übungsaufgabe gestellt ist: Ist
positiv semidefinit und besitzt das Problem
eine Lösung
, so gibt es ein
, so dass
mit
für jedes
eine Lösung von Problem
ist. Ist weiter
eine Lösung von Problem
mit
, so ist
eine Lösung von Problem
.
Setzt man zusätzlich z. B. voraus, dass
positiv definit und für jede Lösung von
mit
die Gradienten der aktiven Nebenbedingungen von
linear unabhängig sind, d. h. dass für jede solche Lösung die LICQ erfüllt ist (siehe den Absatz vor Beispiel 7.19), so besitzt
für alle hinreichend großen
keine Lösung
mit
. (Man hat dafür zu beweisen, dass dann die
-Anteile aller Lösungen von
und damit alle zu diesen Lösungen gehörenden Multiplikatoren für die „
“-Restriktionen von
beschränkt sind. Wählt man dann
groß genug, so muss der zur Ungleichung
gehörende Multiplikator positiv sein und folgt damit aus der Komplementaritätsbedingung
.)
Für das Problem
kann man wie für Problem (7.80) einen zulässigen Punkt direkt angeben, so dass Algorithmus 7.27 zu seiner Lösung verwendet werden kann. In der Praxis wird dabei die Konstante
zumeist mittels einer Heuristik gewählt. Man beginnt mit einem beliebigem
. Hat dann die Variable
in der berechneten Lösung des Problems einen positiven Wert, so löst man das Problemmit einem vergrößerten
erneut, wobei man die zuletzt erzielte Lösung als Startlösung wählen kann. Diese Prozedur setzt man so lange fort, bis
in der Lösung des aktuellen Problems den Wert 0 annimmt.
Bemerkungen und Hinweise: Die durch Algorithmus 7.27 erzeugten Arbeitsmengen und folglich auch die Anzahl der von ihm zur Lösung des Problems benötigten Iterationen können in Abhängigkeit von der Wahl der Startmenge
zu
sehr variieren. Sind die
linear unabhängig, so kann man insbesondere
setzen. Aber selbst in diesem Fall muss die Folge der erzeugten Arbeitsmengen nicht eindeutig sein, da die im Verfahren auftretenden Indizes
und
nicht eindeutig bestimmt sind.
Weiter sei bemerkt: Startet man mit einer Menge
, für welche die Vektoren
, wie im Konvergenzsatz gefordert, linear unabhängig sind, so sind die Vektoren
für alle
linear unabhängig, wie man sich leicht überlegt:
Man zeige für Algorithmus 7.27: Sind die Vektoren
linear unabhängig, so sind dies auch die Vektoren
.
In jeder Iteration des Verfahrens muss ein gleichungsrestringiertes konvexes quadratisches Optimierungsproblem gelöst werden, wobei sich die Anzahl der Nebenbedingungen von einer Iteration zur nächsten höchstens um eine Nebenbedingung verringert oder vergrößert. Ist
die Matrix, welche die Vektoren
als Zeilen hat, so geht also
aus
hervor, indem höchstens eine Zeile aus
gestrichen oder zu
mit hinzu genommen wird. Folglich ändert sich die KKT-Matrix für das quadratische Unterproblem von einem Schritt zum nächsten maximal nur in einer Zeile und Spalte. Diese Tatsache kann man für die effiziente Lösung der Unterprobleme ausnutzen. Für diesbezügliche Details verweisen wir auf [NoWri06].
Eine schlechte Eigenschaft des Verfahrens ist es, dass in jeder Iteration nur höchstens ein Index neu in die Arbeitsmenge mit aufgenommen wird. Startet man nun mit einem Punkt
, für den keine der Ungleichungsrestriktionen aktiv ist und sind in jeder Lösung des Problems
von diesen aktiv, so benötigt Algorithmus 7.27 mindestens
Iterationen. Diese Zahl erhöht sich noch, wenn im Verlauf des Verfahrens Indizes wieder aus den Arbeitsmengen entfernt werden. Deshalb sollte man Active-Set-Verfahren nur für Probleme kleiner und mittlerer Größe verwenden. Für solche Probleme sind sie laut [NoWri06] im Allgemeinen die effizientesten Verfahren.
Active-Set-Verfahren wurden für die Bestimmung lokaler Minima nichtkonvexer quadratischer Optimierungsprobleme modifiziert (z. B. [NoWri06]). Ferner wurden sie auch auf nichtquadratische Probleme mit linearen Restriktionen übertragen (z.B. [Fle91]). Die zu lösenden Unterprobleme sind dann allerdings ebenfalls linear restringierte Probleme mit einer nichtquadratischen Zielfunktion.
7.5.3 Ein modifiziertes Gradientenprojektionsverfahren
[Bearbeiten]
Einführung: Wir wollen ein weiteres Verfahren, ein modifiziertes Gradientenprojektionsverfahren, für die Lösung des allgemeinen quadratischen Optimierungsproblems

diskutieren. Den zulässigen Bereich von
bezeichnen wir wieder mit
, wobei wir
annehmen. Das Verfahren verlangt abgesehen von der Symmetrie keine weitere Voraussetzung an
und ist somit auch für nichtkonvexe quadratische Optimierungsprobleme einsetzbar. Die Durchführung des Verfahrens ist allerdings für Probleme mit allgemeinen linearen Restriktionen nicht sinnvoll, weswegen wir es unten nur für einen in der Praxis häufig vorkommenden, speziellen Typ linearer Nebenbedingungen, den von Schrankenbedingungen an die Variablen, vorstellen werden.
Ein bekanntes, im Kurs „Optimierung II“ genauer betrachtetes Verfahren zur unrestringierten Minimierung einer Funktion
ist das Gradientenverfahren. Bei diesem wählt man in einer Iterierten
mit
die Richtung des steilsten Abstiegs
als Abstiegsrichtung (vgl. Bemerkung 3.10), bestimmt man anschließend eine geeignete Schrittweite
und setzt man dann
. Als zunächst nahe liegende Schrittweite bietet sich dabei die Minimumschrittweite, d. h. die folgende Wahl von
an:
- (7.81)

(Wir werden in der „Optimierung II“ zeigen, dass ein solches
existiert.) Das Verfahren bricht man z. B. ab, wenn
bzw. wenn
für ein vorgegebenes
ist. Da die Schrittweitenwahl in (7.81) die Bestimmung eines globalen Minimierers einer Funktion in einer Veränderlichen bedeutet, hat man alternativ eine ganze Reihe anderer Schrittweitenstrategien entwickelt. Einige davon sind ebenfalls ein Thema der „Optimierung II“. Das Gradientenverfahren macht in der Praxis häufig über einige Iterationen hinweg ganz gute Fortschritte, kann dann aber unerträglich langsam werden, so dass es in der Praxis heute kaum noch eine Rolle spielt.
Das klassische Gradientenprojektionsverfahren stellt nun eine Verallgemeinerung des Gradientenverfahrens auf linear restringierte Optimierungsprobleme und insbesondere auf Probleme des Typs
dar. Wie beim Active-Set-Verfahren startet man mit einem für das Problem
zulässigen Punkt. In der
-ten Iteration liegt dann eine Näherung
vor, von der aus man in Richtung des steilsten Abstiegs
fortschreitet, sofern
nicht bereits ein KKT-Punkt von
ist. Um Zulässigkeit der Iterierten zu bewahren, „projiziert“ man als nächstes den Strahl
auf die zulässige Menge
. Bezüglich dieses auf
projizierten Strahls sucht man nun den kleinsten positiven lokalen Minimierer
von
, den sog. Cauchy-Punkt.
Zur Berechnung dieses Punktes hat man die kleinste positive lokale Lösung eines eindimensionalen quadratischen Optimierungsproblems in der Variablen
zu bestimmen. Wir werden zeigen, dass man diese Lösung für Schrankennebenbedingungen mit wenig Aufwand explizit ausrechnen kann. Beim klassischen Gradientenprojektionsverfahren setzt man anschließend
(z. B. [Ber95], [Gei-Ka02]). Da dieses Verfahren im unrestringierten Fall genau dem Gradientenverfahren mit der Minimumschrittweitenregel (7.81) entspricht, kann es aber ein ähnlich schlechtes Konvergenzverhalten wie dieses aufweisen.
Daher variiert man das klassische Verfahren, indem man den Cauchy-Punkt nur insoweit verwendet, als man mit den für ihn aktiven Indizes, ähnlich wie beim Active-Set-Verfahren, eine aktuelle Arbeitsmenge von Indizes festlegt. Anders als beim Active-Set-Verfahren muss man nun aber das zugehörige gleichungsrestringierte quadratische Optimierungsproblem nicht vollständig lösen. Da die Konvergenz des klassischen Gradientenprojektionsverfahrens, also des Verfahrens für die Wahl
, unter relativ schwachen Voraussetzungen gesichert ist, genügt es, als nächste Iterierte einen für
zulässigen Punkt zu bestimmen, in dem der Funktionswert von
zumindest nicht größer als der im Cauchy-Punkt ist. Für die Bestimmung eines solchen Punktes gibt es verschiedene Möglichkeiten, die wir hier nur andeuten und nicht ausformulieren können.
Die durch ein derartiges modifiziertes Gradientenprojektionsverfahren erzeugten Arbeitsmengen streben im Allgemeinen sehr viel schneller gegen die Menge der aktiven Indizes in einer Lösung des Problems als es die Arbeitsmengen bei einem Active-Set-Verfahren tun. Solche Projektionsverfahren haben sich daher als sehr effiziente Verfahren für die Lösung großer quadratischer Optimierungsprobleme insbesondere mit Schrankennebenbedingungen erwiesen.
Berechnung der Projektion: Für einen gegebenen Vektor
und eine nichtleere, abgeschlossene konvexe Menge
bezeichnet man die nach Satz 2.41 existierende eindeutige Lösung
des quadratischen Optimierungsproblems
- (7.82)

als Projektion von
auf
. Die Projektion von
auf
ist also derjenige Vektor
, der
in der Menge
am nächsten liegt.
Insbesondere ist der zulässige Bereich
von
eine abgeschlossene, konvexe und nach Voraussetzung auch nichtleere Menge. Der numerische Aufwand zur Lösung des Problems (7.82) für die Menge
kann aber bei allgemeinen linearen Nebenbedingungen so groß wie der zur Lösung von
selbst sein. Deshalb sollte man Projektionsverfahren nur auf solche Probleme anwenden, für welche die benötigte Projektion einfach zu berechnen ist. Dies ist hier z. B. der Fall, wenn das quadratische Problem nur Schrankenrestriktionen des Typs

aufweist („box constraints“). Dabei sind
und
reelle Zahlen mit
und sind
und
zugelassen.
Wir betrachten daher ab jetzt nur das quadratische Optimierungsproblem mit Schrankennebenbedingungen

Seinen zulässigen Bereich bezeichnen wir mit

wobei
die Vektoren sind, welche die Komponenten
und
haben. Da
für alle
vorausgesetzt wurde, gilt
.
Probleme des Typs
muss man z. B. als Unterprobleme bei einem sog. Trust-Region-Verfahren lösen, wie es in der Vorlesung „Optimierung II“ vorgestellt werden wird. Weiter beachte man, dass jedes linear restringierte, quadratische Optimierungsproblem als ein Problem formuliert werden kann, das nur lineare Ungleichungen als Nebenbedingungen hat und dass sich ein solches Problem, wenn
positiv definit ist, lösen lässt, indem man eine Lösung des zugehörigen dualen Problems, das vom Typ
ist, bestimmt (vgl. die Probleme
und
in Abschnitt 7.2.4). Im Prinzip lässt sich also jedes quadratische Optimierungsproblem mit gleichmäßig konvexer Zielfunktion dadurch lösen, dass man eine Lösung eines schrankenrestringierten quadratischen Optimierungsproblems berechnet. Allerdings macht eine solche Vorgehensweise nur dann Sinn, wenn die Berechnung der Matrizen
und
nicht zu viele Rechenoperationen erfordert (siehe Abschnitt 7.2.4 für die Details).
Das Problem (7.82) lautet nun für
- (7.83)

Seine eindeutige Lösung, die Projektion von
auf
, bezeichnen wir mit
. Die Zielfunktion von (7.83) ist offenbar separierbar, d. h. sie wird minimal, wenn jeder ihrer Summanden minimal wird. Somit ergibt sich sofort
- (7.84)

Es sei nun
ein für
zulässiger Punkt, d. h.
und es sei

(Im Verfahren unten ist
die aktuelle Iterierte.) Im Hinblick auf die Minimierung von
bietet es sich an, wie beim Gradientenverfahren den von
ausgehenden Strahl in Richtung des steilsten Abstiegs, d. h.
für
zu betrachten und dann auf diesem Strahl einen Punkt
mit einer geeigneten Schrittweite
zu bestimmen, für den
gilt und der wieder zulässig für das Problem
ist.
Es liegt somit nahe, für
zunächst die Projektion

von
auf den zulässigen Bereich
von
zu bestimmen. Gemäß (7.84) ist diese gegeben durch
- (7.85)

Wie deutlich werden wird, beschreibt
für
einen stückweise linearen Pfad in
. Zur Bestimmung einer geeigneten Schrittweite berechnet man anschließend eine Lösung des einparametrischen, stückweise quadratischen Optimierungsproblems
- (7.86)

Den kleinsten lokalen Minimierer
dieses Problems bezeichnet man als Cauchy-Punkt. Diesen Punkt kann man leicht berechnen, wie wir als nächstes zeigen werden.
Man beachte in diesem Zusammenhang, dass für

gilt. Die Bestimmung der Projektion von
auf
entspricht somit der Bestimmung der Projektion des skalierten Gradienten
auf die Menge

Dies erklärt den Namen „Gradientenprojektionsverfahren“ für das hier beschriebene Verfahren.
Berechnung des Cauchy-Punktes: Es sei nun
und damit
für alle
. Zunächst wollen die Projektion
von
auf die Menge
für
genauer analysieren.
Die Komponente
des Vektors
erreicht offenbar mit wachsendem
für ein
den Rand von
. Und zwar erreicht
für
die untere Schranke
, wenn
ist und die obere Schranke
, wenn
ist. Dabei gilt
, wenn
oder
oder wenn
ist. Dieses
ist somit gegeben durch
- (7.87)

Je nachdem, ob für
die Schranke
oder
erreicht wird, ob also
oder 
gilt, ist dann gemäß (7.85) für alle
entweder
oder
.
Zusammengefasst folgt also und zwar auch im Fall
,
- (7.88)

Dieses Ergebnis ist anschaulich klar: eine Komponente
von
bewegt sich mit wachsendem
von
aus in Richtung des steilsten Abstiegs auf die Schranken
und
zu und sie bleibt konstant, sobald sie diese Schranke erreicht hat.
Die in
liegende Kurve
ist somit stückweise linear. Denn folgt man dem Strahl
für wachsendes
, so liegt
zum „ersten Mal“ auf dem Rand von
, wenn
den Wert

annimmt. Dabei ist
, wenn
für alle
gilt, und ist
, wenn
selbst sich schon auf dem Rand von
befindet.
Ist
, so werden dann für alle
die Komponenten
von
, für die
ist, entsprechend der erreichten Schranke konstant gehalten. (Es können ja mehrere solcher Komponenten den Rand von
gleichzeitig erreichen.) Dem so „geknickten Strahl“
folgt man nun von
aus mit wachsendem
bis zu dem nächst größeren
, für welches eine oder mehrere weitere Komponenten von
auf den Rand von
stoßen, usw. Die Kurve
, welche durch die Projektion des Strahls
auf
entsteht, ist somit eine stückweise lineare Kurve.
Es gibt also ein Intervall oder mehrere Intervalle
, so dass
in dem Intervall
eine lineare Funktion ist. Dabei gewinnt man diese
von den
in (7.87) definierten
so, dass man diejenigen der
entfernt, welche identisch 0 sind oder denselben Wert wie ein
mit kleinerem Index haben und indem man die
verbleibenden Werte der
der Größe nach sortiert. Auf diese Weise erhält man dann

wobei
möglich ist. Den Fall
für alle
können wir ignorieren, da dann Multiplikatoren existieren, so dass
mit diesen Multiplikatoren die KKT-Bedingungen von
erfüllt:
Man zeige: Ist
für
aus (7.87), so ist
ein KKT-Punkt des Problems
.
Um den Cauchy-Punkt zu ermitteln (vgl. (7.86)), untersuchen wir nun
der Reihe nach auf den Intervallen
, auf denen
eine lineare Funktion ist. Es sei dazu angenommen, dass wir dies bereits bis zum Intervall
getan und dabei festgestellt hätten, dass der Cauchy-Punkt für einen Wert
angenommen wird. Da der Cauchy-Punkt per Definition der kleinste lokale Minimierer von
ist, muss demzufolge
auf dem gesamten Intervall
streng monoton fallend sein.
Für alle
wollen wir zunächst
als Summe von
und einem Korrekturvektor ausdrücken. Gemäß (7.88) gilt offenbar

sowie

Man berücksichtige nun, dass der Fall „
“ aufgrund der Definition der
mittels der
zunächst
und somit für
auch
nach sich zieht. Ähnlich können wir im Fall „
“ schließen, dass für alle
die Beziehung
gilt. So können wir
auf dem Intervall
mit
![{\displaystyle \Delta t:=t-t_{j-1},\quad \Delta t\in [0,t_{j}-t_{j-1}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/14ef5482e1b22aca1d22f3e29aa7615bd55b0056)
und
- (7.89)

in der Form schreiben:
![{\displaystyle x(t)=x(t_{j-1})+\Delta t\cdot p^{j-1},\quad t\in [t_{j-1},t_{j}].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c7c25aab14c75a89687626a3bd50d416d6213cd5)
Damit erhalten wir weiter für
auf
die Darstellung
![{\displaystyle q(x(t))={\frac {1}{2}}[x(t_{j-1})+\Delta t\cdot p^{j-1}]^{T}Q[x(t_{j-1})+\Delta t\cdot p^{j-1}]+c^{T}[x(t_{j-1})+\Delta t\cdot p^{j-1}]={\frac {1}{2}}\alpha _{j-1}(\Delta t)^{2}+\beta _{j-1}\Delta t+\gamma _{j-1}=:{\hat {q}}_{j}(\Delta t)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a78aa7cf1e460bbfcffdf88bf73230ad6a5e7623)
mit
und


Differentiation von
nach
und anschließende Nullsetzung liefert weiter im Fall
Ist
und
, so können wir schließen, dass
ein lokales Minimum bei
annimmt. Ist
, dann ändert die Ableitung von
bei
ihr Vorzeichen und hat
somit einen lokalen Minimalpunkt bei
. In den anderen Fällen ist
auf
und demzufolge auf
streng monoton fallend.
Ist dann
und
, so ist
demnach auf
streng monoton fallend. Ist andererseits
endlich, was für jeden Index
immer gegeben ist, so hat dann
bei
einen lokalen Minimalpunkt und geht man im Fall
zum nächsten Intervall
über. Insbesondere muss in letzterer Situation die neue Richtung
mittels (7.89) bestimmt werden. Da sich
von
häufig nur in einer Komponente unterscheidet, kann man manchmal Rechenzeit sparen, wenn man die Koeffizienten des neuen Polynoms
durch eine geeignete Aufdatierung aus denen für
gewinnt.
Die beschriebene Vorgehensweise liefert also entweder ein (endliches)
und damit den gesuchten Cauchy-Punkt oder sie ergibt, dass
auf der zulässigen Menge von
nach unten unbeschränkt ist und das Problem
somit keine Lösung besitzt.
Das Verfahren: Es sei nun
der berechnete Cauchy-Punkt von
. Beim (klassischen) Gradientenprojektionsverfahren wählt man nun
und verfährt man weiter mit
in derselben Weise wie mit
. Dieses Verfahren stimmt im unrestringierten Fall genau mit dem Gradientenverfahren überein, wenn dieses mit der entsprechenden Minimumschrittweitenregel versehen wird. Deshalb ist es nicht überraschend, dass für das Gradientenprojektionsverfahren, ähnlich wie für das Gradientenverfahren, unter schwachen Voraussetzungen globale Konvergenz bewiesen werden kann (siehe z. B. [Ber95] und [GeiKa02], wo eine sog. Armijo-Schrittweitenregel für
benutzt wird und beachte, dass alle
z. B. dann in einer kompakten Menge liegen, wenn
beschränkt ist). Ferner kann damit natürlich das Gradientenprojektionsverfahren wie das Gradientenverfahren im Einzelfall extrem langsam konvergieren.
Aus letzterem Grund modifiziert man die klassische Vorgehensweise wie folgt, wobei

die Menge der in
aktiven Indizes für
sei. Um zu einer neuen Iterierten zu gelangen, betrachtet man das quadratische Optimierungsproblem
- (7.90)

Die Lösung dieses Problems kann genauso schwierig sein wie die des Ausgangsproblems
, so dass es nicht sinnvoll ist, dieses Problem vollständig zu lösen. Eine „exakte“ Lösung ist auch gar nicht erforderlich. Wie man aufgrund der für das klassische Gradientenprojektionsverfahren garantierten Konvergenz vermuten kann, genügt es im Hinblick auf die Sicherstellung der globalen Konvergenz, einen Punkt
zu finden, welcher die Nebenbedingungen in (7.90) und damit auch die in
erfüllt und für den
gilt.
Eine Strategie, die man als einen Kompromiss zwischen der Wahl
und einer vollständigen Lösung von Problem (7.90) interpretieren kann, ist es, die Ungleichungen in (7.90) zunächst zu ignorieren und das verbleibende gleichungsrestringierte Problem wenigstens teilweise zu lösen. Da die zu den Gleichungsrestriktionen gehörende Matrix die Zeilen
hat und somit zu ihr sofort eine Nullraummatrix
angegeben werden kann, bietet es sich an, für die Minimierung der zugehörigen reduzierten quadratischen Funktion
aus (7.38) ein sog. CG-Verfahren mit Startpunkt
anzuwenden („CG“ steht für „Conjugate Gradient“, siehe „Optimierung II“). Im Fall, dass
positiv definit ist, entspricht dieses Vorgehen für das gleichungsrestringierte Problem der Nullraum-Methode aus Abschnitt 7.4.2. Zur gleichzeitigen Einhaltung der Ungleichungsrestriktionen in (7.90) hat man nun weiter CG-Verfahren so variiert, dass man damit zwar das Problem (7.90) im Allgemeinen nicht löst, aber zumindest einen Punkt
erhält, der die gewünschten Eigenschaften besitzt. Ein solches modifiziertes CG-Verfahren ist das Verfahren von Steihaug, für dessen Details wir z. B. auf [NoWri06] oder [SuYu06] verweisen.
Zusammengefasst erhalten wir also den folgenden, im Detail nicht ausformulierten Algorithmus. Da wir für die Zielfunktion
des Problems
keine Konvexität vorausgesetzt haben, kann dieser nur einen Punkt finden, in dem die notwendigen Optimalitätsbedingungen erster Ordnung für
erfüllt sind.
Algorithmus 7.32 (Modifiziertes Gradientenprojektionsverfahren)
[Bearbeiten]
- (0) Wähle
. Setze
.
- (1) Falls
ein KKT-Punkt für
ist, stop!
- (2) Zu
bestimme den Cauchy-Punkt
gemäß der oben beschriebenen Vorgehensweise.
- (3) Bestimme mit
als Startpunkt einen Punkt
, für den

- gilt. Tue dies z. B. mit dem Steihaug-Verfahren für das gleichungsrestringierte quadratische Optimierungsproblem
- (7.91)

- (4) Setze
und gehe nach (1).
Für Aussagen zur Konvergenz dieses Verfahrens verweisen wir auf die Arbeit [CGT88b], welche sich auf die allgemeine Theorie in [CGT88a] bezieht (setze dort
und
und beachte, dass in diesem Fall
ist). Für den Fall, dass die strikte Komplementaritätsbedingung in KKT-Punkten von
erfüllt ist, kann man zeigen, dass sich die Arbeitsmenge
nach endlich vielen Schritten nicht mehr ändert und dass dann das Problem
wie ein unrestringiertes Problem behandelt werden kann. Im degenerierten Fall können Zyklen bezüglich der aktiven Mengen
auftreten. In der Literatur findet man aber verschiedene Vorgehensweisen, wie man solche vermeiden kann.