Kurs:Numerik I/5 Numerische Lösung nichtlinearer Gleichungssysteme
Aus Wikiversity
Inhaltsverzeichnis |
[Bearbeiten] 5.1 Konvergenzraten
Die Verfahren, die wir bisher im Zusammenhang mit der Lösung linearer Gleichungssysteme und Ausgleichsprobleme vorgestellt haben, bestimmen in endlich vielen Schritten eine Lösung, welche, wenn man exakt rechnen könnte, immer die exakte Lösung des Problems wäre. In der Praxis lassen sich aber viele mathematische Probleme nur mittels eines Iterationsverfahrens lösen, d. h. mittels wiederholter Anwendung derselben Rechenvorschriften, wobei in der k-ten Iteration („Wiederholung“), ausgehend von einer Näherung xk, eine neue und möglichst genauere Näherung xk + 1 für eine gesuchte Lösung des Problems berechnet wird. Für den Start eines solchen Verfahrens muss man folglich eine Startnäherung x0 vorgeben.
Iterationsverfahren würden im allgemeinen, wenn sie nicht nach endlich vielen Schritten abgebrochen würden, eine unendliche Folge (xk) von Iterierten generieren. Aufgabe des Numerikers ist es zu zeigen, dass jede konvergente Teilfolge oder die ganze vom Verfahren erzeugte Folge (xk) für jeden Startpunkt aus einer gewissen Menge gegen eine (ja a priori unbekannte!) Lösung x * des gegebenen Problems konvergiert. In diesem Zusammenhang spricht man von globaler Konvergenz eines Verfahrens, wenn diese Konvergenz für jede Wahl des Startpunktes aus einer wohlbestimmten Menge (z. B. dem ganzen
) gegeben ist, und von lokaler Konvergenz, wenn dies nur für Startpunkte aus einer (im Allgemeinen nicht spezifizierbaren) Umgebung einer Lösung der Fall ist. In der Praxis wird ein Iterationsverfahren natürlich nach einer endlichen Anzahl von Iterationen gestoppt und zwar dann, wenn zum ersten Mal ein Abbruchkriterium erfüllt ist, welches ausreichende Genauigkeit der aktuellen Näherung im Hinblick auf eine Lösung des Problems sicherstellt. Die Angabe eines sinnvollen Abbruchkriteriums kann dabei durchaus ein schwieriges Unterfangen sein.
Für ein gegebenes Verfahren ist neben dem rechnerischen Aufwand, der pro Iteration zu leisten ist, naturgemäß von Interesse, wie schnell es, wenn es nicht abgebrochen würde, gegen eine gesuchte Lösung konvergieren würde und damit, ob im Schnitt nur wenige oder viele Iterationen durchlaufen werden müssen, bis ein gegebenes Abbruchkriterium erfüllt ist. Wir wollen daher als nächstes den Begriff der Konvergenzgeschwindigkeit eines Verfahrens genauer fassen.
[Bearbeiten] Definition 5.1
- Sei
eine Norm auf dem
und (xk) eine Folge in
mit
. - (i) Die Folge (xk) konvergiert von (mindestens) der Ordnung p > 0 (gegen
), wenn mit einem
und einem C > 0
- (5.1)

- (5.1)
- gilt, wobei C < 1 für p = 1 sei. Im Fall p = 1 spricht man auch von linearer und im Fall p = 2 von quadratischer Konvergenz.
- (ii) Die Folge (xk) konvergiert superlinear (gegen
), wenn
für ein
gilt sowie
- (5.2)

- (5.2)
Die drei wichtigsten Konvergenzraten bei Algorithmen sind lineare, superlineare und quadratische Konvergenz, so dass wir uns im Folgenden nur auf sie beziehen werden.
Die (praktisch irrelevante) Voraussetzung „
für ein
“ bei der Definition der superlinearen Konvergenz kann man vermeiden, indem man diese mit einer Folge
von Zahlen
mit
durch
-
- (5.3)

- (5.3)
für ein
definiert. Für
kann man superlineare Konvergenz der Folge (xk) auch durch die Beziehung
ausdrücken und quadratische Konvergenz durch
[Bearbeiten] Beispiel 5.2
Die Folgen (xk),(yk) und (zk) mit
konvergieren für
gegen x * = y * = z * : = 1. Man errechnet
Also konvergiert (xk) linear, (yk) superlinear und (zk) quadratisch gegen 1. Die folgende Tabelle demonstriert, was die unterschiedlichen Konvergenzraten praktisch bedeuten.
Quadratische Konvergenz impliziert superlineare Konvergenz und diese wiederum lineare Konvergenz. Denn im Fall quadratischer Konvergenz hat man mit einem C > 0 und einem 
was wegen
die Bedingung (5.3) impliziert. Ist andererseits (5.2) gegeben, dann existiert zu jedem
ein
, so dass gilt:
-
- (5.4)

- (5.4)
Letztere Beziehung drückt gerade die lineare Konvergenz aus.
Im Fall der superlinearen Konvergenz gilt ja (5.4), d. h. lineare Konvergenz mit einem
, so dass man bei der Definition der linearen und superlinearen Konvergenz auf die Voraussetzung
verzichten könnte. Denn die Ungleichung (5.1) impliziert im Fall der linearen Konvergenz
und damit wegen C < 1 auch die Konvergenz
. Bei der Definition einer Konvergenzordnung p > 1 muss man aber, da dort nicht C < 1 gefordert ist, die Konvergenz der Folge (xk) explizit voraussetzen.
Man beachte, dass lineare Konvergenz mit einer Konstanten
sehr langsame Konvergenz bedeuten kann.
[Bearbeiten] Beispiel 5.3
Für die gegen 1 konvergierende Folge (xk) mit
gilt
Die langsame Konvergenz sei mit der Berechnung einiger Folgenglieder gezeigt:
Man hofft also, dass die Konstante C in der Praxis im Fall der linearen Konvergenz
ist und im Fall der quadratischen Konvergenz nicht allzu groß wird. In letzterem Fall besagt die Ungleichung (5.1) für C: = 1, dass sich für einen Fehler
die Anzahl der korrekten Stellen hinter dem Dezimalpunkt von xk + 1 bezüglich x * gegenüber der von xk ungefähr verdoppelt. Denn dann ist
so dass man bei einer Genauigkeit von
Stellen hinter dem Dezimalpunkt für xk bezüglich der Norm
im k-ten Schritt einen Fehler
hat und somit im (k + 1)-ten Schritt einen Fehler
Quadratische Konvergenz ist demnach eine für die Praxis sehr gute Eigenschaft eines Verfahrens und meist die schnellste Konvergenz, die man mit vernünftigen Mitteln erreichen kann.
Es sei jedoch darauf hingewiesen, dass eine gute Konvergenzrate eines Verfahrens alleine nicht dessen Effizienz garantiert. Von einem gegebenen Verfahren ausgehend, kann man ja immer ein noch schnelleres Verfahren erzeugen, indem man mehrere Iterationen des ersten Verfahrens zu einer einzigen zusammenfasst. Neben der Konvergenzgeschwindigkeit eines Verfahrens hat man also bei der Beurteilung eines Verfahrens den numerischen Aufwand pro Iteration und natürlich auch seine Stabilität zu berücksichtigen.
Wir bemerken ferner, dass die Eigenschaften der superlinearen und quadratischen Konvergenz einer Folge (xk) gegen einen Punkt x * im
aufgrund der Äquivalenz aller Normen im
unabhängig von der gewählten Norm sind. Denn die Äquivalenz zweier Normen
und
auf dem
besagt, dass mit zwei Konstanten
und 
gilt, so dass z. B. die Beziehung in (5.3) bezogen auf die Norm 
impliziert und damit für die Nullfolge {ηk} mit
auch
Ähnlich garantiert quadratische Konvergenz bezüglich der Norm
auch die quadratische Konvergenz
bezüglich einer Norm
, wobei die Konstante Cb von der Norm
abhängt. Dagegen muss lineare Konvergenz einer Folge im
bezüglich einer Norm nicht notwendig die lineare Konvergenz hinsichtlich einer anderen Norm auf dem
zur Folge haben. Zwar gilt beispielsweise für jede linear bezüglich
konvergente Folge (xk) auch
mit einer Konstanten Cb für eine Norm
, jedoch nicht notwendig Cb < 1. Sprechen wir also von linearer Konvergenz, so müssen wir klarstellen, bezüglich welcher Norm wir dies tun. Wenn nichts Anderes gesagt wird, beziehen wir uns immer auf Konvergenz im Sinne der Euklidischen Norm
.
Die hier eingeführten Begriffe der linearen, superlinearen und quadratischen Konvergenz werden gelegentlich auch als Q-lineare, Q-superlineare bzw. Q-quadratische Konvergenz bezeichnet, im Unterschied zur R-linearen, R-superlinearen bzw. R-quadratischen Konvergenz (siehe z. B. das Buch von Ortega und Rheinboldt aus dem Jahre 1970). Das „Q“ steht dabei für „Quotient“, da die Konvergenzrate in allen Fällen mittels des Quotienten
ausgedrückt werden kann (während „R“ für engl. „Root“, also „Wurzel“ steht).
[Bearbeiten] 5.2 Nullstellenbestimmung reeller Funktionen einer Veränderlichen
Häufig hat man in Anwendungen für eine gegebene Funktion
eine Nullstelle, auch Wurzel genannt, zu bestimmen, d. h. einen Punkt
mit f(x * ) = 0. So benötigt man für die Bestimmung der Extremalpunkte einer Funktion g die Nullstellen von f: = g'. Um eine möglichst gute Startnäherung für jede solche Nullstelle zu erhalten, hat man dann meistens zunächst ein kleines Intervall [α,β] in [a,b] zu ermitteln, in dem ein und zwar möglichst nur ein solches x * liegt. Dazu berechnet man im Allgemeinen Funktionswerte f(ξi) mit
für ein gegebenes, genügend großes
. Die Menge aller ξi bezeichnet man auch als ein Gitter in [a,b], die ξi selbst als Gitterpunkte und den Prozess der Auswahl von endlich vielen Punkten aus [a,b] als Diskretisierung des Intervalls. Sind
und
(anderenfalls hätte man eine Nullstelle von f gefunden) und ist
so muss f nach dem Zwischenwertsatz im Intervall [ξi,ξi + 1] eine (einfache) Nullstelle besitzen und können wir α: = ξi und β: = ξi + 1 setzen.
Es sind eine Reihe von Verfahren vorgeschlagen worden, die, ausgehend von einem solchen Intervall, unter geeigneten Bedingungen eine genäherte Nullstelle von f liefern. Wir betrachten im Folgenden einige dieser Verfahren. Dabei gehen wir davon aus, dass eine Funktion
gegeben ist und ein
existiert mit f(x * ) = 0, welches bestimmt werden soll.
[Bearbeiten] 5.2.1 Das Bisektionsverfahren
Das erste Verfahren, das wir vorstellen wollen, ist das Intervallschachtelungs- oder auch Bisektionsverfahren. Bei diesem wird, beginnend mit dem Intervall
, eine Folge von Intervallen [ak,bk] erzeugt, so dass f(ak)f(bk) < 0 und damit
gilt. Dieses Verfahren verwendet in jeder Iteration als einzige Information nur die Vorzeichen der Funktionswerte an den Randpunkten des aktuellen Intervalls, so dass keine schnelle Konvergenzgeschwindigkeit zu erwarten ist.
[Bearbeiten] Algorithmus 5 (Bisektionsverfahren)
- (0) Gib
mit f(a0)f(b0) < 0 und
. Setze k = 0. - (1) Berechne
und f(xk + 1). - (2) Falls
, stop! - (3) Falls f(ak)f(xk + 1) < 0, setze ak + 1: = ak,bk + 1: = xk + 1.
- Falls f(ak)f(xk + 1) > 0, setze ak + 1: = xk + 1,bk + 1: = bk.
- (4) Setze k: = k + 1 und gehe nach (1).
Offenbar gilt für die Länge der bei der Bisektionsmethode erzeugten Intervalle [ak,bk]
-
- (5.5)

- (5.5)
Wenn Algorithmus 5 nicht abgebrochen wird, folgt damit
Wegen
sowie xk + 1 = ak + 1 oder xk + 1 = bk + 1 hat man weiter mit (5.5)
-
- (5.6)

- (5.6)
und demnach
Da f(x * ) = 0 und f stetig ist, ist daher das Abbruchkriterium
in Schritt (2) von Algorithmus 5 nach endlich vielen Schritten erfüllt. Statt dieses Abbruchkriteriums, das beispielsweise im Fall
ungünstig ist, könnte man alternativ oder zusätzlich auch die Abfrage
mit einer kleinen Konstante
als Abbruchkriterium verwenden.
[Bearbeiten] Beispiel 5.4
Ist b0 − a0 = 1, so folgt aus (5.6)
Das Bisektionsverfahren ist ein sicheres und numerisch stabiles Verfahren, aber mit langsamer Konvergenz. Es konvergiert i. a. nicht einmal linear. Für die Fehler zweier aufeinander folgender Iterierter xk + 1 und xk kann sogar gelten:
-
- | xk + 1 − x * | > | xk − x * | .
[Bearbeiten] Beispiel 5.5
Die Nullstelle x * = − 0.1 der Geraden f(x): = x + 0.1 in [ − 1,1] werde mit dem Bisektionsverfahren berechnet. Dann hat man wegen f( − 1) < 0 und f(1) > 0
und demzufolge
-
- | x1 − x * | = 0.1 < | x2 − x * | = 0.3.
[Bearbeiten] 5.2.2 Die Regula falsi
Bei der Regula Falsi verwendet man im k-ten Schritt die Sekante, welche die Punkte (ak,f(ak)) und (bk,f(bk)) verbindet. Diese hat die Gleichung
und schneidet die x-Achse bei
-
- (5.7)

- (5.7)
Der Punkt xk + 1 wird nun als neue Näherung für x * genommen. Ansonsten verfährt man wie bei der Bisektion.
[Bearbeiten] Algorithmus 6 (Regula Falsi)
- (0) Gib
mit f(a0)f(b0) < 0 und
. Setze k = 0. - (1) Berechne
- sowie f(xk + 1).
- (2) Falls
, stop! - (3) Falls f(ak)f(xk + 1) < 0, setze ak + 1: = ak,bk + 1: = xk + 1.
- Falls f(ak)f(xk + 1) > 0, setze ak + 1: = xk + 1,bk + 1: = bk.
- (4) Setze k: = k + 1 und gehe nach (1).
Für die Regula Falsi ist keine aussagekräftige Fehlerabschätzung erhältlich. Aber sie konvergiert unter gewissen Voraussetzungen mindestens linear (siehe z. B. Stoer). Man beachte, dass wegen f(ak)f(bk) < 0 keine Auslöschung bei der Berechnung von xk + 1 eintritt, so dass das Verfahren überdies numerisch stabil ist. Die erzeugten Näherungen xk liegen alle im Ausgangsintervall [a0,b0] und können alle auf einer Seite der gesuchten Nullstelle liegen.
[Bearbeiten] 5.2.3 Das Sekantenverfahren
Beim Sekantenverfahren wählt man, ähnlich wie bei der Regula Falsi, die Nullstelle einer Sekante als neue Iterierte, wobei jeweils die Sekante, welche die Punkte (xk − 1,f(xk − 1)) und (xk,f(xk)) verbindet, genommen und mit zwei Startpunkten
begonnen wird. Dabei muss nicht notwendig f(x − 1)f(x0) < 0 gelten. Die Nullstelle dieser Sekante ist offenbar durch
gegeben (vgl. (5.7)). Das Sekantenverfahren sieht demnach folgendermaßen aus:
[Bearbeiten] Algorithmus 7 (Sekantenverfahren)
- (0) Gib
und
. Berechne f(x − 1) sowie f(x0) und setze k = 0. - (1) Berechne
- (5.8)

- (5.8)
- sowie f(xk + 1).
- (2) Falls
, stop! - (3) Setze k: = k + 1 und gehe nach (1).
Man beachte hier (vgl. (5.8)), dass man die Iterierte im (k + 1)-ten Schritt eines Verfahrens meist als Korrektur der Iterierten im k-ten Schritt, also in der Form xk + 1: = xk + hk mit einem
schreibt, so dass man bei Konvergenz des Verfahrens (gegen
)
zumindest für größere k hat.
Während bei dem Bisektionsverfahren und der Regula Falsi sofort einleuchtet, dass diese Verfahren immer konvergieren, ist dies beim Sekantenverfahren nicht offensichtlich und hat man die Konvergenz zu beweisen. Es muss insbesondere nicht
bzw.
gelten, so dass das Verfahren im Allgemeinen nur lokal konvergiert. Genauer kann man den folgenden Satz beweisen (vgl. Isaacson and Keller):
[Bearbeiten] Satz 5.6
- Sei
, und es existiere ein
mit f(x * ) = 0 und
. Sind die Anfangsnäherungen x − 1 und x0 hinreichend nahe bei x * gewählt, so konvergiert die nach Streichung von Schritt (2) durch Algorithmus 7 erzeugte Folge (xk) superlinear gegen x * von der Ordnung
.
Das Sekantenverfahren konvergiert also im Allgemeinen schneller als das Bisektionsverfahren und die Regula Falsi. Anders als diese, neigt es aber zu instabilem Verhalten, da der Fall sgn(f(xk)) = sgn(f(xk − 1)) und damit Auslöschung bei der Berechnung von xk + 1 eintreten kann.
Die schnelle Konvergenz des Sekantenverfahrens soll an einem Beispiel demonstriert werden.
[Bearbeiten] Beispiel 5.7
Es soll
berechnet werden. Dies kann man tun, indem man die positive Nullstelle der Funktion f(x): = x2 − 2 z. B. in dem Intervall [0,5] bestimmt. Der gesuchte Wert lautet auf 12 Stellen hinter dem Dezimalpunkt genau
Die Iterationsvorschrift des Sekantenverfahrens lässt sich hier vereinfachen zu
Man errechnet mit x − 1: = 1.3 und x0: = 1.5 für k: = 0
mit x0: = 1.5 und
für k: = 1
usw. Insgesamt erhält man die Iteriertenfolge
wobei die richtigen Ziffern jeweils unterstrichen sind.
Hätte man mit der ursprünglichen Formel (5.8) gearbeitet, wie man das meist in der Praxis zu tun hat, so hätte man 2 Funktionsauswertungen von f zur Berechnung von x1 und jeweils eine für die von x2 bis x4, d. h. insgesamt 5 Funktionsauswertungen zur Berechnung von x4 benötigt.
Funktionsauswertungen sind in vielen Situationen ein gutes praktisches Vergleichskriterium für unterschiedliche Algorithmen zur Lösung eines Problems, da diese häufig die numerisch teuersten Teilaufgaben bei der Problemlösung darstellen.
[Bearbeiten] 5.2.4 Das Newton-Verfahren
Es sei nun
und die Existenz eines
mit f(x * ) = 0 vorausgesetzt. Beim Newton-Verfahren benötigt man nur eine Startnäherung
für x * . Ist xk die Näherung für x * zu Beginn der k-ten Iteration, so wählt man bei diesem Verfahren die Nullstelle xk + 1 der Tangente im Punkt (xk,f(xk)) an den Graphen von f als nächste Näherung. Die Gleichung dieser Tangente ist offenbar durch
-
- y = f(xk) + f'(xk)(x − xk)
gegeben, so dass man
erhält. Wenn wir beispielsweise
voraussetzen (x * ist dann eine einfache Nullstelle), können wir dabei zumindest für solche xk, die nahe bei x * liegen,
annehmen. (Im Fall
und f'(xk) = 0 hätte die Tangente auch keine Nullstelle.) Das Newton-Verfahren lautet demnach:
[Bearbeiten] Algorithmus 8 (Newton-Verfahren)
- (0) Wähle ein
und
, berechne f(x0) und setze k: = 0. - (1) Berechne f'(xk),
- (5.9)

- (5.9)
- und f(xk + 1).
- (2) Falls
, stop! - (3) Setze k: = k + 1 und gehe nach (1).
Bevor wir das Newton-Verfahren weiter untersuchen, betrachten wir sein Verhalten für das Problem in Beispiel 5.7.
[Bearbeiten] Beispiel 5.8
Es sei wieder f(x): = x2 − 2 und damit f'(x) = 2x. Gesucht ist die positive Nullstelle
von f. Die Iterationsvorschrift des Newton-Verfahrens lässt sich hier schreiben als
Beginnend mit x0: = 1.5 und k: = 0 berechnet man die Iterierten
Bei direkter Verwendung von (5.9) wären für die Berechnung von x3 jeweils 3 Funktionsauswertungen von f und f', also insgesamt 6 Funktionsauswertungen erforderlich gewesen. Das Newtonverfahren ist also in diesem Fall ein sehr schnelles Verfahren. Bei diesem Beispiel und der Wahl von Startwerten (!) erreicht das Sekantenverfahren aber mit etwas weniger Aufwand sogar etwas höhere Genauigkeit.
Wir wollen uns nun mit der Konvergenz des Newton-Verfahrens beschäftigen. Dazu holen wir etwas weiter aus. Für eine gegebene Funktion
nennen wir einen Punkt
mit
-
- g(x * ) = x *
einen Fixpunkt von g. Weiter sprechen wir bei der Iterationsvorschrift
von der Fixpunktiteration mit der Verfahrensfunktion g. Ist g stetig und konvergiert die Iteriertenfolge, so muss ihr Grenzwert offenbar notwendig ein Fixpunkt von g sein. Man beachte in diesem Zusammenhang, dass x * genau dann Fixpunkt von g ist, wenn x * Nullstelle z. B. der Funktion f(x): = g(x) − x ist, dass also die Probleme der Bestimmung einer Nullstelle und der eines Fixpunktes einer Funktion äquivalent sind.
Wir beweisen nun folgenden allgemeinen Satz über die lokale Konvergenz der Fixpunktiteration, wobei
eine offene δ-Umgebung des Punktes
bezeichne.
[Bearbeiten] Satz 5.9
- Sei
gegeben und
Fixpunkt von g. Weiter sei g in x * p-mal differenzierbar mit einem
, und es gelte entweder
- (5.10)

- (5.10)
- Dann existiert ein δ > 0, so dass die durch
- erzeugte Iteriertenfolge (xk) für jeden Startpunkt
gegen x * konvergiert und zwar mindestens von der Ordnung p. Im Fall
ist die Konvergenzordnung genau p.
[Bearbeiten] Beweis.
Taylorentwicklung von g um x * liefert für beide Fälle in (5.10)
-

für 
Somit hat man
-
- (5.11)

- (5.11)
so dass zu einem gegebenen
ein δ > 0 existiert und
-

- (5.12)
![= \left[ C |x - x^*|^{p-1} \right] |x - x^*| = \tilde C(x) |x - x^*|, \quad x \in \mathcal U_\delta(x^*)](http://upload.wikimedia.org/math/d/d/7/dd7d49c7ef632dcfc88c081c413c5fca.png)
mit
und
gilt. Im Fall p = 1 sei dabei
so klein gewählt, dass
ist, was aufgrund der Voraussetzung | g'(x * ) | < 1 möglich ist. Für p > 1 ist es offenbar möglich, δ so klein zu wählen, dass
für alle
folgt.
Die Ungleichung (5.12) impliziert nun für
auch
und damit im Fall
auch
für alle
, so dass man
hat und daraus wegen
die Konvergenz
von mindestens der Ordnung p schließen kann. Ist die Zusatzbedingung
erfüllt und wird oben
so gewählt, dass
gilt, so gilt wegen (5.11)
-
- (5.13)

- (5.13)
Daraus folgt die genaue Konvergenzordnung p in diesem Fall, denn wäre diese mindestens p + 1, so folgte mit (5.13) für ein
und ein 
und damit im Widerspruch zu Konvergenz von (xk) gegen x *
q.e.d.
In dem folgenden Satz wird nun unter verschiedenen Voraussetzungen eine jeweilige Konvergenzordnung des Newton-Verfahrens angegeben.
[Bearbeiten] Satz 5.10
- Es sei
gegeben und es existiere
mit f(x * ) = 0. Mit einem η > 0 sei weiter für Aussage (i)
und für Aussage (ii)
. Dann gilt nach Streichung von Schritt (2) für die durch das Newton-Verfahren (Algorithmus 8) erzeugte Folge (xk): - (i) Ist
, dann existiert ein
, so dass (xk) für jeden Startpunkt
gegen x * konvergiert und zwar mindestens quadratisch. Im Fall f''(x * ) = 0 konvergiert (xk) sogar von einer Ordnung
. - (ii) Ist x * andererseits eine m-fache Nullstelle von f mit einem
, d. h., ist
- und ist weiter z in x * zweimal differenzierbar, so ist die Iterationsfunktion
- (5.14)

- (5.14)
- des Newton-Verfahrens differenzierbar in x * mit
- (5.15)

- (5.15)
- und existiert ein
, so dass (xk) für jeden Startpunkt
(genau) linear gegen x * konvergiert.
[Bearbeiten] Beweis.
Die Behauptung folgt mit Satz 5.9, wenn man diesen auf g in (5.14) anwendet sowie mit den folgenden Darstellungen. Im Fall (i) zeigt man zunächst die Stetigkeit von g,g' und g'' in x * . Man ermittelt dann
so dass also
gilt. Damit folgt die Behauptung.
Im Fall (ii) erhält man
-
- f'(x) = m(x − x * )m − 1z(x) + (x − x * )mz'(x)
und somit
-
- (5.16)

- (5.16)
Wegen
folgt damit
und ist demzufolge g aus (5.14) stetig in x * . Weiter hat man mit (5.16) wegen f(x * ) = 0
Also ist 0 < g'(x * ) < 1 und damit insbesondere auch
.
q.e.d.
Man beachte, dass das Newton-Verfahren pro Iteration zwei Funktionsauswertungen benötigt, während das Sekanten-Verfahren nur eine verlangt. Im Fall, dass der Grenzwert eine einfache Nullstelle ist, konvergiert letzteres Verfahren unter geeigneten Voraussetzungen aber nur superlinear, während das Newton-Verfahren dann mindestens quadratisch konvergiert. Es stellt sich also die Frage, welches der Verfahren in der Praxis effizienter ist. Bemerkenswert ist es daher, dass man zeigen kann, dass das Sekantenverfahren, wenn man zwei Iterationen zu einer zusammenfasst und es damit etwa gleichen Aufwand pro Iteration wie das Newton-Verfahren bekommt, eine Konvergenzrate von mindestens p: = 2.618 hat, und es folglich lokal schneller als das Newton-Verfahren konvergiert. Allerdings neigt das Sekanten-Verfahren, anders als das Newton-Verfahren, aufgrund von Auslöschungen zu instabilem Verhalten.
[Bearbeiten] 5.3 Fixpunktiteration
Wir verallgemeinern zunächst die Fixpunktiteration auf Funktionen
, die wir in Abschnitt 5.2.4 für n = 1 und hinreichend glattes g diskutiert hatten. Für die Bestimmung eines Fixpunktes von g, d. h. eines Punktes
mit g(x * ) = x * , betrachten wir also die Iterationsvorschrift
-
- (5.17)

- (5.17)
mit einem gegebenen Startwert
. Wir definieren nun zunächst:
[Bearbeiten] Definition 5.11
- (i) Sei
und
eine Norm auf dem
. Eine Abbildung
heißt Lipschitz-stetig auf D mit (Lipschitz-)Konstante L > 0, wenn gilt:
- (5.18)

- (5.18)
- (ii) Eine Lipschitz-stetige Abbildung
mit Konstante L > 0 heißt eine Kontraktion auf D, wenn L < 1 ist.
Sei nun speziell
für
, wobei wir damit eine Funktion
mit
und stetigen partiellen Ableitungen
für alle
meinen. Für ein solches g kann man in der Praxis häufig eine Konstante L wie in (5.18) mittels der ersten Ableitung von g bzw. der Jacobi-Matrix von g, welche durch
gegeben ist, gewinnen. Dazu definieren wir:
[Bearbeiten] Definition 5.12
- Eine Menge
heißt konvex, falls für je zwei Elemente
auch die ganze Verbindungsstrecke von x nach y zu D gehört, d. h. falls
Damit lässt sich bekanntlich das folgende Lemma aus dem Mittelwertsatz der Differentialrechnung ableiten.
[Bearbeiten] Lemma 5.13
- Es sei
für eine offene, konvexe Menge
und für eine Konstante L > 0 gelte
- Dann folgt die Abschätzung
Dazu geben wir Beispiele.
[Bearbeiten] Beispiel 5.14
(1) Die Funktion f(x): = x2 ist auf [0,0.4] eine Kontraktion, denn es ist
und mit ![L := \max_{x \in [0, 0.4]} (2x) = 0.8](http://upload.wikimedia.org/math/0/9/5/095d0c1b148b6852d191a5e45cbf81f0.png)
(2) Die Funktion
ist auf [0,a] mit a > 0 nicht Lipschitz-stetig, denn für y = 0 hat man
und
.
Der folgende sog. Banachsche Fixpunktsatz gibt an, dass die Fixpunktiteration (5.17) konvergiert, und zwar für allgemeines n und ohne Differenzierbarkeitsforderungen an g, wobei als Startvektor alle Elemente x0 der zugrunde gelegten Menge zugelassen sind. Überdies liefert er unter den genannten Voraussetzungen die Existenz eines eindeutigen Fixpunktes. Die geforderte Kontraktionseigenschaft für die Iterationsfunktion g ist allerdings eine relativ starke Voraussetzung.
[Bearbeiten] Satz 5.15
- Sei
abgeschlossen und die Abbildung
bezüglich der Vektornorm
eine Kontraktion mit Konstante
. Dann gilt: - (i) g besitzt genau einen Fixpunkt
. - (ii) Für jeden Startpunkt
liefert die Fixpunktiteration
- (5.19)

- (5.19)
- eine Folge (xk) in D, welche gegen x * konvergiert und man hat
- (5.20)

- (5.20)
[Bearbeiten] Beweis.
(i) Sind
Fixpunkte von g, so gilt
bzw.
, was x * = y * impliziert. Also besitzt g höchstens einen Fixpunkt.
(ii) Sei nun der Startvektor
beliebig und (xk) bezeichne die damit durch die Fixpunktiteration (5.19) erzeugte Folge. Für
ist dann offenbar auch g(xk) = xk + 1 in D, so dass
folgt. Man hat somit weiter
so dass man die folgenden Abschätzungen für
erhält:
Also gilt
-
- (5.21)

- (5.21)
Demnach ist die Folge (xk) eine Cauchy-Folge und hat sie als solche einen Grenzwert
. Da g nach Voraussetzung (Lipschitz-)stetig ist und die Fixpunktiteration dann, wenn sie konvergiert, gegen einen Fixpunkt konvergiert, ist x * der (eindeutige) Fixpunkt von g. Der Grenzübergang „
“ in (5.21) liefert schließlich die Abschätzung (5.20).
q.e.d.
Man beachte, dass man unter den Voraussetzungen des Banachschen Fixpunktsatzes mindestens lineare Konvergenz für die Fixpunktiteration hat, denn dann gilt
wobei
ist. Der Ausdruck
in (5.20) kann, nachdem x1 berechnet wurde, für jedes
vor Beginn der Iteration bestimmt werden. Er ermöglicht eine a priori Fehlerabschätzung für den Approximationsfehler
. Weiter hat man wegen
für eine Abbruchschranke 
mit
so dass mit (5.21) folgt:
Praktisch ist also spätestens in Schritt
mit
-
- (5.22)

- (5.22)
die Fehlerabschätzung
erfüllt, wobei
die kleinste ganze Zahl
bezeichnet.
Der mittlere Ausdruck in (5.20) kann im k-ten Iterationsschritt bestimmt werden und erlaubt eine a posteriori Fehlerabschätzung für den Approximationsfehler
. Praktisch wird für eine gegebene Schranke
in Schritt
abgebrochen, wenn erstmalig
erfüllt ist. In diesem Fall genügt xk der Fehlerabschätzung
.
Wir geben dazu ein Beispiel.
[Bearbeiten] Beispiel 5.16
Es sei
Dann hat man
-
- f(x * ) = 0 für

- f(x * ) = 0 für
Diese Nullstelle x * soll nun approximativ berechnet werden. Mit
gilt offenbar
so dass wir dazu die Fixpunktiteration xk + 1 = g(xk) mit der Iterationsfunktion g anwenden wollen.
Dafür müssen wir zunächst die Voraussetzungen von Satz 5.15 überprüfen. Auf dem Intervall D: = [0.5,0.69] ist g monoton fallend und somit
sowie
Also ist g eine Kontraktion. Die folgende Tabelle liefert für den Startwert x0: = 0.55 ausgewählte Iterierte des Verfahrens:
Die Situation soll nun für k = 12 genauer betrachtet werden. Die Fehlerabschätzung (5.20) liefert in diesem Fall
Der tatsächliche Fehler
wird also durch die a posteriori Abschätzung um etwa den Faktor 4 und durch die a priori Abschätzung um etwa den Faktor 9 überschätzt.
Das praktische Vorgehen soll nun für die spezielle Fehlerschranke
illustriert werden. Der (üblicherweise unbekannte) Approximationsfehler unterschreitet diese Schranke bereits für k = 2, denn man hat
. Die a posteriori Abschätzung liefert dagegen für k = 4
also
als Stoppzahl, während die a priori Abschätzung in (5.22) mit
-
- Parser-Fehler (Syntaxfehler): a = \log \left( \frac{(1 - L) \varepsilon}{\|x^1 - x^0\|} \right) / \log(L) = \log \left( \frac{\left( 1 - e^{-1/2} \right) 0.007\ 6}{0.576\ 949\ 81 - 0.55} / \log(e^{-1/2}) \approx 4.397
die Vorhersage
macht.
[Bearbeiten] 5.4 Das Newton-Verfahren im 
[Bearbeiten] 4.1 Grundlagen
Es sei
eine offene Menge und
eine Funktion mit
und stetigen partiellen Ableitungen
, es sei also
. Die zu F gehörige Jacobi-Matrix bezeichnen wir mit
Mit
ist im ganzen Abschnitt 5.4 wieder die Euklidische Norm auf dem
bzw. die durch sie induzierte Spektralnorm gemeint.
Schließlich werden wir von dem folgenden Lemma Gebrauch machen.
[Bearbeiten] Lemma 5.17
- Sei
eine stetige vektorwertige Funktion, sei
für
und sei
der Vektor mit den Komponenten
. Dann gilt:
[Bearbeiten] Beweis.
Es sei
. Dann kann man unter Verwendung des Standardskalarprodukts
auf dem
und der Cauchy-Schwarz-Ungleichung abschätzen:
q.e.d.
[Bearbeiten] 5.4.2 Das Verfahren
Es sei wieder
eine offene Menge und es sei
mit
und Jacobi- bzw. Funktionalmatrix
gegeben. Es soll nun das Newton-Verfahren zur Bestimmung einer Lösung
des Gleichungssystems
vorgestellt und seine Konvergenz untersucht werden. Für n = 1 hatten wir dies bereits in Abschnitt 5.2.4 getan.
Die Iterationsvorschrift des Newton-Verfahrens lautete im Fall n = 1
-
- xk + 1: = xk − [f'(xk)] − 1f(xk),
wobei sich xk + 1 als Nullstelle einer linearen Approximation von f, der Tangente bei xk an f, ergab. Ähnlich kann man für eine Funktion
mit beliebigem
das Newton-Verfahren dadurch motivieren, dass man xk + 1 als Nullstelle der linearen Approximation von F bei xk
wählt. Dieses Vorgehen führt zu der allgemeinen Iterationsvorschrift
-
- (5.23)
![x^{k+1} := x^k - \left[ \mathcal J_F(x^k) \right]^{-1} F(x^k), \quad k \in \N_0](http://upload.wikimedia.org/math/8/9/e/89e63ccf660039929459d1b1661e150f.png)
- (5.23)
des Newton-Verfahrens. Wir gehen hier implizit davon aus, dass die Jacobi-Matrix
des Systems für jedes
nichtsingulär ist. Da man, wenn immer möglich, die Berechnung der Inversen einer Matrix vermeiden sollte, geht man praktisch bei der Berechnung von xk + 1 von der zu (5.23) äquivalenten Gleichung
aus und bestimmt man die eindeutige Lösung hk des linearen Gleichungssystems
Anschließend setzt man
-
- xk + 1: = xk + hk.
Das Newton-Verfahren lautet somit wie folgt:
[Bearbeiten] Algorithmus 9 (Newton-Verfahren)
- (0) Wähle
und ein
. Berechne F(x0) und setze k: = 0. - (1) Berechne
und bestimme die eindeutige Lösung
von
- (5.24)

- (5.24)
- (2) Setze xk + 1: = xk + hk und berechne F(xk + 1).
- (3) Falls
, stop! - (4) Setze k: = k + 1 und gehe nach (1).
Der folgende Satz besagt, dass das Newton-Verfahren unter geeigneten Voraussetzungen durchführbar, d. h. für alle k insbesondere
und
nichtsingulär ist und dass es superlinear bzw. quadratisch konvergiert.
[Bearbeiten] Satz 5.18
- Es sei
offen und
. Ferner existiere ein
, für welches F(x * ) = 0 und
nichtsingulär sei. Dann gibt es eine Umgebung
von x * für ein δ > 0, so dass das Newton-Verfahren, Algorithmus 9, für jeden Startpunkt
durchführbar ist und die durch ihn ohne das Abbruchkriterium (3) erzeugte Iteriertenfolge (xk) superlinear gegen x * konvergiert. Gilt mit einem L > 0
- (5.25)

- (5.25)
- so konvergiert (xk) gegen x * sogar quadratisch.
[Bearbeiten] Beweis.
Wegen der Stetigkeit von
auf D können wir zunächst η > 0 so klein wählen, dass gilt:
Für
ergibt sich damit und mit
gemäß Korollar 2.21 die Invertierbarkeit der Matrix
sowie die Abschätzung
-
- (5.26)
![\left\| [\mathcal J_F(x)]^{-1} \right\| \le \frac{\left\|[\mathcal J_F(x^*)]^{-1}\right\|}{1 - \left\|[\mathcal J_F(x^*)]^{-1}\right\| \|\mathcal J_F(x) - \mathcal J_F(x^*)\|} \le 2\beta.](http://upload.wikimedia.org/math/8/f/2/8f24c32e58084ba4e5c747b2700bc6bd.png)
- (5.26)
Sei nun
die Iterationsfunktion des lokalen Newton-Verfahrens, die nach dem Gezeigten auf
wohldefiniert ist. Mit F(x * ) = 0 und den Identitäten
schließen wir als nächstes
Für
-
- (5.27)

- (5.27)
leiten wir daraus unter Anwendung von Lemma 5.17 mit (5.26) die folgende Abschätzung ab:
-
- (5.28)

- (5.28)
Wegen der Stetigkeit von
auf
existiert ein
, so dass
auf
ist und damit gilt:
Beginnend mit
, liegt folglich mit
auch
in
und konvergiert die Folge (xk) linear gegen x * . Die Konvergenz von (xk) impliziert weiter die Konvergenz
. Da gemäß (5.28)
-
- (5.29)

- (5.29)
für alle k gilt, folgt schließlich die superlineare Konvergenz von (xk).
Gilt nun (5.25) auf
, dann liegt für jedes k mit x * und xk auch x * + s(xk − x * ) für alle
in
und folgt somit
Aus (5.27) gewinnt man damit für alle k die Abschätzung
Letzteres zeigt zusammen mit (5.29) die quadratische Konvergenz der Folge (xk).
q.e.d.
[Bearbeiten] Beispiel 5.19
Gesucht sei die Lösung
der beiden Gleichungen
-
- (5.30)

- (5.30)
für die
gilt, wobei wir hier keine Abbruchschranke
angeben. Die Jacobi-Matrix von F lautet
Für
erhält man somit das lineare Gleichungssystem (5.24)
Dieses besitzt die Lösung
so dass sich
ergibt mit dem Defekt
Mit
verfährt man nun analog usw. Für die ersten vier Iterationen ergibt sich insgesamt die folgende Tabelle:
Das Newton-Verfahren, Algorithmus 9, ist invariant gegenüber affin-linearen Transformationen (Übung!). Dies bedeutet, wenn
eine beliebige reguläre Matrix und
irgendein Vektor: Ist {xk} die durch das lokale Newton-Verfahren für den Startpunkt x0 erzeugte Iteriertenfolge zur Bestimmung einer Lösung des Gleichungssystems F(x) = 0, so erzeugt das Verfahren bei Anwendung auf das System
-
- G(z): = F(Az + c) = 0
für den Startpunkt z0: = A − 1(x0 − c) die Iteriertenfolge {zk} mit
Verfahren, die invariant gegenüber affin-linearen Transformationen sind, gelten gegenüber Verfahren, die diese Eigenschaft nicht besitzen, insofern als robuster, als ihre Konvergenzgeschwindigkeit weit weniger von den gerade vorliegenden speziellen Daten abhängt. Anders als z. B. bei dem CG-Verfahren zur Lösung linearer Gleichungssysteme mit symmetrischer, positiv definiter Matrix (s. Kanzow) ändert sich beim lokalen Newton-Verfahren insbesondere durch eine (affin-)lineare Transformation der Variablen die Konvergenzgeschwindigkeit des Verfahrens nicht. Denn ist
eine vorgegebene Abbruchschranke, so gilt aufgrund der oben beschriebenen Invarianz gegenüber affin-linearen Transformationen und der sich daraus ergebenden Identitäten
die Äquivalenz
Bei Verfahren, die wie die CG-Verfahren nicht invariant gegenüber affin-linearen Transformationen sind, kann man zwar möglicherweise die Konvergenzgeschwindigkeit durch eine geeignete Wahl der Matrix A erheblich beschleunigen, ist es aber häufig nicht vorhersehbar, ob das Verfahren für die aktuellen Daten langsam konvergiert, oder ist es nicht klar, ob gegebenenfalls eine geeignete Transformation zur Konvergenzbeschleunigung gefunden werden kann. Mit
lautet die Iterationsvorschrift des Newton-Verfahrens
Die Richtung pk bezeichnet man dabei auch als Newton-Richtung in xk.
Es gibt eine große Zahl von Varianten des Newton-Verfahrens, die zum Ziel haben, den Konvergenzbereich des Verfahrens zu vergrößern und/oder seinen numerischen Aufwand zu reduzieren. So kann man das Newton-Verfahren in gewisser Weise globalisieren, indem man eine geeignete Schrittweite tk > 0 einführt und
definiert. Dabei wählt man tk beispielsweise als (Näherungs-)Lösung des Problems
-
- (5.31)

- (5.31)
da ja
möglichst klein werden sollte. Von dem so modifizierten sog. gedämpften Newton-Verfahren kann man unter relativ schwachen Voraussetzungen für jeden Startpunkt x0 einer geeigneten, hinreichend großen Menge Konvergenz zeigen. (Man hat sich dabei zu überlegen, dass ein solches tk existiert und eine positive Zahl ist. Da eine Lösung des globalen Optimierungsproblems (5.31) im Allgemeinen nicht realistisch ist, wählt man die Schrittweite tk häufig aber auf eine andere Weise; siehe z. B. Stoer, wo für eine solche andere Schrittweitenwahl auch ein Konvergenzsatz zu finden ist.)
Eine weitere praktisch relevante Modifikation des Newton-Verfahrens besteht darin, die numerisch aufwendig zu berechnende Jacobi-Matrix
im Verfahren durch eine geeignete Näherung
zu ersetzen, wobei Hk alleine aus den Daten xk,xk − 1,F(xk) und F(xk − 1) numerisch relativ günstig berechnet werden kann und somit insbesondere keine partiellen Ableitungen benötigt werden. Wir kennen ein solches Vorgehen schon vom Sekantenverfahren her, bei dem der Faktor
der eine Näherung für 1 / f'(xk) darstellt, in der Iterationsvorschrift vorkommt. Verfahren dieses Typs werden als Sekanten- oder Quasi-Newton-Verfahren bezeichnet. Das bekannteste ist das Broyden-Verfahren.
Quasi-Newton-Verfahren haben vor allem im Zusammenhang mit der Bestimmung von Extremalpunkten von F und damit der Lösung des Systems
große Bedeutung, da man ja bei Anwendung des Newton-Verfahrens in einem solchen Fall in jeder Iteration die Hesse-Matrix
für F, also etwa n2 / 2 partielle Ableitungen zweiter Ordnung zu berechnen hat. Von solchen Quasi-Newton-Verfahren gibt es eine Reihe von Varianten, die sich durch die Wahl der Hk unterscheiden, wobei man im Fall der Lösung von Optimierungsaufgaben zusätzlich bestrebt ist, die positive oder negative (Semi-)Definitheit der Hesse-Matrix in einer Umgebung des Extremalpunktes auch für die Hk zu erreichen. Die verbreitetste Methode ist das BFGS-Verfahren, das nach seinen Erfindern Broyden, Fletcher, Goldfarb und Shanno benannt wurde, die das Verfahren 1970 unabhängig voneinander vorschlugen. Es hat sich herausgestellt, dass dieses unter allen Quasi-Newton-Verfahren das wohl unempfindlichste gegenüber der Schrittweitenwahl ist. (Es gibt Alternativen zu der numerisch teuren Berechnung der Minimumschrittweite in (5.31).)
Von Quasi-Newton-Verfahren kann man keine quadratische Konvergenz erwarten, da sie ja weniger Information der Funktion als das Newton-Verfahren verwenden. Unter geeigneten Voraussetzungen lässt sich aber für sie im Allgemeinen superlineare Konvergenz nachweisen. Die schlechtere Konvergenzrate gegenüber dem Newton-Verfahren wird jedoch durch den pro Iteration erforderlichen, geringeren numerischen Aufwand kompensiert.
Allgemein kann man sagen, dass das Newton-Verfahren wohl das erfolgreichste und verbreitetste Verfahren der Mathematik ist. Es wurde im Hinblick auf die Lösung zahlloser Probleme, auch solcher in unendlich-dimensionalen Räumen, verallgemeinert und modifiziert.






















![0 \le f(x) \ll 1, \quad x \in [a, b]](http://upload.wikimedia.org/math/b/0/b/b0baf546fd62cdf3d0fc5633ed523b7b.png)

![|x_5 - x^*| \le [0.5]^5 \approx 0.031,](http://upload.wikimedia.org/math/6/4/9/64955f3be3d37528706337fc20085a4f.png)
![|x_{20} - x^*| \le [0.5]^{20} \approx 0.000\, 000\, 95.](http://upload.wikimedia.org/math/a/8/b/a8bf4e29f342513ba77ddb559c72d13b.png)
![[a_0, b_0] := [-1, 1], \quad x_1 := 0, \quad f(x_1) = 0.1 > 0,](http://upload.wikimedia.org/math/a/c/8/ac8f7bb7ee73c00f284bea56414e37b9.png)
![[a_1, b_1] := [-1, 0], \quad x_2 := -0.5, \quad f(x_2) = -0.4 < 0](http://upload.wikimedia.org/math/8/4/c/84c06f4cfc620b67fe7cbdd1f96cadb8.png)



![x_{k+1} := x_k - \left[x^2_k - 2\right] \frac{x_k - x_{k-1}}{x^2_k - x^2_{k-1}} = x_k - \frac{x^2_k - 2}{x_k + x_{k-1}}.](http://upload.wikimedia.org/math/6/3/1/631e1bc29b869aaed94a39067c858f2d.png)




















![= 1 - \lim_{h \to 0} \frac{hz(x^* + h)}{h [mz(x^* + h) + hz'(x^* + h)]} = 1 - \frac 1m.](http://upload.wikimedia.org/math/1/9/9/1997780ea543958279af5395192ea0d5.png)


![x, y \in D, \quad t \in [0, 1] \Rightarrow tx + (1 - t)y \in D.](http://upload.wikimedia.org/math/d/8/2/d82e17982b08aac1652e45da109a8564.png)

![f([0, 0.4]) = [0, 0.16] \subseteq [0, 0.4]](http://upload.wikimedia.org/math/b/4/7/b472ac691640f052f1421522464bfb05.png)
![\left| x^2 - y^2 \right| \le 0.8 |x - y|, \quad x, y \in [0, 0.4].](http://upload.wikimedia.org/math/8/c/4/8c4f1985f2d66e4e1bc227b02afbd3a7.png)
![\left| \sqrt{x} - \sqrt{0} \right| = \sqrt{x} = \frac 1{\sqrt{x}} (x - 0) = \frac 1{\sqrt{x}} |x - 0|, \quad x \in (0, a]](http://upload.wikimedia.org/math/8/0/9/80925c43c5cfa2d492981097ca010210.png)















![g(D) = [e^{-0.69}, e^{-0.5}] \subseteq [0.5, 0.61] \subseteq D](http://upload.wikimedia.org/math/7/7/6/776bf70d855b1a3e8a505f54d0802cb7.png)
![L := \max_{x \in [0.5, 0.69]} |g'(x)| = \max_{x \in [0.5, 0.69]} e^{-x} = e^{-1/2} \approx 0.606\ 531.](http://upload.wikimedia.org/math/1/2/5/1257e558b7cc72202b3b0c422647f9ae.png)















![\|\mathcal J_F(x) - \mathcal J_F(x^*)\| \le \frac 1{2 \left\| [\mathcal J_F(x^*)]^{-1} \right\|}, \quad x \in \mathcal U_\eta(x^*).](http://upload.wikimedia.org/math/2/e/0/2e00c820f454ec58464feb9565eecd7f.png)
![\mathcal J_F(x) = \mathcal J_F(x^*) + [\mathcal J_F(x) - \mathcal J_F (x^*)]](http://upload.wikimedia.org/math/5/5/3/553495fe4650f4fa58aad2e54e7288fd.png)
![\mathcal N(x) := x - [\mathcal J_F(x)]^{-1} F(x), \quad x \in \mathcal U_\eta(x^*)](http://upload.wikimedia.org/math/3/a/d/3adae7e369f14fd8fd3441a5130da5f5.png)

![\mathcal N(x) - x^* = x - x^* - [\mathcal J_F(x)]^{-1} [F(x) - F(x^*)]](http://upload.wikimedia.org/math/a/0/8/a082ed14fc4aa868902203e448b60fc9.png)
![= x - x^* - [\mathcal J_F(x)]^{-1} \left\{ \mathcal J_F(x^*) (x - x^*) + \int\limits^1_0 [\mathcal J_F(x^* + s(x - x^*)) - \mathcal J_F(x^*)] (x - x^*)\, ds \right\}](http://upload.wikimedia.org/math/2/5/8/25814894730e7fb428cad9033678c25d.png)
![= - [\mathcal J_F(x)]^{-1} [\mathcal J_F(x^*) - \mathcal J_F(x)] (x - x^*) - [\mathcal J_F(x)]^{-1} \int\limits^1_0 [\mathcal J_F(x^* + s(x - x^*)) - \mathcal J_F (x^*)] (x - x^*)\, ds.](http://upload.wikimedia.org/math/b/8/4/b842de1649aca6f3d83c4ec7d88367f1.png)







![\sqrt{[F_1(x^1_1, x^1_2)]^2 + [F_2(x^1_1, x^1_2)]^2} = 0.092\ 882\ 7.](http://upload.wikimedia.org/math/3/8/a/38aece52d042d4f8048e87c48e1a6ada.png)




![p^k := \left[\mathcal J_F(x^k)\right]^{-1} F(x^k)](http://upload.wikimedia.org/math/0/5/7/057b52447e0676744bbc49d19ddbc376.png)


