Kurs:Numerik I/Lineare Ausgleichsrechnung

Einleitung

Diese Seite kann als Wiki2Reveal Folien angezeigt werden. Einzelne Abschnitte werden als Folien betrachtet und Änderungen an den Folien wirken sich sofort auf den Inhalt der Folien aus.

Notation

Um die $0\in \mathbb {K}$ aus dem verwendeten Körper von dem Nullvektor $0_{V}\in V$ aus dem Vektorraum $V$ zu unterscheiden, wird bei der Verwendung des Nullvektors $0_{V}$ mit $V$ indiziert.

Problemstellung

In der Praxis hat man häufig auch ein überbestimmtes lineares Gleichungssystem $Ax=b$ für eine Matrix $A\in \mathbb {R} ^{n\times k}$ mit $n>k$ und eine rechte Seite $b\in \mathbb {R} ^{n}$ zu „lösen“. Da ein solches System mehr Gleichungen als Unbekannte hat, ist im Allgemeinen $Ax-b\neq 0$ für alle $x\in \mathbb {R} ^{k}$ und besitzt es somit keine exakte Lösung.

Vorgehen - Minimierung des Fehlers

Es macht also Sinn, ein $x^{*}$ als „Lösung“ zu akzeptieren, für welches der Defekt $Ax-b$ hinsichtlich einer gewählten $l_{p}$ -Norm $\|\cdot \|_{p}$ auf dem $\mathbb {R} ^{k}$ minimal wird, also eine Lösung $x^{*}$ des Problems

\inf _{x\in \mathbb {R} ^{k}}\|b-Ax\|_{p}.

Euklidische Norm - Minimierung des Fehlers 1

Im Fall der Verwendung der $l_{2}$ - bzw. Euklidischen Norm lautet dieses Problem

\inf _{x\in \mathbb {R} ^{k}}\|b-Ax\|_{2},

Im Hinblick auf eine Lösung kann man auch ein äquivalentes Problem bearbeiten, indem man den zu minimierende Ausdruck quadriert:

\inf _{x\in \mathbb {R} ^{k}}\|b-Ax\|_{2}^{2}

Euklidische Norm - Minimierung des Fehlers 2

Die Äquivalenz ergibt sich aus der strengen Monotonie von $f(x)=x^{2}$ für $x\geq 0$ und der Eigenschaft der Norm, die einen nicht-negativen Wert liefert. Die Funktionen $E_{2}(x):=\|b-Ax\|_{2}$ und $E(x):=\|b-Ax\|_{2}^{2}$ haben offenbar dieselben Minimalpunkte $x$ , sofern solche existieren.

Euklidische Norm - Differenzierbarkeit 3

Ferner ist die minimierende Funktion $E(x):=\|b-Ax\|_{2}^{2}$ für alle $x\in \mathbb {R} ^{k}$ differenzierbar.

Euklidische Norm - Fehlerquadratmethode 4

Bei Wahl der $l_{2}$ -Norm minimiert man also die Summe der Fehlerquadrate, und man spricht daher auch von Fehlerquadratmethode oder von diskreter $l_{2}$ -Approximation.

Nicht-differenzierbare Fehlerfunktionen 5

Die Lösung des entsprechenden Problems für die $l_{1}$ - und die $l_{\infty }$ - bzw. Tschebyscheff-Norm ist ebenfalls von großem praktischen Interesse, führt aber auf nichtdifferenzierbare Funktionen $E_{1}(x):=\|b-Ax\|_{1}$ bzw. $E_{\infty }(x):=\|b-Ax\|_{\infty }$ , so dass diese Probleme schwieriger zu lösen sind. (Man kann letztere Probleme als lineare Optimierungsprobleme formulieren und beispielsweise mit dem sog. Simplexalgorithmus lösen.

Bemerkung - Euklidische Norm - Fehlerquadratmethode 6

Bevor wir nun das Problem für $E(x):=\|b-Ax\|_{2}^{2}$ weiter untersuchen, wollen wir zunächst zwei Aufgabenstellungen beschreiben und analysieren, die auf ein derartiges über-bestimmtes Gleichungssystem führen.

Anwendung in Naturwissenschaft und Technik

In Naturwissenschaft und Technik hat man oft das Problem, mit einer großen Zahl von Messwerten umgehen zu müssen. Ein anderes, sich häufig stellendes Problem ist es, eine in endlich vielen Punkten gegebene Funktion, welche durch eine rechenaufwändige Vorschrift bestimmt ist, durch eine einfacher zu berechnende zu ersetzen. Beide Probleme kann man gemeinsam angehen und als $l_{2}$ -Approximationsprobleme beschreiben.

Daten und Messwerte

Wir gehen dazu von $n$ Zahlenpaaren

(t_{j},y_{j}),\quad j=1,\ldots ,n

mit $t_{r}\neq t_{s}$ für $r\neq s$ aus, wobei üblicherweise $n$ groß ist. Beispielsweise können die $y_{j}\in \mathbb {R}$ irgendwelche zu unterschiedlichen Zeitpunkten $t_{j}\in \mathbb {R}$ gemessene Werte oder, im Hinblick auf die Approximation einer gegebenen Funktion $f$ , die Funktionswerte $y_{j}:=f(t_{j})$ zu gewissen Zeitpunkten $t_{j}$ des Definitionsbereichs von $f$ sein.

Ziel der Ausgleichsrechnung 1

Das Ziel der Ausgleichsrechnung ist es nun, durch geeignete Wahl eines Parametervektors $x:=(x_{1},\ldots ,x_{k})^{T}\in \mathbb {R} ^{k}$ eine Funktion der Gestalt

z(x,t):=x_{1}v_{1}(t)+x_{2}v_{2}(t)+\ldots +x_{k}v_{k}(t),\quad t\in \mathbb {R}

mit $k$ gegebenen stetigen Ansatzfunktionen $v_{i}$ zu finden, so dass die Fehlerquadrate

(y_{j}-z(x,t_{j}))^{2},\quad j=1,\ldots ,n

möglichst klein ausfallen.

Ziel der Ausgleichsrechnung 2

Dabei sollte sinnvollerweise $k\leq n$ sein und ist zumeist $k\ll n$ . Hat man einen solchen Parametervektor $x$ bzw. eine solche Funktion $z(x,\cdot )$ gefunden und sind die Approximationsfehler in (4.5) nicht zu groß, so kann man statt mit den Daten (4.3) nur mit dieser Funktion arbeiten, für die im Fall $k\ll n$ erheblich weniger Information, nämlich nur der Vektor $x$ , abgespeichert werden muss. Weil $z(x,\cdot )$ eine stetige Funktion ist, erlaubt ein solches Vorgehen außerdem, Werte $y$ zu Werten bzw. „Zeiten“ $t$ zu berechnen, für die keine Messung vorliegt.

Polynomapproximation mit Monomen

Die Ansatzfunktionen hat man so zu wählen, dass sie den gemessenen Prozess möglichst gut beschreiben. Häufig, insbesondere dann, wenn man wenig über den gegebenen Prozess weiß, verwendet man die Monome

v_{i}(t):=t^{i-1}\quad (i=1,\ldots ,k)

so dass

z(x,t):=x_{1}+x_{2}t+\ldots +x_{k}t^{k-1},\quad t\in \mathbb {R}

ein Polynom vom Grad $\leq k-1$ ist (Polynomapproximation).

Approximation periodische Prozesse

Wenn es sich um einen periodischen Prozess handelt, ist es aber beispielsweise günstiger, die $k:=2p+1$ Funktionen

{\begin{array}{rcl}v_{1}(t)&=&1\\v_{2}(t)&=&\sin(t),\quad v_{3}(t)=\cos(t)\\v_{4}(t)&=&\sin(2t),\quad v_{5}(t)=\cos(2t)\\\ldots &=&\ldots \\v_{k}(t)&=&\sin(pt),\quad v_{k+1}(t)=cos(pt)\end{array}}

als Ansatzfunktionen zu wählen (trigonometrische Approximation), weil man dann im Allgemeinen bei gleicher Anzahl von Funktionen kleinere Fehler erhält.

Bemerkung - weitere Approximationen

Andere Systeme von Ansatzfunktionen können ebenfalls vernünftig sein. Die Wahl der Ansatzfunktionen hängt von dem Wissen über das modellierte System ab.

Summation von Fehlern bei der Approximation

Nun ist es nicht sinnvoll, $x$ so zu wählen, dass die Summe aller Fehler

y_{j}-z(x,t_{j}),\quad j=1,\ldots ,n

möglichst klein wird, da diese Summe auch bei großen Einzelfehlern sehr klein werden kann, nämlich dann, wenn sich die positiven und negativen Fehler (nahezu) aufheben.

Beispiel Summation von Fehlern bei der Approximation

Nehmen wir als Beispiel $y_{1}=100$ , $y_{2}=-97$ und $z(x,t_{1})=3$ , $z(x,t_{2})=1$ . Berechnet man die Fehlersumme, ergibt sich:

\underbrace {(y_{1}-z(x,t_{1}))} _{=2-100=-98}+\underbrace {(y_{2}-z(x,t_{2}))} _{=1-(-97)=98}=0

Der aggregierte Fehler "suggeriert", dass es keine Abweichung von den gemessenen Werten zu den approximierten Werten gibt, obwohl die Einzelfehler in den beide Messdaten betragsmäßig jeweils um 98 abweichen.

Summation von Fehlerquadraten bei der Approximation

Die Größe des Fehlervektors $(y_{j}-z(x,t_{j}))_{j=1,\ldots ,n}$ misst man daher mit einer $l_{p}$ -Norm im $\mathbb {R} ^{n}$ . Insbesondere führt dann die Verwendung der quadrierten $l_{2}$ - bzw. Euklidischen Norm (siehe den Kommentar auf die für alle $x\in \mathbb {R} ^{k}$ differenzierbare Funktion

{\tilde {F}}(x):=\sum _{j=1}^{n}(y_{j}-z(x,t_{j}))^{2}.

Von den Ansatzfunktionen zur Matrix

Mit folgenden Setzungen erhält man ein lineare Gleichungssystem $Ax=b$ .

b:={\begin{pmatrix}y_{1}\\\vdots \\y_{j}\\\vdots \\y_{n}\end{pmatrix}},\quad A:={\begin{pmatrix}v_{1}(t_{1})&\ldots &v_{k}(t_{1})\\\vdots &&\vdots \\v_{1}(t_{j})&\ldots &v_{k}(t_{j})\\\vdots &&\vdots \\v_{1}(t_{n})&\ldots &v_{k}(t_{n})\end{pmatrix}}.

Dabei sucht man geeignete $x\in \mathbb {R} ^{n}$ , die den Fehler minimieren.

Summe der Fehlerquadrate und Normen

Damit kann eine Fehlerfunktion wie folgt geschrieben werden:

{\tilde {F}}(x):=\sum _{j=1}^{n}(y_{j}-z(x,t_{j}))^{2}=\sum _{j=1}^{n}(b_{j}-(Ax)_{j})^{2}=\|b-Ax\|_{2}^{2}.

Das beschriebene Problem der Ausgleichsrechnung ist also von der Form

\inf _{x\in \mathbb {R} ^{n}}\,\|b-Ax\|_{2}^{2}

,

wobei $A$ und $b$ durch Messdaten $(t_{j},y_{j})\in \mathbb {R} ^{2}$ gegeben sind.

Problem der Ausgleichsrechnung

Wir betrachten nun allgemein das Problem einer zu minimierende (Fehler-)Funktion

F(x):=\|b-Ax\|_{2}^{2}=\langle b-Ax,b-Ax\rangle =(b-Ax)^{T}(b-Ax).

Bemerkung: Euklidische Skalarprodukt und Matrixmultiplikation

Für $x,y\in \mathbb {R} ^{n}$ kann man das Euklische Skalarprodukt auch als Matrizenprodukt darstellen, indem man $x,y\in \mathbb {R} ^{n}$ als Spaltenvektoren auffasst:

\langle x,y\rangle =x^{T}\cdot y=\sum _{i=1}^{n}x_{i}\cdot y_{i}

Anwendung auf die Fehlerfunktion - Matrixrechenregeln

Über Matrixrechenregeln erhält man:

F(x)=(b-Ax)^{T}(b-Ax)=b^{T}b-(Ax)^{T}b-b^{T}Ax+\underbrace {(Ax)^{T}Ax} _{=x^{T}A^{T}Ax}

als quadratische Funktion in $k$ Veränderlichen $x=(x_{1},\ldots ,x_{k})^{T}$

F(x)={\frac {1}{2}}x^{T}(2A^{T}A)x-(2A^{T}b)^{T}x+b^{T}b

schreiben. Für die darin vorkommende Matrix $A^{T}A$ kann man aussagen:

Anwendung auf die Fehlerfunktion - Skalarprodukt

Über die Verwendung, dass das Skalarprodukt eine symmetrische Bilinearform ist, erhält man:

{\begin{array}{rcl}F(x)&=&\langle b-Ax,b-Ax\rangle \\&=&\|b\|_{2}^{2}-\underbrace {\langle Ax,b\rangle } _{=\langle b,Ax\rangle }-\langle b,Ax\rangle +\underbrace {\|Ax\|_{2}^{2}} _{=\langle x,A^{T}Ax\rangle }\\&=&\|b\|_{2}^{2}-2\cdot \langle b,Ax\rangle +\underbrace {\|Ax\|_{2}^{2}} _{={\frac {1}{2}}\langle x,2A^{T}Ax\rangle }\\\end{array}}

als quadratische Funktion in $k$ Veränderlichen $x=(x_{1},\ldots ,x_{k})^{T}$

F(x)={\frac {1}{2}}\left\langle x,(2A^{T}A)x\right\rangle -\left\langle 2A^{T}b,x\right\rangle +\|b\|_{2}^{2}

schreiben. Für die darin vorkommende Matrix $A^{T}A$ kann man aussagen:

Lemma - Positiv Definitheit - Rang - symmetrische Matrizen

Sei $A\in \mathbb {R} ^{n\times k}$ mit $n\geq k$ und $\operatorname {Rang} (A)=k$ . Dann ist die Matrix $A^{T}A\in \mathbb {R} ^{k\times k}$ positiv definit.

Beweis

Die Matrix $A^{T}A$ ist wegen $(A^{T}A)^{T}=A^{T}A$ symmetrisch. Weiter ist sie positiv semidefinit, d. h. es gilt

h^{T}(A^{T}A)h=(Ah)^{T}(Ah)=\|Ah\|_{2}^{2}\geq 0,\quad h\in \mathbb {R} ^{k}.

Wegen $\operatorname {Rang} (A)=k$ sind die $k$ Spalten $a^{1},\ldots ,a^{k}$ von $A$ linear unabhängig (Zeilenrang = Spaltenrang) und daher hat man

h^{T}(A^{T}A)h=0\Leftrightarrow \|Ah\|_{2}=0\Leftrightarrow Ah=0\Leftrightarrow h=0.

q.e.d.

Bemerkung - Rangbedingung

Im Fall der Ausgleichsrechnung mit den polynomialen oder trigonometrischen Ansatzfunktionen ist die Rangbedingung in dem Lemma zur positiv Definitheit von symmetrische Matrizen unter unserer Voraussetzung $n\geq k$ immer erfüllt. Dies besagt das folgenden das folgende Lemma.

Lemma - Rangbedingungen polynomiale/trigonometrische Ansatzfunktionen

Für polynomiale oder trigonometrische Ansatzfunktionen besitzt die gebildete Matrix $A\in \mathbb {R} ^{n\times k}$ mit

A:={\begin{pmatrix}v_{1}(t_{1})&\ldots &v_{k}(t_{1})\\\vdots &&\vdots \\v_{1}(t_{j})&\ldots &v_{k}(t_{j})\\\vdots &&\vdots \\v_{1}(t_{n})&\ldots &v_{k}(t_{n})\end{pmatrix}}.

und $n\geq k$ den $\operatorname {Rang} (A)=k$ .

Beweis - Rangbedingungen polynomiale/trigonometrische Ansatzfunktionen

Für das oben angegebene $A$ und $h:=(h_{1},\ldots ,h_{k})^{T}\in \mathbb {R} ^{k}$ gilt:

Ah=0\Leftrightarrow \sum _{i=1}^{k}h_{i}v_{i}(t_{j})=0\quad (j=1,\ldots ,n).

Beweis 1 - polynomial Ansatzfunktionen

Wird $A$ insbesondere durch polynomiale Ansatzfunktionen spezifiziert, so implizieren wegen $n\geq k$ die Gleichungen $\sum _{i=1}^{k}h_{i}v_{i}(t_{j})=0$ , dass ein von Null verschiedenes Polynom vom Grad $\leq k-1$ dann $k$ verschiedene Nullstellen.

Beweis 2 - Fundamentalsatz der Algebra

Nach dem Fundamentalsatz der Algebra kann ein solches Polynom aber höchstens $k-1$ Nullstellen besitzen.

Beweis 3 - trigonometrische Ansatzfunktionen

Für trigonometrische Ansatzfunktionen schließt man analog mittels komplexer Darstellungen des Sinus und Kosinus (siehe z. B. Collatz/Krabs: Approximationstheorie, Teubner, Stuttgart, 1973^[1]).

q.e.d.

Siehe auch

Quellennachweis

↑ Collatz/Krabs (1973) Approximationstheorie, Teubner, Stuttgart

Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Numerik I' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.

Die Seite wurde als Dokumententyp PanDocElectron-SLIDE erstellt.
Link zur Quelle in Wikiversity: https://de.wikiversity.org/wiki/Kurs:Numerik%20I/Lineare%20Ausgleichsrechnung
siehe auch weitere Informationen zu Wiki2Reveal und unter Wiki2Reveal-Linkgenerator.

[1] Collatz/Krabs (1973) Approximationstheorie, Teubner, Stuttgart

[1]