Kurs:Analysis II/Kapitel IV: Partielle Differentiation für Funktionen mehrerer Veränderlicher/Taylorsche Formel im R^n und Extremwertaufgaben (§3)

Aus Wikiversity

Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

[Bearbeiten] Satz 1 (Taylorsche Formel in mehreren Variablen)

Seien die Dimensionen m, n \in \mathbb{N} und die offene Menge Ω im \mathbb{R}^n gewählt. Es seien x und y zwei feste Punkte aus Ω, so dass die Verbindungsgerade σ(x,y) – auch Segment genannt – die Inklusion
\sigma(x, y) := \{z = x + t(y - x) \in \mathbb{R}^n | 0 \le t \le 1\} \subset \Omega
erfüllt.Weiter sei die reellwertige Funktion in der Klasse f(x) \in C^m(\Omega) gegeben. Unter Verwendung der Differentiale aus §2 haben wir dann die Darstellung
(1) f(y) - f(x) = \sum^{m - 1}_{k = 1} \frac{1}{k!} d^k f(x, y - x) + \frac{1}{m!} d^m f(z, y - x)
mit einem Punkt z \in \stackrel{\circ}{\sigma} := \sigma(x, y) \setminus \{x, y\}.

[Bearbeiten] Beweis

Wir betrachten die Funktion g(t) := f(x + t(y - x)), t \in [0, 1] der Klasse Cm([0,1]). Mit Hilfe der Kettenregel erhält man

(2) \begin{matrix} g'(t) = \sum^n_{\alpha = 1} f_{x_\alpha}(x + t(y - x)) \cdot (y_\alpha - x_\alpha) \\ = \left( \sum^n_{\alpha = 1} (y_\alpha - x_\alpha) \frac{\partial}{\partial x_\alpha} \right) f(x + t(y - x)) \end{matrix},

woraus sich wegen Formel (4) aus §2

(3) g'(t) = df(x + t(yx),yx)

ergibt. Durch wiederholte Differentiation findet man

(4) g^{(k)}(t) = \left( \sum^n_{\alpha = 1} (y_\alpha - x_\alpha) \frac{\partial}{\partial x_\alpha} \right)^k f(x + t(y - x)) = d^kf(x + t(y - x), y - x)

für k = 1, 2, \ldots, m. Die eindimensionale Taylorsche Formel aus Satz 1 von §6 in Kapitel II liefert die Identität

(5) \begin{matrix} f(y) - f(x) = g(1) - g(0) = \sum^{m - 1}_{k = 1} \frac{1}{k!} g^{(k)}(0) + \frac{1}{m!} g^{(m)}(\theta) \\ = \sum^{m - 1}_{k = 1} \frac{1}{k!} d^kf(x, y - x) + \frac{1}{m!} d^mf(z, y - x). \end{matrix}

Dabei wurde \theta \in (0, 1) gewählt und z := x + \theta(y - x) \in \stackrel{\circ}{\sigma}(x, y) gesetzt.

q.e.d.

[Bearbeiten] Definition 1

Sei auf der offenen Menge \Omega \subset \mathbb{R}^n die Funktion f(x): \Omega \to \mathbb{R} erklärt. Dann hat f ein absolutes oder auch globales Maximum bzw. Minimum im Punkt x = a \in \Omega, wenn die Ungleichung
f(x) \le f(a) bzw. f(x) \ge f(a) für alle x \in \Omega
gilt.
Die Funktion f hat ein – schwaches – relatives oder auch lokales Maximum bzw. Minimum an der Stelle x = a, wenn es eine Kugel
K_\varepsilon(a) := \{x \in \mathbb{R}^n: |x - a| < \varepsilon\} \subset \Omega
vom hinreichend kleinen Radius \varepsilon > 0 so gibt, dass die Ungleichung
f(x) \le f(a) bzw. f(x) \ge f(a) für alle x \in K_\varepsilon(a)
erfüllt ist.
Die Funktion f hat ein striktes relatives oder auch lokales Maximum bzw. Minimum an der Stelle x = a, wenn es eine Kugel K_\varepsilon(a) \subset \Omega vom Radius \varepsilon > 0 so gibt, dass die Ungleichung
f(x) < f(a) bzw. f(x) > f(a) für alle x \in K_\varepsilon(a) mit x \neq a
richtig ist.
Wir sprechen von einem Extremum, wenn wir sowohl ein Maximum als auch ein Minimum zulassen.

[Bearbeiten] Satz 2 (Notwendige Bedingung erster Ordnung)

Die stetige Funktion f(x): \Omega \to \mathbb{R} auf der offenen Menge \Omega \subset \mathbb{R}^n besitze an der Stelle x = a \in \Omega ein relatives Maximum oder Minimum – also ein Extremum. Außerdem existieren die ersten partiellen Ableitungen f_{x_i}(a) für i = 1, 2, \ldots, n. Dann gilt die Beziehung
(6) f_{x_i}(a) = 0 für i = 1, 2, \ldots, n, das heißt \nabla f(a) = 0.

[Bearbeiten] Beweis

Da die offene Menge Ω den Punkt a enthält, gibt es eine Kugel K_\rho(a) \subset \Omega von hinreichend großem Radius ρ > 0. Wir betrachten nun die Funktion

\varphi(t) := f(a_1, \ldots, a_{i - 1}, t, a_{i + 1}, \ldots, a_n), \quad t \in (a_i - \rho, a_i + \rho),

die an der Stelle t = ai ein Extremum hat. Weiter existiert \varphi'(a_i) und wie im Beweis des Rolleschen Satzes aus §3 in Kapitel II zeigen wir

0 = \varphi'(a_i) = f_{x_i}(a) für i = 1, \ldots, n.

q.e.d.

[Bearbeiten] Definition 2

In der offenen Menge \Omega \subset \mathbb{R}^n nennen wir a \in \Omega einen kritischen Punkt der Funktion f \in C^1(\Omega), falls \nabla f(a) = 0 erfüllt ist.

[Bearbeiten] Satz 3 (Notwendige Bedingung zweiter Ordnung)

Die Funktion f(x): \Omega \to \mathbb{R} auf der offenen Menge \Omega \subset \mathbb{R}^n gehöre zur Klasse C2(Ω) und besitze an der Stelle x = a \in \Omega ein relatives Minimum. Dann gilt
\sum^n_{i, j = 1} f_{x_i x_j}(a) \xi_i \xi_j \ge 0 für alle \xi = (\xi_1, \ldots, \xi_n) \in \mathbb{R}^n.

[Bearbeiten] Beweis

Es sei \xi \in \mathbb{R}^n beliebig gewählt. Dann liegt für ein hinreichend kleines t > 0 die Strecke σ(a,a + tξ) in Ω. Die Taylorsche Formel liefert

f(a + t\xi) - f(a) = df(a, t\xi) + \frac{1}{2} d^2 f(a + \tau \xi, t\xi)

mit einem geeigneten \tau = \tau(\xi) \in (0, t). Da an der Stelle x = a ein relatives Minimum vorliegt folgt df(a,tξ) = 0. Ferner ist für alle hinreichend kleinen t > 0 die Ungleichung f(a + t\xi) - f(a) \ge 0 erfüllt. Damit folgt

0 \le \frac{1}{2} d^2 f(a + \tau \xi, t\xi) = \frac{t^2}{2} \sum^n_{i, j = 1} f_{x_i x_j}(a + \tau \xi) \xi_i \xi_j.

Für t \to 0+ folgt \tau \to 0+ und wegen f \in C^2(\Omega) erhalten wir die Behauptung

\sum^n_{i, j = 1} f_{x_i x_j}(a) \xi_i \xi_j \ge 0 für alle \xi \in \mathbb{R}^n.

[Bearbeiten] Satz 4 (Hinreichende Bedingung zweiter Ordnung)

Sei die Funktion f = f(x): \Omega \to \mathbb{R} \in C^2(\Omega) auf der offenen Menge \Omega \subset \mathbb{R}^n gegeben. Weiter sei a \in \Omega ein Punkt, welcher f_{x_i}(a) = 0 für i = 1, 2, \ldots, n sowie
\sum^n_{i, j = 1} f_{x_i x_j}(a) \xi_i \xi_j > 0 für alle \xi = (\xi_1, \ldots, \xi_n) \in \mathbb{R}^n \setminus \{0\}
erfüllt. Dann besitzt f an der Stelle x = a ein striktes relatives Minimum.

[Bearbeiten] Beweis

Nach Voraussetzung gilt

(7) \sum^n_{i, j = 1} f_{x_i x_j}(a) \xi_i \xi_j > 0 für alle \xi \in S

auf der kompakten Einheitssphäre S := \{\xi \in \mathbb{R}^n: |\xi| = 1\}. Nun ist die quadratische Form aus (7) als Funktion von ξ stetig auf S und nach Satz 8 aus §1 in Kapitel II gibt es eine Zahl α > 0, so dass

(8) \sum^n_{i, j = 1} f_{x_i x_j}(a) \xi_i \xi_j \ge \alpha für alle \xi \in S

ausfällt. Wegen f \in C^2(\Omega) gibt es eine hinreichend kleine Zahl \varepsilon > 0, so dass die Ungleichung

(9) \sum^n_{i, j = 1} f_{x_i x_j}(x) \xi_i \xi_j \ge \frac{\alpha}{2} > 0 für alle \xi \in S und alle x \in K_\varepsilon(a)

erfüllt ist. Somit folgt

(10) \sum^n_{i, j = 1} f_{x_i x_j}(x) \xi_i \xi_j \ge \frac{\alpha}{2} |\xi|^2 für alle \xi \in \mathbb{R}^n und alle x \in K_\varepsilon(a) \subset \Omega.

Die Taylorsche Formel liefert für beliebiges y \in K_\varepsilon(a ) die Identität

f(y) - f(a) = df(a, y - a) + \frac{1}{2} d^2(z, y - a),

wobei z auf der Verbindungsstrecke \stackrel{\circ}{\sigma}(a, y) \subset K_\varepsilon(a) liegt. Beachten wir df(a,ya) = 0, so folgt mit (10) die Ungleichung

(11) f(y) - f(a) = \frac{1}{2} d^2(z, y - a) = \frac{1}{2} \sum^n_{i, j = 1} f_{x_i x_j}(z) (y_i - a_i) (y_j - a_j) \ge \frac{\alpha}{4} |y - a|^2.

Wir erhalten

(12) f(y) > f(a) für alle y \neq a mit |y - a| \le \varepsilon.

Somit nimmt f im Punkt a ein striktes relatives Minimum an.

q.e.d.

[Bearbeiten] Definition 3

Sei f = f(x): \Omega \to \mathbb{R} \in C^2(\Omega) eine Funktion auf der offenen Menge \Omega \subset \mathbb{R}^n und sei ein Punkt a \in \Omega gewählt. Dann nennen wir
\mathbf{H} f(a) := \Bigl( f_{x_ix_j}(a) \Bigr)_{i, j = 1, \ldots, n} = \begin{pmatrix} f_{x_1x_1}(a) & \cdots & f_{x_1x_n}(a) \\ \vdots & \ddots & \vdots \\ f_{x_nx_1}(a) & \cdots & f_{x_nx_n}(a) \end{pmatrix}
die Hessesche Matrix von f an der Stelle a. Ihr ist die Hessesche quadratische Form
q(\xi) = \sum^n_{i, j = 1} f_{x_i x_j}(a) \xi_i \xi_j, \quad \xi = (\xi_1, \ldots, \xi_n) \in \mathbb{R}^n
zugeordnet.

[Bearbeiten] Definition 4

Wir nennen die quadratische Form q positiv-definit, falls q(ξ) > 0 für alle \xi \in \mathbb{R}^n \setminus \{0\} gilt – und positiv-semidefinit, falls q(\xi) \ge 0 für alle \xi \in \mathbb{R}^n richtig ist.
Entsprechen heißt die quadratische Form q negativ-definit, falls q(ξ) < 0 für alle \xi \in \mathbb{R}^n \setminus \{0\} gilt – und negativ-semidefinit, falls q(\xi) \le 0 für alle \xi \in \mathbb{R}^n richtig ist.
Die quadratische Form q wird indefinit genannt, falls es Punkte \xi, \eta \in \mathbb{R}^n gibt, für die q(ξ) > 0 bzw. q(η) < 0 richtig ist.

[Bearbeiten] Bemerkungen

1. Als notwendige Bedingung für ein relatives Minimum im Punkt a haben wir in Satz 3 hergeleitet, dass die Hessesche Form im kritischen Punkt a positiv-semidefinit sein muss.
2. Im Satz 4 haben wir gezeigt, dass eine hinreichende Bedingung für ein relatives Minimum eine positiv-definite Hessesche Form im kritischen Punkt a ist.
3. Durch den Übergang von f zu f erhalten wir Kriterien für relative Maxima von Funktionen.
4. Die Hessesche Form erlaubt nur die Kontrolle relativer aber nicht absoluter Extrema.
5. Die Voraussetzung

\sum^n_{i, j = 1} f_{x_ix_j}(a) \xi_i \xi_j > 0 für alle \xi \in \mathbb{R}^n \setminus \{0\}

in Satz 4 lässt sich nicht durch die schwächere Voraussetzung

\sum^n_{i, j = 1} f_{x_ix_j}(a) \xi_i \xi_j \ge 0 für alle \xi \in \mathbb{R}^n

ersetzen. Hierzu betrachten wir die Funktion f(x) = x^3, x \in \mathbb{R}, die eine solche schwächere Voraussetzung für a = 0 erfüllt – dort jedoch kein relatives Minimum besitzt.
6. Andererseits ist die Behauptung in Satz 3 nicht durch die stärkere Aussage

\sum^n_{i, j = 1} f_{x_ix_j}(a) \xi_i \xi_j > 0 für alle \xi \in \mathbb{R}^n \setminus \{0\}

ersetzbar, wie man mit Hilfe der Funktion f(x) = x^4, x \in \mathbb{R} an der Stelle a = 0 einsehen kann.

[Bearbeiten] Satz 5

Auf der offenen Menge \Omega \subset \mathbb{R}^n sei die Funktion f \in C^2(\Omega) gegeben mit dem kritischen Punkt a \in \Omega. Weiter sei die Hessesche Matrix \mathbf{H} f(a) mit der zugeordneten quadratischen Form q(ξ) indefinit. Dann nimmt f im Punkt a weder ein lokales Maximum noch ein lokales Minimum an.

[Bearbeiten] Beweis

Da q indefinit ist, können wir mit den Überlegungen des Beweises von Satz 4 in jeder Umgebung von a Punkte x + und x mit der Eigenschaft f(x ) < f(a) < f(x + ) finden.

[Bearbeiten] Bemerkungen

1. Die in Satz 5 betrachteten kritischen Punkte a \in \Omega heißen Sattelpunkte.
2. Die Hessesche Matrix

\mathbf{H}f(a) = \Bigl( f_{x_ix_j}(a) \Bigr)_{i, j = 1, \ldots, n}

ist genau dann positiv-definit bzw. positiv-semidefinit, falls ihre Hauptminoren

\mathbf{S}_k = \Bigl( f_{x_ix_j}(a) \Bigr)_{i, j = 1, \ldots, k}

für k = 1, \ldots, n die Bedingungen \det \mathbf{S}_k > 0 bzw. \det \mathbf{S}_k \ge 0 erfüllen. Dieses Kriterium von A. Hurwitz können wir mit der Hauptachsentransformation symmetrischer, reeller Matrizen sofort einsehen.
3. Als Spezialfall ergibt sich: Die Hessesche Matrix

\mathbf{H}f(a) = \begin{pmatrix} f_{xx}(a) & f_{xy}(a) \\ f_{yx}(a) & f_{yy}(a) \end{pmatrix}

ist positiv-definit genau dann, wenn die Bedingung

(13) f_{xx}(a) > 0 \quad \wedge \quad f_{xx}(a) \cdot f_{yy}(a) - f_{xy}^2(a) > 0

erfüllt ist.

[Bearbeiten] Beispiel 1

Wir untersuchen nun Funktionen f_j: \mathbb{R}^2 \to \mathbb{} für j = 1, \ldots, 4 mit ihren kritischen Punkten.

1. Die Funktion f1(x,y) = x2 + y2 hat als einzigen kritischen Punkt den Nullpunkt als ein lokales Minimum, da aus (0, 0) = \nabla f(x, y) = (2x, 2y) dann (x,y) = (0,0) folgt und die Matrix

\mathbf{H}f(0, 0) = \begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix}

positiv-definit ist.
2. Die Funktion f2(x,y) = − x2y2 hat im Nullpunkt als einzigen kritischen Punkt ein lokales Maximum. Aus \nabla f(x, y) = (0, 0) folgt wegen \nabla f(x, y) = (- 2x, - 2y) die Bedingung (x,y) = (0,0). Außerdem ist die Matrix

\mathbf{H}f(0, 0) = \begin{pmatrix} - 2 & 0 \\ 0 & - 2 \end{pmatrix}

negativ-definit.
3. Die Funktion f3(x,y) = x2y2 besitzt als einzigen kritischen Punkt im Nullpunkt einen Sattelpunkt. Aus der notwendigen Bedingung \nabla f(x, y) = (0, 0) folgt (x,y) = (0,0) und die Matrix

\mathbf{H}f(0, 0) = \begin{pmatrix} 2 & 0 \\ 0 & - 2 \end{pmatrix}

ist indefinit.
4. Die Funktion f1(x,y) = x2 + y4 erfüllt im Nullpunkt (x,y) = (0,0) die notwendige Bedingung \nabla f(x, y) = (0, 0), jedoch ist die Hessesche Matrix

\mathbf{H}f(0, 0) = \begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix}

positiv-semidefinit. Obwohl über die Hessesche Matrix keine generellen Aussagen möglich sind, hat die Funktion f4 im Nullpunkt ein striktes lokales Minimum.

[Bearbeiten] Definition 5

Sei A = (a_{ij})_{i, j = 1, 2, \ldots, n} eine reelle n \times n-Matrix und λ eine reelle Zahl. Dann nennen wir λ einen Eigenwert der Matrix A, wenn es einen Vektor \xi \in \mathbb{R}^n \setminus \{0\} mit der Eigenschaft A \circ \xi = \lambda \xi gibt. Der Vektor \xi = (\xi_1, \ldots, \xi_n)^* heißt Eigenvektor zum Eigenwert λ.

Das Extremalverhalten der Funktion f \in C^2(\Omega) in kritischen Punkten wird besonders einfach überprüfbar, wenn man mittels Hauptachsentransformation dort die Hessesche quadratische Form in die Normalform

(14) q(\xi) = \lambda_1 \xi^2_1 + \ldots + \lambda_n \xi^2_n, \quad \xi = (\xi_1, \ldots, \xi_n) \in \mathbb{R}^n

überführt. Dabei sind \lambda_j \in \mathbb{R} für j = 1, \ldots, n die Eigenwerte der Hesseschen Matrix. Den größten Eigenwert erhalten wir wie folgt durch ein Maximierungsverfahren:

[Bearbeiten] Satz 6 (Existenz des größten Eigenwerts)

Jede reelle, symmetrische Matrix A = (a_{ij})_{i, j = 1, 2, \ldots, n} besitzt einen reellen Eigenwert λ, d. h. es gibt einen Vektor x \in \mathbb{R}^n mit A \circ x = \lambda x und | x | = 1.

[Bearbeiten] Beweis

Wir betrachten die Funktion

(15) g(x) := \frac{\sum\limits^n_{i, j = 1} a_{ij}x_i x_j}{\sum\limits^n_{i = 1} x_i^2}, \quad x = (x_1, \ldots, x_n) \in K

auf der kompakten Kugelschale K := \{x \in \mathbb{R}^n: \frac{1}{2} \le |x| \le 2\}. Nun ist g(x) stetig auf K – und nimmt nach Satz 8 aus §1 in Kapitel II ihr Maximum in einem Punkt \xi \in K an. Dabei kann | ξ | = 1 gewählt werden, da die folgende Beziehung gilt:

g(x) = g \left( \frac{x}{|x|} \right) für alle x \in K.

Nach obigem Satz 2 folgt

g_{x_k}(\xi) = 0 für k = 1, 2, \ldots, n.

Wir berechnen zunächst

(16) g(x) := \frac{\left( \sum\limits^n_{i = 1} x_i^2 \right) \cdot \left( \sum\limits^n_{i, j = 1} a_{ij}x_i x_j \right)_{x_k} - \left( \sum\limits^n_{i = 1} x_i^2 \right)_{x_k} \cdot \left( \sum\limits^n_{i, j = 1} a_{ij}x_i x_j \right)}{\left( \sum\limits^n_{i = 1} x_i^2 \right)^2}

für k = 1, \ldots, n. Dann ermitteln wir

(17) \left( \sum^n_{i = 1} x_i^2 \right)_{x_k} = 2x_k

sowie

(18) \begin{matrix} \left( \sum\limits^n_{i, j = 1} a_{ij}x_i x_j \right)_{x_k} = \sum\limits^n_{i, j = 1} a_{ij} \delta_{ik} x_j + \sum\limits^n_{i, j = 1} a_{ij}x_i \delta_{jk} \\ = \sum\limits^n_{j = 1} a_{kj} x_j + \sum\limits^n_{i = 1} a_{ik} x_i = 2 \cdot \sum\limits^n_{j = 1} a_{kj} x_j. \end{matrix}

Dabei benutzen wir die Symmetriebedingung

aij = aji für i, j = 1, \ldots, n

und verstehen unter

(19) \delta_{lm} = \left\{ \begin{matrix} 1 \text{ falls } l = m \\ 0 \text{ falls } l \neq m \end{matrix} \right. für 1 \le m, l \le n

das Kronecker-Symbol. Somit ergibt sich

0 = g_{x_k}(\xi) = \frac{2 \cdot |\xi|^2 \sum\limits^n_{j = 1} a_{kj} \xi_j - 2\xi_k \sum\limits^n_{i, j = 1} a_{ij} \xi_i \xi_j}{|\xi|^4} für k = 1, \ldots, n

Wegen | ξ | = 1 folgt

(20) \sum^n_{j = 1} a_{kj} \xi_j = g(\xi) \cdot \xi_k für k = 1, 2, \ldots, n

und schließlich A \circ \xi = \lambda \xi mit | ξ | = 1 und dem größten Eigenwert

(21) \lambda := g(\xi) = \max \{g(x): x \in \mathbb{R}^n \text{ mit } |x| = 1\}.

q.e.d.

[Bearbeiten] Bemerkungen

1. Indem wir das obige Maximierungsproblem

(22) g(x) \to \text{Maximum}, x \in K' := \{x \in K \Bigl| \langle x, \xi \rangle = 0\}

auf der Ebene senkrecht zum Eigenvektor ξ lösen, erhalten wir den nächst kleineren Eigenwert; dabei bezeichnet \langle -, - \rangle das Skalarprodukt im \mathbb{R}^n. Wir erhalten so für die Matrix A sukzessiv die Eigenwerte

(23) \lambda_1 \ge \lambda_2 \ge \ldots \ge \lambda_n.

2. In der Linearen Algebra bestimmt man alle Eigenwerte einer Matrix A, wenn wir mit E die Einheitsmatrix benennen, als Nullstellen des charakteristischen Polynoms

(24) p(\lambda) := \det \Bigl( A - \lambda E \Bigr), \quad \lambda \in \mathbb{C}

über den Fundamentalsatz der Algebra. Letzteren hatten wir in §8 von Kapitel III mit einer Extremalmethode bewiesen.
3. Aus der Identität A \circ \xi = \lambda \xi erhalten wir durch Skalarmultiplikation mit dem Einheitsvektor ξ und wegen der Symmetrie der Matrix A den reellen Charakter der Eigenwerte wie folgt:

(25) \lambda = \langle A \circ \xi, \xi \rangle = \langle  \xi, A \circ \xi \rangle \in \mathbb{R}.
Persönliche Werkzeuge