Kurs:Analysis II/Kapitel IV: Partielle Differentiation für Funktionen mehrerer Veränderlicher/Impliziert definierte Funktionen und restringierte Extremwertaufgaben (§5)

Aus Wikiversity

Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

[Bearbeiten] Beispiel 1

Auf der offenen Menge \Omega \subset \mathbb{R}^2 sei die Funktion

f(x, y): \Omega \to \mathbb{R} \in C^1(\Omega)
gegeben. Wir betrachten nun die Nullstellenmenge dieser Funktion
\{(x, y) \in \Omega: f(x, y) = 0\}.

Uns interessiert die Frage, ob es eine Funktion x = g(y): I \to \mathbb{R} \in C^1(I) auf einem Intervall I := (y_1, y_2) \subset \mathbb{R} so gibt, dass folgendes gilt:

(1) f(g(y),y) = 0 für alle y \in I.

Im Falle der Existenz von g erhält man durch Differentiation aus (1)

fx(g(y),y)g'(y) + fy(g(y),y) = 0 in I

und somit

(2) g'(y) = - \frac{f_y(g(y), y)}{f_x(g(y), y)} für alle y \in I.

Die Auflösbarkeit der impliziten Gleichung f(x,y) = 0 in die explizite Funktion x = g(y) erfordert also f_x(x, y) \neq 0 für alle (x, y) \in \Omega als Bedingung.

[Bearbeiten] Beispiel 2

Auf der offenen Menge

\Omega \subset \mathbb{R}^n \times \mathbb{R} = \{(x_1, \ldots, x_n, y) \Bigl| x_i \in \mathbb{R}\ \mathrm{f\ddot ur}\ i = 1, \ldots, n \text{ und } y \in \mathbb{R}\}

seien die Komponentenfunktionen von f = (f_1, \ldots, f_n) gegeben durch

f_i(x, y) = f_i(x_1, \ldots, x_n, y): \Omega \to \mathbb{R} \in C^1(\Omega) für i = 1, \ldots, n.

Dann stellt die Menge

\Gamma := \{(x, y) \in \Omega: f_i(x, y) = 0\ \mathrm{f\ddot ur}\ i = 1, \ldots, n\}

eine Kurve im \mathbb{R}^{n + 1} dar. Sie entsteht als Durchschnitt der Flächen

F_i := \{(x, y) \in \Omega: f_i(x, y) = 0\} für i = 1, 2, \ldots, n

mit den Normalenvektoren \nabla f_i(x, y) = (f_{i, x_1}, f_{i, x_2}, \ldots, f_{i, x_n}, f_{i, y}), die senkrecht auf den Flächen Fi stehen. Der Tangentialvektor an die Kurve Gamma ist orthogonal zu allen Flächennormalen. Somit hat die Tangente \mathbf{t} die Richtung des Kreuzproduktvektors im \mathbb{R}^{n + 1}, nämlich \nabla f_1(x, y) \wedge \ldots \wedge \nabla f_n(x, y). Wollen wir nun die Kurve Γ in der Form

x = g(y) = (g_1(y), g_2(y), \ldots, g_n(y)), y \in I \subset \mathbb{R}

darstellen, so darf die Komponente von \mathbf{t} in y-Richtung nicht verschwinden. Es muss also die Bedingung

(3) (0, \ldots, 0, 1) \cdot \nabla f_1 \wedge \ldots \wedge \nabla f_n = \det \left( \frac{\partial f_i}{\partial x_j} \right)_{i, j = 1, \ldots, n} \neq 0

gelten, wobei wir noch folgendes beachten

\begin{pmatrix} \nabla f_1 \\ \vdots \\ \nabla f_n \end{pmatrix} = \begin{pmatrix} f_{1, x_1} & \ldots & f_{1, x_n} & f_{1, y} \\ \vdots & \ddots & \vdots & \vdots \\ f_{n, x_1} & \ldots & f_{n, x_n} & f_{n, y} \end{pmatrix}.

[Bearbeiten] Beispiel 3

Bezeichne M eine (n \times n)-Matrix und N eine (n \times m)-Matrix, so betrachten wir die lineare Abbildung

f(x, y) = M \circ x + N \circ y: \mathbb{R}^{n + m} \to \mathbb{R}^n, \quad x \in \mathbb{R}^n, \quad y \in \mathbb{R}^m.

Wir beachten

(4) f(x, y) = M \circ x + N \circ y = 0 genau dann wenn x = - M^{- 1} \circ N \circ y.

Die Auflösung setzt also die folgende Bedingung voraus:

\det M = \det \left( \frac{\partial f_i}{\partial x_j} \right)_{i, j = 1, \ldots, n} \neq 0.

Allgemein wollen wir jetzt das folgende implizite Gleichungssystem

(5) \begin{matrix} f_1(x_1, \ldots, x_n; y_1, \ldots, y_m) = 0 \\ \vdots \\ f_n(x_1, \ldots, x_n; y_1, \ldots, y_m) = 0 \end{matrix}

auflösen. Wir fassen dieses mit Hilfe der Setzungen

(6) \begin{matrix} x = (x_1, \ldots, x_n), \quad y = (y_1, \ldots, y_m), \quad (x, y) = (x_1, \ldots, x_n; y_1, \ldots, y_m) \\ f(x, y) = (f_1(x, y), f_2(x, y), \ldots, f_n(x, y) \end{matrix}

zur Gleichung

(7) f(x,y) = 0

zusammen, welche zum System (5) äquivalent ist. Die Auflösung des Systems (7) bedeutet eine Abbildung x = g(y) so zu finden, dass f(g(y),y) = 0 gilt. Wie die obigen Beispiele zeigen, ist eine Auflösung im nichtlinearen Fall nur lokal möglich!

[Bearbeiten] Satz 1 (Implizierte Funktionen)

Voraussetzungen: Seien die natürlichen Zahlen m, n, p \in \mathbb{N} gewählt. Auf der offenen Menge \Omega \subset \mathbb{R}^{n + m} sei die Funktion
f(x, y) = (f_1(x, y), \ldots, f_n(x, y)): \Omega \to \mathbb{R}^n \in C^p(\Omega, \mathbb{R}^n)
gegeben. Ferner sei (a, b) \in \Omega ein fester Punkt mit
f(a,b) = 0 und J_f(a, b) := \det \left( \frac{\partial f_i}{\partial x_j} (a, b) \right)_{i, j = 1, 2, \ldots, n} \neq 0.
Behauptung: Dann gibt es eine offene Umgebung B von b im \mathbb{R}^n und eine eindeutig bestimmte Abbildung x = g(y): B \to \mathbb{R}^n mit den folgenden Eigenschaften:
  1. Es sind die Bedingungen g(b) = a und g \in C^p(B, \mathbb{R}^n) erfüllt.
  2. Für alle y \in B gilt die Identität f(g(y),y).

[Bearbeiten] Beweis

1. Teil:
Wir erweitern die Abbildung f zu einer Abbildung F: \Omega \to \mathbb{R}^{n + m} vermöge

(x_1, \ldots, x_n; y_1, \ldots, y_m) \mapsto \begin{pmatrix} F_1(x, y) \\ \vdots \\ F_n(x, y) \\ F_{n + 1}(x, y) \\ \vdots \\ F_{n + m}(x, y) \end{pmatrix} := \begin{pmatrix} f_1(x_1, \ldots, x_n; y_1, \ldots, y_m) \\ \vdots \\ f_n(x_1, \ldots, x_n; y_1, \ldots, y_m) \\ y_1 \\ \vdots \\ y_m \end{pmatrix}

für (x, y) \in \Omega. Nach Voraussetzung gehört F der Klasse C^p(\Omega, \mathbb{R}^{n + m}) an. Wir berechnen nun

F(a, b) = (f(a, b), b) \stackrel{\text{n. V.}}{=} (0, b) \in \mathbb{R}^{n + m}.

Für die Funktionaldeterminante von F erhält man

(8) J_F(x, y) = \det \begin{pmatrix} \left( \frac{\partial f_i}{\partial x_j} \right)_{i, j = 1, \ldots, n} & \left( \frac{\partial f_i}{\partial x_j} \right)_{i = 1, \ldots, n \atop j = 1, \ldots, m} \\ (0)_{i = 1, \ldots, m \atop j = 1, \ldots, n} & (\delta_{ij})_{i, j = 1, \ldots, m} \end{pmatrix} = J_f(x, y) in Ω.

Für x = a und y = b gilt also

J_F(a, b) = J_f(a, b) \stackrel{\text{n. V.}}{\neq} 0.

2. Teil:
Wir setzen nun z = (x, y) \in \mathbb{R}^{n + m} sowie \zeta = (\xi, \eta) \in \mathbb{R}^{n + m} mit \xi \in \mathbb{R}^n und \eta \in \mathbb{R}^m. Nach dem Fundamentalsatz über die inverse Abbildung gibt es eine Umgebung \Gamma \subset \mathbb{R}^{n + m} des Punktes (0,b) und eine Abbildung

\Phi = (\Phi_1, \ldots, \Phi_n; \Phi_{n + 1}, \ldots, \Phi_{n + m}): \Gamma \to \Omega \in C^p(\Gamma, \mathbb{R}^{n + m})

mit der Eigenschaft

F(Φ(ξ,η)) = (ξ,η) für alle (\xi, \eta) \in \Gamma.

Setzen wir nun \varphi: \Gamma \to \mathbb{R}^n \in C^p(\Gamma, \mathbb{R}^n) vermöge

\varphi(\xi, \eta) := (\Phi_1(\xi, \eta), \ldots, \Phi_n(\xi, \eta)), \quad (\xi, \eta) \in \Gamma,

so gilt

\varphi(0, b) = a und f(\varphi(\xi, \eta), \eta) = \xi für alle (\xi, \eta) \in \Gamma.

Wir erklären eine – im \mathbb{R}^m offene – Umgebung von b durch

B := \{y \in \mathbb{R}^m: (0, y) \in \Gamma\}

und eine Abbildung

g: B \to \mathbb{R}^n vermöge g(y) := \varphi(0, y), \quad y \in B.

Nun folgt g \in C^p(B),\ g(b) = \varphi(0, b) = a und

f(g(y), y) = f(\varphi(0, y), y) = 0 für alle y \in B.

Die Eindeutigkeit der Abbildung g: B \to \mathbb{R}^n ist aus der Konstruktion klar.

q.e.d.

[Bearbeiten] Bemerkung

Wir differenzieren das implizite Gleichungssystem

(9) 0 = f_i(g_1(y_1, \ldots, y_m), g_n(y_1, \ldots, y_m), y_1, \ldots, y_m), \quad 1 \le i \le n

nach den Variablen yk für 1 \le k \le m. Dann erhalten wir

(10) \sum^n_{j = 1} \frac{\partial f_i}{\partial x_j} (g(y), y) \frac{\partial g_j}{\partial y_k} (y) + \frac{\partial f_i}{\partial y_k} (g(y), y) = 0 für i = 1, \ldots, n; k = 1, \ldots, m.

Wir definieren die Funktionalmatrizen

(11) \begin{matrix} \partial_x f(x, y) := \left( \frac{\partial f_i}{\partial x_j} (x, y) \right)_{i, j = 1, \ldots, n}, \partial_y f(x, y) := \left( \frac{\partial f_i}{\partial y_k} (x, y) \right)_{i = 1, \ldots, n \atop k = 1, \ldots, m}, \\ \partial g(y) := \left( \frac{\partial g_j}{\partial y_k} (y) \right)_{j = 1, \ldots, n \atop k = 1, \ldots, m}. \end{matrix}

Wir erhalten nun den folgenden Ausdruck für die Funktionalmatrix der inversen Abbildung

\partial_x f(g(y), y) \circ \partial g(y) + \partial_y f(g(y), y) = 0

bzw.

(12) \partial g(y) = - \partial_x f(g(y), y)^{- 1} \circ \partial_y f(g(y), y).

Wir betrachten jetzt restringierte Extremwertaufgaben, die J. L. Lagrange in der Analytischen Mechanik ursprünglich behandelt hat.

[Bearbeiten] Satz 2 (Extrema mit Nebenbedingungen)

Voraussetzungen: Sei \Omega \subset \mathbb{R}^{n + m} eine offene Menge mit ihren Punkten z = (z_1, \ldots, z_{n + m}) \in \Omega, wobei m, n \in \mathbb{N} gewählt sind. Weiter seien die Funktionen
\Phi: \Omega \to \mathbb{R} \in C^1(\Omega)
und
f_i: \Omega \to \mathbb{R} \in C^1(\Omega) für i = 1, \ldots, n
gegeben. Außerdem sei z0 ein regulärer Punkt der Mannigfaltigkeit
\mathcal{M} := \{z \in \Omega | f_i(z) = 0\ {f{\ddot u}r}\ i = 1, \ldots, n\},
d. h. ihre Funktionalmatrix habe maximalen Rang gemäß
Rang \left( \frac{\partial f_i}{\partial z_j} (z^0) \right)_{i = 1, \ldots, n \atop j = 1, \ldots, n + m} = n.
Die Funktion Φ nehme im Punkt z^0 \in \mathcal{M} ein Extremum unter den Nebenbedingungen fi = 0 mit i = 1, \ldots, n an: Es gilt also
\Phi(z) \ge \Phi(z^0) oder \Phi(z) \le \Phi(z^0) für alle z \in \mathcal{M} \cap K_\varepsilon(z^0),
wobei K_\varepsilon(z^0) := \{z \in \Omega: |z - z_0| < \varepsilon\} mit einem hinreichend kleinen \varepsilon > 0 erklärt ist.
Behauptung: Dann folgt \nabla \Phi(z^0) \in \mathcal{V}_n, wobei \mathcal{V}_n der von den Vektoren \nabla f_1(z^0), \ldots, \nabla f_n(z^0) aufgespannte n-dimensionale Untervektorraum des Vektorraums \mathbb{R}^{n + m} ist.

[Bearbeiten] Beweis

Da z0 ein regulärer Punkt von \mathcal{M} ist, können wir ohne Einschränkung folgendes annehmen:

\det \left( \frac{\partial f_i}{\partial x_j} (z^0) \right)_{i, j = 1, \ldots, n} \neq 0.

Nun setzen wir

z = (z_1, \ldots, z_n; z_{n + 1}, \ldots, z_{n + m}) = (x_1, \ldots, x_n; y_1, \ldots, y_m) = (x, y)

mit x = (x_1, \ldots, x_n) und y = (y_1, \ldots, y_m). Wir wenden den Satz über implizite Funktionen auf

f(x, y) = (f_1(x, y), \ldots, f_n(x, y)): \Omega \to \mathbb{R}^n

an. Erklären wir z^0 = (a, b) = (a_1, \ldots, a_n; b_1, \ldots, b_m) \in \mathcal{M}, dann gibt es eine Umgebung B \subset \mathbb{R}^m von b und eine Funktion

g = g(y_1, \ldots, y_m) \in C^1(B, \mathbb{R}^n)

mit f(g(y),y) = 0 für alle y \in B. Somit nimmt die Funktion

(13) \Theta(y_1, \ldots, y_m) := \Phi(g_1(y_1, \ldots, y_m), \ldots, g_n(y_1, \ldots, y_m), y_1, \ldots, y_m)

mit y = (y_1, \ldots, y_m) \in B ein freies Extremum im Punkt y = b an. Damit verschwindet an diesem Punkt der Gradient von Θ und wir erhalten aus (13) durch Differentiation die Identitäten

(14) 0 = \Theta_{y_k}(b) = \sum^n_{j = 1} \Phi_{z_j}(g(b), b) \frac{\partial g_j}{\partial y_k} (b) + \Phi_{z_{n + k}}(g(b), b) für k = 1, \ldots, m.

Wir führen nun die Tangentialvektoren \mathcal{T}_k mittels

\mathcal{T}_k := \left( \frac{\partial g_1}{\partial y_k}, \ldots, \frac{\partial g_n}{\partial y_k}, \delta_{1k}, \ldots, \delta{mk} \right)^* für k = 1, \ldots, m

ein. Wegen (14) folgt

(15) 0 = \Theta_{y_k}(b) = \nabla \Phi(g(b), b) \cdot \mathcal{T}_k für k = 1, \ldots, m.

Somit steht \nabla \Phi(g(b), b) = \nabla \Phi(z^0) orthogonal zu den Vektoren \mathcal{T}_k\ (k = 1, \ldots, m). Ebenso erhalten wir aus den Nebenbedingungen

(16) 0 = f_i(g_1(y_1, \ldots, y_m), \ldots, g_n(y_1, \ldots, y_m), y_1, \ldots, y_m),\ y \in B für i = 1, \ldots, n

durch Differentiation nach yk die Gleichungen

(17) 0 = \nabla f_i(g(b), b) \cdot \mathcal{T}_k für k = 1, \ldots, m und i = 1, \ldots, n.

Somit spannen die n linear unabhängigen Vektoren \nabla f_1(z^0), \ldots, \nabla f_n(z^0) den n-dimensionalen Orthogonalraum zu den m linear unabhängigen Vektoren \mathcal{T}_1, \ldots, \mathcal{T}_m im \mathbb{R}^{n + m} auf. Damit ist die Basisdarstellung

\nabla \Phi(z^0) = \lambda_1 \nabla f_1(z^0) + \ldots + \lambda_n \nabla f_n(z^0)

mit geeigneten Skalaren \lambda_1, \ldots, \lambda_n \in \mathbb{R} möglich.

q.e.d.

[Bearbeiten] Bemerkungen

Da die Vektoren \nabla f_i(z^0) mit i = 1, \ldots, n eine Basis des Untervektorraums \mathcal{V}_n bilden, kann man \nabla \Phi(z^0) als deren Linearkombination mittels reeller Skalare \lambda_1, \ldots, \lambda_n \in \mathbb{R} darstellen, so dass folgendes gilt:

(18) \nabla \Phi(z^0) = \lambda_1 \nabla f_1(z^0) + \ldots + \lambda_n \nabla f_n(z^0).

Zur Lösung des Extremwertproblems unter Nebenbedingungen betrachten wir also die Funktion

\Psi(z) := \Phi(z) - \lambda_1 f_1(z) - \ldots - \lambda_n f_n(z), z \in \Omega.

Es sind nun die kritischen Punkte z0 mit \nabla \Psi(z^0) = 0 zu bestimmen, wobei \lambda_1, \ldots, \lambda_n zunächst freie, später zu bestimmende Parameter sind. Diese nennt man Lagrangesche Multiplikatoren.

Persönliche Werkzeuge