Kurs:Analysis II/Kapitel IV: Partielle Differentiation für Funktionen mehrerer Veränderlicher/Impliziert definierte Funktionen und restringierte Extremwertaufgaben (§5)

Beispiel 1[Bearbeiten]

Auf der offenen Menge $\Omega \subset \mathbb {R} ^{2}$ sei die Funktion

f(x,y):\Omega \to \mathbb {R} \in C^{1}(\Omega )

gegeben. Wir betrachten nun die Nullstellenmenge dieser Funktion

\{(x,y)\in \Omega :f(x,y)=0\}

.

Uns interessiert die Frage, ob es eine Funktion $x=g(y):I\to \mathbb {R} \in C^{1}(I)$ auf einem Intervall $I:=(y_{1},y_{2})\subset \mathbb {R}$ so gibt, dass folgendes gilt:

(1)

f(g(y),y)=0

für alle

y\in I

.

Im Falle der Existenz von $g$ erhält man durch Differentiation aus (1)

f_{x}(g(y),y)g'(y)+f_{y}(g(y),y)=0

in

I

und somit

(2)

g'(y)=-{\frac {f_{y}(g(y),y)}{f_{x}(g(y),y)}}

für alle

y\in I

.

Die Auflösbarkeit der impliziten Gleichung $f(x,y)=0$ in die explizite Funktion $x=g(y)$ erfordert also $f_{x}(x,y)\neq 0$ für alle $(x,y)\in \Omega$ als Bedingung.

Beispiel 2[Bearbeiten]

Auf der offenen Menge

\Omega \subset \mathbb {R} ^{n}\times \mathbb {R} =\{(x_{1},\ldots ,x_{n},y){\Bigl |}x_{i}\in \mathbb {R} \ \mathrm {f{\ddot {u}}r} \ i=1,\ldots ,n{\text{ und }}y\in \mathbb {R} \}

seien die Komponentenfunktionen von $f=(f_{1},\ldots ,f_{n})$ gegeben durch

f_{i}(x,y)=f_{i}(x_{1},\ldots ,x_{n},y):\Omega \to \mathbb {R} \in C^{1}(\Omega )

für

i=1,\ldots ,n

.

Dann stellt die Menge

\Gamma :=\{(x,y)\in \Omega :f_{i}(x,y)=0\ \mathrm {f{\ddot {u}}r} \ i=1,\ldots ,n\}

eine Kurve im $\mathbb {R} ^{n+1}$ dar. Sie entsteht als Durchschnitt der Flächen

F_{i}:=\{(x,y)\in \Omega :f_{i}(x,y)=0\}

für

i=1,2,\ldots ,n

mit den Normalenvektoren $\nabla f_{i}(x,y)=(f_{i,x_{1}},f_{i,x_{2}},\ldots ,f_{i,x_{n}},f_{i,y})$ , die senkrecht auf den Flächen $F_{i}$ stehen. Der Tangentialvektor an die Kurve $Gamma$ ist orthogonal zu allen Flächennormalen. Somit hat die Tangente $\mathbf {t}$ die Richtung des Kreuzproduktvektors im $\mathbb {R} ^{n+1}$ , nämlich $\nabla f_{1}(x,y)\wedge \ldots \wedge \nabla f_{n}(x,y)$ . Wollen wir nun die Kurve $\Gamma$ in der Form

x=g(y)=(g_{1}(y),g_{2}(y),\ldots ,g_{n}(y)),y\in I\subset \mathbb {R}

darstellen, so darf die Komponente von $\mathbf {t}$ in $y$ -Richtung nicht verschwinden. Es muss also die Bedingung

(3)

(0,\ldots ,0,1)\cdot \nabla f_{1}\wedge \ldots \wedge \nabla f_{n}=\det \left({\frac {\partial f_{i}}{\partial x_{j}}}\right)_{i,j=1,\ldots ,n}\neq 0

gelten, wobei wir noch folgendes beachten

{\begin{pmatrix}\nabla f_{1}\\\vdots \\\nabla f_{n}\end{pmatrix}}={\begin{pmatrix}f_{1,x_{1}}&\ldots &f_{1,x_{n}}&f_{1,y}\\\vdots &\ddots &\vdots &\vdots \\f_{n,x_{1}}&\ldots &f_{n,x_{n}}&f_{n,y}\end{pmatrix}}

.

Beispiel 3[Bearbeiten]

Bezeichne $M$ eine $(n\times n)$ -Matrix und $N$ eine $(n\times m)$ -Matrix, so betrachten wir die lineare Abbildung

f(x,y)=M\circ x+N\circ y:\mathbb {R} ^{n+m}\to \mathbb {R} ^{n},\quad x\in \mathbb {R} ^{n},\quad y\in \mathbb {R} ^{m}

.

Wir beachten

(4)

f(x,y)=M\circ x+N\circ y=0

genau dann wenn

x=-M^{-1}\circ N\circ y

.

Die Auflösung setzt also die folgende Bedingung voraus:

\det M=\det \left({\frac {\partial f_{i}}{\partial x_{j}}}\right)_{i,j=1,\ldots ,n}\neq 0

.

Allgemein wollen wir jetzt das folgende implizite Gleichungssystem

(5)

{\begin{matrix}f_{1}(x_{1},\ldots ,x_{n};y_{1},\ldots ,y_{m})=0\\\vdots \\f_{n}(x_{1},\ldots ,x_{n};y_{1},\ldots ,y_{m})=0\end{matrix}}

auflösen. Wir fassen dieses mit Hilfe der Setzungen

(6)

{\begin{matrix}x=(x_{1},\ldots ,x_{n}),\quad y=(y_{1},\ldots ,y_{m}),\quad (x,y)=(x_{1},\ldots ,x_{n};y_{1},\ldots ,y_{m})\\f(x,y)=(f_{1}(x,y),f_{2}(x,y),\ldots ,f_{n}(x,y)\end{matrix}}

zur Gleichung

(7)

f(x,y)=0

zusammen, welche zum System (5) äquivalent ist. Die Auflösung des Systems (7) bedeutet eine Abbildung $x=g(y)$ so zu finden, dass $f(g(y),y)=0$ gilt. Wie die obigen Beispiele zeigen, ist eine Auflösung im nichtlinearen Fall nur lokal möglich!

Satz 1 (Implizierte Funktionen)[Bearbeiten]

Voraussetzungen: Seien die natürlichen Zahlen $m,n,p\in \mathbb {N}$ gewählt. Auf der offenen Menge $\Omega \subset \mathbb {R} ^{n+m}$ sei die Funktion

f(x,y)=(f_{1}(x,y),\ldots ,f_{n}(x,y)):\Omega \to \mathbb {R} ^{n}\in C^{p}(\Omega ,\mathbb {R} ^{n})

gegeben. Ferner sei $(a,b)\in \Omega$ ein fester Punkt mit

f(a,b)=0

und

J_{f}(a,b):=\det \left({\frac {\partial f_{i}}{\partial x_{j}}}(a,b)\right)_{i,j=1,2,\ldots ,n}\neq 0

.

Behauptung: Dann gibt es eine offene Umgebung $B$ von $b$ im $\mathbb {R} ^{n}$ und eine eindeutig bestimmte Abbildung $x=g(y):B\to \mathbb {R} ^{n}$ mit den folgenden Eigenschaften:

Es sind die Bedingungen $g(b)=a$ und $g\in C^{p}(B,\mathbb {R} ^{n})$ erfüllt.
Für alle $y\in B$ gilt die Identität $f(g(y),y)$ .

Beweis[Bearbeiten]

1. Teil:
Wir erweitern die Abbildung $f$ zu einer Abbildung $F:\Omega \to \mathbb {R} ^{n+m}$ vermöge

(x_{1},\ldots ,x_{n};y_{1},\ldots ,y_{m})\mapsto {\begin{pmatrix}F_{1}(x,y)\\\vdots \\F_{n}(x,y)\\F_{n+1}(x,y)\\\vdots \\F_{n+m}(x,y)\end{pmatrix}}:={\begin{pmatrix}f_{1}(x_{1},\ldots ,x_{n};y_{1},\ldots ,y_{m})\\\vdots \\f_{n}(x_{1},\ldots ,x_{n};y_{1},\ldots ,y_{m})\\y_{1}\\\vdots \\y_{m}\end{pmatrix}}

für $(x,y)\in \Omega$ . Nach Voraussetzung gehört $F$ der Klasse $C^{p}(\Omega ,\mathbb {R} ^{n+m})$ an. Wir berechnen nun

F(a,b)=(f(a,b),b){\stackrel {\text{n. V.}}{=}}(0,b)\in \mathbb {R} ^{n+m}

.

Für die Funktionaldeterminante von $F$ erhält man

(8)

J_{F}(x,y)=\det {\begin{pmatrix}\left({\frac {\partial f_{i}}{\partial x_{j}}}\right)_{i,j=1,\ldots ,n}&\left({\frac {\partial f_{i}}{\partial x_{j}}}\right)_{i=1,\ldots ,n \atop j=1,\ldots ,m}\\(0)_{i=1,\ldots ,m \atop j=1,\ldots ,n}&(\delta _{ij})_{i,j=1,\ldots ,m}\end{pmatrix}}=J_{f}(x,y)

in

\Omega

.

Für $x=a$ und $y=b$ gilt also

J_{F}(a,b)=J_{f}(a,b){\stackrel {\text{n. V.}}{\neq }}0

.

2. Teil:
Wir setzen nun $z=(x,y)\in \mathbb {R} ^{n+m}$ sowie $\zeta =(\xi ,\eta )\in \mathbb {R} ^{n+m}$ mit $\xi \in \mathbb {R} ^{n}$ und $\eta \in \mathbb {R} ^{m}$ . Nach dem Fundamentalsatz über die inverse Abbildung gibt es eine Umgebung $\Gamma \subset \mathbb {R} ^{n+m}$ des Punktes $(0,b)$ und eine Abbildung

\Phi =(\Phi _{1},\ldots ,\Phi _{n};\Phi _{n+1},\ldots ,\Phi _{n+m}):\Gamma \to \Omega \in C^{p}(\Gamma ,\mathbb {R} ^{n+m})

mit der Eigenschaft

F(\Phi (\xi ,\eta ))=(\xi ,\eta )

für alle

(\xi ,\eta )\in \Gamma

.

Setzen wir nun $\varphi :\Gamma \to \mathbb {R} ^{n}\in C^{p}(\Gamma ,\mathbb {R} ^{n})$ vermöge

\varphi (\xi ,\eta ):=(\Phi _{1}(\xi ,\eta ),\ldots ,\Phi _{n}(\xi ,\eta )),\quad (\xi ,\eta )\in \Gamma

,

so gilt

\varphi (0,b)=a

und

f(\varphi (\xi ,\eta ),\eta )=\xi

für alle

(\xi ,\eta )\in \Gamma

.

Wir erklären eine – im $\mathbb {R} ^{m}$ offene – Umgebung von $b$ durch

B:=\{y\in \mathbb {R} ^{m}:(0,y)\in \Gamma \}

und eine Abbildung

g:B\to \mathbb {R} ^{n}

vermöge

g(y):=\varphi (0,y),\quad y\in B

.

Nun folgt $g\in C^{p}(B),\ g(b)=\varphi (0,b)=a$ und

f(g(y),y)=f(\varphi (0,y),y)=0

für alle

y\in B

.

Die Eindeutigkeit der Abbildung $g:B\to \mathbb {R} ^{n}$ ist aus der Konstruktion klar.

q.e.d.

Bemerkung[Bearbeiten]

Wir differenzieren das implizite Gleichungssystem

(9)

0=f_{i}(g_{1}(y_{1},\ldots ,y_{m}),g_{n}(y_{1},\ldots ,y_{m}),y_{1},\ldots ,y_{m}),\quad 1\leq i\leq n

nach den Variablen $y_{k}$ für $1\leq k\leq m$ . Dann erhalten wir

(10)

\sum _{j=1}^{n}{\frac {\partial f_{i}}{\partial x_{j}}}(g(y),y){\frac {\partial g_{j}}{\partial y_{k}}}(y)+{\frac {\partial f_{i}}{\partial y_{k}}}(g(y),y)=0

für

i=1,\ldots ,n;k=1,\ldots ,m

.

Wir definieren die Funktionalmatrizen

(11)

{\begin{matrix}\partial _{x}f(x,y):=\left({\frac {\partial f_{i}}{\partial x_{j}}}(x,y)\right)_{i,j=1,\ldots ,n},\partial _{y}f(x,y):=\left({\frac {\partial f_{i}}{\partial y_{k}}}(x,y)\right)_{i=1,\ldots ,n \atop k=1,\ldots ,m},\\\partial g(y):=\left({\frac {\partial g_{j}}{\partial y_{k}}}(y)\right)_{j=1,\ldots ,n \atop k=1,\ldots ,m}.\end{matrix}}

Wir erhalten nun den folgenden Ausdruck für die Funktionalmatrix der inversen Abbildung

\partial _{x}f(g(y),y)\circ \partial g(y)+\partial _{y}f(g(y),y)=0

bzw.

(12)

\partial g(y)=-\partial _{x}f(g(y),y)^{-1}\circ \partial _{y}f(g(y),y)

.

Wir betrachten jetzt restringierte Extremwertaufgaben, die J. L. Lagrange in der Analytischen Mechanik ursprünglich behandelt hat.

Satz 2 (Extrema mit Nebenbedingungen)[Bearbeiten]

Voraussetzungen: Sei $\Omega \subset \mathbb {R} ^{n+m}$ eine offene Menge mit ihren Punkten $z=(z_{1},\ldots ,z_{n+m})\in \Omega$ , wobei $m,n\in \mathbb {N}$ gewählt sind. Weiter seien die Funktionen

\Phi :\Omega \to \mathbb {R} \in C^{1}(\Omega )

und

$f_{i}:\Omega \to \mathbb {R} \in C^{1}(\Omega )$ für $i=1,\ldots ,n$

gegeben. Außerdem sei $z^{0}$ ein regulärer Punkt der Mannigfaltigkeit

{\mathcal {M}}:=\{z\in \Omega |f_{i}(z)=0\ {f{\ddot {u}}r}\ i=1,\ldots ,n\}

,

d. h. ihre Funktionalmatrix habe maximalen Rang gemäß

Rang\left({\frac {\partial f_{i}}{\partial z_{j}}}(z^{0})\right)_{i=1,\ldots ,n \atop j=1,\ldots ,n+m}=n

.

Die Funktion $\Phi$ nehme im Punkt $z^{0}\in {\mathcal {M}}$ ein Extremum unter den Nebenbedingungen $f_{i}=0$ mit $i=1,\ldots ,n$ an: Es gilt also

$\Phi (z)\geq \Phi (z^{0})$ oder $\Phi (z)\leq \Phi (z^{0})$ für alle $z\in {\mathcal {M}}\cap K_{\varepsilon }(z^{0})$ ,

wobei $K_{\varepsilon }(z^{0}):=\{z\in \Omega :|z-z_{0}|<\varepsilon \}$ mit einem hinreichend kleinen $\varepsilon >0$ erklärt ist.

Behauptung: Dann folgt $\nabla \Phi (z^{0})\in {\mathcal {V}}_{n}$ , wobei ${\mathcal {V}}_{n}$ der von den Vektoren $\nabla f_{1}(z^{0}),\ldots ,\nabla f_{n}(z^{0})$ aufgespannte $n$ -dimensionale Untervektorraum des Vektorraums $\mathbb {R} ^{n+m}$ ist.

Beweis[Bearbeiten]

Da $z^{0}$ ein regulärer Punkt von ${\mathcal {M}}$ ist, können wir ohne Einschränkung folgendes annehmen:

\det \left({\frac {\partial f_{i}}{\partial x_{j}}}(z^{0})\right)_{i,j=1,\ldots ,n}\neq 0

.

Nun setzen wir

z=(z_{1},\ldots ,z_{n};z_{n+1},\ldots ,z_{n+m})=(x_{1},\ldots ,x_{n};y_{1},\ldots ,y_{m})=(x,y)

mit $x=(x_{1},\ldots ,x_{n})$ und $y=(y_{1},\ldots ,y_{m})$ . Wir wenden den Satz über implizite Funktionen auf

f(x,y)=(f_{1}(x,y),\ldots ,f_{n}(x,y)):\Omega \to \mathbb {R} ^{n}

an. Erklären wir $z^{0}=(a,b)=(a_{1},\ldots ,a_{n};b_{1},\ldots ,b_{m})\in {\mathcal {M}}$ , dann gibt es eine Umgebung $B\subset \mathbb {R} ^{m}$ von $b$ und eine Funktion

g=g(y_{1},\ldots ,y_{m})\in C^{1}(B,\mathbb {R} ^{n})

mit $f(g(y),y)=0$ für alle $y\in B$ . Somit nimmt die Funktion

(13)

\Theta (y_{1},\ldots ,y_{m}):=\Phi (g_{1}(y_{1},\ldots ,y_{m}),\ldots ,g_{n}(y_{1},\ldots ,y_{m}),y_{1},\ldots ,y_{m})

mit $y=(y_{1},\ldots ,y_{m})\in B$ ein freies Extremum im Punkt $y=b$ an. Damit verschwindet an diesem Punkt der Gradient von $\Theta$ und wir erhalten aus (13) durch Differentiation die Identitäten

(14)

0=\Theta _{y_{k}}(b)=\sum _{j=1}^{n}\Phi _{z_{j}}(g(b),b){\frac {\partial g_{j}}{\partial y_{k}}}(b)+\Phi _{z_{n+k}}(g(b),b)

für

k=1,\ldots ,m

.

Wir führen nun die Tangentialvektoren ${\mathcal {T}}_{k}$ mittels

{\mathcal {T}}_{k}:=\left({\frac {\partial g_{1}}{\partial y_{k}}},\ldots ,{\frac {\partial g_{n}}{\partial y_{k}}},\delta _{1k},\ldots ,\delta {mk}\right)^{*}

für

k=1,\ldots ,m

ein. Wegen (14) folgt

(15)

0=\Theta _{y_{k}}(b)=\nabla \Phi (g(b),b)\cdot {\mathcal {T}}_{k}

für

k=1,\ldots ,m

.

Somit steht $\nabla \Phi (g(b),b)=\nabla \Phi (z^{0})$ orthogonal zu den Vektoren ${\mathcal {T}}_{k}\ (k=1,\ldots ,m)$ . Ebenso erhalten wir aus den Nebenbedingungen

(16)

0=f_{i}(g_{1}(y_{1},\ldots ,y_{m}),\ldots ,g_{n}(y_{1},\ldots ,y_{m}),y_{1},\ldots ,y_{m}),\ y\in B

für

i=1,\ldots ,n

durch Differentiation nach $y_{k}$ die Gleichungen

(17)

0=\nabla f_{i}(g(b),b)\cdot {\mathcal {T}}_{k}

für

k=1,\ldots ,m

und

i=1,\ldots ,n

.

Somit spannen die $n$ linear unabhängigen Vektoren $\nabla f_{1}(z^{0}),\ldots ,\nabla f_{n}(z^{0})$ den $n$ -dimensionalen Orthogonalraum zu den $m$ linear unabhängigen Vektoren ${\mathcal {T}}_{1},\ldots ,{\mathcal {T}}_{m}$ im $\mathbb {R} ^{n+m}$ auf. Damit ist die Basisdarstellung

\nabla \Phi (z^{0})=\lambda _{1}\nabla f_{1}(z^{0})+\ldots +\lambda _{n}\nabla f_{n}(z^{0})

mit geeigneten Skalaren $\lambda _{1},\ldots ,\lambda _{n}\in \mathbb {R}$ möglich.

q.e.d.

Bemerkungen[Bearbeiten]

Da die Vektoren $\nabla f_{i}(z^{0})$ mit $i=1,\ldots ,n$ eine Basis des Untervektorraums ${\mathcal {V}}_{n}$ bilden, kann man $\nabla \Phi (z^{0})$ als deren Linearkombination mittels reeller Skalare $\lambda _{1},\ldots ,\lambda _{n}\in \mathbb {R}$ darstellen, so dass folgendes gilt:

(18)

\nabla \Phi (z^{0})=\lambda _{1}\nabla f_{1}(z^{0})+\ldots +\lambda _{n}\nabla f_{n}(z^{0})

.

Zur Lösung des Extremwertproblems unter Nebenbedingungen betrachten wir also die Funktion

\Psi (z):=\Phi (z)-\lambda _{1}f_{1}(z)-\ldots -\lambda _{n}f_{n}(z),z\in \Omega

.

Es sind nun die kritischen Punkte $z^{0}$ mit $\nabla \Psi (z^{0})=0$ zu bestimmen, wobei $\lambda _{1},\ldots ,\lambda _{n}$ zunächst freie, später zu bestimmende Parameter sind. Diese nennt man Lagrangesche Multiplikatoren.