Kurs:Mathematik für Anwender (Osnabrück 2011-2012)/Teil II/Vorlesung 49

Extrema

Zu einer reellwertigen Funktion

f\colon G\longrightarrow \mathbb {R}

auf einer offenen Menge ${}G\subseteq \mathbb {R} ^{n}$ interessieren wir uns, wie schon bei einem eindimensionalen Definitionsbereich, für die Extrema, also Maxima und Minima, der Funktion, und inwiefern man dies anhand der (höheren) Ableitungen (falls diese existieren) erkennen kann. Wir verallgemeinern zuerst die relevanten Definitionen auf die Situation, wo der Definitionsbereich ein beliebiger metrischer Raum ist.

Definition

Es sei ${}(M,d)$ ein metrischer Raum und

f\colon M\longrightarrow \mathbb {R}

eine Funktion. Man sagt, dass ${}f$ in einem Punkt ${}x\in M$ ein lokales Maximum besitzt, wenn es ein ${}\epsilon >0$ derart gibt, dass für alle ${}x'\in M$ mit ${}d(x,x')\leq \epsilon$ die Abschätzung

{}f(x)\geq f(x')\,

gilt. Man sagt, dass ${}f$ in ${}x\in M$ ein lokales Minimum besitzt, wenn es ein ${}\epsilon >0$ derart gibt, dass für alle ${}x'\in M$ mit ${}d(x,x')\leq \epsilon$ die Abschätzung

{}f(x)\leq f(x')\,

gilt.

Definition

Es sei ${}(M,d)$ ein metrischer Raum und

f\colon M\longrightarrow \mathbb {R}

eine Funktion. Man sagt, dass ${}f$ in einem Punkt ${}x\in M$ ein isoliertes lokales Maximum besitzt, wenn es ein ${}\epsilon >0$ derart gibt, dass für alle ${}x'\in M$ mit ${}d(x,x')\leq \epsilon$ und ${}x'\neq x$ die Abschätzung

{}f(x)>f(x')\,

gilt. Man sagt, dass ${}f$ in ${}x\in M$ ein isoliertes lokales Minimum besitzt, wenn es ein ${}\epsilon >0$ derart gibt, dass für alle ${}x'\in M$ mit ${}d(x,x')\leq \epsilon$ und ${}x'\neq x$ die Abschätzung

{}f(x)<f(x')\,

gilt.

Ein globales Maximum liegt in ${}x\in M$ vor, wenn ${}f(x)\geq f(x')$ für alle ${}x'\in M$ ist.

Beispiel

Die Funktion

\mathbb {R} ^{2}\longrightarrow \mathbb {R} ,\,(x,y)\longmapsto x^{2}+y^{2},

hat in ${}P=(0,0)$ den Wert ${}0$ und überall sonst positive Werte, daher liegt in ${}P$ ein (isoliertes) globales Minimum vor.

Wenn die Funktion ${}f\colon M\rightarrow \mathbb {R}$ ein lokales Minimum im Punkt ${}P\in M$ besitzt, so gilt dies auch für die Einschränkung von ${}f$ auf jede Teilmenge ${}N\subseteq M$ , die ${}P$ enthält. Beispielsweise muss ein (lokales) Minimum einer Funktion der Ebene auch auf jeder Geraden durch diesen Punkt ein (lokales) Minimum sein.

Dies heißt umgekehrt, dass wenn eine Funktion ${}f\colon \mathbb {R} ^{2}\rightarrow \mathbb {R}$ auf einer Geraden ${}L_{1}$ durch ${}P$ ein isoliertes lokales Maximum und auf einer anderen Geraden ${}L_{2}$ ein isoliertes lokales Minimum besitzt, dass dann kein lokales Extremum vorliegen kann. Solche Punkte nennt man Sattelpunkt oder Passpunkt, das Standardbeispiel ist das folgende.

Beispiel

Wir betrachten das Verhalten der Funktion

\mathbb {R} ^{2}\longrightarrow \mathbb {R} ,\,(x,y)\longmapsto x^{2}-y^{2}.

in ${}P=(0,0)$ . Die Einschränkung dieser Funktion auf die durch ${}y=0$ gegebene Gerade (also auf der ${}x$ -Achse) ist die Funktion ${}x\mapsto x^{2}$ , die in ${}P$ ein (isoliertes) globales Minimum besitzt. Die Einschränkung dieser Funktion auf die durch ${}x=0$ gegebene Gerade (also auf der ${}y$ -Achse) ist die Funktion ${}y\mapsto -y^{2}$ , die in ${}P$ ein (isoliertes) globales Maximum besitzt. Daher kann ${}f$ in ${}P$ kein Extremum besitzen. Auf den durch ${}y=x$ und ${}y=-x$ gegebenen Geraden ist die Funktion die Nullfunktion.

Es sei

f\colon \mathbb {R} ^{2}\longrightarrow \mathbb {R}

eine stetige Funktion, die im Nullpunkt ${}(0,0)$ folgende Eigenschaft erfülle. Zu jeder Geraden ${}G\subseteq \mathbb {R} ^{2}$ durch den Nullpunkt besitzt die auf ${}G$ eingeschränkte Funktion ein lokales isoliertes Maximum. Jeder Wanderer, der durch das durch ${}f$ gegebene Gebirge schnurstracks in eine bestimmte Richtung durch den Punkt läuft, wird also in diesem Punkt ein Gipfelerlebnis haben. Folgt daraus, dass wirklich ein Gipfel vorliegt? Das folgende Beispiel zeigt, dass das nicht der Fall sein muss.

Beispiel

Wir betrachten im ${}\mathbb {R} ^{2}$ die beiden Kreise ${}K_{1}$ und ${}K_{2}$ , wobei ${}K_{1}$ den Mittelpunkt ${}(0,1)$ und Radius ${}1$ und ${}K_{2}$ den Mittelpunkt ${}(0,2)$ und Radius ${}2$ habe. ${}K_{1}$ liegt innerhalb von ${}K_{2}$ , und die beiden Kreise berühren sich in ${}P=(0,0)$ . Durch diese beiden Kreise wird die Ebene (neben den zwei Kreislinien selbst) in drei offene Gebiete aufgeteilt: Das Innere des Kreises ${}K_{1}$ ( ${}=A$ ), die große offene Kreisscheibe ohne die kleine abgeschlossene Kreisscheibe ( ${}=B$ ) und das Äußere von ${}K_{2}$ ( ${}=C$ ). Der innere Kreis ${}K_{1}$ wird als Nullstelle der Funktion

{}f_{1}(x,y)=x^{2}+(y-1)^{2}-1\,

beschrieben. Im Innern von ${}K_{1}$ ist diese Funktion negativ, auf ${}K_{1}$ hat sie den Wert ${}0$ und außerhalb davon hat sie positive Werte. Entsprechendes gilt für ${}K_{2}$ und die Funktion ${}f_{2}(x,y)=x^{2}+(y-2)^{2}-4$ . Wir setzen

{}{\begin{aligned}f(x,y)&:=f_{1}(x,y)\cdot f_{2}(x,y)\\&={\left(x^{2}+(y-1)^{2}-1\right)}\cdot {\left(x^{2}+(y-2)^{2}-4\right)}\\&={\left(x^{2}+y^{2}-2y\right)}\cdot {\left(x^{2}+y^{2}-4y\right)}\\&=x^{4}+y^{4}+2x^{2}y^{2}-6y^{3}-6x^{2}y+8y^{2}.\end{aligned}}

Diese Funktion nimmt auf den beiden Kreisen den Wert ${}0$ an, sie ist auf ${}A$ positiv, auf ${}B$ negativ und auf ${}C$ wieder positiv.

Die Funktion ${}f$ besitzt in ${}P$ kein lokales Minimum, da sie dort den Wert ${}0$ besitzt und da jede beliebig kleine Ballumgebung ${}U{\left(P,\epsilon \right)}$ den Bereich ${}B$ trifft, wo ${}f$ negative Werte besitzt. Die Einschränkung der Funktion auf jede Gerade durch den Nullpunkt besitzt aber dort ein lokales Minimum. Es sei dazu ${}G$ eine solche Gerade. Wenn ${}G$ die ${}x$ -Achse ist, so verläuft diese Gerade (bis auf ${}P$ selbst) in ${}C$ , wo ${}f$ nur positive Werte annimmt, sodass in ${}P$ ein (sogar globales) Minimum vorliegt. Es sei also ${}G$ eine von der ${}x$ -Achse verschiedene Gerade durch ${}P$ . Die eine Hälfte der Geraden verläuft ganz in ${}C$ , wo die Funktion positiv ist. Die andere Hälfte verläuft, ausgehend von ${}P$ , zuerst in ${}A$ , dann in ${}B$ und schließlich wieder in ${}C$ . Da die Funktion auf ${}A$ positiv ist, kann man ein Teilintervall ${}[-\delta ,\delta ]$ der Geraden derart wählen, dass dieses Teilstück (abgesehen von ${}P$ ) nur in ${}A$ und ${}C$ verläuft. Auf diesem Teilintervall nimmt die Funktion in ${}P$ den Wert ${}0$ und sonst überall positive Werte an. Daher besitzt die eingeschränkte Funktion ein lokales Minimum. Das dabei zu wählende ${}\delta$ hängt natürlich wesentlich von der Steigung der Geraden ab, es gibt kein gemeinsames ${}\delta$ für alle Geraden.

Der Gradient

Wenn eine Funktion ${}f\colon V\rightarrow \mathbb {R}$ total differenzierbar ist, so ist das totale Differential in einem Punkt eine lineare Abbildung von ${}V$ nach ${}\mathbb {R}$ . Für solche linearen Abbildungen gibt es einen eigenen Namen.

Definition

Es sei ${}K$ ein Körper und sei ${}V$ ein ${}K$ - Vektorraum. Eine lineare Abbildung

V\longrightarrow K

heißt eine Linearform auf ${}V$ .

Wenn ${}G\subseteq \mathbb {R} ^{n}$ ist, so bilden die partiellen Ableitungen von

f\colon G\longrightarrow \mathbb {R}

in einem Punkt ${}P\in G$ eine Matrix mit einer einzigen Zeile, die bei stetigen partiellen Ableitungen das totale Differential repräsentiert. Eine solche Matrix kann man aber ebenso auch als ein ${}n$ -Tupel in ${}\mathbb {R}$ und damit als einen Vektor in ${}\mathbb {R} ^{n}$ auffassen.

Lemma

Es sei ${}(V,\left\langle -,-\right\rangle )$ ein euklidischer Vektorraum und

f\colon V\longrightarrow \mathbb {R}

eine Linearform.

Dann gibt es einen eindeutig bestimmten Vektor ${}w\in V$ mit

${}f(v)=\left\langle w,v\right\rangle \,.$

Wenn ${}u_{1},\ldots ,u_{n}$ eine Orthonormalbasis von ${}V$ und ${}f(u_{i})=a_{i}$ ist, so ist dieser Vektor gleich ${}w=\sum _{i=1}^{n}a_{i}u_{i}$ .

Beweis

Die Aussage folgt aus dem Zusatz. Es sei also eine Orthonormalbasis ${}u_{1},\ldots ,u_{n}$ gegeben und sei ${}w=\sum _{i=1}^{n}a_{i}u_{i}$ . Dann ist für jedes ${}j$

{}\left\langle w,u_{j}\right\rangle =\left\langle \sum _{i=1}^{n}a_{i}u_{i},u_{j}\right\rangle =a_{j}=f(u_{j})\,.

D.h. die beiden linearen Abbildungen ${}v\mapsto \left\langle w,v\right\rangle$ und ${}f$ stimmen auf einer Basis überein, sind also nach Satz 9.5 identisch. Für jeden anderen Vektor ${}w'=\sum _{i=1}^{n}b_{i}u_{i}$ ist der Wert der zugehörigen Linearform an mindestens einem Basisvektor ${}u_{j}$ von ${}f(u_{j})$ verschieden, daher liegt Eindeutigkeit vor.

\Box

Definition

Es sei ${}(V,\left\langle -,-\right\rangle )$ ein euklidischer Vektorraum, ${}G\subseteq V$ offen und

f\colon G\longrightarrow \mathbb {R}

eine in ${}P\in G$ differenzierbare Funktion. Dann nennt man den eindeutig bestimmten Vektor ${}w\in V$ mit

{}{\left(Df\right)}_{P}{\left(v\right)}=\left\langle w,v\right\rangle \,

für alle ${}v\in V$ den Gradienten von ${}f$ in ${}P$ . Er wird mit

\operatorname {Grad} \,f(P)

bezeichnet.

Man beachte, dass wir durchgehend die endlichdimensionalen Vektorräume mit einem Skalarprodukt versehen, um topologische Grundbegriffe wie Konvergenz und Stetigkeit zur Verfügung zu haben, dass diese Begriffe aber nicht von dem gewählten Skalarprodukt abhängen. Dem entgegen hängt aber der Gradient von dem gewählten Skalarprodukt ab.

Bei ${}V=\mathbb {R} ^{n}$ , versehen mit dem Standardskalarprodukt, ist der Gradient einfach gleich

{}\operatorname {Grad} \,f(P)={\begin{pmatrix}{\frac {\partial f}{\partial x_{1}}}(P)\\\vdots \\{\frac {\partial f}{\partial x_{n}}}(P)\end{pmatrix}}\,.

Bemerkung

Zu einer differenzierbaren Funktion ${}f\colon \mathbb {R} ^{n}\rightarrow \mathbb {R}$ lässt sich der Gradient (bezüglich des Standardskalarproduktes) einfach durch partielles Differenzieren berechnen. Es wäre aber eine künstliche Einschränkung, nur diese Situation zu betrachten. Um dies zu illustrieren sei beispielsweise

f\colon \mathbb {R} ^{3}\longrightarrow \mathbb {R}

eine differenzierbare Funktion und ${}E\subseteq \mathbb {R} ^{3}$ eine Ebene, die etwa als Lösungsmenge der linearen Gleichung ${}5x-4y+9z=0$ gegeben sei. Dann induziert das Standardskalarprodukt des ${}\mathbb {R} ^{3}$ durch Einschränkung ein Skalarprodukt auf ${}E$ . Diese Ebene ist zwar isomorph zu ${}\mathbb {R} ^{2}$ , es ergibt aber keinen Sinn, das eingeschränkte Skalarprodukt als Standardskalarprodukt anzusprechen. Der Gradient ${}G$ zu ${}f$ in einem Punkt ${}P\in \mathbb {R} ^{3}$ lässt sich direkt mit den partiellen Ableitungen zu den drei Raumkoordinaten berechnen. Bei ${}P\in E$ wird im Allgemeinen der Gradient nicht auf ${}E$ liegen. Die eingeschränkte Funktion

f{|}_{E}\colon E\longrightarrow \mathbb {R}

ist aber ebenfalls differenzierbar und besitzt daher einen Gradienten ${}{\tilde {G}}$ , der auf ${}E$ liegt, und dieser lässt sich nicht über partielle Ableitungen berechnen, da es auf ${}E$ keine Standardbasis gibt. Übrigens ist ${}{\tilde {G}}$ die orthogonale Projektion von ${}G$ auf ${}E$ .

Satz

Es sei ${}(V,\left\langle -,-\right\rangle )$ ein euklidischer Vektorraum, sei ${}G\subseteq V$ offen und sei

f\colon G\longrightarrow \mathbb {R}

eine in ${}P\in G$ differenzierbare Funktion. Dann gelten folgende Aussagen.

Für jeden Vektor ${}v\in V$ ist
${}\vert {{\left(Df\right)}_{P}{\left(v\right)}}\vert \leq \Vert {v}\Vert \cdot \Vert {\operatorname {Grad} \,f(P)}\Vert \,.$

Dabei gilt Gleichheit genau dann, wenn ${}v$ linear abhängig zum Gradienten ist.

Sei ${}\operatorname {Grad} \,f(P)\neq 0$ . Unter allen Vektoren ${}v\in V$ mit ${}\Vert {v}\Vert =1$ ist die Richtungsableitung in Richtung des normierten Gradienten maximal, und zwar gleich der Norm des Gradienten.

Beweis

Dieser Beweis wurde in der Vorlesung nicht vorgeführt.

(1) folgt wegen

{}{\left(Df\right)}_{P}{\left(v\right)}=\left\langle v,\operatorname {Grad} \,f(P)\right\rangle \,

direkt aus der Abschätzung von Cauchy-Schwarz.
(2) ergibt sich aus den Zusätzen zur Abschätzung von Cauchy-Schwarz, siehe Aufgabe 49.13.
(3). Aus (1) und (2) folgt, dass

{}{\begin{aligned}\vert {\left\langle \operatorname {Grad} \,f(P),\pm {\frac {\operatorname {Grad} \,f(P)}{\Vert {\operatorname {Grad} \,f(P)}\Vert }}\right\rangle }\vert &=\vert {{\left(Df\right)}_{P}{\left(\pm {\frac {\operatorname {Grad} \,f(P)}{\Vert {\operatorname {Grad} \,f(P)}\Vert }}\right)}}\vert \\&=\Vert {\operatorname {Grad} \,f(P)}\Vert \end{aligned}}

gilt, und dass diese beiden Vektoren die einzigen Vektoren der Norm ${}1$ sind, für die diese Gleichung gilt. Wenn man links die Betragstriche weglässt, so gilt die Gleichheit für ${}{\frac {\operatorname {Grad} \,f(P)}{\Vert {\operatorname {Grad} \,f(P)}\Vert }}$ nach wie vor, da das Skalarprodukt positiv definit ist.

\Box

Der Gradient gibt demnach die Richtung an, in die die Funktion den stärksten Anstieg hat. In die entgegengesetze Richtung liegt entsprechend der steilste Abstieg vor.

Lokale Extrema von Funktionen in mehreren Variablen

Wir wollen mit den Mitteln der Differentialrechnung Kriterien erarbeiten, in welchen Punkten eine Funktion

f\colon G\longrightarrow \mathbb {R}

ein lokales Minimum oder ein lokales Maximum annimmt. Wenn man sich den Graph einer solchen Funktion als ein Gebirge über der Grundmenge ${}G$ vorstellt, so geht es also um die Gipfel und die Senken des Gebirges. Der folgende Satz liefert ein notwendiges Kriterium für die Existenz eines lokalen Extremums, das das entsprechende Kriterium in einer Variablen verallgemeinert.

Satz

Es sei ${}V$ ein endlichdimensionaler reeller Vektorraum und ${}G\subseteq V$ eine offene Teilmenge. Es sei

f\colon G\longrightarrow \mathbb {R}

eine Funktion, die im Punkt ${}P\in G$ ein lokales Extremum besitzt. Dann gelten folgende Aussagen.

Wenn ${}f$ in ${}P$ in Richtung ${}v\in V$ differenzierbar ist, so ist
${}{\left(D_{v}f\right)}{\left(P\right)}=0\,.$

Wenn ${}f$ in ${}P$ total differenzierbar ist, so verschwindet das totale Differential, also
${}\left(Df\right)_{P}=0\,.$

Beweis

(1) Zu ${}v\in V$ betrachten wir die Funktion

h\colon I\longrightarrow \mathbb {R} ,\,t\longmapsto h(t)=f(P+tv),

wobei ${}I$ ein geeignetes reelles Intervall ist. Da die Funktion ${}f$ in ${}P$ ein lokales Extremum besitzt, besitzt die Funktion ${}h$ in ${}t=0$ ebenfalls ein lokales Extremum. Nach Voraussetzung ist ${}h$ differenzierbar und nach Satz 20.3 ist ${}h'(0)=0$ . Diese Ableitung stimmt aber mit der Richtungsableitung überein, also ist

{}{\left(D_{v}f\right)}{\left(P\right)}=h'(0)=0\,.

(2) folgt aus (1) aufgrund von Proposition 46.8.

\Box

Ein lokales Extremum kann also nur in einem sogenannten kritischen Punkt einer Funktion auftreten.

Definition

Es sei ${}V$ ein endlichdimensionaler reeller Vektorraum, ${}G\subseteq V$ offen und

f\colon G\longrightarrow \mathbb {R}

eine differenzierbare Funktion. Dann heißt ${}P\in G$ ein kritischer Punkt von ${}f$ (oder ein stationärer Punkt), wenn

{}\left(Df\right)_{P}=0\,

ist. Andernfalls spricht man von einem regulären Punkt.

Die Hesse-Form

Wir sind natürlich auch an hinreichenden Kriterien für das Vorliegen von lokalen Extrema interessiert. Wie schon im eindimensionalen Fall muss man sich die zweiten Ableitungen anschauen, wobei die Situation natürlich dadurch wesentlich verkompliziert wird, dass es zu je zwei Richtungsvektoren ${}v$ und ${}w$ eine zweite Richtungsableitung ${}D_{vw}=D_{v}D_{w}$ gibt. Die zweite Richtungsableitung wird dadurch handhabbar, dass man sie in die sogenannte Hesse-Form bzw. Hesse-Matrix zusammenfasst.

Definition

Es sei ${}V$ ein endlichdimensionaler reeller Vektorraum, ${}G\subseteq V$ eine offene Menge und

f\colon G\longrightarrow \mathbb {R}

eine zweimal stetig differenzierbare Funktion. Zu ${}P\in G$ heißt die Abbildung

\operatorname {Hess} _{P}\,f\colon V\times V\longrightarrow \mathbb {R} ,\,(u,v)\longmapsto D_{u}D_{v}f(P),

die Hesse-Form im Punkt ${}P\in G$ .

Definition

Es sei ${}V$ ein endlichdimensionaler reeller Vektorraum, ${}G\subseteq V$ eine offene Menge und

f\colon G\longrightarrow \mathbb {R}

eine zweimal stetig differenzierbare Funktion. Es sei eine Basis ${}v_{i}$ , ${}i=1,\ldots ,n$ , von ${}V$ gegeben mit den zugehörigen Richtungsableitungen ${}D_{i}:=D_{v_{i}}$ , ${}i=1,\ldots ,n$ . Zu ${}P\in G$ heißt dann die Matrix

{\begin{pmatrix}D_{1}D_{1}f(P)&\cdots &D_{1}D_{n}f(P)\\\vdots &\ddots &\vdots \\D_{n}D_{1}f(P)&\cdots &D_{n}D_{n}f(P)\end{pmatrix}}

die Hesse-Matrix zu ${}f$ im Punkt ${}P$ bezüglich der gegebenen Basis.

Die Hesse-Form zu einem festen Punkt ${}P$ ordnet also zwei Vektoren eine reelle Zahl zu, und sie ist durch ihre Hesse-Matrix vollständig beschrieben. Damit ordnet sie sich in das Konzept von symmetrischen Bilinearformen ein.

<< | Kurs:Mathematik für Anwender (Osnabrück 2011-2012)/Teil II | >>

PDF-Version dieser Vorlesung

Arbeitsblatt zur Vorlesung (PDF)