Kurs:Mathematik für Anwender (Osnabrück 2011-2012)/Teil II/Vorlesung 49
- Extrema
Zu einer reellwertigen Funktion
auf einer offenen Menge interessieren wir uns, wie schon bei einem eindimensionalen Definitionsbereich, für die Extrema, also Maxima und Minima, der Funktion, und inwiefern man dies anhand der (höheren) Ableitungen (falls diese existieren) erkennen kann. Wir verallgemeinern zuerst die relevanten Definitionen auf die Situation, wo der Definitionsbereich ein beliebiger metrischer Raum ist.
Es sei ein metrischer Raum und
eine Funktion. Man sagt, dass in einem Punkt ein lokales Maximum besitzt, wenn es ein derart gibt, dass für alle mit die Abschätzung
gilt. Man sagt, dass in ein lokales Minimum besitzt, wenn es ein derart gibt, dass für alle mit die Abschätzung
gilt.
Es sei ein metrischer Raum und
eine Funktion. Man sagt, dass in einem Punkt ein isoliertes lokales Maximum besitzt, wenn es ein derart gibt, dass für alle mit und die Abschätzung
gilt. Man sagt, dass in ein isoliertes lokales Minimum besitzt, wenn es ein derart gibt, dass für alle mit und die Abschätzung
gilt.
Ein globales Maximum liegt in vor, wenn für alle ist.
Die Funktion
hat in den Wert und überall sonst positive Werte, daher liegt in ein (isoliertes) globales Minimum vor.
Wenn die Funktion ein lokales Minimum im Punkt besitzt, so gilt dies auch für die Einschränkung von auf jede Teilmenge , die enthält. Beispielsweise muss ein (lokales) Minimum einer Funktion der Ebene auch auf jeder Geraden durch diesen Punkt ein (lokales) Minimum sein.
Dies heißt umgekehrt, dass wenn eine Funktion auf einer Geraden durch ein isoliertes lokales Maximum und auf einer anderen Geraden ein isoliertes lokales Minimum besitzt, dass dann kein lokales Extremum vorliegen kann. Solche Punkte nennt man Sattelpunkt oder Passpunkt, das Standardbeispiel ist das folgende.
Wir betrachten das Verhalten der Funktion
in . Die Einschränkung dieser Funktion auf die durch gegebene Gerade (also auf der -Achse) ist die Funktion , die in ein (isoliertes) globales Minimum besitzt. Die Einschränkung dieser Funktion auf die durch gegebene Gerade (also auf der -Achse) ist die Funktion , die in ein (isoliertes) globales Maximum besitzt. Daher kann in kein Extremum besitzen. Auf den durch und gegebenen Geraden ist die Funktion die Nullfunktion.
Es sei
eine stetige Funktion, die im Nullpunkt folgende Eigenschaft erfülle. Zu jeder Geraden durch den Nullpunkt besitzt die auf eingeschränkte Funktion ein lokales isoliertes Maximum. Jeder Wanderer, der durch das durch gegebene Gebirge schnurstracks in eine bestimmte Richtung durch den Punkt läuft, wird also in diesem Punkt ein Gipfelerlebnis haben. Folgt daraus, dass wirklich ein Gipfel vorliegt? Das folgende Beispiel zeigt, dass das nicht der Fall sein muss.
Wir betrachten im die beiden Kreise und , wobei den Mittelpunkt und Radius und den Mittelpunkt und Radius habe. liegt innerhalb von , und die beiden Kreise berühren sich in . Durch diese beiden Kreise wird die Ebene (neben den zwei Kreislinien selbst) in drei offene Gebiete aufgeteilt: Das Innere des Kreises (), die große offene Kreisscheibe ohne die kleine abgeschlossene Kreisscheibe () und das Äußere von (). Der innere Kreis wird als Nullstelle der Funktion
beschrieben. Im Innern von ist diese Funktion negativ, auf hat sie den Wert und außerhalb davon hat sie positive Werte. Entsprechendes gilt für und die Funktion . Wir setzen
Diese Funktion nimmt auf den beiden Kreisen den Wert an, sie ist auf positiv, auf negativ und auf wieder positiv.
Die Funktion besitzt in kein lokales Minimum, da sie dort den Wert besitzt und da jede beliebig kleine Ballumgebung den Bereich trifft, wo negative Werte besitzt. Die Einschränkung der Funktion auf jede Gerade durch den Nullpunkt besitzt aber dort ein lokales Minimum. Es sei dazu eine solche Gerade. Wenn die -Achse ist, so verläuft diese Gerade (bis auf selbst) in , wo nur positive Werte annimmt, sodass in ein (sogar globales) Minimum vorliegt. Es sei also eine von der -Achse verschiedene Gerade durch . Die eine Hälfte der Geraden verläuft ganz in , wo die Funktion positiv ist. Die andere Hälfte verläuft, ausgehend von , zuerst in , dann in und schließlich wieder in . Da die Funktion auf positiv ist, kann man ein Teilintervall der Geraden derart wählen, dass dieses Teilstück (abgesehen von ) nur in und verläuft. Auf diesem Teilintervall nimmt die Funktion in den Wert und sonst überall positive Werte an. Daher besitzt die eingeschränkte Funktion ein lokales Minimum. Das dabei zu wählende hängt natürlich wesentlich von der Steigung der Geraden ab, es gibt kein gemeinsames für alle Geraden.
- Der Gradient
Wenn eine Funktion total differenzierbar ist, so ist das totale Differential in einem Punkt eine lineare Abbildung von nach . Für solche linearen Abbildungen gibt es einen eigenen Namen.
Wenn ist, so bilden die partiellen Ableitungen von
in einem Punkt eine Matrix mit einer einzigen Zeile, die bei stetigen partiellen Ableitungen das totale Differential repräsentiert. Eine solche Matrix kann man aber ebenso auch als ein -Tupel in und damit als einen Vektor in auffassen.
Es sei ein euklidischer Vektorraum und
eine Linearform.
Dann gibt es einen eindeutig bestimmten Vektor mit
Wenn eine Orthonormalbasis von und ist, so ist dieser Vektor gleich .
Die Aussage folgt aus dem Zusatz. Es sei also eine Orthonormalbasis gegeben und sei . Dann ist für jedes
D.h. die beiden linearen Abbildungen und stimmen auf einer Basis überein, sind also nach Satz 9.5 identisch. Für jeden anderen Vektor ist der Wert der zugehörigen Linearform an mindestens einem Basisvektor von verschieden, daher liegt Eindeutigkeit vor.
Es sei ein euklidischer Vektorraum, offen und
eine in differenzierbare Funktion. Dann nennt man den eindeutig bestimmten Vektor mit
für alle den Gradienten von in . Er wird mit
bezeichnet.
Man beachte, dass wir durchgehend die endlichdimensionalen Vektorräume mit einem Skalarprodukt versehen, um topologische Grundbegriffe wie Konvergenz und Stetigkeit zur Verfügung zu haben, dass diese Begriffe aber nicht von dem gewählten Skalarprodukt abhängen. Dem entgegen hängt aber der Gradient von dem gewählten Skalarprodukt ab.
Bei , versehen mit dem Standardskalarprodukt, ist der Gradient einfach gleich
Zu einer differenzierbaren Funktion lässt sich der Gradient (bezüglich des Standardskalarproduktes) einfach durch partielles Differenzieren berechnen. Es wäre aber eine künstliche Einschränkung, nur diese Situation zu betrachten. Um dies zu illustrieren sei beispielsweise
eine differenzierbare Funktion und eine Ebene, die etwa als Lösungsmenge der linearen Gleichung gegeben sei. Dann induziert das Standardskalarprodukt des durch Einschränkung ein Skalarprodukt auf . Diese Ebene ist zwar isomorph zu , es ergibt aber keinen Sinn, das eingeschränkte Skalarprodukt als Standardskalarprodukt anzusprechen. Der Gradient zu in einem Punkt lässt sich direkt mit den partiellen Ableitungen zu den drei Raumkoordinaten berechnen. Bei wird im Allgemeinen der Gradient nicht auf liegen. Die eingeschränkte Funktion
ist aber ebenfalls differenzierbar und besitzt daher einen Gradienten , der auf liegt, und dieser lässt sich nicht über partielle Ableitungen berechnen, da es auf keine Standardbasis gibt. Übrigens ist die orthogonale Projektion von auf .
Es sei ein euklidischer Vektorraum, sei offen und sei
eine in differenzierbare Funktion. Dann gelten folgende Aussagen.
- Für jeden Vektor
ist
- Dabei gilt Gleichheit genau dann, wenn linear abhängig zum Gradienten ist.
- Sei . Unter allen Vektoren mit ist die Richtungsableitung in Richtung des normierten Gradienten maximal, und zwar gleich der Norm des Gradienten.
(1) folgt wegen
direkt aus der
Abschätzung von Cauchy-Schwarz.
(2) ergibt sich aus den Zusätzen zur Abschätzung von Cauchy-Schwarz, siehe
Aufgabe 49.13.
(3). Aus (1) und (2) folgt, dass
gilt, und dass diese beiden Vektoren die einzigen Vektoren der Norm sind, für die diese Gleichung gilt. Wenn man links die Betragstriche weglässt, so gilt die Gleichheit für nach wie vor, da das Skalarprodukt positiv definit ist.
Der Gradient gibt demnach die Richtung an, in die die Funktion den stärksten Anstieg hat. In die entgegengesetze Richtung liegt entsprechend der steilste Abstieg vor.
- Lokale Extrema von Funktionen in mehreren Variablen
Wir wollen mit den Mitteln der Differentialrechnung Kriterien erarbeiten, in welchen Punkten eine Funktion
ein lokales Minimum oder ein lokales Maximum annimmt. Wenn man sich den Graph einer solchen Funktion als ein Gebirge über der Grundmenge vorstellt, so geht es also um die Gipfel und die Senken des Gebirges. Der folgende Satz liefert ein notwendiges Kriterium für die Existenz eines lokalen Extremums, das das entsprechende Kriterium in einer Variablen verallgemeinert.
Es sei ein endlichdimensionaler reeller Vektorraum und eine offene Teilmenge. Es sei
eine Funktion, die im Punkt ein lokales Extremum besitzt. Dann gelten folgende Aussagen.
- Wenn in in Richtung
differenzierbar
ist, so ist
- Wenn in
total differenzierbar
ist, so verschwindet das totale Differential, also
(1) Zu betrachten wir die Funktion
wobei ein geeignetes reelles Intervall ist. Da die Funktion in ein lokales Extremum besitzt, besitzt die Funktion in ebenfalls ein lokales Extremum. Nach Voraussetzung ist differenzierbar und nach Satz 20.3 ist . Diese Ableitung stimmt aber mit der Richtungsableitung überein, also ist
(2) folgt aus (1) aufgrund von
Proposition 46.8.
Ein lokales Extremum kann also nur in einem sogenannten kritischen Punkt einer Funktion auftreten.
Es sei ein endlichdimensionaler reeller Vektorraum, offen und
eine differenzierbare Funktion. Dann heißt ein kritischer Punkt von (oder ein stationärer Punkt), wenn
ist. Andernfalls spricht man von einem regulären Punkt.
- Die Hesse-Form
Wir sind natürlich auch an hinreichenden Kriterien für das Vorliegen von lokalen Extrema interessiert. Wie schon im eindimensionalen Fall muss man sich die zweiten Ableitungen anschauen, wobei die Situation natürlich dadurch wesentlich verkompliziert wird, dass es zu je zwei Richtungsvektoren und eine zweite Richtungsableitung gibt. Die zweite Richtungsableitung wird dadurch handhabbar, dass man sie in die sogenannte Hesse-Form bzw. Hesse-Matrix zusammenfasst.
Es sei ein endlichdimensionaler reeller Vektorraum, eine offene Menge und
eine zweimal stetig differenzierbare Funktion. Zu heißt die Abbildung
die Hesse-Form im Punkt .
Es sei ein endlichdimensionaler reeller Vektorraum, eine offene Menge und
eine zweimal stetig differenzierbare Funktion. Es sei eine Basis , , von gegeben mit den zugehörigen Richtungsableitungen , . Zu heißt dann die Matrix
die Hesse-Matrix zu im Punkt bezüglich der gegebenen Basis.
Die Hesse-Form zu einem festen Punkt ordnet also zwei Vektoren eine reelle Zahl zu, und sie ist durch ihre Hesse-Matrix vollständig beschrieben. Damit ordnet sie sich in das Konzept von symmetrischen Bilinearformen ein.
<< | Kurs:Mathematik für Anwender (Osnabrück 2011-2012)/Teil II | >> |
---|