Konvexe und konkave Funktionen

In der Analysis heißt eine Funktion f von einem Intervall I (oder allgemeiner einer konvexen Teilmenge C eines reellen Vektorraums) nach R konvex, wenn für alle x, y aus I (bzw. aus C) und t zwischen 0 und 1 gilt:

f(t x+(1-t)y) \le t f(x)+(1-t)f(y)

Anschaulich bedeutet die Definition: Die Funktionswerte zwischen zwei Werten x,y liegen unterhalb der Verbindungsgeraden der beiden Funktionswerte an x und y.

Gilt des Ungleichheitszeichen in die umgekehrte Richtung, also

f(t x+(1-t)y) \ge t f(x)+(1-t)f(y)

für alle x, y aus I und t zwischen 0 und 1 gilt, so wird die Funktion als konkav bezeichnet. Vereinzelt (z.B. in Bronstein-Semendjajew) wird der hier verwendete Begriff "konvex" als "konvex von unten" und im Gegensatz dazu "konkav" als "konvex von oben" bezeichnet.

Eine Funktion heißt streng konvex, wenn für alle x,y aus I (bzw. C) und t zwischen 0 und 1 gilt:

f(tx + (1 − t)y) < tf(x) + (1 − t)f(y).

Analog heißt eine Funktion streng konkav, wenn für alle x,y aus I (bzw. C) und t zwischen 0 und 1 gilt:

f(tx + (1 − t)y) > tf(x) + (1 − t)f(y).

Die besondere Bedeutung konvexer bzw. konkaver Funktionen liegt darin, dass sie allgemeiner als lineare Funktionen sind, aber viele einfach zu untersuchende Eigenschaften haben, die viele Aussagen über nichtlineare Systeme, insbesondere über nicht-lineare Optimierungsprobleme ermöglichen.

Inhaltsverzeichnis

Eigenschaften

Graph

Der Graph einer konvexen Funktion ist so gewölbt, dass die Menge der Punkte oberhalb des Graphen eine konvexe Menge ist, Der Graph einer konkaven Funktion ist so gewölbt, dass die Menge der Punkte unterhalb des Graphen eine konvexe Menge ist. Zu beachten ist, dass eine nicht-konvexe Funktion nicht automatisch konkav sein muss, d.h. konvex und konkav sind hier nicht das exakte Gegenteil voneinander. Jede lineare Funktion ist sowohl konkav als auch konvex, und die Sinusfunktion ist keins von beiden (weder die Menge der Punkte oberhalb des Graphen noch die der Punkte unterhalb des Graphen ist eine konvexe Menge).

Verhältnis konvex und konkav

Eine Funktion f ist genau dann konvex (konkav), wenn die Funktion -f konkav (konvex) ist.

Umkehrfunktion

Ist f invertierbar und setzt man x = f − 1(u),y = f − 1(v), so erhält man für eine konvex Funktion

f(t f^{-1}(u)+(1-t)f^{-1}(v)) \le t u+(1-t)v.

Für eine monoton steigende Funktion gilt also

t f^{-1}(u)+(1-t)f^{-1}(v) \le f^{-1}(t u+(1-t)v),

für eine invertierbare monoton steigende und konvexe (konkave) Funktion hat daher die Umkehrfunktion die umgekehrte Art der Konvexität, ist also monoton steigend und konkav (konvex), siehe z.B. ex und lnx.

Für eine monoton fallende Funktion gilt hingegen

t f^{-1}(u)+(1-t)f^{-1}(v) \ge f^{-1}(t u+(1-t)v),

für eine invertierbare monoton fallende und konvexe (konkave) Funktion hat daher die Umkehrfunktion die gleiche Art der Konvexität, ist also streng monoton steigend und konvex (konkav), siehe z.B. 1 / x auf (-\infty,0) bzw. (0,\infty).

Konvexität und erste Ableitung

Ist f: \R \to \R differenzierbar, dann gilt

Konvexität und zweite Ableitung

Ist die Funktion f: \R \to \R zweimal stetig differenzierbar, dann gilt

Ist die Funktion f: \R^n \to \R zweimal stetig differenzierbar, dann gilt

Extremwerte

Da konvexe bzw. konkave Funktionen die Eindeutigkeit von Extremwerten sicherstellen, spielen sie in der nicht-linearen Optimierung eine wichtige Rolle.

Verknüpfungen

Linearkombination

Sind f und g zwei konvexe (konkave) Funktionen, so ist auch jede Linearkombination af + bg mit nichtnegativen Koeffizienten a,b wieder konvex (konkav).

Grenzwert

Der Grenzwert einer punktweise konvergenten Folge konvexer (konkaver) Funktionen ist auch wieder eine konvexe (konkave) Funktion. Ebenso ist die Summe einer punktweise konvergenten Reihe konvexer (konkaver) Funktionen ist auch wieder eine konvexe (konkave) Funktion.

Supremum konvexer Funktionen

Ist \lbrace f_\alpha:\alpha \in A \rbrace eine Menge konvexer Funktionen, und existiert punktweise das Supremum

f(x):=\sup_{\alpha\in A}f_{\alpha}(x)

für alle x, so ist auch f eine konvexe Funktion.

Infimum konkaver Funktionen

Ist \lbrace f_\alpha:\alpha \in A \rbrace eine Menge konkaver Funktionen, und existiert punktweise das Infimum

f(x):=\inf_{\alpha\in A}f_{\alpha}(x)

für alle x, so ist auch f eine konkave Funktion.

Jensensche Ungleichung

Für konvexe und konkave Funktionen gilt die Jensensche Ungleichung.

Der Fall t<0 bzw. t>1

Für t < 0 oder t > 1 dreht sich das Ungleichheitszeichen um, für konvexe Funktionen gilt dann also

f(t x+(1-t)y) \ge t f(x)+(1-t)f(y)

sofern u: = tx + (1 − t)y noch im Intervall I (bzw. in der konvexen Menge C) ist. Um das zu sehen sei beispielsweise t > 1, dann gilt x=\frac{1}{t}u+\frac{t-1}{t}y, wegen Konvexität also

f(x)=f(\frac{1}{t}u+\frac{t-1}{t}y)\le \frac{1}{t}f(u)+\frac{t-1}{t}f(y), somit
t f(x) + (1-t)f(y)\le f(u)=f(t x+(1-t)y).

Konvexität und Stetigkeit

Jede auf einem offenen Intervall konvexe Funktion ist stetig. Setzt man umgekehrt Stetigkeit voraus, so reicht für Konvexität bereits die Bedingung, dass für alle x,y aus I gilt:

f\left(\frac{x+y}{2}\right) \le \frac{f(x)+f(y)}{2}.

Beispiele

Konvexität, Beschränktheit und Stetigkeit

Schwächere Definition der Konvexität

Setzt man Stetigkeit voraus, so reicht für Konvexität bereits die Bedingung, dass für alle x,y einer konvexen Teilmenge C eines reellen topologischen Vektorraums gilt:

f\left(\frac{x+y}{2}\right) \le \frac{f(x)+f(y)}{2}.

Um dies zu sehen, betrachtet man die Menge T aller "guten" t, die durch

T=\lbrace t \in (0,1): f(t x+(1-t)y) \le t f(x)+(1-t)f(y) \forall x,y \in C\rbrace

definiert ist. Seien nun \lambda,\mu\in T. Dann gilt

f\left(\lambda\mu x + (1-\lambda\mu)y\right)=f\left(\lambda(\mu x + (1-\mu)y)+(1-\lambda)y\right)
\le \lambda f(\mu x + (1-\mu)y)+(1-\lambda)f(y)
\leq \lambda\mu f(x)+ \lambda(1-\mu)f(y) +(1-\lambda)f(y)=\lambda\mu f(x)+ (1-\lambda\mu)f(y).

Somit ist dann auch \lambda\mu\in T und analog auch (1-\lambda)\mu,\lambda(1-\mu),(1-\lambda)(1-\mu) \in T.

Laut Voraussetzung ist \frac{1}{2}\in T. Man erhält damit sukzessive \frac{1}{4},\frac{3}{4},\frac{1}{8},\frac{3}{8},\frac{5}{8},\frac{7}{8}, \dots \in T. Damit ist T eine dichte Teilmenge des Intervalls (0,1); wegen der Stetigkeit von f enthält T daher alle Zahlen des Intervalls.

Gegenbeispiel ohne Stetigkeit

Dass Stetigkeit für die schwächere Definition wirklich benötigt wird, lässt sich mit folgendem Gegenbeispiel zeigen: Ist bj\in \R, j\in J eine Hamelbasis des Vektorraums der reellen Zahlen über dem Körper der rationalen Zahlen, also eine über den rationalen Zahlen linear unabhängige Menge reeller Zahlen, in der jede reelle Zahl r eine Darstellung der Art r=\sum_{j\in J}q_j b_j mit nur endlich vielen rationalen q_j\neq 0 hat, so erfüllt bei beliebiger Wahl von f(bj) die Funktion f(r):=\sum_{j\in J}q_j f(b_j) zwar f\left(\frac{x+y}{2}\right) \le \frac{f(x)+f(y)}{2}, ist aber nicht notwendigerweise konvex.

Beschränktheit und Konvexität

Setzt man für eine Funktion f zusätzlich zur Bedingung dass für alle x,y aus einer konvexen Teilmenge C eines normierten Vetkorraums die Beziehung

f\left(\frac{x+y}{2}\right) \le \frac{f(x)+f(y)}{2}

gilt, noch voraus, dass f nach oben beschränkt ist, so folgt daraus bereits die Stetigkeit von f in den inneren Punkten von C. Anschaulich wird dies daraus klar, dass man an einer Unstetigkeitsstelle eine beliebig steile Verbindungsgerade zwischen zwei Funktionswerten ziehen kann, wobei die Funktion zwischen den beiden Werten unterhalb der Verbindungsgeraden und außerhalb der beiden Werte oberhalb der Verbindungsgerade liegen muss. Kann die Verbindungsgerade nun beliebig steil werden, so stößt man irgendwann über die obere Schranke der Funktion.

Formal ist der Beweis allerdings etwas komplizierter. Zunächst beachte man, dass aus den obigen Voraussetzungen für natürliche Zahlen n und

x=\frac{1}{2^n}u+\left(1-\frac{1}{2^n}\right)y

folgt, dass

f(x)\le \frac{1}{2^n}f(u)+\left(1-\frac{1}{2^n}\right)f(y)

bzw.

f(u)=f(2^n x - (2^n-1)y)\geq 2^n f(x) - (2^n-1)f(y).

Sei nun a ein beliebiger innerer Punkt von C und

B_\rho(a)=\lbrace x:\|x-a\|<\rho\rbrace\subseteq C

eine zur Gänze in C enthaltene offene Kugel um a. Wäre nun f nicht stetig in a, so gäbe es ein \varepsilon>0 sodass für jedes δ > 0 ein x existiert, sodass zwar \|a-x\|<\delta aber |f(x)-f(a)|>\varepsilon. Sein nun n\in\N so gewählt, dass

2^n-1>\frac{M-f(a)}{\varepsilon},

wobei M eine obere Schranke für f sei. Wählt man nun \delta=\frac{\rho}{2^n}, so existiert also ein x mit

\|x-a\|<\frac{\rho}{2^n}

aber

|f(x)-f(a)|>\varepsilon.

Angenommen, f(x) > f(a) + ε. Dann gilt für y: = 2nx − (2n − 1)a

f(y)=f(2^nx-(2^n-1)a)\ge 2^n f(x) - (2^n-1)f(a)> f(a)+2^n\epsilon > M.

Das kann aber nicht sein, da \|y-a\|=2^n\|x-a\|<\rho. Daher liegt y in C und es muss f(y) < M gelten.

Sei daher f(x) < f(a) − ε. Dann gilt für z: = 2na − (2n − 1)x

f(z)=f(2^n a-(2^n-1)x)\ge 2^n f(a) - (2^n-1)f(x)> f(a)+(2^n-1)\epsilon > M.

Das kann aber auch nicht sein, da \|z-a\|=(2^n-1)\|x-a\|<\rho. Daher liegt auch z in C und es muss ebenfalls f(z) < M gelten.

f muss daher stetig in a sein.

Die Aussage, dass eine konvexe beschränkte Funktion stetig in den inneren Punkten ist, ist auch bedeutsam für das Lösen der Funktionalgleichung

f(x + y) = f(x) + f(y)
f(1) = a.

Aus dieser Aussage folgt nämlich, dass diese Funktionalgleichung eine eindeutige Lösung hat, wenn zusätzlich gefordert wird, dass f beschränkt ist.

Unendlichdimensionaler Fall

Im unendlichdimensionalen Fall brauchen konvexe Funktionen nicht stetig sein, da es lineare (also somit auch konvexe) Funktionale gibt, die nicht stetig sind. Allerdings gilt, dass beschränkte konvexe Funktionale eines normierten Vektorraums stetig sind.

Endlichdimensionaler Fall

Innere Punkte

Konvexe Funktionen f einer konvexen Teilmenge C des endlichdimensionalen reellen Vektorraums \R^n sind stetig in den inneren Punkten. Um das zu sehen, betrachte man einen inneren Punkt a\in C. Für diesen existiert ein Simplex S_n\subseteq C mit den Eckpunkten p_1,\dots,p_n,p_{n+1}, der a wieder als inneren Punkt enthält. Jeder Punkt x\in S_n ist aber in der Form

x=\sum_{j=1}^{n+1}t_jp_j

mit

tj = 1
j

und 0\le t_j\le 1 für alle j darstellbar. Nach der Jensenschen Ungleichung gilt nun

f(x)=f\left(\sum_{j=1}^{n+1}t_jp_j\right)\le\sum_{j=1}^{n+1}t_j f(p_j)\le\max f(p_j)=:M.

f ist daher nach oben beschränkt und somit, wie oben gezeigt wurde, stetig im inneren Punkt a.

Randpunkte

In Randpunkten können konvexe Funktionen unstetig sein, wie das Beispiel der Funktion [0,\infty)\to \R mit

f(x)=\begin{cases}1 \qquad \textrm{falls} \quad x=0 \\ 0 \qquad \textrm{sonst}\end{cases}

zeigt, die zwar konvex ist, aber am Randpunkt x = 0 eine Unstetigkeit aufweist.

Literatur


Kategorie:Analysis

See also: Konvexe und konkave Funktionen, Absoluter Betrag, Analysis, Bernoullische Ungleichung, Beschränkt, Definitheit, Dicht (Topologie), Differentialrechnung, Exponentialfunktion, Extremwert