Die mathematischen Grundlagen des zielbasierten Investierens

Entdecke die mathematischen Grundlagen hinter GBIs Investitionsmotor: von Markovschen Kontrollmodellen bis zum Bellmanschen Optimalitätsprinzip. Erfahre, wie die strenge Theorie der Dynamischen Programmierung direkt in optimale Portfoliostrategien übersetzt wird.

Investieren10 minJuni 2026

Folge uns auf unserem YouTube-Kanal

oder über

Das Ziel des zielbasierten Vermögensmanagements (Goal-Based Wealth Management, GBWM) ist einfach formuliert, aber wirkungsvoll in der Praxis: Gegeben einen festen Anlagehorizont $T$ (zum Beispiel zehn Jahre) und ein Zielkapital $G$ (der Betrag, den du zum Erreichen deines Ziels benötigst), finde die bestmögliche Portfoliostrategie $π^{*}$ — eine, die sich im Laufe der Zeit an die Marktentwicklung anpasst — um die Wahrscheinlichkeit zu maximieren, dieses Ziel zu erreichen. Formal suchen wir:

$π^{*} = max_{π} ℙ (W_{T} \geq G) .$

Theorie der Dynamischen Programmierung

Um dieses Problem mathematisch streng zu lösen, greifen wir auf die Theorie der Dynamischen Programmierung zurück. Dieser Abschnitt legt die Kerntheorie in allgemeiner, abstrakter Form dar — zunächst unabhängig vom Investmentkontext. Stell dir vor, wir bauen das formale Gerüst, bevor wir den Raum einrichten. Im nächsten Abschnitt wenden wir diese Theorie direkt auf unser GBWM-Problem an. Wir beginnen mit einigen grundlegenden Definitionen.

Definition 1. Ein Markovsches Kontrollmodell ist ein Fünftupel

$(X, A, {A (x) ∣ x \in X}, ℚ, r)$

bestehend aus:

a) einem Borel-Raum $X$ , dem sogenannten Zustandsraum (state space), dessen Elemente als Zustände (states) bezeichnet werden;

b) einem Borel-Raum $A$ , dem sogenannten Kontroll- oder Aktionsraum (control or action set);

c) einer Familie ${A (x) ∣ x \in X}$ nichtleerer messbarer Teilmengen $A (x)$ von $A$ , wobei $A (x)$ die Menge der zulässigen Steuerungen oder Aktionen darstellt, wenn sich das System im Zustand $x \in X$ befindet. Die Menge der zulässigen Zustands-Aktions-Paare $𝕂 := {(x, a) : x \in X, a \in A (x)}$ wird als messbare Teilmenge von $X \times A$ angenommen;

d) einem Übergangsgesetz (transition law) $ℚ$ ;

e) einer messbaren Funktion $r : 𝕂 \to ℝ$ , der sogenannten einstufigen Belohnungsfunktion (one-stage reward function).

Einfach ausgedrückt ist ein Markovsches Kontrollmodell eine formale Beschreibung jedes sequenziellen Entscheidungsproblems. Es legt fest: wo sich das System befinden kann (Zustandsraum $X$ ), welche Entscheidungen möglich sind (Aktionsraum $A$ ), welche Entscheidungen in jedem Zustand zulässig sind ( ${A (x) ∣ x \in X}$ ), wie sich das System in Reaktion auf eine Entscheidung entwickelt (Übergangsgesetz $ℚ$ ) und was du dabei gewinnst (Belohnungsfunktion $r$ ).

Definition 2. Eine Kontrollpolitik ist eine Folge $π = {π_{t}, t = 0, \dots}$ von $A (x_{t})$ -messbaren Zufallsvariablen ${a_{t}}$ . Existiert eine Folge ${f_{t}}$ messbarer Funktionen $f_{t} : X \to A$ mit: $a_{t} = f_{t} (x_{t})$ , so heisst die Politik $π$ eine deterministische Markov-Politik (deterministic Markov policy).

Anschaulich gesprochen ist eine Kontrollpolitik $π$ einfach eine Entscheidungsregel — sie sagt dir, welche Aktion du zu jedem Zeitpunkt ergreifen sollst. Die handhabbarste Art ist eine deterministische Markov-Politik: In jedem Schritt wird der aktuelle Zustand mithilfe einer festen Funktion $f_{t}$ direkt auf eine Aktion abgebildet, ohne Zufälligkeit in der Entscheidung selbst.

Gegeben ein Markovsches Kontrollmodell, besteht unser Ziel darin, die über den gesamten Horizont $T$ kumulierte erwartete Gesamtbelohnung zu maximieren. Dies wird durch die folgende Kriteriumsfunktion erfasst:

$J (π, x) := 𝔼_{x}^{π} [\sum_{t = 0}^{T - 1} r (x_{t}, a_{t}) + r_{T} (x_{T})]$

wobei $r_{T} (x_{T})$ die Terminale Belohnungsfunktion ist. $J (π, x)$ ist die erwartete Gesamtbelohnung, wenn man im Zustand $x$ startet und der Politik $π$ folgt: Die Summe sammelt die Belohnungen in jedem Zwischenschritt, und $r_{T} (x_{T})$ ist die Belohnung im letzten Schritt.

Wir nennen $J^{*} (x)$ die Wertefunktion (value function) — sie gibt die bestmögliche erwartete Belohnung aus dem Zustand $x$ an, optimiert über alle zulässigen Politiken in $Π :$

$J^{*} (x) := sup_{Π} J (π, x),$

Unser Ziel ist es dann, eine optimale Politik $π^{*} \in Π$ zu finden — eine, die dieses Maximum für jeden Startzustand $x$ tatsächlich erreicht:

$J (π^{*}, x) = J^{*} (x) .$

Unter bestimmten technischen Voraussetzungen garantiert das folgende Theorem die Existenz einer optimalen Politik — und zeigt uns entscheidend, wie wir sie durch Rückwärtsinduktion finden können.

Theorem 1. Seien $J_{0}, \dots, J_{T}$ die auf $X$ rückwärts definierten Funktionen:

$\begin{array}{l} J_{T} (x) := r_{T} (x) \\ J_{t} (x) := max_{A (x)} [r (x, a) + \int_{X} J_{t + 1} (y) ℚ (d y | x, a)], t = T - 1, \dots, 0. \end{array}$

Angenommen, diese Funktionen sind messbar und für jedes $t = 0, \dots, T - 1$ existiert eine messbare Funktion $f_{t}$ , sodass $f_{t} (x) \in A (x)$ das Maximum in obiger Gleichung für alle $x \in X$ erreicht, d.h. $\forall x \in X$ , $t = 0, \dots, T - 1$

$J_{t} (x) = r (x, f_{t}) + \int J_{t + 1} (y) ℚ (d y | x, f_{t}) .$

Dann ist die (deterministische Markov-)Politik $π^{*} = {f_{0}, \dots, f_{T - 1}}$ optimal, und die Wertefunktion $J^{*}$ entspricht $J_{0}$ , d.h.,

$J^{*} (x) = J_{0} (x) = J (π^{*}, x) \forall x \in X .$

Dies ist die mathematische Formulierung der Rückwärtsinduktion. Anstatt alle möglichen Strategien gleichzeitig zu durchsuchen — eine überwältigende Aufgabe — lösen wir das Problem Schritt für Schritt, beginnend am Ende. Bei jedem Schritt $t$ fragen wir: 'Welche Aktion maximiert angesichts meines aktuellen Zustands meine erwartete künftige Belohnung?' Die Antwort in jedem Schritt wird zum Baustein für den vorherigen Schritt.

Einen Beweis zu Theorem 1 findest du in Hernandez-Lasserre (1996), Abschnitt 3.2.

Um eine Intuition für dieses Ergebnis zu entwickeln, betrachte die verbleibende Belohnung (reward-to-go) — die gesamte erwartete Belohnung, die du ab dem Zeitpunkt $t$ noch einsammeln kannst, wenn du dich aktuell im Zustand $x$ befindest und der Politik $π$ folgst:

$R_{t} (π, x) = 𝔼^{π} [\sum_{n = t}^{T - 1} r (x_{n}, a_{n}) + r_{T} (x_{T}) | x_{t} = x]$

Es lässt sich zeigen, dass

$J_{t} = sup_{Π} R_{t} (π, x) \forall x \in X, t = 0, \dots, T,$

Das heisst, $J_{t} (x)$ ist die bestmögliche Belohnung, die du von Zeitpunkt $t$ bis $T$ einsammeln kannst, wenn du im Zustand $x$ startest. Theorem 1 liefert uns damit einen praktischen Algorithmus: Löse das Problem durch Rückwärtsinduktion vom letzten Zeitpunkt $T$ bis zum Zeitpunkt $0$ , Schritt für Schritt — genau das Verfahren, das wir in unserem vorigen Artikel beschrieben haben.

Es gibt auch ein komplementäres Ergebnis, das vollständig charakterisiert, wann eine Politik optimal ist. Eine Politik $π$ ist genau dann optimal, wenn für jedes $t = 0, \dots, T$ und jeden Startzustand $x_{0} = x$ die verbleibende Belohnung gleich der optimalen Wertefunktion ist:

$𝔼_{x}^{π} [R_{t} (π, x_{t})] = 𝔼_{x}^{π} [J_{t} (x_{t})] .$

Dieses Ergebnis ist als Bellmansches Optimalitätsprinzip (Bellman's Principle of Optimality) bekannt (siehe Bellman (1957) für eine vollständige Beschreibung und den Beweis). Anschaulich bedeutet es: Eine global optimale Strategie muss in jedem Schritt lokal optimal sein — es gibt keine vorteilhaften 'kurzfristigen Opfer.' Wenn eine Politik ab einem bestimmten Zustand suboptimal ist, kann sie nicht global optimal sein.

Bevor wir diese Theorie auf unser Problem anwenden, müssen wir eine wichtige technische Voraussetzung von Theorem 1 ansprechen: In jedem Rückwärtsschritt muss eine maximierende Aktion $f_{t} (x)$ tatsächlich existieren — nicht nur im Grenzwert erreichbar sein, sondern wirklich erzielt werden. Annahme 1 präzisiert dies.

Annahme 1. Das Markovsche Kontrollmodell und eine gegebene messbare Funktion $u : X \to ℝ$ sind so beschaffen, dass

$u^{*} (x) = sup_{A (x)} [r (x, a) + \int_{X} u (y) ℚ (d y | x, a)], x \in X$

messbar ist und eine messbare Funktion $f$ existiert, sodass der Ausdruck in eckigen Klammern sein Maximum bei $f (x) \in A (x)$ für alle $x$ annimmt, d.h.,

$u^{*} (x) = r (x, f) + \int_{X} u (y) ℚ (d y | x, f) \forall x \in X .$

Mit anderen Worten garantiert Annahme 1, dass die 'beste Aktion' in jedem Zustand nicht nur angenähert wird, sondern tatsächlich durch eine wohldefinierte Funktion $f$ erreicht wird.

Hernandez-Lasserre (1996), Abschnitt 3.3, nennt drei hinreichende Bedingungsmengen, unter denen Annahme 1 gilt. Die für unsere Anwendung relevanteste lautet wie folgt.

Theorem 2. Mit der gleichen Notation wie oben impliziert die folgende Menge von Bedingungen

a) $A (x)$ ist nichtleer und kompakt für alle $x \in X$ , und die Funktion $x \to A (x)$ ist oberhalb-halbstetig;

b) die einstufige Belohnung $r$ ist stetig und (nach oben) beschränkt;

c) das Übergangsgesetz $ℚ$ erfüllt die Feller-Bedingung (Feller condition), d.h.

$\int v (y) ℚ (d y | x, a)$

ist beschränkt und stetig auf $𝕂$ für jede stetige und beschränkte Funktion $v$ auf $X$ ,

Annahme 1 für jede nicht-negative messbare Funktion $u : X \to ℝ$ .

Einfach gesagt besagt Theorem 2: Wenn die Menge der verfügbaren Aktionen kompakt ist und stetig mit dem Zustand variiert (a), die Belohnungsfunktion gutartig ist — stetig und beschränkt (b) — und das Übergangsgesetz glatt auf Veränderungen im Zustand und in der Aktion reagiert, d.h. kleine Änderungen der Eingaben führen zu kleinen Änderungen der erwarteten Ausgaben (Feller-Bedingung in c) — dann ist garantiert, dass der Rückwärtsinduktionsalgorithmus funktioniert.

GBWM als Dynamisches Programmierproblem

Mit dem nun gelegten theoretischen Fundament können wir unser Investitionsproblem direkt auf das Markovsche Kontrollmodell abbilden. Wir verwenden dabei die gleiche Terminologie wie oben:

a) Der Zustandsraum $X$ wird in unserem Rahmen durch den Vermögensraum ${W_{t}}_{t = 0, \dots, T}$ dargestellt, d.h. ein Zustand $x \in X$ ist ein Vermögenswert $W_{t} = x$ ;

b) Der Aktionsraum $A$ wird durch unsere Portfolioauswahl dargestellt, d.h. $A = {π_{k} (t)}_{k = 1, \dots, N, t = 0, \dots, T}$ , wobei $π_{k} (t)$ das Portfolio der Risikokategorie $k$ zum Zeitpunkt $t$ bezeichnet;

c) Die Familie ${A (x) ∣ x \in X}$ der Teilmengen von $A$ wird durch die Menge der effizienten Einperiodenportfolios dargestellt, die im Zustand $W_{t} = x$ verfügbar sind;

d) Das Übergangsgesetz $ℚ (\cdot | x, π_{k} (t))$ wird durch die Übergangswahrscheinlichkeiten generiert, die im Rahmen unserer Modellierung berechnet werden.

Zustandsraum, Aktionsraum und Übergangsgesetz lassen sich natürlich auf unser Rahmenwerk abbilden. Die Belohnungsfunktion $r : 𝕂 \to ℝ$ erfordert jedoch etwas mehr Sorgfalt.

Es gibt zwei Unterschiede zwischen dem Standard-Dynamischen-Programmieraufbau und unserem Problem. Erstens maximiert die Dynamische Programmierung typischerweise einen Erwartungswert, während wir eine Wahrscheinlichkeit maximieren möchten. Zweitens hat unser Problem nur eine einzige Belohnung am Ende — das Erreichen des Ziels — während die Standardformulierung auch Belohnungen in Zwischenschritten erlaubt (eine Variante, die wir auf unserer Plattform ebenfalls für Ziele mit periodischen Auszahlungen verwenden).

Um beide Lücken zu schliessen, setzen wir die Belohnungsfunktion wie folgt an:

${\begin{cases} r (x_{t}, π_{k} (t)) = 0, & t = 0, \dots, T \forall k = 1, \dots, N \\ r_{T} = 𝟙_{{W_{T} \geq G}}, \end{cases}$

Das bedeutet: Die Belohnung ist 1, wenn das Endvermögen das Ziel $G$ erreicht, und 0, wenn es dahinter zurückbleibt — ein klares Alles-oder-nichts-Ergebnis am Ende des Anlagehorizonts. Da

$𝔼 [𝟙_{{W_{T} \geq G}}] = ℙ (W_{T} \geq G)$

erkennen wir, dass das Maximieren des Erwartungswerts dieser Indikatorfunktion exakt dem Maximieren der Wahrscheinlichkeit entspricht, das Ziel zu erreichen — womit der erste Unterschied aufgelöst ist.

Mit dieser Belohnungsfunktion sind die Bedingungen (a) und (c) von Theorem 2 in unserem Rahmen leicht zu verifizieren. Bedingung (b) ist heikler: Da die Belohnung eine Indikatorfunktion ist — die bei der Schwelle $G$ von 0 auf 1 springt — ist sie nicht stetig und erfüllt daher die Stetigkeitsanforderung nicht direkt.

Wir gehen hier nicht auf die technischen Details ein, aber es ist möglich, die Belohnungsfunktion zu regularisieren, um ihre Stetigkeit wiederherzustellen und damit auch diese letzte Bedingung zu erfüllen.

Bibliographie

Hernandez-Lasserre (1996): Hernández-Lerma, O. and Lasserre, J. B. (1996). Discrete-time Markov control processes, Band 30 von Applications of Mathematics (New York). Springer-Verlag, New York. Basic optimality criteria.

Bellman (1957): Bellman, R. (1957). Dynamic programming. Princeton Landmarks in Mathematics. Princeton University Press, Princeton, NJ. Nachdruck der Ausgabe von 1957, mit einer neuen Einleitung von Stuart Dreyfus.

Möchtest du diese Theorie in der Praxis erleben? Teste unser Tool und entdecke, wie Algorithmen der Dynamischen Programmierung wirklich optimale Anlageberatung ermöglichen.

Eigenes Anlageziel festlegen

Abonnieren Sie unseren Blog

Bleib auf dem Laufenden über die wichtigsten Themen rund ums Investieren und Finanzen – und finde heraus, wie du mit zielorientiertem Investieren dein Vermögen erfolgreich managen kannst!

Ich interessiere mich für die Themenbereiche...