Die mathematischen Grundlagen des zielbasierten Investierens
Entdecke die mathematischen Grundlagen hinter GBIs Investitionsmotor: von Markovschen Kontrollmodellen bis zum Bellmanschen Optimalitätsprinzip. Erfahre, wie die strenge Theorie der Dynamischen Programmierung direkt in optimale Portfoliostrategien übersetzt wird.
Das Ziel des zielbasierten Vermögensmanagements (Goal-Based Wealth Management, GBWM) ist einfach formuliert, aber wirkungsvoll in der Praxis: Gegeben einen festen Anlagehorizont (zum Beispiel zehn Jahre) und ein Zielkapital (der Betrag, den du zum Erreichen deines Ziels benötigst), finde die bestmögliche Portfoliostrategie — eine, die sich im Laufe der Zeit an die Marktentwicklung anpasst — um die Wahrscheinlichkeit zu maximieren, dieses Ziel zu erreichen. Formal suchen wir:
Theorie der Dynamischen Programmierung
Um dieses Problem mathematisch streng zu lösen, greifen wir auf die Theorie der Dynamischen Programmierung zurück. Dieser Abschnitt legt die Kerntheorie in allgemeiner, abstrakter Form dar — zunächst unabhängig vom Investmentkontext. Stell dir vor, wir bauen das formale Gerüst, bevor wir den Raum einrichten. Im nächsten Abschnitt wenden wir diese Theorie direkt auf unser GBWM-Problem an. Wir beginnen mit einigen grundlegenden Definitionen.
Definition 1. Ein Markovsches Kontrollmodell ist ein Fünftupel
bestehend aus:
a) einem Borel-Raum , dem sogenannten Zustandsraum (state space), dessen Elemente als Zustände (states) bezeichnet werden;
b) einem Borel-Raum , dem sogenannten Kontroll- oder Aktionsraum (control or action set);
c) einer Familie nichtleerer messbarer Teilmengen von , wobei die Menge der zulässigen Steuerungen oder Aktionen darstellt, wenn sich das System im Zustand befindet. Die Menge der zulässigen Zustands-Aktions-Paare wird als messbare Teilmenge von angenommen;
d) einem Übergangsgesetz (transition law) ;
e) einer messbaren Funktion , der sogenannten einstufigen Belohnungsfunktion (one-stage reward function).
Einfach ausgedrückt ist ein Markovsches Kontrollmodell eine formale Beschreibung jedes sequenziellen Entscheidungsproblems. Es legt fest: wo sich das System befinden kann (Zustandsraum ), welche Entscheidungen möglich sind (Aktionsraum ), welche Entscheidungen in jedem Zustand zulässig sind (), wie sich das System in Reaktion auf eine Entscheidung entwickelt (Übergangsgesetz ) und was du dabei gewinnst (Belohnungsfunktion ).
Definition 2. Eine Kontrollpolitik ist eine Folge von -messbaren Zufallsvariablen . Existiert eine Folge messbarer Funktionen mit: , so heisst die Politik eine deterministische Markov-Politik (deterministic Markov policy).
Anschaulich gesprochen ist eine Kontrollpolitik einfach eine Entscheidungsregel — sie sagt dir, welche Aktion du zu jedem Zeitpunkt ergreifen sollst. Die handhabbarste Art ist eine deterministische Markov-Politik: In jedem Schritt wird der aktuelle Zustand mithilfe einer festen Funktion direkt auf eine Aktion abgebildet, ohne Zufälligkeit in der Entscheidung selbst.
Gegeben ein Markovsches Kontrollmodell, besteht unser Ziel darin, die über den gesamten Horizont kumulierte erwartete Gesamtbelohnung zu maximieren. Dies wird durch die folgende Kriteriumsfunktion erfasst:
wobei die Terminale Belohnungsfunktion ist. ist die erwartete Gesamtbelohnung, wenn man im Zustand startet und der Politik folgt: Die Summe sammelt die Belohnungen in jedem Zwischenschritt, und ist die Belohnung im letzten Schritt.
Wir nennen die Wertefunktion (value function) — sie gibt die bestmögliche erwartete Belohnung aus dem Zustand an, optimiert über alle zulässigen Politiken in
Unser Ziel ist es dann, eine optimale Politik
Unter bestimmten technischen Voraussetzungen garantiert das folgende Theorem die Existenz einer optimalen Politik — und zeigt uns entscheidend, wie wir sie durch Rückwärtsinduktion finden können.
Theorem 1. Seien
Angenommen, diese Funktionen sind messbar und für jedes
Dann ist die (deterministische Markov-)Politik
Dies ist die mathematische Formulierung der Rückwärtsinduktion. Anstatt alle möglichen Strategien gleichzeitig zu durchsuchen — eine überwältigende Aufgabe — lösen wir das Problem Schritt für Schritt, beginnend am Ende. Bei jedem Schritt
Einen Beweis zu Theorem 1 findest du in Hernandez-Lasserre (1996), Abschnitt 3.2.
Um eine Intuition für dieses Ergebnis zu entwickeln, betrachte die verbleibende Belohnung (reward-to-go) — die gesamte erwartete Belohnung, die du ab dem Zeitpunkt
Es lässt sich zeigen, dass
Das heisst,
Es gibt auch ein komplementäres Ergebnis, das vollständig charakterisiert, wann eine Politik optimal ist. Eine Politik
Dieses Ergebnis ist als Bellmansches Optimalitätsprinzip (Bellman's Principle of Optimality) bekannt (siehe Bellman (1957) für eine vollständige Beschreibung und den Beweis). Anschaulich bedeutet es: Eine global optimale Strategie muss in jedem Schritt lokal optimal sein — es gibt keine vorteilhaften 'kurzfristigen Opfer.' Wenn eine Politik ab einem bestimmten Zustand suboptimal ist, kann sie nicht global optimal sein.
Bevor wir diese Theorie auf unser Problem anwenden, müssen wir eine wichtige technische Voraussetzung von Theorem 1 ansprechen: In jedem Rückwärtsschritt muss eine maximierende Aktion
Annahme 1. Das Markovsche Kontrollmodell und eine gegebene messbare Funktion
messbar ist und eine messbare Funktion
Mit anderen Worten garantiert Annahme 1, dass die 'beste Aktion' in jedem Zustand nicht nur angenähert wird, sondern tatsächlich durch eine wohldefinierte Funktion
Hernandez-Lasserre (1996), Abschnitt 3.3, nennt drei hinreichende Bedingungsmengen, unter denen Annahme 1 gilt. Die für unsere Anwendung relevanteste lautet wie folgt.
Theorem 2. Mit der gleichen Notation wie oben impliziert die folgende Menge von Bedingungen
a)
b) die einstufige Belohnung
c) das Übergangsgesetz
ist beschränkt und stetig auf
Annahme 1 für jede nicht-negative messbare Funktion
Einfach gesagt besagt Theorem 2: Wenn die Menge der verfügbaren Aktionen kompakt ist und stetig mit dem Zustand variiert (a), die Belohnungsfunktion gutartig ist — stetig und beschränkt (b) — und das Übergangsgesetz glatt auf Veränderungen im Zustand und in der Aktion reagiert, d.h. kleine Änderungen der Eingaben führen zu kleinen Änderungen der erwarteten Ausgaben (Feller-Bedingung in c) — dann ist garantiert, dass der Rückwärtsinduktionsalgorithmus funktioniert.
GBWM als Dynamisches Programmierproblem
Mit dem nun gelegten theoretischen Fundament können wir unser Investitionsproblem direkt auf das Markovsche Kontrollmodell abbilden. Wir verwenden dabei die gleiche Terminologie wie oben:
a) Der Zustandsraum
b) Der Aktionsraum
c) Die Familie
d) Das Übergangsgesetz
Zustandsraum, Aktionsraum und Übergangsgesetz lassen sich natürlich auf unser Rahmenwerk abbilden. Die Belohnungsfunktion
Es gibt zwei Unterschiede zwischen dem Standard-Dynamischen-Programmieraufbau und unserem Problem. Erstens maximiert die Dynamische Programmierung typischerweise einen Erwartungswert, während wir eine Wahrscheinlichkeit maximieren möchten. Zweitens hat unser Problem nur eine einzige Belohnung am Ende — das Erreichen des Ziels — während die Standardformulierung auch Belohnungen in Zwischenschritten erlaubt (eine Variante, die wir auf unserer Plattform ebenfalls für Ziele mit periodischen Auszahlungen verwenden).
Um beide Lücken zu schliessen, setzen wir die Belohnungsfunktion wie folgt an:
Das bedeutet: Die Belohnung ist 1, wenn das Endvermögen das Ziel
erkennen wir, dass das Maximieren des Erwartungswerts dieser Indikatorfunktion exakt dem Maximieren der Wahrscheinlichkeit entspricht, das Ziel zu erreichen — womit der erste Unterschied aufgelöst ist.
Mit dieser Belohnungsfunktion sind die Bedingungen (a) und (c) von Theorem 2 in unserem Rahmen leicht zu verifizieren. Bedingung (b) ist heikler: Da die Belohnung eine Indikatorfunktion ist — die bei der Schwelle
Wir gehen hier nicht auf die technischen Details ein, aber es ist möglich, die Belohnungsfunktion zu regularisieren, um ihre Stetigkeit wiederherzustellen und damit auch diese letzte Bedingung zu erfüllen.
Bibliographie
Hernandez-Lasserre (1996): Hernández-Lerma, O. and Lasserre, J. B. (1996). Discrete-time Markov control processes, Band 30 von Applications of Mathematics (New York). Springer-Verlag, New York. Basic optimality criteria.
Bellman (1957): Bellman, R. (1957). Dynamic programming. Princeton Landmarks in Mathematics. Princeton University Press, Princeton, NJ. Nachdruck der Ausgabe von 1957, mit einer neuen Einleitung von Stuart Dreyfus.
Möchtest du diese Theorie in der Praxis erleben? Teste unser Tool und entdecke, wie Algorithmen der Dynamischen Programmierung wirklich optimale Anlageberatung ermöglichen.