Les fondements mathématiques de l'investissement basé sur les objectifs
Découvre les fondements mathématiques du moteur d'investissement de GBI : des modèles de contrôle markoviens au Principe d'optimalité de Bellman. Apprends comment la théorie rigoureuse de la programmation dynamique se traduit directement en stratégies de portefeuille optimales.
L'objectif de la gestion de patrimoine basée sur les objectifs (Goal-Based Wealth Management, GBWM) est simple à énoncer mais puissant en pratique : étant donné un horizon d'investissement fixe (par exemple dix ans) et un niveau de patrimoine cible (le montant dont tu as besoin pour atteindre ton objectif), trouver la meilleure stratégie de portefeuille possible — une stratégie qui s'adapte au fil du temps à l'évolution des marchés — afin de maximiser la probabilité d'y parvenir. Formellement, nous cherchons :
Théorie de la programmation dynamique
Pour résoudre ce problème de manière rigoureuse, nous nous appuyons sur la théorie mathématique de la programmation dynamique. Cette section présente la théorie de base sous une forme abstraite et générale — indépendante du contexte de l'investissement pour l'instant. Imagine que nous construisons l'échafaudage formel avant d'aménager la pièce. Nous appliquerons cette théorie directement à notre problème GBWM dans la section suivante. Commençons par quelques définitions clés.
Définition 1. Un modèle de contrôle markovien est un quintuplet
composé de :
a) un espace de Borel , appelé l'espace d'états (state space), dont les éléments sont appelés états (states) ;
b) un espace de Borel , appelé l'ensemble de contrôle ou d'actions (control or action set) ;
c) une famille de sous-ensembles mesurables non vides de , où représente l'ensemble des contrôles ou actions admissibles lorsque le système est dans l'état . L'ensemble des paires état-action admissibles est supposé être un sous-ensemble mesurable de ;
d) une loi de transition (transition law) ;
e) une fonction mesurable appelée la fonction de récompense à une étape (one-stage reward function).
En termes simples, un modèle de contrôle markovien est une façon formelle de décrire tout problème de décision séquentielle. Il précise : où le système peut se trouver (l'espace d'états ), quelles décisions sont disponibles (l'ensemble d'actions ), quelles décisions sont admissibles dans chaque état (), comment le système évolue en réponse à une décision (la loi de transition ) et ce que tu gagnes au fil du temps (la fonction de récompense ).
Définition 2. Une politique de contrôle est une suite de variables aléatoires -mesurables . S'il existe une suite de fonctions mesurables telles que : , alors la politique est appelée une politique markovienne déterministe (deterministic Markov policy).
Intuitivement, une politique de contrôle est simplement une règle de décision — elle te dit quelle action entreprendre à chaque instant. Le type le plus naturel est une politique markovienne déterministe : à chaque étape, elle associe directement l'état courant à une action via une fonction fixe , sans aléatoire dans la décision elle-même.
Étant donné un modèle de contrôle markovien, notre objectif est de maximiser la récompense totale espérée accumulée sur l'horizon entier . Cela est capturé par la fonction critère :
où est la fonction de récompense terminale. Ici, est la récompense totale espérée lorsqu'on démarre dans l'état et qu'on suit la politique : la somme collecte les récompenses à chaque étape intermédiaire, et est la récompense reçue lors de la période finale.
Nous appelons la fonction de valeur (value function) — elle enregistre la meilleure récompense espérée atteignable depuis l'état , optimisée sur toutes les politiques admissibles dans
Notre objectif est alors de trouver une politique optimale
Sous des conditions techniques spécifiques, le théorème suivant garantit l'existence d'une politique optimale — et, surtout, nous indique exactement comment la trouver en remontant dans le temps.
Théorème 1. Soient
Supposons que ces fonctions soient mesurables et que, pour chaque
Alors la politique (markovienne déterministe)
Voici l'énoncé mathématique de l'induction à rebours. Plutôt que de parcourir toutes les stratégies possibles simultanément — une tâche insurmontable — nous résolvons le problème période par période, en partant de la fin. À chaque étape
Pour une preuve du Théorème 1, consulte Hernandez-Lasserre (1996), Section 3.2.
Pour développer l'intuition de ce résultat, considère la récompense résiduelle (reward-to-go) — la récompense totale espérée que tu peux encore collecter à partir du moment
Il est possible de démontrer que
Autrement dit,
Il existe également un résultat complémentaire qui caractérise entièrement quand une politique est optimale. Une politique
Ce résultat est connu sous le nom de Principe d'optimalité de Bellman (Bellman's Principle of Optimality) (voir Bellman (1957) pour une description complète et la preuve). Intuitivement, cela signifie qu'une stratégie globalement optimale doit également être localement optimale à chaque étape — il n'y a pas de 'sacrifices à court terme' bénéfiques. Si une politique est sous-optimale à partir d'un certain état, elle ne peut pas être globalement optimale.
Avant d'appliquer cette théorie à notre problème, nous devons aborder une exigence technique importante du Théorème 1 : à chaque étape du raisonnement à rebours, une action maximisante
Hypothèse 1. Le modèle de contrôle markovien et une fonction mesurable donnée
est mesurable et il existe une fonction mesurable
En d'autres termes, l'Hypothèse 1 garantit que la 'meilleure action' dans chaque état n'est pas seulement approchée, mais est effectivement atteinte par une fonction
Hernandez-Lasserre (1996), Section 3.3, fournit trois ensembles de conditions suffisantes sous lesquelles l'Hypothèse 1 est vérifiée. Celui qui est le plus pertinent pour notre application est le suivant.
Théorème 2. Avec les mêmes notations que ci-dessus, l'ensemble de conditions suivant
a)
b) la récompense à une étape
c) la loi de transition
est bornée et continue sur
implique l'Hypothèse 1 pour toute fonction mesurable non négative
En termes simples, le Théorème 2 dit : si l'ensemble des actions disponibles est compact et varie continûment avec l'état (a), la fonction de récompense est bien comportée — continue et bornée (b), et la loi de transition répond de façon régulière aux variations de l'état et de l'action, dans le sens où de petits changements en entrée produisent de petits changements dans les résultats espérés (la condition de Feller en c) — alors l'algorithme d'induction à rebours est garanti de fonctionner.
Le GBWM comme problème de programmation dynamique
Le fondement théorique étant maintenant établi, nous pouvons projeter notre problème d'investissement directement sur le cadre du modèle de contrôle markovien. En utilisant la terminologie introduite ci-dessus :
a) L'espace d'états
b) L'ensemble d'actions
c) La famille
d) La loi de transition
L'espace d'états, l'ensemble d'actions et la loi de transition s'inscrivent naturellement dans notre cadre. La fonction de récompense
Il existe deux différences entre la configuration standard de la programmation dynamique et notre problème. Premièrement, la programmation dynamique maximise typiquement une espérance, alors que nous souhaitons maximiser une probabilité. Deuxièmement, notre problème ne comporte qu'une seule récompense en fin d'horizon — atteindre l'objectif — tandis que la formulation standard permet des récompenses à des étapes intermédiaires (une variante que nous utilisons également sur notre plateforme pour certains objectifs avec des versements périodiques).
Pour combler ces deux différences, nous définissons la fonction de récompense comme suit :
Cela signifie que la récompense est 1 si le patrimoine final atteint l'objectif
nous voyons que maximiser l'espérance de cette fonction indicatrice revient exactement à maximiser la probabilité d'atteindre l'objectif — ce qui résout la première différence.
Avec cette fonction de récompense, les conditions (a) et (c) du Théorème 2 sont faciles à vérifier dans notre cadre. La condition (b) est plus délicate : parce que la récompense est une fonction indicatrice — passant de 0 à 1 au seuil
Nous n'entrons pas dans les détails techniques ici, mais il est possible de régulariser la fonction de récompense de façon à rétablir sa continuité, permettant ainsi de satisfaire également cette dernière condition.
Bibliographie
Hernandez-Lasserre (1996): Hernández-Lerma, O. and Lasserre, J. B. (1996). Discrete-time Markov control processes, volume 30 d'Applications of Mathematics (New York). Springer-Verlag, New York. Basic optimality criteria.
Bellman (1957): Bellman, R. (1957). Dynamic programming. Princeton Landmarks in Mathematics. Princeton University Press, Princeton, NJ. Réimpression de l'édition de 1957, avec une nouvelle introduction de Stuart Dreyfus.
Tu veux voir cette théorie en action ? Essaie notre outil et découvre comment les algorithmes de programmation dynamique permettent une véritable optimisation des conseils en investissement.