Les fondements mathématiques de l'investissement basé sur les objectifs

Découvre les fondements mathématiques du moteur d'investissement de GBI : des modèles de contrôle markoviens au Principe d'optimalité de Bellman. Apprends comment la théorie rigoureuse de la programmation dynamique se traduit directement en stratégies de portefeuille optimales.

Investissement10 minJune 2026

Suivez-nous sur notre chaîne youtube

ou via

L'objectif de la gestion de patrimoine basée sur les objectifs (Goal-Based Wealth Management, GBWM) est simple à énoncer mais puissant en pratique : étant donné un horizon d'investissement fixe $T$ (par exemple dix ans) et un niveau de patrimoine cible $G$ (le montant dont tu as besoin pour atteindre ton objectif), trouver la meilleure stratégie de portefeuille possible $π^{*}$ — une stratégie qui s'adapte au fil du temps à l'évolution des marchés — afin de maximiser la probabilité d'y parvenir. Formellement, nous cherchons :

$π^{*} = max_{π} ℙ (W_{T} \geq G) .$

Théorie de la programmation dynamique

Pour résoudre ce problème de manière rigoureuse, nous nous appuyons sur la théorie mathématique de la programmation dynamique. Cette section présente la théorie de base sous une forme abstraite et générale — indépendante du contexte de l'investissement pour l'instant. Imagine que nous construisons l'échafaudage formel avant d'aménager la pièce. Nous appliquerons cette théorie directement à notre problème GBWM dans la section suivante. Commençons par quelques définitions clés.

Définition 1. Un modèle de contrôle markovien est un quintuplet

$(X, A, {A (x) ∣ x \in X}, ℚ, r)$

composé de :

a) un espace de Borel $X$ , appelé l'espace d'états (state space), dont les éléments sont appelés états (states) ;

b) un espace de Borel $A$ , appelé l'ensemble de contrôle ou d'actions (control or action set) ;

c) une famille ${A (x) ∣ x \in X}$ de sous-ensembles mesurables non vides $A (x)$ de $A$ , où $A (x)$ représente l'ensemble des contrôles ou actions admissibles lorsque le système est dans l'état $x \in X$ . L'ensemble des paires état-action admissibles $𝕂 := {(x, a) : x \in X, a \in A (x)}$ est supposé être un sous-ensemble mesurable de $X \times A$ ;

d) une loi de transition (transition law) $ℚ$ ;

e) une fonction mesurable $r : 𝕂 \to ℝ$ appelée la fonction de récompense à une étape (one-stage reward function).

En termes simples, un modèle de contrôle markovien est une façon formelle de décrire tout problème de décision séquentielle. Il précise : où le système peut se trouver (l'espace d'états $X$ ), quelles décisions sont disponibles (l'ensemble d'actions $A$ ), quelles décisions sont admissibles dans chaque état ( ${A (x) ∣ x \in X}$ ), comment le système évolue en réponse à une décision (la loi de transition $ℚ$ ) et ce que tu gagnes au fil du temps (la fonction de récompense $r$ ).

Définition 2. Une politique de contrôle est une suite $π = {π_{t}, t = 0, \dots}$ de variables aléatoires $A (x_{t})$ -mesurables ${a_{t}}$ . S'il existe une suite ${f_{t}}$ de fonctions mesurables $f_{t} : X \to A$ telles que : $a_{t} = f_{t} (x_{t})$ , alors la politique $π$ est appelée une politique markovienne déterministe (deterministic Markov policy).

Intuitivement, une politique de contrôle $π$ est simplement une règle de décision — elle te dit quelle action entreprendre à chaque instant. Le type le plus naturel est une politique markovienne déterministe : à chaque étape, elle associe directement l'état courant à une action via une fonction fixe $f_{t}$ , sans aléatoire dans la décision elle-même.

Étant donné un modèle de contrôle markovien, notre objectif est de maximiser la récompense totale espérée accumulée sur l'horizon entier $T$ . Cela est capturé par la fonction critère :

$J (π, x) := 𝔼_{x}^{π} [\sum_{t = 0}^{T - 1} r (x_{t}, a_{t}) + r_{T} (x_{T})]$

où $r_{T} (x_{T})$ est la fonction de récompense terminale. Ici, $J (π, x)$ est la récompense totale espérée lorsqu'on démarre dans l'état $x$ et qu'on suit la politique $π$ : la somme collecte les récompenses à chaque étape intermédiaire, et $r_{T} (x_{T})$ est la récompense reçue lors de la période finale.

Nous appelons $J^{*} (x)$ la fonction de valeur (value function) — elle enregistre la meilleure récompense espérée atteignable depuis l'état $x$ , optimisée sur toutes les politiques admissibles dans $Π :$

$J^{*} (x) := sup_{Π} J (π, x),$

Notre objectif est alors de trouver une politique optimale $π^{*} \in Π$ — une qui atteint effectivement ce maximum pour chaque état de départ $x$ :

$J (π^{*}, x) = J^{*} (x) .$

Sous des conditions techniques spécifiques, le théorème suivant garantit l'existence d'une politique optimale — et, surtout, nous indique exactement comment la trouver en remontant dans le temps.

Théorème 1. Soient $J_{0}, \dots, J_{T}$ les fonctions sur $X$ définies à rebours par

$\begin{array}{l} J_{T} (x) := r_{T} (x) \\ J_{t} (x) := max_{A (x)} [r (x, a) + \int_{X} J_{t + 1} (y) ℚ (d y | x, a)], t = T - 1, \dots, 0. \end{array}$

Supposons que ces fonctions soient mesurables et que, pour chaque $t = 0, \dots, T - 1$ , il existe une fonction mesurable $f_{t}$ telle que $f_{t} (x) \in A (x)$ atteigne le maximum dans l'équation ci-dessus pour tout $x \in X$ , i.e. $\forall x \in X$ , $t = 0, \dots, T - 1$

$J_{t} (x) = r (x, f_{t}) + \int J_{t + 1} (y) ℚ (d y | x, f_{t}) .$

Alors la politique (markovienne déterministe) $π^{*} = {f_{0}, \dots, f_{T - 1}}$ est optimale, et la fonction de valeur $J^{*}$ est égale à $J_{0}$ , i.e.,

$J^{*} (x) = J_{0} (x) = J (π^{*}, x) \forall x \in X .$

Voici l'énoncé mathématique de l'induction à rebours. Plutôt que de parcourir toutes les stratégies possibles simultanément — une tâche insurmontable — nous résolvons le problème période par période, en partant de la fin. À chaque étape $t$ , nous nous demandons : 'Étant donné ma situation actuelle, quelle action maximise ma récompense future espérée ?' La réponse à chaque étape devient le bloc de construction de l'étape précédente.

Pour une preuve du Théorème 1, consulte Hernandez-Lasserre (1996), Section 3.2.

Pour développer l'intuition de ce résultat, considère la récompense résiduelle (reward-to-go) — la récompense totale espérée que tu peux encore collecter à partir du moment $t$ , sachant que tu te trouves actuellement dans l'état $x$ et que tu suis la politique $π$ :

$R_{t} (π, x) = 𝔼^{π} [\sum_{n = t}^{T - 1} r (x_{n}, a_{n}) + r_{T} (x_{T}) | x_{t} = x]$

Il est possible de démontrer que

$J_{t} = sup_{Π} R_{t} (π, x) \forall x \in X, t = 0, \dots, T,$

Autrement dit, $J_{t} (x)$ est la meilleure récompense que tu peux espérer collecter de l'instant $t$ jusqu'à $T$ , en partant de l'état $x$ . Le Théorème 1 nous fournit donc un algorithme pratique : résoudre le problème en remontant depuis la période finale $T$ jusqu'au temps $0$ , pas à pas — exactement la procédure d'induction à rebours décrite dans notre article précédent.

Il existe également un résultat complémentaire qui caractérise entièrement quand une politique est optimale. Une politique $π$ est optimale si et seulement si, pour tout $t = 0, \dots, T$ et tout état initial $x_{0} = x$ , sa récompense résiduelle est égale à la fonction de valeur optimale :

$𝔼_{x}^{π} [R_{t} (π, x_{t})] = 𝔼_{x}^{π} [J_{t} (x_{t})] .$

Ce résultat est connu sous le nom de Principe d'optimalité de Bellman (Bellman's Principle of Optimality) (voir Bellman (1957) pour une description complète et la preuve). Intuitivement, cela signifie qu'une stratégie globalement optimale doit également être localement optimale à chaque étape — il n'y a pas de 'sacrifices à court terme' bénéfiques. Si une politique est sous-optimale à partir d'un certain état, elle ne peut pas être globalement optimale.

Avant d'appliquer cette théorie à notre problème, nous devons aborder une exigence technique importante du Théorème 1 : à chaque étape du raisonnement à rebours, une action maximisante $f_{t} (x)$ doit réellement exister — non seulement être approchée en limite, mais bel et bien atteinte. L'Hypothèse 1 précise cela.

Hypothèse 1. Le modèle de contrôle markovien et une fonction mesurable donnée $u : X \to ℝ$ sont tels que

$u^{*} (x) = sup_{A (x)} [r (x, a) + \int_{X} u (y) ℚ (d y | x, a)], x \in X$

est mesurable et il existe une fonction mesurable $f$ telle que la fonction entre crochets atteigne son maximum en $f (x) \in A (x)$ pour tout $x$ , i.e.,

$u^{*} (x) = r (x, f) + \int_{X} u (y) ℚ (d y | x, f) \forall x \in X .$

En d'autres termes, l'Hypothèse 1 garantit que la 'meilleure action' dans chaque état n'est pas seulement approchée, mais est effectivement atteinte par une fonction $f$ bien définie.

Hernandez-Lasserre (1996), Section 3.3, fournit trois ensembles de conditions suffisantes sous lesquelles l'Hypothèse 1 est vérifiée. Celui qui est le plus pertinent pour notre application est le suivant.

Théorème 2. Avec les mêmes notations que ci-dessus, l'ensemble de conditions suivant

a) $A (x)$ est non vide et compact pour tout $x \in X$ , et la fonction $x \to A (x)$ est semi-continue supérieurement ;

b) la récompense à une étape $r$ est continue et bornée (par le haut) ;

c) la loi de transition $ℚ$ satisfait la condition de Feller (Feller condition), i.e.

$\int v (y) ℚ (d y | x, a)$

est bornée et continue sur $𝕂$ pour toute fonction $v$ continue bornée sur $X$ ,

implique l'Hypothèse 1 pour toute fonction mesurable non négative $u : X \to ℝ$ .

En termes simples, le Théorème 2 dit : si l'ensemble des actions disponibles est compact et varie continûment avec l'état (a), la fonction de récompense est bien comportée — continue et bornée (b), et la loi de transition répond de façon régulière aux variations de l'état et de l'action, dans le sens où de petits changements en entrée produisent de petits changements dans les résultats espérés (la condition de Feller en c) — alors l'algorithme d'induction à rebours est garanti de fonctionner.

Le GBWM comme problème de programmation dynamique

Le fondement théorique étant maintenant établi, nous pouvons projeter notre problème d'investissement directement sur le cadre du modèle de contrôle markovien. En utilisant la terminologie introduite ci-dessus :

a) L'espace d'états $X$ est représenté dans notre cadre par l'espace de patrimoine ${W_{t}}_{t = 0, \dots, T}$ , i.e. un état $x \in X$ est une valeur de patrimoine $W_{t} = x$ ;

b) L'ensemble d'actions $A$ est représenté par notre sélection de portefeuilles, i.e. $A = {π_{k} (t)}_{k = 1, \dots, N, t = 0, \dots, T}$ , où $π_{k} (t)$ est le portefeuille de catégorie de risque $k$ au moment $t$ ;

c) La famille ${A (x) ∣ x \in X}$ de sous-ensembles de $A$ est représentée par l'ensemble des portefeuilles efficaces d'une période disponibles lorsque le système est dans l'état $W_{t} = x$ ;

d) La loi de transition $ℚ (\cdot | x, π_{k} (t))$ est générée par les probabilités de transition calculées dans le cadre de notre modélisation.

L'espace d'états, l'ensemble d'actions et la loi de transition s'inscrivent naturellement dans notre cadre. La fonction de récompense $r : 𝕂 \to ℝ$ requiert cependant un peu plus d'attention.

Il existe deux différences entre la configuration standard de la programmation dynamique et notre problème. Premièrement, la programmation dynamique maximise typiquement une espérance, alors que nous souhaitons maximiser une probabilité. Deuxièmement, notre problème ne comporte qu'une seule récompense en fin d'horizon — atteindre l'objectif — tandis que la formulation standard permet des récompenses à des étapes intermédiaires (une variante que nous utilisons également sur notre plateforme pour certains objectifs avec des versements périodiques).

Pour combler ces deux différences, nous définissons la fonction de récompense comme suit :

${\begin{cases} r (x_{t}, π_{k} (t)) = 0, & t = 0, \dots, T \forall k = 1, \dots, N \\ r_{T} = 𝟙_{{W_{T} \geq G}}, \end{cases}$

Cela signifie que la récompense est 1 si le patrimoine final atteint l'objectif $G$ , et 0 sinon — un résultat de type tout ou rien en fin d'horizon. Puisque

$𝔼 [𝟙_{{W_{T} \geq G}}] = ℙ (W_{T} \geq G)$

nous voyons que maximiser l'espérance de cette fonction indicatrice revient exactement à maximiser la probabilité d'atteindre l'objectif — ce qui résout la première différence.

Avec cette fonction de récompense, les conditions (a) et (c) du Théorème 2 sont faciles à vérifier dans notre cadre. La condition (b) est plus délicate : parce que la récompense est une fonction indicatrice — passant de 0 à 1 au seuil $G$ — elle n'est pas continue et ne satisfait donc pas directement l'exigence de continuité.

Nous n'entrons pas dans les détails techniques ici, mais il est possible de régulariser la fonction de récompense de façon à rétablir sa continuité, permettant ainsi de satisfaire également cette dernière condition.

Bibliographie

Hernandez-Lasserre (1996): Hernández-Lerma, O. and Lasserre, J. B. (1996). Discrete-time Markov control processes, volume 30 d'Applications of Mathematics (New York). Springer-Verlag, New York. Basic optimality criteria.

Bellman (1957): Bellman, R. (1957). Dynamic programming. Princeton Landmarks in Mathematics. Princeton University Press, Princeton, NJ. Réimpression de l'édition de 1957, avec une nouvelle introduction de Stuart Dreyfus.

Tu veux voir cette théorie en action ? Essaie notre outil et découvre comment les algorithmes de programmation dynamique permettent une véritable optimisation des conseils en investissement.

Fixer ton propre objectif d'investissement

S'abonner à notre blog

Restez au fait des aspects les plus importants de l'investissement et de la finance et apprenez comment utiliser l'investissement basé sur les objectifs pour gérer avec succès votre propre patrimoine.

Je suis intéressé par les domaines de...