Le basi matematiche dell'investimento basato sugli obiettivi

Scopri le basi matematiche del motore di investimento di GBI: dai modelli di controllo markoviani al Principio di Ottimalità di Bellman. Scopri come la rigorosa teoria della programmazione dinamica si traduce direttamente in strategie di portafoglio ottimali.

Investimenti10 minJune 2026

Seguiteci sul nostro canale youtube

o tramite

L'obiettivo della gestione patrimoniale basata sugli obiettivi (Goal-Based Wealth Management, GBWM) è semplice da enunciare ma potente nella pratica: dato un orizzonte temporale fisso $T$ (ad esempio dieci anni) e un livello di patrimonio obiettivo $G$ (l'importo di cui hai bisogno per raggiungere il tuo obiettivo), trovare la migliore strategia di portafoglio possibile $π^{*}$ — una che si adatti nel tempo all'evoluzione dei mercati — per massimizzare la probabilità di arrivarci. Formalmente, cerchiamo:

$π^{*} = max_{π} ℙ (W_{T} \geq G) .$

Teoria della programmazione dinamica

Per risolvere questo problema in modo rigoroso, ci affidiamo alla teoria matematica della programmazione dinamica. Questa sezione espone la teoria di base in forma astratta e generale — indipendente dal contesto degli investimenti per ora. Pensa a questo come alla costruzione dell'impalcatura formale prima di arredare la stanza. Applicheremo questa teoria direttamente al nostro problema GBWM nella sezione successiva. Iniziamo con alcune definizioni fondamentali.

Definizione 1. Un modello di controllo markoviano è una quintupla

$(X, A, {A (x) ∣ x \in X}, ℚ, r)$

composta da:

a) uno spazio di Borel $X$ , detto spazio degli stati (state space), i cui elementi sono chiamati stati (states);

b) uno spazio di Borel $A$ , detto insieme di controllo o di azioni (control or action set);

c) una famiglia ${A (x) ∣ x \in X}$ di sottoinsiemi misurabili non vuoti $A (x)$ di $A$ , dove $A (x)$ rappresenta l'insieme delle azioni ammissibili quando il sistema si trova nello stato $x \in X$ . L'insieme delle coppie stato-azione ammissibili $𝕂 := {(x, a) : x \in X, a \in A (x)}$ è assunto essere un sottoinsieme misurabile di $X \times A$ ;

d) una legge di transizione (transition law) $ℚ$ ;

e) una funzione misurabile $r : 𝕂 \to ℝ$ detta funzione di ricompensa a una fase (one-stage reward function).

In parole semplici, un modello di controllo markoviano è un modo formale di descrivere qualsiasi problema di decisione sequenziale. Specifica: dove il sistema può trovarsi (lo spazio degli stati $X$ ), quali decisioni sono disponibili (l'insieme di azioni $A$ ), quali decisioni sono ammissibili in ogni stato ( ${A (x) ∣ x \in X}$ ), come il sistema evolve in risposta a una decisione (la legge di transizione $ℚ$ ) e cosa guadagni lungo il percorso (la funzione di ricompensa $r$ ).

Definizione 2. Una politica di controllo è una sequenza $π = {π_{t}, t = 0, \dots}$ di variabili casuali $A (x_{t})$ -misurabili ${a_{t}}$ . Se esiste una sequenza ${f_{t}}$ di funzioni misurabili $f_{t} : X \to A$ tali che: $a_{t} = f_{t} (x_{t})$ , allora la politica $π$ è detta politica markoviana deterministica (deterministic Markov policy).

Intuitivamente, una politica di controllo $π$ è semplicemente una regola decisionale — ti dice quale azione intraprendere in ogni momento. Il tipo più praticabile è una politica markoviana deterministica: a ogni passo, associa direttamente lo stato corrente a un'azione tramite una funzione fissa $f_{t}$ , senza aleatorietà nella decisione stessa.

Dato un modello di controllo markoviano, il nostro obiettivo è massimizzare la ricompensa totale attesa accumulata sull'intero orizzonte $T$ . Questo è catturato dalla funzione criterio:

$J (π, x) := 𝔼_{x}^{π} [\sum_{t = 0}^{T - 1} r (x_{t}, a_{t}) + r_{T} (x_{T})]$

dove $r_{T} (x_{T})$ è la funzione di ricompensa terminale. Qui, $J (π, x)$ è la ricompensa totale attesa partendo dallo stato $x$ e seguendo la politica $π$ : la somma raccoglie le ricompense a ogni passo intermedio, e $r_{T} (x_{T})$ è la ricompensa ricevuta nell'ultimo periodo.

Chiamiamo $J^{*} (x)$ la funzione di valore (value function) — registra la migliore ricompensa attesa raggiungibile dallo stato $x$ , ottimizzata su tutte le politiche ammissibili in $Π :$

$J^{*} (x) := sup_{Π} J (π, x),$

Il nostro obiettivo è quindi trovare una politica ottimale $π^{*} \in Π$ — una che raggiunga effettivamente questo massimo per ogni stato iniziale $x$ :

$J (π^{*}, x) = J^{*} (x) .$

Sotto specifiche condizioni tecniche, il seguente teorema garantisce l'esistenza di una politica ottimale — e, soprattutto, ci dice esattamente come trovarla procedendo a ritroso nel tempo.

Teorema 1. Siano $J_{0}, \dots, J_{T}$ le funzioni su $X$ definite, a ritroso, da

$\begin{array}{l} J_{T} (x) := r_{T} (x) \\ J_{t} (x) := max_{A (x)} [r (x, a) + \int_{X} J_{t + 1} (y) ℚ (d y | x, a)], t = T - 1, \dots, 0. \end{array}$

Supponiamo che queste funzioni siano misurabili e che, per ogni $t = 0, \dots, T - 1$ , esista una funzione misurabile $f_{t}$ tale che $f_{t} (x) \in A (x)$ raggiunga il massimo nell'equazione precedente per tutti gli $x \in X$ , i.e. $\forall x \in X$ , $t = 0, \dots, T - 1$

$J_{t} (x) = r (x, f_{t}) + \int J_{t + 1} (y) ℚ (d y | x, f_{t}) .$

Allora la politica (markoviana deterministica) $π^{*} = {f_{0}, \dots, f_{T - 1}}$ è ottimale, e la funzione di valore $J^{*}$ è uguale a $J_{0}$ , i.e.,

$J^{*} (x) = J_{0} (x) = J (π^{*}, x) \forall x \in X .$

Questa è l'enunciazione matematica dell'induzione a ritroso. Invece di esplorare tutte le possibili strategie contemporaneamente — un compito travolgente — risolviamo il problema periodo per periodo, partendo dalla fine. A ogni passo $t$ , ci chiediamo: 'Dato il mio stato attuale, quale azione massimizza la mia ricompensa futura attesa?' La risposta a ogni passo diventa il mattone per il passo precedente.

Per una dimostrazione del Teorema 1, si rimanda a Hernandez-Lasserre (1996), Sezione 3.2.

Per sviluppare l'intuizione di questo risultato, considera la ricompensa residua (reward-to-go) — la ricompensa totale attesa che puoi ancora raccogliere a partire dall'istante $t$ , dato che ti trovi attualmente nello stato $x$ e stai seguendo la politica $π$ :

$R_{t} (π, x) = 𝔼^{π} [\sum_{n = t}^{T - 1} r (x_{n}, a_{n}) + r_{T} (x_{T}) | x_{t} = x]$

È possibile dimostrare che

$J_{t} = sup_{Π} R_{t} (π, x) \forall x \in X, t = 0, \dots, T,$

Ovvero, $J_{t} (x)$ è la migliore ricompensa che puoi sperare di raccogliere dall'istante $t$ fino a $T$ , partendo dallo stato $x$ . Il Teorema 1 ci fornisce quindi un algoritmo pratico: risolvere il problema procedendo a ritroso dalla periodo finale $T$ fino al tempo $0$ , passo dopo passo — esattamente la procedura di induzione a ritroso descritta nel nostro articolo precedente.

Esiste anche un risultato complementare che caratterizza pienamente quando una politica è ottimale. Una politica $π$ è ottimale se e solo se, per ogni $t = 0, \dots, T$ e ogni stato iniziale $x_{0} = x$ , la sua ricompensa residua è uguale alla funzione di valore ottimale:

$𝔼_{x}^{π} [R_{t} (π, x_{t})] = 𝔼_{x}^{π} [J_{t} (x_{t})] .$

Questo risultato è noto come Principio di Ottimalità di Bellman (Bellman's Principle of Optimality) (si veda Bellman (1957) per una descrizione completa e la dimostrazione). Intuitivamente, significa che una strategia globalmente ottimale deve essere localmente ottimale a ogni passo — non esistono 'sacrifici a breve termine' vantaggiosi. Se una politica è subottimale a partire da un certo stato, non può essere globalmente ottimale.

Prima di applicare questa teoria al nostro problema, dobbiamo affrontare un importante requisito tecnico incorporato nel Teorema 1: a ogni passo a ritroso, un'azione massimizzante $f_{t} (x)$ deve effettivamente esistere — non solo essere avvicinata al limite, ma genuinamente raggiunta. L'Ipotesi 1 rende questo preciso.

Ipotesi 1. Il modello di controllo markoviano e una data funzione misurabile $u : X \to ℝ$ sono tali che

$u^{*} (x) = sup_{A (x)} [r (x, a) + \int_{X} u (y) ℚ (d y | x, a)], x \in X$

è misurabile ed esiste una funzione misurabile $f$ tale che la funzione tra parentesi quadre raggiunga il suo massimo in $f (x) \in A (x)$ per tutti gli $x$ , i.e.,

$u^{*} (x) = r (x, f) + \int_{X} u (y) ℚ (d y | x, f) \forall x \in X .$

In altre parole, l'Ipotesi 1 garantisce che la 'migliore azione' in ogni stato non sia semplicemente avvicinata ma sia effettivamente raggiunta da una funzione $f$ ben definita.

Hernandez-Lasserre (1996), Sezione 3.3, fornisce tre insiemi di condizioni sufficienti sotto le quali l'Ipotesi 1 è verificata. Quello più rilevante per la nostra applicazione è il seguente.

Teorema 2. Con le stesse notazioni di cui sopra, il seguente insieme di condizioni

a) $A (x)$ è non vuoto e compatto per tutti gli $x \in X$ , e la funzione $x \to A (x)$ è semicontinua superiormente;

b) la ricompensa a una fase $r$ è continua e limitata (dall'alto);

c) la legge di transizione $ℚ$ soddisfa la condizione di Feller (Feller condition), i.e.

$\int v (y) ℚ (d y | x, a)$

è limitata e continua su $𝕂$ per ogni funzione $v$ continua e limitata su $X$ ,

implica l'Ipotesi 1 per qualsiasi funzione misurabile non negativa $u : X \to ℝ$ .

In parole semplici, il Teorema 2 dice: se l'insieme delle azioni disponibili è compatto e varia con continuità rispetto allo stato (a), la funzione di ricompensa è ben comportata — continua e limitata (b), e la legge di transizione risponde in modo regolare alle variazioni di stato e di azione, nel senso che piccole variazioni degli input producono piccole variazioni nei risultati attesi (la condizione di Feller in c) — allora è garantito che l'algoritmo di induzione a ritroso funzioni.

Il GBWM come problema di programmazione dinamica

Con le basi teoriche ora stabilite, possiamo proiettare il nostro problema di investimento direttamente sul framework del modello di controllo markoviano. Usando la stessa terminologia introdotta in precedenza:

a) Lo spazio degli stati $X$ è rappresentato nel nostro framework dallo spazio patrimoniale ${W_{t}}_{t = 0, \dots, T}$ , i.e. uno stato $x \in X$ è un valore patrimoniale $W_{t} = x$ ;

b) L'insieme di azioni $A$ è rappresentato dalla nostra selezione di portafoglio, i.e. $A = {π_{k} (t)}_{k = 1, \dots, N, t = 0, \dots, T}$ con $π_{k} (t)$ - portafoglio di categoria di rischio $k$ al tempo $t$ ;

c) La famiglia ${A (x) ∣ x \in X}$ di sottoinsiemi di $A$ è rappresentata dall'insieme dei portafogli efficienti a un periodo disponibili quando il sistema è nello stato $W_{t} = x$ ;

d) La legge di transizione $ℚ (\cdot | x, π_{k} (t))$ è generata dalle probabilità di transizione calcolate nell'ambito della nostra modellazione.

Lo spazio degli stati, l'insieme di azioni e la legge di transizione si mappano naturalmente sul nostro framework. La funzione di ricompensa $r : 𝕂 \to ℝ$ , tuttavia, richiede un po' più di attenzione.

Ci sono due differenze tra l'impostazione standard della programmazione dinamica e il nostro problema. In primo luogo, la programmazione dinamica tipicamente massimizza un valore atteso, mentre noi vogliamo massimizzare una probabilità. In secondo luogo, il nostro problema ha un'unica ricompensa solo alla data finale — raggiungere l'obiettivo — mentre la formulazione standard consente ricompense anche in fasi intermedie (una variante che utilizziamo anche sulla nostra piattaforma per obiettivi con pagamenti periodici).

Per colmare entrambe le differenze, definiamo la funzione di ricompensa come segue:

${\begin{cases} r (x_{t}, π_{k} (t)) = 0, & t = 0, \dots, T \forall k = 1, \dots, N \\ r_{T} = 𝟙_{{W_{T} \geq G}}, \end{cases}$

Ciò significa che la ricompensa è 1 se il patrimonio finale raggiunge l'obiettivo $G$ e 0 altrimenti — un esito netto di tutto o niente alla fine dell'orizzonte. Poiché

$𝔼 [𝟙_{{W_{T} \geq G}}] = ℙ (W_{T} \geq G)$

vediamo che massimizzare il valore atteso di questa funzione indicatrice equivale esattamente a massimizzare la probabilità di raggiungere l'obiettivo — il che risolve la prima differenza.

Con questa funzione di ricompensa, le condizioni (a) e (c) del Teorema 2 sono semplici da verificare nel nostro contesto. La condizione (b) è più delicata: poiché la ricompensa è una funzione indicatrice — che salta da 0 a 1 alla soglia $G$ — non è continua e quindi non soddisfa direttamente il requisito di continuità.

Non entriamo qui nei dettagli tecnici, ma è possibile regolarizzare la funzione di ricompensa in modo da recuperarne la continuità, consentendo così di soddisfare anche quest'ultima condizione.

Bibliografia

Hernandez-Lasserre (1996): Hernández-Lerma, O. and Lasserre, J. B. (1996). Discrete-time Markov control processes, volume 30 di Applications of Mathematics (New York). Springer-Verlag, New York. Basic optimality criteria.

Bellman (1957): Bellman, R. (1957). Dynamic programming. Princeton Landmarks in Mathematics. Princeton University Press, Princeton, NJ. Ristampa dell'edizione del 1957, con una nuova introduzione di Stuart Dreyfus.

Vuoi vedere questa teoria in azione? Prova il nostro strumento e scopri come gli algoritmi di programmazione dinamica garantiscono una consulenza finanziaria veramente ottimale.

Imposta il tuo obiettivo di investimento

Iscriviti al nostro blog

Rimanere aggiornati sugli aspetti più importanti degli investimenti e della finanza e imparare di più su come utilizzare gli investimenti basati sugli obiettivi per gestire con successo il proprio patrimonio.

Sono interessato alle aree tematiche di...