Le basi matematiche dell'investimento basato sugli obiettivi
Scopri le basi matematiche del motore di investimento di GBI: dai modelli di controllo markoviani al Principio di Ottimalità di Bellman. Scopri come la rigorosa teoria della programmazione dinamica si traduce direttamente in strategie di portafoglio ottimali.
L'obiettivo della gestione patrimoniale basata sugli obiettivi (Goal-Based Wealth Management, GBWM) è semplice da enunciare ma potente nella pratica: dato un orizzonte temporale fisso (ad esempio dieci anni) e un livello di patrimonio obiettivo (l'importo di cui hai bisogno per raggiungere il tuo obiettivo), trovare la migliore strategia di portafoglio possibile — una che si adatti nel tempo all'evoluzione dei mercati — per massimizzare la probabilità di arrivarci. Formalmente, cerchiamo:
Teoria della programmazione dinamica
Per risolvere questo problema in modo rigoroso, ci affidiamo alla teoria matematica della programmazione dinamica. Questa sezione espone la teoria di base in forma astratta e generale — indipendente dal contesto degli investimenti per ora. Pensa a questo come alla costruzione dell'impalcatura formale prima di arredare la stanza. Applicheremo questa teoria direttamente al nostro problema GBWM nella sezione successiva. Iniziamo con alcune definizioni fondamentali.
Definizione 1. Un modello di controllo markoviano è una quintupla
composta da:
a) uno spazio di Borel , detto spazio degli stati (state space), i cui elementi sono chiamati stati (states);
b) uno spazio di Borel , detto insieme di controllo o di azioni (control or action set);
c) una famiglia di sottoinsiemi misurabili non vuoti di , dove rappresenta l'insieme delle azioni ammissibili quando il sistema si trova nello stato . L'insieme delle coppie stato-azione ammissibili è assunto essere un sottoinsieme misurabile di ;
d) una legge di transizione (transition law) ;
e) una funzione misurabile detta funzione di ricompensa a una fase (one-stage reward function).
In parole semplici, un modello di controllo markoviano è un modo formale di descrivere qualsiasi problema di decisione sequenziale. Specifica: dove il sistema può trovarsi (lo spazio degli stati ), quali decisioni sono disponibili (l'insieme di azioni ), quali decisioni sono ammissibili in ogni stato (), come il sistema evolve in risposta a una decisione (la legge di transizione ) e cosa guadagni lungo il percorso (la funzione di ricompensa ).
Definizione 2. Una politica di controllo è una sequenza di variabili casuali -misurabili . Se esiste una sequenza di funzioni misurabili tali che: , allora la politica è detta politica markoviana deterministica (deterministic Markov policy).
Intuitivamente, una politica di controllo è semplicemente una regola decisionale — ti dice quale azione intraprendere in ogni momento. Il tipo più praticabile è una politica markoviana deterministica: a ogni passo, associa direttamente lo stato corrente a un'azione tramite una funzione fissa , senza aleatorietà nella decisione stessa.
Dato un modello di controllo markoviano, il nostro obiettivo è massimizzare la ricompensa totale attesa accumulata sull'intero orizzonte . Questo è catturato dalla funzione criterio:
dove è la funzione di ricompensa terminale. Qui, è la ricompensa totale attesa partendo dallo stato e seguendo la politica : la somma raccoglie le ricompense a ogni passo intermedio, e è la ricompensa ricevuta nell'ultimo periodo.
Chiamiamo la funzione di valore (value function) — registra la migliore ricompensa attesa raggiungibile dallo stato , ottimizzata su tutte le politiche ammissibili in
Il nostro obiettivo è quindi trovare una politica ottimale
Sotto specifiche condizioni tecniche, il seguente teorema garantisce l'esistenza di una politica ottimale — e, soprattutto, ci dice esattamente come trovarla procedendo a ritroso nel tempo.
Teorema 1. Siano
Supponiamo che queste funzioni siano misurabili e che, per ogni
Allora la politica (markoviana deterministica)
Questa è l'enunciazione matematica dell'induzione a ritroso. Invece di esplorare tutte le possibili strategie contemporaneamente — un compito travolgente — risolviamo il problema periodo per periodo, partendo dalla fine. A ogni passo
Per una dimostrazione del Teorema 1, si rimanda a Hernandez-Lasserre (1996), Sezione 3.2.
Per sviluppare l'intuizione di questo risultato, considera la ricompensa residua (reward-to-go) — la ricompensa totale attesa che puoi ancora raccogliere a partire dall'istante
È possibile dimostrare che
Ovvero,
Esiste anche un risultato complementare che caratterizza pienamente quando una politica è ottimale. Una politica
Questo risultato è noto come Principio di Ottimalità di Bellman (Bellman's Principle of Optimality) (si veda Bellman (1957) per una descrizione completa e la dimostrazione). Intuitivamente, significa che una strategia globalmente ottimale deve essere localmente ottimale a ogni passo — non esistono 'sacrifici a breve termine' vantaggiosi. Se una politica è subottimale a partire da un certo stato, non può essere globalmente ottimale.
Prima di applicare questa teoria al nostro problema, dobbiamo affrontare un importante requisito tecnico incorporato nel Teorema 1: a ogni passo a ritroso, un'azione massimizzante
Ipotesi 1. Il modello di controllo markoviano e una data funzione misurabile
è misurabile ed esiste una funzione misurabile
In altre parole, l'Ipotesi 1 garantisce che la 'migliore azione' in ogni stato non sia semplicemente avvicinata ma sia effettivamente raggiunta da una funzione
Hernandez-Lasserre (1996), Sezione 3.3, fornisce tre insiemi di condizioni sufficienti sotto le quali l'Ipotesi 1 è verificata. Quello più rilevante per la nostra applicazione è il seguente.
Teorema 2. Con le stesse notazioni di cui sopra, il seguente insieme di condizioni
a)
b) la ricompensa a una fase
c) la legge di transizione
è limitata e continua su
implica l'Ipotesi 1 per qualsiasi funzione misurabile non negativa
In parole semplici, il Teorema 2 dice: se l'insieme delle azioni disponibili è compatto e varia con continuità rispetto allo stato (a), la funzione di ricompensa è ben comportata — continua e limitata (b), e la legge di transizione risponde in modo regolare alle variazioni di stato e di azione, nel senso che piccole variazioni degli input producono piccole variazioni nei risultati attesi (la condizione di Feller in c) — allora è garantito che l'algoritmo di induzione a ritroso funzioni.
Il GBWM come problema di programmazione dinamica
Con le basi teoriche ora stabilite, possiamo proiettare il nostro problema di investimento direttamente sul framework del modello di controllo markoviano. Usando la stessa terminologia introdotta in precedenza:
a) Lo spazio degli stati
b) L'insieme di azioni
c) La famiglia
d) La legge di transizione
Lo spazio degli stati, l'insieme di azioni e la legge di transizione si mappano naturalmente sul nostro framework. La funzione di ricompensa
Ci sono due differenze tra l'impostazione standard della programmazione dinamica e il nostro problema. In primo luogo, la programmazione dinamica tipicamente massimizza un valore atteso, mentre noi vogliamo massimizzare una probabilità. In secondo luogo, il nostro problema ha un'unica ricompensa solo alla data finale — raggiungere l'obiettivo — mentre la formulazione standard consente ricompense anche in fasi intermedie (una variante che utilizziamo anche sulla nostra piattaforma per obiettivi con pagamenti periodici).
Per colmare entrambe le differenze, definiamo la funzione di ricompensa come segue:
Ciò significa che la ricompensa è 1 se il patrimonio finale raggiunge l'obiettivo
vediamo che massimizzare il valore atteso di questa funzione indicatrice equivale esattamente a massimizzare la probabilità di raggiungere l'obiettivo — il che risolve la prima differenza.
Con questa funzione di ricompensa, le condizioni (a) e (c) del Teorema 2 sono semplici da verificare nel nostro contesto. La condizione (b) è più delicata: poiché la ricompensa è una funzione indicatrice — che salta da 0 a 1 alla soglia
Non entriamo qui nei dettagli tecnici, ma è possibile regolarizzare la funzione di ricompensa in modo da recuperarne la continuità, consentendo così di soddisfare anche quest'ultima condizione.
Bibliografia
Hernandez-Lasserre (1996): Hernández-Lerma, O. and Lasserre, J. B. (1996). Discrete-time Markov control processes, volume 30 di Applications of Mathematics (New York). Springer-Verlag, New York. Basic optimality criteria.
Bellman (1957): Bellman, R. (1957). Dynamic programming. Princeton Landmarks in Mathematics. Princeton University Press, Princeton, NJ. Ristampa dell'edizione del 1957, con una nuova introduzione di Stuart Dreyfus.
Vuoi vedere questa teoria in azione? Prova il nostro strumento e scopri come gli algoritmi di programmazione dinamica garantiscono una consulenza finanziaria veramente ottimale.