Aplicación de la teoría de control óptimo estocástico a un problema de inversión-consumo
Application of stochastic optimal control theory to an investment-consumption problem
John Freddy Moreno Trujillo*
* Estudiante de Doctorado en Ciencias Económicas; magíster en Matemática Aplicada. Docente-Investigador, Observatorio de Economía y Operaciones Numéricas (ODEON), Universidad Externado de Colombia, Bogotá (Colombia).[jhon.moreno@uexternado.edu.co], [orcid: 0000-0002-2772-6931].
Artículo recibido: 10 de agosto de 2023. Aceptado: 31 de octubre de 2023.
Para citar este artículo: Moreno Trujillo, J. F. (2023). Aplicación de la teoría de control óptimo estocástico a un problema de inversión-consumo. Odeon, 25, 73-93. DOI: https://doi.org/10.18601/17941113.n25.04
Resumen
Se presentan los elementos básicos de la teoría de control óptimo determinístico y estocástico. Se describe la aplicación, en el contexto estocástico, del principio de optimalidad de Bellman y la deducción de la ecuación de Hamilton-Jacobi-Bellman. Con estas herramientas se estudia en detalle el problema de inversión-consumo de Merton.
Palabras clave: control óptimo; principio de optimalidad; ecuación diferencial estocástica; inversión-consumo.
Clasificación JEL: C02, C61, G11.
Abstract
The basic elements of deterministic and stochastic optimal control theory are presented. The application of Bellman's principle of optimality in the stochastic context is described, along with the derivation of the Hamilton-Jacobi-Bellman equation. Using these tools, the investment-consumption problem of Merton is studied in detail.
Key words: optimal control; principle of optimality; stochastic differential equation; investment-consumption.
JEL classification: C02, C61, G11.
Introducción
La teoría de control óptimo estocástico desempeña un papel destacado en una amplia variedad de campos de aplicación, particularmente en el planteamiento y la resolución de algunos problemas en economía y finanzas. El objetivo principal de está teoría es encontrar una ley de control sobre un sistema, de forma que se cumpla un cierto criterio de optimalidad. Un proceso o sistema controlado es la solución de una ecuación diferencial en la que algunos de sus parámetros pueden ser elegidos (los controles). La selección de estas variables de control genera diferentes trayectorias del sistema, cada una de las cuales tiene un costo (o ganancia) asociado, entonces, el objetivo en el problema de control óptimo es minimizar (maximizar) este costo (ganancia) para todas las posibles elecciónes del parámetro de control.
El control óptimo estocástico es la extensión estocástica de la idea anterior. En este caso, se considera una ecuación diferencial estocástica (EDE) con un parámetro de control. Cada elección de este parámetro genera un proceso estocástico diferente como solución a la EDE, y cada trayectoria del proceso tiene un costo (ganancia) asociado. Se busca entonces minimizar (maximizar) el costo esperado en todas las elecciónes del parámetro de control.
El principio del máximo de Pontryagin y el principio de programación dinámica de Bellman (expresado en la ecuación de Hamilton-Jacobi-Bellman [HJB]), representan los métodos más conocidos para resolver problemas de control óptimo. El principio del máximo se utiliza para encontrar las condiciones necesarias para la existencia de una solución óptima. El principio de programación dinámica fue desarrollado por R. Bellman en la década de los cincuenta (Bellman, 1957), y su idea básica es considerar una familia de problemas de control óptimo con diferentes estados y tiempos iniciales, para establecer relaciones entre estos problemas a traves de la ecuación HJB. Si la ecuación HJB es resoluble, entonces se puede obtener un control óptimo de retroalimentación tomando el máximo o el mínimo involucrado en dicha ecuación. Es importante mencionar que la ecuación HJB no tiene una solución analítica en general, y encontrar una solución aproximada es la forma más común de resolver este tipo de problemas.
En este trabajo se estudia la aplicación de la teoría de control óptimo estocástico al problema de inversión y consumo óptimo de un agente adverso al riesgo. Como se muestra más adelante, en algunos casos la ecuación HJB obtenida se puede resolver de forma analítica partiendo de la propuesta de una posible forma de la función de valor óptimo construida desde las condiciones terminales.
Este artículo está organizado en siete apartados. En el apartado 1 se introduce el control óptimo determinista. El apartado 2 trata sobre ecuaciones diferenciales estocásticas. El control óptimo estocástico se presenta en el apartado 3. Los apartados 4 y 5 tratan sobre programación dinámica y la ecuación HJB. En el apartado 6 se desarrolla el problema de inversión-consumo de un agente adverso al riesgo, propuesto inicialmente por Merton (1969). Finalmente, el artículo concluye con algunos puntos relevantes y posibles extensiones.
1. Control óptimo determinístico
La teoría de control óptimo trata el problema de encontrar una variable de control u(.), dentro de un conjunto de controles admisibles U ∈ m. Cada elección de control u(.) produce una variable de estado x(t) ∈ n, que es solución única de:
que es llamada ecuación de estado o ecuación de trayectoria, sobre un intervalo fijo [s,T], con la condición inicial:
Junto con la ecuación diferencial (1) y la condición inicial (2), se considera un índice de desempeño, funcional de costo o función objetivo, de la forma:
Aquí, F(t, x(t); u(t)) es el costo de ejecución, y Φ(T,x(T)) es el costo terminal. La función objetivo (3) depende de la posición inicial (s, y) y de la elección del control u(.), por lo tanto, el problema de optimización es minimizar (maximizar) J para cada (s, y; u), considerando todos los controles u(t) ∈ U. La función u que produce este mínimo (máximo) se llama control óptimo. Es importante destacar que el problema de optimización con función objetivo definida como en la ecuación (3) se conoce como problema de Bolza. También existen otros dos problemas de optimización equivalentes, conocidos como problemas de Lagrange y Mayer.
2. Ecuaciones diferenciales estocásticas
Las ecuaciones diferenciales estocásticas tipo difusión (EDE) a menudo se escriben en la forma de:
para t ∈ [0,T], lo cual se parece a una ecuación diferencial ordinaria. Sin embargo, el diferencial de la expresión (4), denominado diferencial de Itô, debe ser entendido como una notación simplificada para el proceso de Itô:
Si existe un proceso estocástico x(t) que satisface esta ecuación, decimos que este resuelve la EDE (4).
Ejemplo 1. Como ejemplo consideremos la EDE lineal escalar siguiente:
dx(t) = ax(t)dt + bx(t)dW (t) ; x(0) = x0
para t ∈ [0,T], con a y b constantes. Esta EDE puede ser resuelta analíticamente y la solución es:
Las trayectorias del proceso solución de (4) pueden ser simuladas directamente desde la solución analítica, cuando está existe, o desde la EDE inicial. Para este segundo caso, se considera una discretización del intervalo [0,T] en N partes iguales de longitud , entonces, el método de Euler-Maruyama considera la siguiente aproximación de (5):
x(t + dt) = x(t) + α(t, x(t))dt + σ(t, x(t))(W(t + dt) - W(t))
Ejemplo 2. Como ejemplo consideremos nuevamente la EDE lineal escalar:
dx(t) = αx(t)dt + bx(t)dW (t) ; x(0) = x0
para t ∈ [0,T], con a y b constantes. La aproximación de Euler-Maruyama de esta ecuación es:
x(t + dt)= x(t) + ax(t)dt + bx(t)(W(t + dt) - W(t)) ; x(0) = x0
La figura 1 muestra 20 posibles trayectorias del proceso x(t) simuladas desde la expresión anterior, para los valores: T = 1, N = 1000, x0 = 10, α = 0, 2 y b = 0, 3.
3. Control óptimo estocástico
Consideremos la siguiente EDE:
donde y es un vector dado en n. El proceso x(t) ∈ n es la variable estado o trayectoria, u(t) ∈ U C m es la variable de control, W(t) es un movimiento Browniano estándar, F(t, x, u) es el coeficiente de tendencia y σ(t, x, u) es el coeficiente de difusión. La variable de control u(t) = u(t, x(t)) se selecciona de forma que esta minimice (maximice) la función objetivo:
Se define la función de valor óptimo:
es decir, la función de valor óptimo V es el mínimo (máximo) costo alcanzable desde las condiciones iniciales x(s) = y, Y û(.) es el control óptimo asociado a este costo mínimo (máximo).
4. Programación dinámica
El uso del principio programación dinámica para derivar una ecuación que resuelva el problema de control óptimo fue propuesto por primera vez por Bellman (1957). Este principio considera una familia de problemas de control con un punto inicial fijo, y el valor mínimo (máximo) de la función objetivo se trata como una función de este punto inicial, denominada función de valor. Cuando la función de valor es diferenciable, satisface una ecuación diferencial parcial hiperbólica de primer orden no lineal llamada ecuación Hamilton-Jacobi-Bellman, que se utiliza para construir una variable de control óptimo no lineal.
Lema 1. Principio de programación dinámica.
donde x(t + h) está determinada por u desde la EDE (6).
Ahora, el concepto de un operador de evolución hacia atrás, asociado con x(t) y generado por la ecuación diferencial estocástica (6) se puede presentar de la siguiente manera:
Lema 2. El operador de evolución hacia atrás asociado con x(t) y generado por la EDE (6) con control fijo u(s) v es:
donde a = σσ1 y los subíndices denotan derivadas parciales.
Definición 3. La fórmula de Dynkin para s < t establece que:
Con estos conceptos, para la deducción de la ecuación HJB se asume que:
y procedemos entonces a:
Las utilidades esperadas bajo cada estrategia son:
Et,x[J(t, x; û)] = V(t,x)
y para el intervalo (t + dt, T]
Et,x [V(t + dt, x(t + dt))]
dado que en este intervalo se está siguiendo el control óptimo. En total para esta estrategia:
dV(t + dt, x(t + dt)) = [Vt + AV(t + dt, x(t + dt))] dt + σVx(t)dW(t)
que en notación integral, considerando el intervalo entre t y t + dt, es:
y tomando el valor esperado con t y x fijos, se tiene que:
donde el valor esperado del último término es igual a 0 ya que este es una integral estocástica. De la expresión anterior se concluye que:
expresión que al ser reemplazada en la desigualdad que se tiene al comparar las utilidades esperadas por las dos estrategias lleva a:
de donde,
Considerando que dt → 0 tenemos que:
F(t, x, u) + Vt + AV(t, x) ≤ 0
La igualdad en esta expresión solo se tiene si el control u es el óptimo û, entonces:
con V(T, x) = Φ(x), esta es la ecuación de HJB.
5. La ecuación HJB y su solución
En general, la mayor dificultad al enfrentar problemas de control óptimo está en la resolución de la ecuación de HJB, muestra de esto es el limitado número de problemas de este tipo que tienen una solución analítica. Una manera de tratar este problema es proponiendo una forma posible para la función V (t, x) a partir de las condiciones terminales del problema. Una serie de pasos que facilitan la aproximación a la solución de la ecuación es:
û = û(t, x; V)
6. El problema de inversión-consumo
En este apartado se estudia el clásico problema de optimización de portafolio de Merton (1969). Consideramos una economía sobre el intervalo [0,T], de forma que en t = 0 cada agente está dotado de una riqueza inicial x0 y su problema es seleccionar la mejor estrategia entre inversión y consumo sobre [0,T]. Como oportunidades de inversión se tienen:
El agente conforma un portafolio tomando posición en los dos activos anteriores, de forma que su portafolio relativo es:
Dado que las estrategias consideradas por el agente deben ser autofinanciadas1, su riqueza en el instante t, denotada por X(t), satisface:
o de forma equivalente:
dX(t) = X(t)[u0(t)r + u1(t)µ]dt - c(t)dt + u1(t)σX(t)dW(t)
El objetivo del agente es maximizar:
donde F(t,c(t)) denota su función de utilidad por consumos entre 0 y T y Φ(T, X(T)) denota su utilidad de llegar al instante T con riqueza. De esta forma, el problema del agente es:
sujeto a:
dX(t) = Xt[u0(t)r + u1(t)µ]dt - c(t)dt + u1(t)σX(t)dW(t)
X (0) = x0
u0(t)+ u1(t) = 1 para todo t ∈ [0,T]
c(t) ≥ 0 para todo t ∈ [0,T]
En el planteamiento del problema se pueden identifican:
Dado que en el problema del agente se tiene que u0(t)+u1(t) = 1, si hacemos u1(t)= w(t), entonces 1 - w(t)= u0(t), con lo cual la evolución del proceso de riqueza del agente puede describirse como:
dX (t) = w(t)[µ - r]X (t)dt +[rX (t) - c(t)]dt + w(t)σX(t)dW (t)
y la correspondiente ecuación de HJB es:
Se puede ver que la solución de esta ecuación depende de la forma específica de la función de utilidad del agente y de las condiciones iniciales y de frontera.
Consideremos un agente adverso al riesgo con una función de utilidad por consumos dada por:
y una función de utilidad asociada a la riqueza dada por:
para β > 0 y γ ∈ (0,1). En la figura 2 se observa la representación de esta función para β = 0, 5 y γ = 0, 2.
En este caso, el problema de optimización estático es:
y las condiciones de primer orden asociadas son:
Se considera una solución de la forma:
de donde:
luego,
y la ecuación de HJB queda expresada como:
Distribuyendo exponentes y agrupando,
Factorizando,
de donde,
Denotado por:
se tiene,
La Última de las ecuaciones anteriores corresponde a una ecuación diferencial ordinaria tipo Bernulli, la cual puede resolverse aplicando la transformación , de donde:
Dado que la ecuación (10) puede escribirse como:
utilizando los resultados de la sustitución se tiene que,
El factor integrante en esta última ecuación diferencial lineal es:
luego,
Al integrar se tiene que:
donde K es una constante de integration. Dado que , entonces:
y como f (T) = 1, se tiene que , lo que resuelve completamente el problema.
Como un ejemplo concreto de este tipo de problema, consideremos:
Ejemplo 3. Tenemos que:
7. Conclusiones
Solamente una pequeña clase de problemas de control óptimo estocástico admite soluciones analíticas para la función de valor y las estrategias óptimas correspondientes, y el principio de programación dinámica representa el método más conocido para resolver este tipo de problemas. En este artículo se describio el problema de control óptimo estocástico y el método de programación dinámica de Bellman (ecuación de Hamilton-Jacobi-Bellman). Específicamente, para un problema de control óptimo estocástico de inversión-consumo de Merton se desarrollo la ecuación HJB correspondiente, y se resolvio de forma analítica, encontrando así los controles óptimos. Se propone como extensión el estudio de este tipo de problema para diferentes formas de la función de utilidad del agente optimizador.
Nota
1 Los cambios en el valor del portafolio quedan determinados solamente por cambios en el valor de los activos que lo conforman.
Referencias
Bellman, R. (1957). Dynamic programming. Press Princeton.
Björk, T. (2009). Arbitrage theory in continuous time. Oxford University Press.
Martínez, F. V. (2008). Riesgos financieros y economicos/financial and economical risks: Productos derivados y decisiones economicas bajo incertidumbre. Cengage Learning Editores.
Merton, R. C. (1969). Lifetime portfolio selection under uncertainty: The continuous-time case. The review of Economics and Statistics, 247-257.
Mikosch, T. (1998). Elementary stochastic calculus with finance in view. World Scientific.
Moreno Trujillo, J. F. (2015). Modelos estocásticos en finanzas. Universidad Externado de Colombia.
Moreno Trujillo, J. F. (2019). dinámica de portafolios y control óptimo estocástico. ODEON(17).
Moreno Trujillo, J. F. (2022). Finanzas cuantitativas. Universidad Externado de Colombia.
Oksendal, B. (2013). Stochastic differential equations: An introduction with applications. Springer Science & Business Media.
Peng, S. (1993). Backward stochastic differential equations and applications to optimal control. Applied Mathematics and optimización, 27(2), 125-144.
Shreve, S. (2004a). Stochastic calculus for finance ii: Continuous-time models. Springer-Verlang.
Shreve, S. (2004b). Stochastic calculus for finance i: the binomial asset pricing model. Springer-Verlang.