10.18601/17941113.n22.06

Una nota introductoria a los juegos de campo medio. Teoría y algunas aplicaciones

An introductory note to mean field games. Theory and some applications

John Freddy Moreno Trujillo*

* Estudiante de Doctorado en Ciencias Económicas; magíster en Matemática Aplicada. Docente-Investigador, Observatorio de Economía y Operaciones Numéricas (ODEON), Universidad Externado de Colombia, Bogotá (Colombia).[jhon.moreno@uexternado.edu.co], [ORCID: 0000-0002-2772-6931].

Para citar este artículo:
Moreno Trujillo, J. F. (2022). Una nota introductoria a los juegos de campo medio. Teoría y algunas aplicaciones. Odeon, 22, 159-178. DOI: https://doi.org/10.18601/17941113.n22.06

Artículo recibido: 01 de junio de 2022. Aceptado: 25 de junio de 2022.


Resumen

Se presentan de forma simple los conceptos fundamentales de la teoría de juegos de campo medio, mostrando que esta se puede ver como un ingenioso acople entre ecuaciones de Hamilton-Jacobi-Bellman y Fokker-Planck-Kolmogorov para el tratamiento de sistemas complejos con un número de agentes muy grande. Se presenta también el concepto de equilibrio para este tipo de juegos y algunas aplicaciones de esta teoría en diferentes campos.

Palabras clave: teoría de juegos; ecuaciones diferenciales parciales acopladas; equilibrio de Nash; riesgo sistémico; ejecución óptima; producción petrolera.
Clasificación JEL: C02, C30, C61, C68, C73.


Abstract

The fundamental concepts of mean field game theory are presented in a simple way, showing that this can be seen as an ingenious coupling between the Hamilton-Jacobi-Bellman and Fokker-Planck-Kolmogorov equations for the treatment of complex systems with a number of very large agents. The concept of equilibrium for this type of games and some applications of this theory in different fields are also presented.

Key words: games theory; coupled partial differential equations; Nash equilibrium; systemic risk; óptimal execution; oil producción.
JEL classification: C02, C30, C61, C68, C73.


Introducción

Cada día resulta más sorprendente el poder y alcance de la modelación matemática, mostrándonos lo mucho que tenemos por descubrir del universo de relaciones, estructuras y formas matemáticas que nos rodean. Un reciente avance en modelación es el de la teoría de juegos de campo medio o mean field games, presentada en 2006 de forma independiente por Minyi Huang, Roland Malhame y Peter Caines en Montreal, y por Jean-Michel Lasry y el medallista de Fields, Pierre-Louis Lions en París. Desde ese entonces, este modelo revolucionario ha sido desarrollado en gran medida por otros matemáticos y se ha aplicado ampliamente para describir sistemas dinámicos complejos de múltiples agentes.

El objetivo de este documento es ofrecer una introducción sencilla a la teoría de juegos de campo medio, considerando las definiciones centrales asociadas a este campo de investigación, junto con un primer acercamiento a su desarrollo formal. También se presentan algunas aplicaciones interesantes de esta teoría en la modelación de diversos problemas como el riesgo sistémico de una economía, la ejecución óptima de posiciones en un mercado financiero o la producción petrolera.

La idea principal en la teoría de juegos de campo medio es considerar que, en algunas ocasiones, los números grandes son mucho más simples de tratar que los pequeños. Concretamente, los juegos de campo medio explotan el efecto suavizador de los grandes números. De hecho, mientras que la teoría de juegos clásica se vuelve complicada al considerar sistemas de más de dos individuos, los juegos de campo medio dan la vuelta al problema reafirmando la teoría de juegos como una interacción de cada individuo con la masa (promedio) de los demás.

Para explicar esta idea imaginemos un pez en un cardumen. De acuerdo con la teoría de juegos clásica, el pez reacciona (se mueve) según lo hacen otros peces cercanos. Modelar su comportamiento es complicado ya que hay una gran cantidad de interacciones entre los diferentes peces. Desde la perspectiva de la teoría de juegos clásica esto corresponde a una larga lista de ecuaciones altamente acopladas, que buscan describir el comportamiento optimizador del pez considerando a cada uno de los peces que lo rodean. Por ejemplo, si denotamos con Ji a la función que describe el costo que tiene para el pez moverse con el cardumen, entonces, considerando que el pez está rodeado por otros dos, el sistema de ecuaciones acoplado para estos tres individuos sería de la forma:

En la teoría de juegos de campo medio, a cada pez no le importan los demás peces individualmente, más bien se preocupan por cómo se mueven globalmente los peces cercanos, como una masa. En otras palabras, cada pez reacciona solo a la masa, y esta masa se puede describir muy bien utilizando herramientas habituales de la mecánica estadística. Por supuesto, el movimiento de la masa es necesariamente el resultado de lo que hace cada pez, lo que significa que en realidad todavía tenemos ecuaciones acopladas entre cada pez y la masa.

Por un lado, la reacción de los peces a la masa se describe mediante una ecuación de Hamilton-Jacobi-Bellman. Por otro lado, el agregado de las acciones de los peces, que determina el movimiento de la masa, corresponde a una ecuación de Fokker-Planck-Kolmogorov. Como resultado, podemos ver a la teoría de juegos de campo medio como una ingeniosa combination de estas dos ecuaciones.

Para dar mayor claridad sobre cómo funciona este acople de ecuaciones, en la sección 1 se describe la ecuación de Hamilton-Jacobi-Bellman y en la sección 2 la ecuación de Fokker-Planck-Kolmogorov. En la sección 3 se realiza una presentación formal de las ideas de la teoría de juegos de campo medio y se presenta la definición de equilibrio, así como el efecto del paso al límite en el número de jugadores. En la sección 4 se describen algunas aplicaciones.

1. Ecuación de Hamilton-Jacobi-Bellman

Continuando con nuestro ejemplo, reflexiónemos un poco sobre que pueden hacer los peces. Supongamos que los peces pueden moverse como quieran. Matemáticamente esto significa que controlan su velocidad, entonces, en todo momento un pez controla su velocidad dependiendo de su ubicación y la de la masa.

Esta reflexión es simplemente para definir uno de los dos objetos principales de los juegos de campo medio: el control o proceso de control (α). En este contexto, un control es una elección de velocidad dependiendo de la posición y el tiempo. Fundamentalmente, si todos los peces son similares, entonces todos tienen el mismo control óptimo. Por lo tanto, solo necesitamos un control α para describir las acciones de todos los peces.

Formalmente, los peces viven en un espacio n, con n = 3 para el caso de los peces reales. Denotando con xn a la posición y con t+ al tiempo, un control α es un mapeo α: n x +n, dónde α(x, t) ∈ n es la velocidad elegida por un pez ubicado en la posición x en el momento t.

Dos elementos importantes por considerar son: 1) La pregunta sobre ¿cuál es el mejor control para los peces?, es bastante discutible. Pero, por sencillez, digamos que un buen control debe acercar los peces al cardumen dónde es más seguro, evitando abusar de grandes velocidades que consumen energía. 2) La similitud de los peces, ya mencionada, significa que si dos peces están en el mismo lugar al mismo tiempo sentirán la misma inseguridad y si eligen las mismas velocidades pagarán el mismo costo energético.

Fundamentalmente, un buen control no solo se preocupa por lo que es mejor para el pez en este momento, también debe considerar a dónde ir para que esté seguro en el futuro. Básicamente, en cada momento, un pez paga la inseguridad de su posición y el agotamiento debido a su velocidad. La pérdida total en todos los tiempos consiste simplemente en sumar todas las pérdidas en todos los tiempos. Por lo tanto, el pez debe lograr un equilibrio entre apresurarse para alcanzar una futura posición más segura y no quedarse sin energía en el momento presente. Este ajuste se conoce como un problema de control óptimo.

La inseguridad de un pez por lo general se modela mediante una función de costo g(x, m), que depende de la posición x y de la posición m de la masa (que se explicará más adelante). Mientras tanto, hay un costo por consumo de energía debido a la velocidad. Muy a menudo, este costo de velocidad se modela mediante energía cinética, que es igual a 1/2 ||α||2 (más o menos un factor multiplicativo). El costo en todos los tiempos es entonces t (1/2 ||α||2+ g(x, m)) dt. En un horizonte finito también puede haber un costo G(x, m) para las posiciones de los peces y la masa en el instante de tiempo final T.

El problema de control óptimo se resuelve como si se jugara ajedrez. En esencia, primero se debe pensar a dónde debemos llegar y luego trabajar hacia atrás para determinar qué pasos nos llevarán allí. Esto es lo que se conoce como principio de programación dinámica. Primero, comenzamos juzgando cuán costosas son las posibles posiciones futuras. Esto nos da un mapa de los costos futuros totales. Ahora, idealmente, sin importar dónde esté un pez, este preferiría llegar a la posición futura menos costosa, pero también hay un costo debido al movimiento, luego, dada una posición actual, buscamos elegir una velocidad que minimice la suma de los costos totales futuros y el costo de la velocidad.

Como ejemplo de este procedimiento consideremos la figura 1. Se supone que la posición actual es de dónde salen las flechas. Quedarse quieto tiene un costo total futuro de 4 y ningún costo de velocidad. Mientras que moverse hacia la izquierda produce un costo total futuro de 2 y un costo de velocidad de 2, que suman 4. Además, moverse un paso hacia abajo agrega un costo total futuro de 1 y un costo de velocidad de 2, que suman 3. Así, moverse hacia abajo es menos costoso que moverse hacia la izquierda o quedarse quieto. De hecho, es el movimiento menos costoso. Por esto es que el control óptimo consiste en moverse hacia abajo.

Aunque este ejemplo da una buena idea del problema de control óptimo, lleva a preguntarse si es necesario considerar espacios y tiempos discretos para aplicar el principio de programación dinámica. La respuesta es no. Haciendo más fina la discretización y siguiendo procedimientos de paso al límite se deriva una versión continua de este principio. Esto produce la famosa ecuación de Hamilton-Jacobi-Bellman que, en esencia, es simplemente la expresión continua del principio de programación dinámica.

Denotando con J(x, t) a la inseguridad de estar en la posición x en el momento t, la elección de una velocidad en la posición x y tiempo t debe cumplir que:

El primer término corresponde al costo futuro total, el segúndo al costo de la velocidad y el último a la inseguridad presente.

2. Ecuación de Fokker-Planck-Kolmogorov

De acuerdo con lo presentado en la sección anterior, la ecuación de Hamilton-Jacobi-Bellman nos dice cómo reaccionan los peces a la masa. Pero como ya lo hemos discutido, la masa se deriva de lo que hacen estos, entendiendo que la masa m describe todas las trayectorias de todos los peces.

Para entender esto imaginemos todas las trayectorias posibles. Entonces, tenemos que m(x, t) simplemente cuenta la proporción de peces que están en la posición x en el instante t. Para ser más exactos m(.,t) es una distribución de probabilidad en el espacio n dónde viven los peces. Pero, para obtener ecuaciones diferenciales manejables, en la teoría de juegos de campo medio se asume de manera general que esta distribución puede describirse mediante una función de densidad de probabilidad: n, x → m(x, t).

Ahora, a diferencia del procedimiento hacia atrás que nos llevó a la ecuación de Hamilton-Jacobi-Bellman, en este caso vamos a trabajar hacia adelante. Modelaremos la masa del futuro cercano a partir de la masa actual y el control.

Para esto, primero debemos notar que las velocidades dadas por el control no son muy relevantes para describir cómo se mueve la masa. En cambio, como lo describe la mecánica estadística, lo que más importa es la cantidad de movimiento de los peces, lo que en física llaman impulso. En un punto dado, este impulso corresponde a la velocidad multiplicada por el número de peces en movimiento. Se tiene entonces el campo vectorial m(x, t) • α(x, t) = (mα)(x, t).

Ahora, sumando todas las cantidades que entran y salen de un punto obtenemos la ecuación de Liouville. Sin entrar en detalles, lo que obtenemos es que todo lo que sale y entra de nuestro punto suma, es decir, div() = Σx1 ()1. Esto significa que la variación de la masa es tm = -div(), que es la ecuación de Liouville.

Dicho lo anterior, la cuestión es que si todos los peces siguen la ecuación de Liouville, todos terminarán convergiendo en el único punto más seguro, y esto no es lo que sucede en la realidad. Si bien a los peces probablemente les gustaría estar todos en medio del cardumen, es posible que no tengan la oportunidad, ya que la multitud hará que se golpeen entre sí. Una forma de interpretar esto es decir que no tendrán el control total de sus trayectorias, como un grano de polen flotando en el agua.

De hecho, este movimiento de los granos de polen fue descubierto por el botánico escocés Robert Brown en 1827, y es lo que ahora conocemos como movimiento Browniano. El movimiento Browniano ha jugado un papel clave en la historia de la ciencia, ya que fue lo que llevó a Albert Einstein a probar la existencia de los átomos. Para nuestros propósitos, el efecto importante del movimiento Browniano es que existe una tendencia natural de los peces a pasar de las regiones más pobladas a otras menos pobladas. Así, mientras la seguridad hace que los peces converjan en un solo punto más seguro, el movimiento Browniano los dispersa en el espacio. Adicionando esta última idea a la ecuación de Liouville se tiene como resultado la famosa ecuación de Fokker-Planck, también conocida como ecuación directa de Kolmogorov, y a la que llamaremos ecuación de Fokker-Planck-Kolmogorov.

El hacinamiento relativo de un punto en comparación con su entorno se mide por el Laplaciano Δxm = Σ 2xixim. Por lo tanto, la ecuación de Fokker-Planck-Kolmogorov es:

donde σ representa la fuerza del movimiento Browniano. Más precisamente, es la desviación estándar del movimiento Browniano en una unidad de tiempo.

2.1. Independencia del tiempo

Un entorno natural en el que se estudian los juegos de campo medio es aquel en el que existe una simetría perfecta en el tiempo. Esto significa que los costos g no dependen del tiempo actual ni del tiempo final, que se asumirá es infinito. En el contexto de los peces esto suena raro, después de todo, los peces eventualmente mueren, por lo que tiene que haber un tiempo final. Pero si este tiempo final es muy lejano en comparación con las escalas de tiempo de reacción de los peces, que es el caso en la práctica, entonces es natural considerarlo como infinito.

Hay dos consecuencias principales sobre la modelación al incorporar la configuración de horizonte infinito e independencia del tiempo. La primera es considerar que el costo total es el costo promedio, lo que significa que:

La segunda es involucrar una tasa de descuento, que indica que el presente cuenta más que el futuro. Denotando por p > 0 a esta tasa de descuento, tenemos:

El efecto importante de esto es que los controles α ya no dependen de la variable tiempo, son solo instrucciones que dan una velocidad para tomar dependiendo de la posición. Esto significa que, en cada punto del espacio, hay que tomar una velocidad. Esto es lo que en física y matemáticas llaman campo vectorial. De acuerdo con esto, la masa ahora se describe simplemente por una variable inmutable m, lo que significa que la masa de peces permanece inmóvil, o mejor, dado que depende del cambio del sistema inercial, los peces se mueven todos juntos a la misma velocidad.

2.2. Juegos lineales-cuadráticos

En este documento, cada vez que se han presentado fórmulas se ha supuesto que estábamos en un entorno (casi) lineal-cuadrático. Esto significa que el control determina linealmente la velocidad (como en la fórmula α = , o más generalmente α = α + b, que el costo de la velocidad es cuadrático (como en la energía cinética 1/2||α||2), y que la inseguridad de una posición también es cuadrática. Lo anterior hace que la ecuación de Hamilton-Jacobi-Bellman sea fácil de transformar en una ecuación diferencial parcial.

Es decir, eliminando términos constantes, se obtiene minα 1/2||α||2 + α∇x J, luego α = - ∇xJ. Así, después de incluir también el movimiento Browniano, obtenemos la ecuación diferencial parcial sobre J definida por:

Con el ajuste de la independencia del tiempo, y con la tasa de descuento p, se tiene:

Estos supuestos no solo nos permiten escribir ecuaciones diferenciales parciales elegantes, también implican poder verificar tres muy importantes resultados en la modelación matemática asociados a ecuaciones diferenciales parciales. Estos resultados requieren supuestos sobre la acotación y regularidad de las funciones de costo g en todo momento y G en el instante final, y sobre la masa m en el tiempo 0. Específicamente, g y G deben ser uniformemente acotadas y Lipschitz-continuas, mientras que m en el tiempo 0 debe ser absolutamente continua con respecto a la medida de Lebesgue (es decir, debe corresponder a una función de densidad de probabilidad clásica).

Partiendo de estas consideraciones se tienen la existencia y unicidad de la solución. Su importancia radica en que si queremos que nuestras ecuaciones tengan la oportunidad de describir la realidad, entonces sus soluciones deben compartir una característica importante con la realidad, deben existir y ser únicas. De manera más general, especialmente en el campo de las ecuaciones diferenciales parciales, la existencia y unicidad de las soluciones representan una cuestión matemática importante.

Desde luego, esto no implica que concentrarse en resolver las ecuaciones no sea relevante, pero dado que estas ecuaciones generalmente no se pueden resolver de forma analítica, es común recurrir a aproximaciones numéricas que permitan tomar decisiones basadas en sus resultados. Si las ecuaciones no tuvieran una solución, para empezar, o si tuvieran varias, entonces los resultados de las aproximaciones numéricas no tendrían sentido.

Otro elemento clave es que las soluciones se puedan calcular. Mientras que muchas de las ecuaciones diferenciales parciales clásicas se pueden resolver por métodos numéricos, las ecuaciones asociadas a la teoría de juegos de campo medio son un poco más complicadas, ya que forman ecuaciones diferenciales parciales acopladas. Más precisamente, dada la masa m, podemos calcular el control óptimo α con la ecuación de Hamilton-Jacobi-Bellman; y dado el control α, podemos derivar la masa m de la ecuación de Fokker-Planck-Kolmogorov. Pero, al principio, no conocemos ninguna de las dos variables.

Para el cálculo de estas cantidades procedemos de forma iterativa. Iniciamos con una masa arbitraria m0 (es importante tener cuidado de no confundir la masa m0 con la masa en el tiempo 0 m(., 0)). más bien, m0 : n x + es una masa arbitraria definida para todas las posiciones y todos los tiempos, que será la primera masa de nuestro proceso de iteracción.

Luego, calcularemos el control óptimo correspondiente αi, de dónde derivamos la masa m1. Y repetimos este proceso para determinar a2 y m2, luego α3 y m3 y así se continúa. Fundamentalmente, este proceso iterativo producirá el resultado correcto, ya que, en cierto sentido, la secuencia (an,mn) converge exponencialmente a la solución única (a, m) del juego de campo medio para las ecuaciones diferenciales parciales acopladas. El análisis de este tipo de sistemas de ecuaciones acopladas para el caso en el cual el número de agentes (peces) tiende a infinito se conoce como propagación de caos.

Presentada esta analogía del cardumen de peces para introducir los conceptos e ideas básicas de los juegos de campo medio, en la siguiente sección se realiza una presentación más formal de estas ideas, lo que nos permitirá abordar posteriormente algunas aplicaciones en finanzas y economía.

3. Planteamiento formal

Una aproximación inicial a la teoría de juegos de campo medio es considerarla como una teoría de juegos con muchos jugadores que interactúan de forma débil. Se consideran jugadores competitivos, es decir, jugadores que buscan alcanzar un objetivo individual y, para hacerlo, pueden ajustar controles asociados a una función de costo o de recompensa.

En este contexto, la pregunta que surge es: ¿cuál es la interacción entre estos jugadores? La repuesta da el nombre de la metodología, un jugador ve a los otros de forma global o colectiva, considera su actuar observando el valor medio (promedio) del campo. La interacción entre jugadores se puede modelar considerando promedios, apoyados en la ley de los grandes números (formulación asintótica). Se consideran entonces juegos en dónde el número de jugadores tiende a infinito, lo que reduce la complejidad del problema.

Para la modelación se considera:

N jugadores.

• La dinámica de cada jugador es descrita por:

dónde Xi0 puede ser aleatorio. Xit describe el estado del jugador i en el instante t, αit es el control (velocidad) del jugador i en el instante t y Wit es un movimiento Browniano estándar que representa los choques aleatorios que sufre el jugador i. Se asume que (W1t), (W2t),…,(WtN) son N movimientos Brownianos independientes, (X10), (X20),…, (XN0) son estados iniciales independientes entre sí y también de los movimientos Brownianos.

• Cada jugador i tiene asociada una función de costo en un horizonte finito [0,T] dada por:

dónde el valor esperado es sobre (W1t), (W2t),…, (WNt) y (X1t), (X20),…, (Xn0).

Las funciones g y f son tales que:

La interacción se especifica mediante la distribución empírica de los demas jugadores:

que es una medida de probabilidad que describe el estado completo de la población. Se tiene entonces que:

con: g : d x P(d) → y f : d x P(d) → , para P(d) el espacio de medidas de probabilidad sobre d.

3.1. ¿Qué es un equilibrio en este caso?

Para definir el equilibrio consideramos primero la definición de control admisible. Un proceso de control it)t∈[0,T] es un control admisible del jugador i si en cualquier instante t, αit es Ft-medible, dónde Ft es la σ-álgebra generada por (W1t,…, WNt), (X10,X20,…,XN0), y

Intuitivamente, un equilibrio (compromiso entre jugadores) en el sentido de Nash, es un estado en el cual no hay incentivos para desviarse unilateralmente del compromiso. Formalmente se tiene que: una tupla de controles admisibles (α*,l*,2, α*,N) es un equilibrio de Nash si para todo 1 ≤ i ≤ N:

para todo control βi admisible para el jugador i, considerando una función de costo.

Las funciones g y f en (11) son las mismas para todos los jugadores, es decir, se consideran jugadores identicos, y esta simetría debe verse reflejada en el equilibrio. Se espera entonces que en el equilibrio:

que depende de N, y en el límite cuando N → ∞, se tiene que:

Se concluye entonces que, en el equilibrio y cuando N → ∞, se debe tener que:

donde

3.2. En el límite cuando N → ∞

Cuando N → ∞, los agentes son independientes y la distribución empírica converge a alguna distribución teórica mt, es decir:

Una forma de plantear el problema de los jugadores es considerando la aproximación desde las ecuaciones diferenciales parciales. En este caso, se establece un ambiente estático para un jugador cualquiera en algún instante de tiempo t, de forma que:

con Xt = x y t ≤ s ≤ T, y se define la función de valor:

que tiene asociada la ecuación de Hamilton-Jacobi-Bellman:

dónde (mt)t∈[0,T] es un flujo de medidas de probabilidad teóricas que describen el equilibrio de la población y que puede ser caracterizada mediante la ecuación de Fokker-Planck-Kolmogorov. En general decimos que un equilibrio de un juego de campo medio es una trayectoria (mt)t∈[0,T] tal que:

  1. El problema de control óptimo estocástico:
  2. con función de costo:

     

    tiene una solución (X*t)t∈[0,T].

  1. La ley de mejor respuesta bajo el ambiente (mt)t∈[0,T] está dada por (mt)t∈[0,T], es decir, el equilibrio es un punto fijo.

4. Algunas aplicaciones

4.1. Riesgo sistémico

El estudio del riesgo sistémico se ocupa de la identificación y el análisis de eventos o secuencias de eventos que podrían desencadenar una inestabilidad severa, o incluso el colapso del sistema financiero y de toda la economía. Para modelarlo se considera el proceso Xit para i = 1,2, …,N, que es el logaritmo de la reserva monetaria de N bancos, el cual satisface:

donde Wit,i = 0,1, …, N son movimientos Brownianos independientes y σ > 0 es una constante. La notación indica la media empírica de Xit para i = 1,…, N, α regula la velocidad de reversion de Xit a la media, y rho es el coeficiente de correlación entre los choques idiosincráticos dWit y el choque commun dW0t. Este modelo indica entonces que, el tomar dinero prestado o prestar se ve reflejado en el término de tendencia. De hecho:

• Si Xit es pequeño (menor a la media empírica ), el banco i quiere pedir prestado (αit > 0).

• Si Xit es grande (mayor a la media empírica ), el banco i quiere prestar (αit < 0).

El proceso estocástico adaptado αi := (αit)t0 es la estrategia de control del banco i que trata de minimizar la cantidad:

Podemos considerar a la cantidad q > 0 como seleccionada por un regulador para controlar el costo de prestar o tomar prestado. Este es un ejemplo simple de un juego diferencial estocástico de N jugadores con interacciones de campo medio, dado que las interacciones son a través de la media empírica de los N estados y del choque común.

Aunque, como se mencionó en las secciónes anteriores, identificar y calcular equilibrios de Nash para juegos con un número finito de jugadores suele ser muy difícil, especialmente cuando los juegos son estocásticos y dinámicos, el caso especial del modelo considerado (lineal-cuadrático) permite soluciones explícitas. Utilizando el principio del Máximo de Pontryagin, se encuentra que la estrategia α = (αt)t∈[0,T] definida por:

donde la función determinística ηt resuelve la ecuación de Riccati:

con condición terminal ηT = c, es el único equilibrio de Nash.

4.2. Ejecución óptima e impacto en el precio

Los mercados de alta frecuencia ofrecen otro terreno fértil para las aplicaciones de la teoría de juegos de campo medio, una de estas aplicaciones es la búsqueda de la mejor forma posible de ejecutar una determinada operación considerando su impacto en el precio.

Para modelar el impacto en el precio comenzamos con un modelo para N agentes. Denotamos por Xit a su inventario, es decir, el número de acciones que posee el agente i en el momento t, y suponemos que este inventario evoluciona como un proceso de Itô de acuerdo con:

dónde αi representa la tasa de negociación del agente i. Este será su control. Wi = (Wit)t0 son movimientos Brownianos independientes para i = 1,…, N, y σi representan la volatilidad idiosincrática. Por simpleza se asumirá que esta es independiente de i, es decir, σi = σ > 0.

Ahora, denotando por Kit al monto de efectivo en poder del agente i en t, se tiene que:

donde St es el precio de negociación de cada unidad de activo en el instante t y α → c(α) 0 modela el costo por negociar a la tasa α. Como se ha mostrado en trabajos relacionados con este tipo de modelos, se suele tener que c(α) = 2.

Modelando la evolución en el tiempo del precio St considerando N agentes en el mercado, como:

para alguna función creciente no negativa α → h (α) y un movimiento Browniano W0 = (W0t)t≥0 independiente de los otros. En este modelo, la riqueza Vit del agente i en el instante t está dada por la suma de lo que posee en efectivo y el valor de su posición en el activo, es decir:

Utilizando la condición estándar de autofinanciamiento y la fórmula de Itô se tiene que:

y, por lo tanto, el agente i minimiza el valor esperado de sus costos de negociación:

dónde x → cx(x) representa el costo de tener un inventario de tamaño x y g(x) modela el costo de un inventario terminal. Utilizando (30) podemos reescribir el costo esperado como:

donde es la distribución empírica de α1,…,αN y la función f está definida por f (t, x, v, α) = c(α) + cx(x) - x ∫ hdv.

4.3. Producción petrolera

Denotamos por xi0,…, xN0 a las reservas iniciales de N productores de petróleo cuyos controles son sus tasas de producción. Denotando por Xti a la reserva del productor i en el instante t, el cambio en las reservas puede describirse como:

donde:

σ > 0 es un nivel de volatilidad común a todos los productores.

αi = (αit)t≥0 es el proceso adaptado, no negativo y cuadrado integrable que representa su tasa de producción.

Wi = (Wit)t≥0 son movimientos Brownianos estándar independientes.

Denotamos por Pt al precio de un barril de petroleo en el instante t y por C(α) = x2 + al costo de producir α barriles, entonces el productor i trata de maximizar:

dónde r > 0 es un factor de descuento. En este caso, la interacción entre los productores (restricción de campo medio) se da a través del precio, al considerar que el precio de venta del barril es una función de la producción media:


Nota

1 La divergencia div(.) es un operador que toma la función vectorial que define a un campo vectorial y devuelve como valor de salida una función escalar que mide el cambio de la densidad del flujo en cada punto.


Referencias

Almgren, R., y Chriss, N. (2001). Optimal execution of portfolio transactions. Journal of Risk, 3, 5-40.

Carmona, R. (2020). Applications of mean field games in financial engineering and economic theory. arXiv preprint arXiv:2012.05237.

Carmona, R., Delarue, F., y Lacker, D. (2017). Mean field games of timing and models for bank runs. Applied Mathematics & Optimization, 76, 217-260.

Carmona, R., Fouque, J.-P., y Sun, L.-H. (2013). Mean field games and systemic risk. arXiv preprint arXiv:1308.2172.

Chan, P., y Sircar, R. (2017). Fracking, renewables, and mean field games. SIAM Review, 59(3), 588-615.

Delarue, F. (2017). Mean field games: A toy model on an erdös-renyi graph. ESAIM: Proceedings and Surveys, 60, 1-26.

Lasry, J.-M., y Lions, P.-L. (2006). Jeux à champ moyen. i-le cas stationnaire. Comptes Rendus Mathématique, 343(9), 619-625.

Nourian, M., Caines, P. E., Malhame, R. P., y Huang, M. (2012). Nash, social and centralized solucions to consensus problems via mean field control theory. IEEE Transactions on Automatic Control, 58(3), 639-653.