Ni el pico ni el final de una epidemia se pueden predecir con precisión A.S.

Ni el pico ni el final de una epidemia se pueden predecir con precisión

Vuelvo antes de lo previsto a Nada es Gratis para comentar un artículo aparecido en el servidor de preprints arXiv el martes 21 de abril, y titulado “Predictability: Can the turning point and end of an expanding epidemic be precisely forecast?” (“Predecibilidad: Pueden predecirse con precisión el pico y el final de una epidemia en expansión?”).. Como desde el principio de la pandemia he estado muy preocupado por el elevadísimo número de trabajos basados en modelos más o menos realistas que produce la comunidad de físicos y matemáticos (cuando escribo esto hay 506 preprints en arXiv con la palabra “covid” en el título), el título me llamó la atención, y entonces me fui al abstract y ví que la respuesta era “No, no se puede”, en línea con mis sospechas. Así que me fui al artículo y, en mi opinión, lo que encuentran los autores (Mario Castro, Saúl Ares, José A. Cuesta y Susanna Manrubia, que aclaro que además de buenos científicos son amigos, e incluso han contribuído a este blog, aquí y aquí) es muy importante para poner la discusión sobre predicciones en contexto (y para justificar mi vuelta repentina). Básicamente, amigo lector, el mensaje es que predecir estas epidemias es como predecir el tiempo, y más allá de dos o tres días el error es enorme, con lo que hay que tomarse todas las predicciones con muchísima precaución; de hecho, lo mejor es pasarse a la predicción probabilística. Resumido pues el mensaje del trabajo para el lector con poco tiempo, vayamos a algo más de detalle.

El concepto fundamental que hay detrás del resultado del artículo es el de “caos“. En un post de hace ya casi siete años, ya hablé en detalle del trabajo de Edward Lorenz y su descubrimiento del caos, consagrado en una charla legendaria titulada «Predictibilidad: ¿El aleteo de las alas de una mariposa en Brasil provoca un tornado en Texas?», de la que imagino que los autores toman el título de su trabajo. Al introducir ese concepto, Lorenz había descubierto también una de sus mayores consecuencias: la impredecibilidad del tiempo (meteorológico). Por medio de un simple modelo, demostró que nunca se puede estar seguro de si, de aquí a una semana, tendremos un día soleado o uno lluvioso. Medio siglo después, estamos acostumbrados a escuchar el pronóstico del tiempo en términos de porcentajes, probabilidad de lluvia, intervalos de temperatura o velocidad del viento. «El tiempo» ocupa una buena parte de los informativos y es todo un alarde de tecnología e información. En ocasiones, es un tanto confusa, pero normalmente suficiente para decidir qué hacer el próximo fin de semana, aunque aceptamos con normalidad que hay incertidumbre en la predicción y que nuestros planes pueden truncarse a última hora.
Matemáticamente, esta incapacidad para predecir más allá de unos pocos días se debe a la amplificación exponencial de pequeñas diferencias iniciales prototípicas de los sistemas caóticos. Pero como mi sufrido lector ya habrá oído en las últimas semanas, todos los esfuerzos sociales y económicos a los que estamos haciendo frente tienen como objetivo «aplanar la curva»… exponencial. La exponencial es una función bien conocida y a la que nos aproximamos por primera vez en la educación secundaria a través de la progresión geométrica (Matemáticas) o el interés compuesto (Economía). Veamos ahora cómo conecta esto con las predicciones epidemiológicas.
Como ya he dicho, dado el impacto de la pandemia de COVID-19, gran número de epidemiólogos, estadísticos, matemáticos, físicos o economistas se han lanzado al modelado y predicción de la epidemia (di ejemplos en este post reciente, y aquí hay alguno más del que se ha hablado en NeG). La mayoría utilizan modelos tradicionales de la epidemiología, en los que se divide la población en categorías (o «compartimentos»): susceptibles (S), infectados asintomáticos (E), infectados sintomáticos (I), recuperados (R), fallecidos (D) y varias otras posibles etapas intermedias como en cuarentena, hospitalizados o en la unidad de cuidados intensivos (UCI). Las iniciales de las categorías principales dan nombre a los modelos (SIR, SEIR, etc., aunque a esta sopa de letras de denominaciones se la conoce genéricamente como «SIR»). Más allá de su clara interpretación y facilidad de uso, una de las principales motivaciones para aplicar esos modelos es tratar de estimar las próximas etapas de la epidemia y cuantificar los efectos de las medidas no farmacéuticas para «aplanar la curva». Un objetivo práctico (tal vez el más importante) es lograr controlar el número de camas en UCIs necesarias cuando la enfermedad alcanza su punto máximo en cada país o región, y eso, claro está, requiere predicciones cuantitativas y precisas.
En este contexto, los autores del trabajo se preguntan hasta qué punto somos capaces de predecir cuándo llegará la expansión de la epidemia a su máximo, cuál será el número final de fallecidos o incluso si el confinamiento tendrá el efecto deseado o no. Para responder, plantean un modelo con los ingredientes esenciales de la epidemia (infección/confinamiento/evolución de la enfermedad), pero que es lo suficientemente sencillo como para analizarlo y poder ilustrar las ideas principales de su argumento. En la figura, tomada de su artículo, aparecen las distintas categorías en las que dividen la población y cómo evoluciona de una categoría a otra.
Para poder alimentar el modelo, recurren a los datos oficiales publicados por el Ministerio de Sanidad con reportes diarios de casos confirmados, pacientes recuperados y fallecidos. A estas alturas de la película, todos somos conscientes de las limitaciones de estos datos, pero eso refuerza aún más el argumento acerca de la incertidumbre y la predecibilidad. Como los autores también tienen esta preocupación, intentan incorporar de manera probabilística esta ignorancia sobre los parámetros, mediante un modelo Bayesiano.
Gracias a la simplicidad del modelo, se puede obtener una fórmula aproximada para el valor efectivo del ritmo (o factor) reproductivo básico, R0, una variable dinámica que cambia conforme las medidas de confinamiento van haciendo efecto:
donde t es el tiempo, R0 es el valor al principio de la epidemia, antes de que se tome ninguna medida de control, q es tanto mayor cuanto más restrictivas sean las medidas de movilidad y distancia social, y p cuantifica la falta de adherencia al confinamiento, ya sea por personal sanitario o de servicios básicos que tienen necesariamente que salir de casa, o simple y llanamente por tramposos que se saltan las reglas a la torera. En el límite de tiempos grandes, el número
indica si el efecto del confinamiento será suficiente para alcanzar un pico y doblegar la curva: ocurrirá cuando este número sea menor que 1.
Una de las cosas interesantes que se aprenden del modelo es que «aplanar la curva» no es, ni mucho menos, sinónimo de controlar la epidemia. El confinamiento siempre curva lo que, sin él, sería un simple crecimiento exponencial. Esta curvatura se lleva interpretando desde su aparición en los datos como un signo de que el control de la epidemia se acerca. Lo que el modelo dice es que si R(∞) > 1, es decir, si las medidas de confinamiento son insuficientes, la curva no se doblegará hasta que, en promedio 1-1/R0 de la población se haya infectado (observe, amigo lector, que si R0 es muy grande, casi toda la población se infectará). En tal caso, la epidemia entraría en una segunda fase en la que simplemente crece como una exponencial más lenta. Por contra, si R(∞) < 1 la epidemia alcanza un máximo y luego empezará a decrecer el número de infectados. En ambos casos se observa esa curvatura de la exponencial, de manera que del hecho de aplanar la curva no aprendemos absolutamente nada. De hecho, el carácter probabilístico del método Bayesiano hace que los datos sean compatibles con distintos escenarios futuros, en algunos de los cuales se controla la epidemia y en otros no.
Conclusión: en la parte creciente de la curva, cuando la epidemia está aún expandiéndose, lo más que podemos afirmar es que los datos indican que la epidemia se controlará con una determinada probabilidad. En el caso de los datos que se proporciona diariamente para España el Ministerio de Sanidad, tomando la serie hasta el 29 de marzo (partiendo de que el confinamiento empezó con los colegios el 11 de marzo), lo único que se podía afirmar es que el pico se alcanzaría con una probabilidad de una entre cuatro. Esto es lo que recoge la siguiente figura (casos activos en vertical, en función de los días desde el primer caso confirmado):
En esta figura se muestra la misma información de dos maneras, por un lado, en escala logarítmica, donde sólo nos importan los órdenes de magnitud de la epidemia y, por otro, en el recuadro interior, la misma información en escala lineal. En la escala logarítmica se ve que las medidas de contención pueden dar lugar a una segunda fase exponencial o bien a una epidemia controlada. En la escala lineal (en la que lamentablemente se sigue presentando la información en muchos medios, o incluso se validan algunos modelos matemáticos) se ve que el grado de incertidumbre sobre el final del proceso es dramático (zona sombreada).
Aquí es dónde mi avispado lector se da cuenta de que esta conclusión suscita más preguntas que respuestas, y se plantea si la incertidumbre se debe al modelo que han elegido los autores (elegido con cuidado para que salga el resultado), a la mala calidad de los datos, o es en realidad algo intrínseco de la dinámica de las epidemias. No se preocupe; los autores del estudio también se lo han planteado, y lo que ven es que este fenómeno es algo intrínseco a la dinámica de la epidemia. Para ilustrarlo, toman los parámetros que resultan del ajuste anterior (la curva naranja de la figura) y generan los datos a ajustar con el propio modelo determinista. Es decir, con su propio modelo producen unos números y, lógicamente, los ajustes del mismo modelo deberían describirlos perfectamente. O dicho de otro modo, la calidad de los datos que se utilizan ahora es perfecta. Sobre esos datos, hacen la misma inferencia bayesiana que con los datos originales, y  resulta la siguiente figura (mismos ejes que antes):
Como se puede ver, la incertidumbre es nula mientras estamos en los datos suministrados, pero en cuanto tratamos de hacer una predicción a futuro, la incertidumbre se abre en abanico y, de nuevo, es compatible con escenarios muy distintos. Esto demuestra que la imprecisión de los datos, que sólo puede complicar las cosas, no es la razón profunda de esta incapacidad para predecir.
Lógicamente, nos queda la otra pregunta, la relativa a si la conclusión aparece por la simplicidad del modelo. Lógicamente también, responderla requeriría hacer un estudio exhaustivo de distintos modelos (que ya hemos visto que son centenares). Sin embargo, los autores dan un argumento que sugiere que todos se van a encontrar el mismo problema. Recordemos que cualquier modelo epidemiológico tiene que explicar, en primer lugar, el crecimiento exponencial en la fase inicial de la pandemia. Una exponencial es extremadamente sensible a la incertidumbre en los parámetros, de manera que pequeñas variaciones en estos pueden dar lugar a predicciones divergentes igual que le ocurría al bueno de Lorenz. Añadir nuevas categorías para asintomáticos, y estratificar los datos por edades, movilidad geográfica, antecedentes médicos, nivel socioeconómico, etc., desde luego aumenta la fiabilidad de las predicciones a corto plazo, pero la amplificación exponencial dará al traste con la de las predicciones a largo plazo. Lo que resulta preocupante de emplear modelos sofisticados es que pueden crear una falsa percepción de realismo y minuciosidad que nos impide percibir que adolecen del mismo problema a largo plazo. Si se da cuenta, los modelos meteorológicos son extraordinariamente detallados y sofisticados, y ni por esas predicen bien una semana.
Enonces, ¿qué concluimos de este trabajo? ¿Que está todo perdido? ¿Es este un mensaje pesimista y negativo, y mejor vamos a darnos a la bebida para olvidar (no, que los bares están cerrados y beber solo en casa no es bueno)? Pues la verdad es que no, y en realidad la predicción meteorológica nos marca el camino a seguir. Para empezar, debemos abandonar la predicción determinista y asumir la incertidumbre inherente a estos procesos aceptando predicciones probabilísticas. Ya hay grupos consolidados en todo el mundo que han adoptado este enfoque (como el de Imperial College, que sin duda empujó al gobierno de Boris Johnson a cambiar su estrategia) y que permiten generar múltiples escenarios y no sólo uno como si la trayectoria futura de la epidemia se pudiese predecir sencillamente con los datos pasados y estuviese «ahí», esperando a ser descubierta. Por otra parte, necesitamos mejores medidas (el equivalente a los globos y las estaciones meteorológicas), con una granularidad suficientemente amplia. Y finalmente, necesitamos un plan global (a escala planetaria) para adoptar un enfoque unificado, donde la información sea compartida y detallada y donde los modelos, sus supuestos y sus conclusiones sean transparentes y realistas.
Aprendamos del pasado y confiemos en que el coronavirus nos deje, al menos, este legado positivo.
Nota importante: como en este blog he hablado muchas veces de predicciones sobre cambio climático, me veo obligado a aclarar que no es lo mismo predecir el tiempo que va a hacer dentro de dos o tres días que el clima que va a hacer dentro de uno o varios años (spoiler: por estas fechas el año que viene será primavera). No quiero que esta confusión, que hizo famosa Rajoy, se malinterprete y se aplique a que el clima no se puede predecir. Y dicho eso, las predicciones del IPCC son siempre probabilísticas, y asignan high confidence (“alta confianza”) cuando la probabilidad de que algo pase es mayor que el 90%. Y sí, que si no hacemos nada antes de 2050 habremos aumentado la temperatura media del planeta en dos grados respecto a niveles preindustriales tiene “mucha high confidence“.

Anxo Sánchez

Anxo Sánchez es Doctor en Física Teórica y Matemática por la Universidad Complutense de Madrid y Catedrático de Matemática Aplicada en la Universidad Carlos III. Tras dedicar quince años a estudiar solitones, dispositivos semiconductores y crecimiento de materiales, en los últimos años sus áreas de investigación tienen que ver con las aplicaciones de herramientas físicas y matemáticas en campos que van desde la biología a la economía, casi siempre desde la perspectiva de los sistemas complejos.

https://nadaesgratis.es/anxo-sanchez/ni-el-pico-ni-el-final-de-una-epidemia-se-pueden-predecir-con-precision?fbclid=IwAR398NPWVPmI7rw3DprI6-SezxstgqevA03dr88dnVrtYuzPgxTByihRCVw

No hay comentarios:

1. Dana  2. Casuística del levante  2.1 El urbanismo en zonas inundables  2.2 Análisis de Francesc Mauri    2.3  Zona cero  2.4 ...