Introducción

El virus del zika es una enfermedad que es transmitida por la picadura del mosquito de la especie Aedes, en especial el Aedes aegypti, que habita en las regiones del trópico. A este mosquito se le atribuye la diseminación de otras enfermedades como el dengue, el chikungunya y la fiebre amarilla (OMS, 2018). La enfermedad se manifiesta a través de fiebre leve, conjuntivitis, dolor de cabeza, dolor articular, erupciones en la piel, los síntomas pueden aparecer entre dos y siete días tras la picadura del mosquito, con la dificultad en diagnóstico ya que solo una de cada cuatro personas presenta síntomas. No existe un medicamento específico para tratar el virus, el tratamiento consiste en controlar la fiebre y el dolor, en la mayoría de las personas los síntomas desaparecen por sí solos en una semana, y en casos específicos se pueden encontrar complicaciones después de enfermar con el virus (PAHO, 2016), en mujeres embarazadas contagiadas se puede presentar casos de microcefalia en el feto, además de ser este virus un desencadenante para el síndrome de Guillain-Barré (OMS, 2017).

Como contexto epidemiológico, el virus se identifica por primera vez en Uganda en el Bosque Zika, en el mono Rhesus en 1947, aislado en humanos cinco años después. El primer brote importante se da en la región de la isla de Yap en Micronesia en 2007 con 185 casos; el segundo brote se dio en Nueva Caledonia con 146 casos; en 2013 se presenta el tercer brote en la Polinesia Francesa con un aumento representativo de 8510 casos registrados, pero se estimaron cerca de 29000 casos. En estos brotes, no se reportó muerte por efecto del virus (Minsalud Colombia, 2015).

Figura 1: Casos de Zika en América Latina (PAHO, 2017)

En Chile, el primer caso de contagio se presentó en la Isla de Pascua en 2014 sin riesgo de contagio hacia el Chile continental, ya que el mosquito no habita esta área (Ídem).

En Brasil, el Ministerio de Salud del país confirmó la presencia del virus en febrero de 2015 con 16 personas que presentaron resultados positivos para la enfermedad, en octubre del mismo año se reportan casos autóctonos del virus en 16 estados (Ídem).

El 7 de mayo de 2015 se genera la alerta epidémica en las Américas, siendo este el inicio de la etapa pre-epidémica en Colombia, con la confirmación de la circulación del virus del zika en Cartagena, Colombia, en Octubre de 2015 se declara la etapa epidémica en este país. Por tener 718 municipios por debajo de los 2.200 metros sobre el nivel del mar, hábitat favorable para el Aedes aegypti, Colombia tenía prácticamente todo su territorio a la expansión del virus, en 2014, se había identificado la presencia del vector en 30 de sus 32 departamentos (Minsalud Colombia, 2015).

El brote más importante (ver fig. 1) se dio en América del Sur conforme a los datos de la Organización Panamericana de la Salud, iniciando el brote en la primera semana del 2016, con algunos casos un par de meses antes, llegando a su pico máximo en la semana 7 a la 11 de 2016, cayendo sobre el eje en la semana 35 del año 2017. El periodo de brote epidemiológico más importante  ocurrió entonces entre enero de 2016 y julio de 2016.

El presente trabajo aborda el proceso evolutivo de la epidemia, con la perspectiva de los medios de comunicación latinoamericanos digitales publicados durante el brote, el estudio se realiza a través de herramientas de análisis de texto de aprendizaje de máquinas, que permitan identificar patrones en grandes cantidades de información, correspondientes a los hechos noticiosos asociados al virus del zika.

Metodología

La minería de textos es una de las técnicas que engloba el Big Data y la minería de datos, analizar enormes cantidades de información asociada en patrones que permitan establecer tendencias sobre lo procesado. El presente trabajo realiza un ejercicio de análisis de texto no estructurado, procesando noticias sobre el virus del zika, publicados en medios digitales latinoamericanos en el periodo del brote.

El proceso se enmarca en tres etapas:

  1. La recuperación de la información: Selección de los textos pertinentes.
  2. La extracción de la información: Obtener información de las noticias publicadas mediante el procesamiento de lenguaje natural.
  3. Análisis de datos: Detectar patrones, tendencias o asociaciones de la información.

Recuperación de la Información

Se establece que deben recuperarse artículos noticiosos que traten el tema del virus del zika, estos artículos deben estar enmarcados en un periodo de tiempo.

La identificación temporal de los artículos no parte de las semanas epidémiológicas que reporta la Organización Panamericana de la Salud, sino que se realiza mediante un ejercicio en la plataforma Google Trends (ver gráfico 1), la cual entrega la tendencia de búsquedas de los internautas en el motor de búsquedas de Google.

Gráfico 1: Tendencia de búsqueda de noticias relacionadas al “Virus del zika” en los últimos cinco años – Google Trends

Los datos de búsqueda en Google se sostienen sobre el eje horizontal hasta el mes de noviembre de 2015, donde empieza el interés de los internautas y las búsquedas se incrementan llegando al máximo relativo de 100 puntos acorde a la escala del motor de búsqueda el 15 de mayo de 2016, decayendo el interés sobre septiembre de 2016 con un nuevo pico de menor magnitud el 8 de enero de 2017. Con base en estos datos, se establece el espacio temporal de análisis de noticias entre el 8 de noviembre de 2015 (antes de iniciar las primeras búsquedas) hasta el 8 de marzo de 2017 (finalizando el segundo pico de búsquedas), este periodo enmarca el tiempo en el que se da el brote más relevante.

En este espacio temporal se realizan búsquedas en el motor Google con el tema “Virus del zika”, seleccionando la opción de mostrar solo noticias. Se extrae una noticia por semana desde el 8 de noviembre de 2015 hasta el 8 de marzo de 2017, para un total de 65 semanas y 65 artículos. El criterio de selección de cada noticia semanal, se da eligiendo la nota del medio latinoamericano más relevante en la búsqueda.

Extracción de la Información

Se realiza una tarea de preparación de la información. Con los vínculos a la noticia seleccionados, cada uno de los textos en web se tratan en la página textise, una herramienta que permite convertir un sitio web a texto plano, el cual se extrae y se organiza en una hoja de cálculo para ser posteriormente analizada. Se construye entonces una base de datos a dos columnas, la asociación a fecha en la primera, y en la segunda el texto plano de la noticia seleccionada, para un total de 65 filas, que representan una noticia semanal de un diario latinoamericano.

Para el procesamiento de la información se implementa la API Cloud Natural Language (CNL), la cual permite obtener información de datos no estructurados con el aprendizaje autónomo de Google. La implementación de la API se realiza sobre el lenguaje Python de forma que procese texto a texto y recupere los resultados entregados por la plataforma para su posterior análisis. De las opciones de procesamiento posibles se elige: el reconocimiento de entidades y el análisis de opiniones.

Análisis de Datos

Se recuperan los datos en una hoja de cálculo y mediante la elaboración de gráficas se analiza la información obtenida por la API Cloud Natural Language. Los resultados del análisis se muestran a continuación.

Resultados

Se analizan 62 artículos noticiosos cuya temática es el virus del zika, y publican medios latinoamericanos durante el periodo del 8 de noviembre de 2015 hasta el 8 de marzo de 2017. Un artículo por semana, elegido por la relevancia otorgada por el motor de búsqueda en referencia al tema en cuestión. Este conjunto de datos corresponden a: 198.826 matrices equivalentes a 32.387 palabras, aproximadamente 112 cuartillas.

Reporte de entidades:

Uno de los intereses principales al momento de analizar un brote epidémico es el lugar donde se detectan casos de la enfermedad. La herramienta de aprendizaje autónomo es capaz de detectar entidades y clasificarlas; dentro de estas entidades se encuentran las ubicaciones, de manera que el reporte entrega un listado de palabras detectadas como ubicaciones. Ejemplo, si se trata la frase:

“A comienzos de abril de 2015, un gran brote epidémico de fiebre del Zika comenzó en Brasil y se extendió a otros países en Sur, Centroamérica y el Caribe.”

Fragmento tomado de (Wikipedia, 2017).

El resultado del proceso es:

Palabra Respuesta de API CNL
Zika Identidad: Persona
Relevancia: 0,19
Brote Identidad: Otros
Relevancia: 0,14
Fiebre Identidad: Otros
Relevancia: 0,14
Países Identidad: Ubicación
Relevancia: 0,14
Sur Identidad: Ubicación
Relevancia: 0,12
Caribe Identidad: Ubicación
Relevancia: 0,10
Brasil Identidad: Ubicación
Relevancia: 0,9
Centroamérica Identidad: Ubicación
Relevancia: 0,9


Sin embargo, el sistema no es capaz de determinar si la ubicación pertenece a un país, por lo que se tratan los datos manualmente asociando las regiones reportadas a países, lo cual permite construir el Gráfico 2, el cual identifica la relevancia de un país en las noticias publicadas cuyo tema es el virus del zika, el recuadro azul identifica el periodo más importante del brote epidemiológico (se resaltan estos cuatro países por ser los más mencionados en las noticias).

Gráfico 2: Relevancia en noticias de los países en mención

Otra de las entidades analizadas además del país, fue el subtema “microcefalia”, una de las consecuencias más discutidas en las noticias, debido a su posible correlación con el virus del zika y el factor de riesgo asociado a las mujeres embarazadas.

Gráfico 3: Reporte de entidades al subtema “Microcefalia”

Reporte de opiniones:

Otra de las opciones de tratamiento de textos es un análisis de opiniones, el cual dado determinado texto, es capaz de entregar dos variables: un puntaje de -1 a 1, donde -1 indica que el texto expresa sentimientos negativos, y 1 donde expresa sentimientos positivos; la segunda variable se denomina magnitud, la cual expresa de 0 a infinito cuanta emoción está cargada en el texto ingresado. Por ejemplo, si se ingresa el texto:

“Llegados a este punto, parece imposible detener su avance. Cuantos más afectados, más probabilidades hay de que un mosquito les pique y transmita el virus a otra persona.”

Fragmento tomado de (Pérez Oliva, 2016).

El resultado entregado es:

 

El cual entrega una calificación del documento y de cada frase, indicando cuan cargada de opiniones negativas o positivas tiene el texto, y un factor que indica su magnitud. En un rango de puntaje de -1 a -0,25 se considera que el texto tiene opiniones negativas o pesimistas sobre lo discutido, entre -0.25 y 0.25, se considera una opinión neutral, y entre 0.25 y 1 la opinión tiene consideraciones positivas. De la misma forma se ha establecido un histograma con base a los textos noticiosos analizados.

En el gráfico 4 se ilustra el puntaje de opinión entregado por el análisis del texto, en la región verde se ubican las opiniones de tono positivo, en la región roja las negativas, en el medio las neutrales, y las líneas verticales punteadas marcan el periodo epidemiológico del brote del virus.

Gráfico 4: Puntaje de opinión

Discusión

La herramienta de análisis de texto basado en aprendizaje autónomo, rompe con barreras humanas en el análisis de datos, en el particular del presente trabajo, se analizaron 62 artículos, la limitante en esta oportunidad no fue el procesamiento de los datos, sino la consecución y preparación de los mismos, pues fue un proceso manual. Con algo de programación se podría repetir el proceso capturando millones de artículos periodísticos para ser analizados por una máquina entrenada para las tareas ya enunciadas de reconocimiento de entidades y detección de sentido de opinión. En esta oportunidad se ha hecho uso de la máquina pre entrenada que pone a disposición la API, sin embargo también es posible realizar un ejercicio de entrenamiento de la máquina, enseñándole cuáles son las entidades que se deben resaltar y cómo identificarlas.

Aun con las limitantes mencionadas, el ejercicio es interesante. La posibilidad de identificar el curso de una epidemia a través del análisis de notas periodísticas en gran volumen, las cuales contienen información regionalizada sobre la enfermedad, casos reportados, investigaciones realizadas, etc. podría servir de herramienta para la toma de acciones en entidades que deben intervenir la salud pública global. Si bien es cierto, los casos clínicos son la fuente definitiva en el análisis epidemiológico, el procesamiento de contenidos noticiosos, tiene el potencial de entregar información valiosa y en periodos más cortos  que lo que tarda el procesamiento de los casos clínicos.

Colombia y Brasil, están dentro de los países más afectados por el virus del zika, se observa en los datos analizados, que en efecto los medios dieron importancia a este evento y su incidencia en estos países, pues se concentran los artículos en ellos y su relación con el virus durante el periodo del brote, en países como México y Estados Unidos la relevancia se da posterior al brote general, esto se debe a que en México la epidemia se da sobre el segundo semestre del año 2016 (PAHO, 2017), siendo su pico más alto en la semana 41, el cual coincide con el interés noticioso identificado en la gráfica; de forma similar se presenta con los Estados Unidos quienes reportan su primer caso sobre la semana epidemiológica número 30, ya cuando el brote general empieza a decrecer, sin embargo el interés noticioso se da en el momento que empiezan los contagios en este país.

Otro elemento de interesante análisis es el subtema “microcefalia”, una anomalía cerebral congénita que se transmite durante el embarazo, producto del contagio del virus del zika a la madre. De nuevo la agenda periodística muestra acorde al gráfico 3, un interés en cubrir los casos asociados a microcefalia y zika.

El análisis de opinión permite hacer lectura de cuan positivos o negativos eran los escritos. Curiosamente, en el proceso mas fuerte del brote, la opinión periodística, se mantiene entre neutral y positiva, muestra de que en cierta medida la situación estaba bajo control.

Conclusiones

  • A posteriori, es posible establecer una curva similar a la evolución epidemiológica, a través no de los casos clínicos, sino de notas periodísticas asociadas a la enfermedad, en este caso el virus del zika.
  • Es posible identificar la aparición de la enfermedad y cómo esta cobra importancia en una región a través del análisis de entidades.
  • Trastornos asociados al virus como la microcefalia, se pueden identificar en la agenda periodística de los medios.
  • En análisis durante el curso de un brote, se podría realizar ejercicios similares para identificar cómo se disemina el virus para tomar las medidas correctivas, o qué enfermedades asociadas requieren de atención.

Referencias