Innovando con Dan: ¿Cómo nos ayudan los big data a comprender el cambio climático?

El cambio climático es una auténtica amenaza para nuestro planeta, y sus consecuencias destructoras ya se sienten en todo el mundo. Daniel Duffy, Jefe de Supercomputación del Centro de Simulaciones Climatológicas de la NASA (NASA Centre for Climate Simulation, NCCS) explica por qué los big data son esenciales para estudiar el cambio climático.

¿Qué niño no ha soñado con ser astronauta? La ciencia y la exploración espacial siempre me han parecido interesantes y, por consiguiente, trabajar en la NASA no es sólo un honor y un privilegio, también es un sueño hecho realidad. A pesar de que no me han seleccionado para ser astronauta, todavía, en calidad de Jefe de Supercomputación del Centro de Simulaciones Climatológicas de la NASA (NCCS), trabajo con antiguos astronautas y con algunos de los mejores científicos e ingenieros del mundo a fin de encontrar soluciones para modelizar el cambio climático.

El NCCS proporciona recursos de supercomputación, almacenamiento y conexión en red para proyectos científicos en gran escala de la NASA. Muchos de esos proyectos comprenden simulaciones mundiales del tiempo y el clima en la Tierra. Esas simulaciones crean ingentes volúmenes de datos que son literalmente demasiado grandes para que los científicos los puedan leer. Por consiguiente, es cada vez más importante concebir nuevos métodos para analizar y visualizar los conjuntos de big data creados por esas simulaciones para comprender mejor cuestiones científicas fundamentales como el cambio climático.

Comprender como cambia el clima y las posibles consecuencias en el mundo son temas de investigación muy importantes. La investigación de previsiones meteorológicas nos facilitará información más precisa sobre fenómenos meteorológicos extremos tales como huracanes y fuertes sistemas convectivos que pueden crear tornados e impactan directamente a Estados Unidos y al resto del mundo.

Big Data y cambio climático: ¿Cómo funciona?

Los Big data y el estudio del clima van tomados de la mano, no se puede estudiar realmente el clima sin disponer de grandes volúmenes de datos.

El Centro de Simulaciones Climatológicas de la NASA (NCCS) dispone de un conglomerado de computadoras llamado Discover. Su principal objetivo es proporcionar el entorno necesario de computación y almacenamiento de alto rendimiento para atender a las necesidades de los proyectos científicos de la NASA. Se están ejecutando varios proyectos científicos diferentes en Discover, y gran parte de esos recursos de computación y almacenamiento se están utilizando para investigaciones del tiempo y el clima.

Discover es una computadora de alto rendimiento concebida especialmente para aplicaciones en muy gran escala estrechamente acopladas, un sistema en el cual el hardware y el software están relacionados y dependen el uno del otro. Aunque Discover no se utiliza para compilar datos de plataformas de teledetección como los satélites, muchas de las simulaciones atmosféricas, terrestres y oceanográficas que se efectúan en Discover necesitan datos de observaciones. Los científicos que utilizan Discover reciben constantemente datos de observaciones del mundo entero que utilizan en sus modelos.

Ahora bien, facilitar grandes volúmenes de datos a los científicos no sirve de nada si no pueden visualizarlos y trazar los mapas correspondientes. Véase por ejemplo la animación mejorada elaborada por la Global Modelling and Assimilation Office (GMAO) de la NASA, que utiliza observaciones de múltiples fuentes para efectuar previsiones meteorológicas.

El Sistema de Asimilación de Datos (Data Assimilation System, DAS) GEOS-5 de la GMAO mezcla observaciones reales y modelos para elaborar la imagen más precisa y físicamente coherente de la atmósfera en un momento determinado. Cada seis horas se acumulan más de 5 millones de observaciones que representan variables tales como temperatura, agua, viento, presión de superficie y ozono. Las observaciones asimiladas son de ocho tipos principales que permiten medir cada uno variables diferentes de distintas fuentes.

Procesamiento de datos

Los modelos del cambio climático necesitan cada vez más recursos informáticos con mucha memoria y una gran rapidez de acceso a los datos. Para atender a esas necesidades, Discover está compuesto de varios tipos de procesadores diferentes: 79 200 núcleos Intel Xeon, 28 800 núcleos Intel Phi y 103 680 núcleos NVIDIA Graphical Processing Unit (GPU) CUDA.

La capacidad de cálculo total de Discover es de 3,36 petaflops, o 3 694 359 069 327 360 operaciones con coma flotante cada segundo. Para comprender mejor esta potencia informática, cada ser humano debería multiplicar dos cifras cada segundo durante casi 140 horas seguidas para alcanzar un resultado equivalente a lo que Discover puede hacer en un segundo.

Además de la potencia informática, Discover tiene unos 33 petabytes de espacio de almacenamiento en disco. Un disco duro doméstico normal tiene una capacidad de un terabyte. Por consiguiente, Discover tiene una capacidad equivalente a 33 000 de esos discos duros. Si se utilizara para almacenar música, se podría crear una lista musical de más de 67 000 años de duración sin repetir una sola canción dos veces.

El NCCS trata de modernizar Discover cada año. Los servidores y la capacidad de almacenamiento de Discover envejecen y es más eficaz sustituir algunos equipos al cabo de cuatro o cinco años que seguir utilizándolos. Por ejemplo, la puesta al día de 2010 de Discover se sustituyó a finales de 2014 y principios de 2015 por un equipo informático actualizado. Con la misma superficie, el mismo consumo de potencia y las mismas necesidades de refrigeración, el NCCS obtuvo aproximadamente ocho veces la misma capacidad informática después de la actualización. Los equipos suprimidos se vuelven a utilizar frecuentemente, ya sea internamente para apoyo y otros servicios, o externamente como en universidades tales como la University of Maryland, Baltimore County (UMBC) y la George Mason University (GMU).

Cartografía de datos: cambio climático y previsiones

Los datos generados en el NCCS contribuyen a diversos documentos importantes de investigación y política.

Esos datos permiten analizar con más precisión el impacto del cambio climático en nuestro planeta y pueden ayudar a los poderes públicos a elaborar estrategias y acciones apropiadas para responder a las previsiones climatológicas punto por ejemplo, los datos se han utilizado para evaluar informes presentados por el Intergovernmental Panel on Climate Change (IPCC). Una simulación de datos producidos por el NCCS y visualizados por el Scientific Visualization Studio de la NASA presenta resultados de modelos climatológicos producidos en el quinto informe de evaluación del IPCC, que muestra los cambios previstos de las temperaturas y precipitaciones durante el siglo XXI.

https://www.youtube.com/watch?v=d-nI8MByIL8

También hemos generado un nuevo análisis del clima durante los últimos 35 años, que se utiliza en diversos proyectos fuera de la NASA.

El huracán Katrina, que azotó las costas del Golfo de Estados Unidos en 2005, puso de manifiesto la importancia de unas previsiones precisas. Los daños fueron descomunales, pero podían haber sido mucho peores si las previsiones no hubieran permitido una alerta temprana y dejado tiempo para una preparación adecuada. Las supercomputadoras del NCCS disponen hoy del modelo de circulación mundial de la GMAO, que tiene una resolución hasta 10 veces superior a la utilizada en la época del huracán Katrina y permite estudiar mejor el huracán y estimar con más precisión su intensidad y dimensiones. De este modo, los meteorólogos pueden determinar con más precisión el derrotero de un huracán y su actividad interna, dos parámetros esenciales para planificar correctamente los preparativos para un evento extremo como Katrina.

Además, los resultados de los modelos climatológicos mundiales también se utilizan en experimentos de simulación de sistemas de observación (Observing System Simulation Experiments, OSSE) para simular la próxima generación de plataformas de teledetección propuesta por la NASA. De este modo, científicos e ingenieros disponen de una Tierra virtual en la que pueden estudiar las ventajas de nuevas observaciones a distancia de la atmósfera desde el espacio antes de empezar a crear un nuevo sensor o satélite.

Futuro de los datos sobre el cambio climático

La NASA produce sobre todo datos. Satélites, instrumentos, computadoras e incluso personas entran y salen de la NASA, pero los datos y, especialmente, las observaciones de la Tierra, siempre serán valiosos. Por consiguiente, es fundamental que la NASA dé acceso a los datos que genera, no sólo a otros emplazamientos y científicos de la NASA, sino al mundo entero.

La magnitud de los datos generados plantea ingentes dificultades. Los científicos que utilizan los sistemas ya tienen dificultades para utilizar los conjuntos de datos, y no hablemos de personas de fuera de la NASA que obtienen los datos para utilizarlos. Por consiguiente, hemos empezado a plantearnos la creación de un servicio de análisis climatológicos (Climate Analytics-as-a-Service, CAaaS), que combina informática de alto rendimiento, datos e interfaces de programación de aplicaciones (API) para proporcionar interfaces a programas de análisis que funcionan in situ con los datos. Dicho de otro modo, en lugar de telecargar enormes ficheros de datos, los usuarios pueden hacer preguntas y el análisis se efectúa en los sistemas de la NASA. Los resultados de ese análisis se envían después al usuario. Dado que el análisis resultante ocupa menos volumen que los datos brutos necesarios para generarlo, ese sistema reducirá el volumen de datos transferidos por diversas redes y, sobre todo, los API pueden concebirse de modo que reduzcan espectacularmente la fricción entre usuarios y datos.