Innover avec Dan: Comment les mégadonnées nous aident à comprendre les changements climatiques?

Les changements climatiques sont une menace réelle pour notre planète, et leurs conséquences dévastatrices se font déjà sentir dans le monde entier. Le Dr Daniel Duffy, qui dirige l’équipe informatique de pointe au NASA Centre for Climate Simulation (NCCS), explique en quoi les mégadonnées sont essentielles pour l’étude des changements climatiques.

Quel enfant n’a rêvé de devenir astronaute? La science et l’exploration spatiale m’ont toujours passionné, si bien que travailler à la NASA est pour moi, non seulement un honneur et un privilège, mais aussi l’aboutissement d’un rêve. Même si je n’ai pas – ou pas encore – été sélectionné comme astronaute, en tant que directeur de l’équipe informatique de pointe au NASA Centre for Climate Simulation (NCCS), je travaille avec d’anciens astronautes et avec certains des plus brillants scientifiques et ingénieurs du monde, qui s’emploient à modéliser les changements climatiques.

Le NCCS offre des ressources de pointe en matière de calcul, de stockage et de réseau pour les projets scientifiques à grande échelle de la NASA, qui, pour beaucoup, font appel à des simulations des conditions météorologiques et climatiques sur Terre. Ces simulations créent de gigantesques volumes de données, qui sont littéralement trop importants pour que les scientifiques puissent les lire. Il est donc essentiel de mettre au point de nouvelles méthodes d’analyse et de visualisation des ensembles de mégadonnées ainsi créés pour pouvoir mieux comprendre des problèmes scientifiques aussi cruciaux que les changements climatiques.

Comprendre l’évolution du climat et ses effets potentiels sur la planète est en effet une question fondamentale pour les chercheurs. Faire des recherches sur les prévisions météorologiques nous permettra d’obtenir des informations plus précises sur les phénomènes météorologiques extrêmes, tels que les ouragans ou les systèmes convectifs à l’origine des tornades, qui ont des incidences directes sur les Etats-Unis comme sur le reste du monde.

Mégadonnées et changements climatiques: quel est le rapport?

Les mégadonnées et l’étude du climat vont de pair et il est pratiquement impossible d’étudier le climat sans utiliser de très grandes quantités de données.

Le NASA Centre for Climate Simulation (NCCS) abrite un ensemble d’ordinateurs appelé superordinateur Discover, dont l’objectif principal est de fournir les ressources de pointe en matière de calcul et de stockage indispensables aux projets scientifiques de la NASA. Divers projets scientifiques sont en effet menés à bien à l’aide de Discover, et une grande partie des ressources de calcul et de stockage sont utilisées par les recherches sur la météorologie et le climat.

Discover est un ordinateur extrêmement performant spécifiquement conçu pour des applications à très grande échelle et étroitement associées – un système dans lequel la composante matérielle et la composante logicielle sont liées et même interdépendantes. Même si Discover ne sert pas à recueillir des données collectées par des équipements de télédétection comme les satellites, nombre des simulations atmosphériques, terrestres et océaniques utilisant Discover ont besoin d’être alimentées par des observations. Les scientifiques qui utilisent Discover ne cessent de l’alimenter en données d’observation en provenance du monde entier pour élaborer leurs modèles.

Toutefois, il ne sert à rien de fournir à un scientifique de grandes quantités de données s’il ne peut pas les visualiser et les représenter sur une carte. Citons, par exemple, l’animation augmentée réalisée par le Global Modelling and Assimilation Office (GMAO) de la NASA, qui utilise des observations en provenance de multiples sources pour faciliter l’établissement de prévisions météorologiques.

Le système d’assimilation de données (DAS) GEOS-5 du GMAO associe données d’observation et informations modélisées pour produire l’image la plus précise et la plus physiquement cohérente de l’atmosphère à un moment donné. Plus de cinq millions d’observations sont accumulées toutes les six heures, servant à établir une cartographie de variables telles que la température, l’eau, le vent, la pression en surface, et la teneur en ozone. Ces observations sont classées en huit grandes catégories, dont chacune mesure différentes variables en provenance de plusieurs sources.

Traitement des données

Les modèles des changements climatiques ont besoin de toujours plus de ressources de calcul, ainsi que d’énormes quantités de mémoire et d’un accès rapide aux données. Pour répondre à ces besoins, Discover est composé de différents types de processeurs: 79 200 coeurs Intel Xeon, 28 800 coeurs Intel Phi, et 103 680 cœurs NVIDIA CUDA pour unité de traitement graphique (GPU).

La capacité totale de calcul de Discover est de 3,36 pétaflops, soit 3 694 359 069 327 360 opérations en virgule flottante par seconde. Pour mieux se faire une idée de cette puissance de calcul, cela veut dire que chacun sur Terre devrait multiplier deux nombres toutes les secondes pendant près de 140 heures de suite pour parvenir à faire l’équivalent de ce que fait Discover en une seule seconde.

En plus de sa puissance de calcul, Discover a environ 33 pétaoctets d’espace de stockage sur disque. Habituellement, un disque dur d’ordinateur au domicile fait un téraoctet; Discover fait donc l’équivalent de 33 000 de ces disques. S’il était utilisé pour stocker des morceaux de musique, on pourrait créer une liste de lecture qui durerait 67 000 ans sans que l’auditeur écoute la même chanson deux fois.

Le NCCS s’efforce de mettre Discover à niveau tous les ans. Comme les serveurs et les moyens de stockage vieillissent, il est aujourd’hui plus rentable de remplacer certains équipements tous les quatre à cinq ans plutôt que de continuer à les faire fonctionner. Ainsi, la version 2010 de Discover a été remplacée fin 2014-début 2015 par un ensemble d’ordinateurs mis à niveau. A égalité de superficie, d’alimentation électrique et de climatisation, le NCCS a pu, après cette mise à niveau, multiplier approximativement par huit la capacité de calcul. Les équipements mis hors service sont souvent recyclés, soit pour fournir un appui ou d’autres services en interne, soit pour être envoyés à l’extérieur, par exemple à des universités comme l’Université du Maryland, Baltimore County (UMBC) et la George Mason University (GMU).

Cartographie des données: changements climatiques et prévisions

Les données produites par le Centre NCCS sont utilisées pour différentes recherches et différents documents d’orientation.

Ces données alimentent le débat sur les effets des changements climatiques sur notre planète et peuvent aider les décideurs à élaborer des stratégies et des mesures adaptées, compte tenu des projections climatiques. C’est ainsi que ces données ont été utilisées dans des rapports d’évaluation commandés par le Groupe d’experts intergouvernemental sur l’évolution du climat (GIEC). Une simulation de données effectuée par le Centre NCCS et visualisée par le studio de visualisation scientifique de la NASA présente les résultats de modèles climatiques établis dans le cinquième rapport d’évaluation du GIEC, avec des projections indiquant les possibles changements de température et de précipitation tout au long du XXIe siècle.

https://www.youtube.com/watch?v=d-nI8MByIL8

Nous établissons une réanalyse du climat au cours des 35 dernières années, utilisée dans divers projets extérieurs à la NASA.

L’ouragan Katrina, qui a frappé le Golfe du Mexique en 2005, a montré combien il importe de disposer de prévisions précises. Les dégâts, certes énormes, auraient pu être bien pires sans les prévisions qui ont permis d’alerter les populations et de prendre les mesures nécessaires à temps. A l’heure actuelle, les superordinateurs du NCCS hébergent le modèle de circulation générale du GMAO, d’une résolution dix fois supérieure à celle des modèles utilisés au moment de Katrina, ce qui permet de mieux étudier le fonctionnement des ouragans et d’en estimer avec plus de précision l’intensité et la taille. Autrement dit, les météorologues peuvent se faire une meilleure idée de la direction de l’ouragan et de l’activité en son centre, ce qui est fondamental pour se préparer à des événements extrêmes comme Katrina.

De plus, les résultats des modèles climatiques généraux sont également utilisés par les expériences de simulation des systèmes d’observation (OSSE) pour simuler le fonctionnement des équipements de télédétection de prochaine génération proposés par la NASA. Les scientifiques et les ingénieurs disposent ainsi d’une Terre virtuelle, ce qui leur permet d’étudier les avantages que présentent les nouvelles observations de l’atmosphère faites à distance depuis l’espace avant même la construction d’un nouveau capteur ou satellite.

L’avenir des données sur les changements climatiques

Les données sont le principal produit de la NASA. Les satellites, les instruments, les ordinateurs, et même les personnes, vont et viennent, mais les données – en particulier celles relatives aux observations de la Terre – sont utiles pour toujours. Il est donc impératif que la NASA rende les données qu’elle produit accessibles, non seulement aux autres sites et collègues de la NASA, mais aussi au monde entier.

Le volume de données produites représente à lui seul un véritable défi. Même aujourd’hui, il est difficile pour les scientifiques travaillant sur ces systèmes d’utiliser ces quantités de données, et il est encore plus difficile pour les personnes extérieures à la NASA de se procurer ces données pour les utiliser. C’est pourquoi nous envisageons de créer un projet appelé ‘Climate Analytics-as-a-Service’ (CAaaS), qui associerait des interfaces très performantes de calcul, de données et de programmation d’applications pour constituer des interfaces avec des programmes d’analyse utilisés in situ avec ces données. En d’autres termes, plutôt que de télécharger d’énormes fichiers de données, les utilisateurs peuvent poser les questions qui les intéressent et les analyses seront effectuées sur les systèmes de la NASA. Les résultats de ces analyses seront ensuite communiqués à l’utilisateur. Etant donné que le volume de données produites est inférieur à celui des données brutes nécessaire à son établissement, ce système permettra de réduire le volume de données transféré sur divers réseaux. Surtout, les interfaces de programmation d’applications peuvent être conçues de manière à réduire considérablement les interactions entre les besoins des utilisateurs et les données.