Осуществляя инновации вместе с Дэном: Как большие данные помогают нам постигать изменение климата?

ShareTweet about this on TwitterShare on FacebookGoogle+Email to someone

Изменение климата представляет собой реальную угрозу для нашей планеты, и его губительные последствия уже ощущаются во всех уголках земного шара. Д-р Дэниэл Даффи, ведущий специалист в области высокопроизводительных вычислений в Центре моделирования климата NASA (NCCS), показывает сколь важное значение имеют большие данные для решения задачи изучения изменения климата.

Кто из мальчишек не мечтал стать астронавтом? Наука и исследование космического пространства всегда вызывали у меня большой интерес, и поэтому работа в NASA для меня не только большая честь и привилегия, но и сбывшаяся мечта. И хотя мне не выпала судьба стать астронавтом, пока, я, как ведущий специалист в области высокопроизводительных вычислений в Центре моделирования климата NASA (NCCS), работаю вместе с бывшими астронавтами и некоторыми крупнейшими учеными и инженерами мира над разработкой решений для составления моделей изменения климата.

NCCS осуществляет высокопроизводительные вычисления, обеспечивает хранение и предоставление сетевых ресурсов для масштабных научных проектов NASA. Многие из этих проектов связаны с составлением глобальных моделей погоды и климата. В процессе такого моделирования генерируются колоссальные объемы данных; данных, которые без преувеличения являются слишком большими, чтобы ученые могли с ними ознакомиться. Поэтому предоставление новых методов анализа и наглядного отображения наборов больших данных, созданных этими моделями для лучшего понимания таких важнейший научных вопросов, как изменение климата, приобретает все возрастающее значение.

Понимание того, как происходит изменение климата и его потенциального влияния на нашу Землю, является чрезвычайно важным вопросов для исследования. Проведение научных исследований по прогнозам погоды позволит нам получать более точную информацию о таких экстремальных погодных явлениях, как ураганы и мощные конвективные системы, способные создавать торнадо, которые оказывают прямое влияние на США и остальные страны мира.

Большие данные и изменение климата: Как это работает?

Большие данные и изучение климата неразрывно связаны; в самом деле, вы не можете изучать климат, не располагая большим объемом данных.

Центр моделирования климата NASA (NCCS) является местом сосредоточения компьютеров, получившим название суперкомпьютера Discover. Его основная цель состоит в обеспечении необходимых высокопроизводительных вычислений и среды хранения для удовлетворения потребностей, связанных с осуществлением научных проектов NASA. На Discover в настоящее время осуществляются самые разные научные проекты, причем значительная доля этих вычислительных ресурсов и ресурсов хранения используется для осуществления исследований погоды и климата.

Discover − это высокопроизводительный компьютер, специально предназначенный для исключительно крупномасштабных тесно связанных приложений, – система, в которой аппаратное оборудование и программное обеспечение взаимосвязаны и зависят друг от друга. Хотя Discover не используется для сбора данных с платформ дистанционного зондирования, например со спутников, многие из моделирований атмосферы, местности и океана, осуществляемых на Discover, требуют наличия входных данных, получаемых на основе наблюдений. Специалисты, использующие Discover, постоянно получают данные наблюдений со всего земного шара в качестве входных данных для своих моделей.

Однако предоставление ученым большого объема данных ничего не значит, если они не в состоянии визуально отобразить и целенаправленным образом нанести их на карту. Одним из примеров тому является расширенное отображение, подготовленное Центром глобального моделирования и усвоения данных (GMAO) NASA, в котором используются полученные из многих источников результаты наблюдений для осуществления прогнозов погоды.

Система сбора и обработки данных (DAS) GEOS-5 GMAO сочетает в себе информацию наблюдений и модели, чтобы создать максимально точную и физически сопоставимую картину атмосферы в любой отрезок времени. Каждые шесть часов в ней аккумулируется более пяти миллионов данных наблюдений, отображающих такие переменные величины, как температура, водяное давление, напорное давление ветра, приземное давление и озон. Собранные и обработанные данные наблюдений подразделяются на восемь основных типов, в каждом из которых измеряются различные переменные из различных источников.

Обработка данных

Модели изменения климата требуют постоянно растущего объема вычислительных ресурсов с большими объемами памяти и быстрым доступом к данным. Чтобы удовлетворить эти потребности Discover оборудован несколькими различными типами процессоров: Intel Xeon с 79 200 ядрами, Intel Phi с 28 800 ядрами и графический блок обработки NVIDIA (GPU) CUDA с 103 680 ядрами.

Совокупная вычислительная мощность Discover составляет 3,36 петафлопс, или 3 694 359 069 327 360 операций с плавающей запятой в секунду. Чтобы лучше понять такую величину вычислительных мощностей компьютера, можно привести сравнение, при котором каждый житель Земли должен будет ежесекундно перемножать два числа на протяжении почти 140 часов, чтобы выполнить то же самое, что может проделать Discover всего за одну секунду.

Помимо своей вычислительной мощности, Discover имеет около 33 петабайтов пространства хранения на жестком диске. Размер обычного жесткого диска персонального компьютера составляет один терабайт; таким образом, жесткий диск Discover эквивалентен 33 000 жестким дискам этих компьютеров. Если его использовать для хранения музыкальных композиций, то можно было бы создать пользовательский список их воспроизведения продолжительностью в более чем 67 000 лет, причем ни одна из них не прослушивалась бы дважды.

Каждый год NCCS пытается модернизировать Discover. Поскольку серверы и хранение данных на Discover постепенно устаревают, то фактически оказывается выгоднее спустя четыре-пять лет заменить, чем продолжать эксплуатировать то или иное оборудование. Так, например, модернизация Discover в 2010 году была заменена в конце 2014 года − начале 2015 года усовершенствованным вычислительным кластером. В пределах тех же размеров площадей, той же мощности и границы охлаждения NCCS смог после модернизации обеспечить приблизительно в восемь раз большую вычислительную мощность. Списанное оборудование зачастую меняет свое назначение и используется, либо внутри Центра для оказания поддержки и других услуг, либо внешними структурами, например университетами, включая Мэрилендский университет, графство Балтимор (UMBC) и университет Джорджа Мейсона (GMU).

Преобразование данных: Изменение климата и составление прогнозов

Данные, созданные в NCCS, используются в целом ряде ключевых научно-исследовательских и стратегических документов.

Эти данные позволяют с большей осведомленностью вести беседы на тему о влиянии изменения климата на нашу планету и могут помочь лицам, ответственным за формирование политики, в разработке соответствующих стратегий и мер в соответствии с прогнозами изменения климата. Например, соответствующие данные были использованы при оценке отчетов, подготовленных по поручению Межправительственной группы по климатическим изменениям (МГКИ). Моделирование данных, подготовленное в NCCS и наглядно представленное студией по научному отображению NASA, являет собой результат, полученный на основе климатических моделей, представленных в пятом докладе МГКИ по оценке и показывающих, как, согласно прогнозам, будут изменяться температура и осадки в XXI веке.

https://www.youtube.com/watch?v=d-nI8MByIL8

Мы проводим также повторный анализ климата за последние 35 лет, который используется в различных проектах вне NASA.

Ураган “Катрина”, обрушившийся в 2005 году на побережье залива США, указывает на важность точного прогнозирования. И хотя нанесенный ущерб был огромен, положение могло бы быть еще хуже, если бы не было сделано соответствующих прогнозов с целью заблаговременного предупреждения и проведения надлежащих подготовительных мероприятий. В настоящее время суперкомпьютер NCCS является базовым компьютером модели глобальной циркуляции GMAO, позволяющим обеспечить до 10 раз большую разрешающую способность по сравнению с компьютерами, использовавшимися во время урагана “Катрина”, что позволяет глубже изучить природу урагана и точнее оценить его силу и масштабы. Это значит, что метеорологи могут лучше понять, куда движется ураган и какие процессы происходят внутри него, что имеет важное значение для планирования успешных подготовительных мероприятий к таким экстремальным явлениям, как “Катрина”.

Кроме того, результаты глобальных климатических моделей используются также в экспериментах по моделированию систем наблюдения (OSSEs) для составления моделей платформ дистанционного зондирования следующего поколения, предлагаемых NASA. В результате ученые и инженеры получают виртуальную Землю для изучения преимуществ осуществления новых дистанционных наблюдений атмосферы из космоса еще до того, как будет построен новый датчик или спутник.

Будущее данных об изменении климата

Первичным продуктом NASA являются данные. Спутники, приборы, компьютеры и даже люди могут приходить и уходить из NASA, зато данные, особенно наблюдений Земли, сохранят свою ценность навсегда. Поэтому для NASA важно обеспечить доступ к данным, которые оно генерирует, причем не только для других комплексов и специалистов NASA, но и для всего мира.

Громадный объем создаваемых данных ставит чрезвычайно трудную задачу. Даже сегодня специалистам, работающим на соответствующих системах, трудно использовать эти наборы данных, не говоря уже о тех, кто не относится к NASA. Поэтому мы приступили к работе по созданию службы аналитиков в области климата (CAaaS), объединяющей в себе высокопроизводительные вычисления, данные и интерфейсы прикладного программирования (API), чтобы предоставить интерфейсы для программ анализа, осуществляемых на месте с использованием данных. Иными словами, вместо того, чтобы загружать огромные файлы данных, пользователи могут задать вопросы, которые их интересуют, и системы NASA проведут необходимый анализ. Затем результаты этого анализа будут переданы пользователю. Учитывая тот факт, что объем полученного аналитического материала меньше объема исходных данных, необходимого для его создания, эта система уменьшит объем данных, передаваемых по различным сетям, и что еще более важно, API могут быть построены таким образом, чтобы существенным образом уменьшить несогласованность между пользователями и данными.