Подпишись

Атмосферные ливни приводят к отказу суперкомпьютеров: что можно с этим сделать

Нейтроны из космических лучей могут сталкиваться с частями процессора и нарушать хранящиеся в компьютере данные.

Суперкомпьютер Cray-1, бывший самым быстрым в 1970-х, не похож на суперкомпьютер. Он выглядит, как модификация аттракциона, в котором человек встаёт к стене, пристёгивается, а его потом раскручивают. Его окружает круглая скамейка, скрывающая питание, похожая на бублик – если бы только дырка от бублика могла выдавать ценные идеи, связанные с ядерным оружием.

Атмосферные ливни приводят к отказу суперкомпьютеров: что можно с этим сделать

После того, как Сеймур Крэй впервые создал этот компьютер, он дал Национальной лаборатории в Лос-Аламосе попользоваться им бесплатно шесть месяцев. Но за эти полгода случилось нечто интересное: в компьютер произошли 152 необъяснимых ошибки памяти. И только позднее исследователи узнали, что нейтроны из космических лучей могут сталкиваться с частями процессора и нарушать хранящиеся в компьютере данные. Чем выше вы расположены и чем больше ваши компьютеры, тем сильнее сказывается на вас эта проблема. Лос-Аламос, расположенный на 2,2 км над уровнем моря, где находятся самые роскошные компьютеры мира, стал основной мишенью.

Атмосферные ливни приводят к отказу суперкомпьютеров: что можно с этим сделать
Сеймур Крэй, создатель суперкомпьютера, рядом со своим детищем Cray-1

С тех пор изменился мир, и изменились компьютеры. А космос остался таким же. Поэтому Лос-Аламосу пришлось приспосабливаться – и его инженеры стали учитывать космические частицы в оборудовании и программном обеспечении. «Это не проблема, которую нужно решить, — пояснят Нэйтан Дебарделебен из группы разработки высокопроизводительных компьютеров. – Это проблема, которую мы способны сдерживать».

Для современных компьютеров, начиная с суперкомпьютера Q, это довольно серьёзная вещь. Q, установленный в 2003-м, был гораздо быстрее Cray-1, предназначенный для вычислений, связанных с отложенными на чёрный день запасами ядерного оружия США. Но он выходил из строя чаще, чем ожидалось – и это были первые отказы, заставившие учёных из Лос-Аламоса серьёзно обеспокоиться космическими лучами из глубокого космоса. Они сталкиваются с химическими элементами в атмосфере, и всё это распадается на более мелкие частицы. «Они буквально образуют своеобразные ливни, падающие прямо на нас», — говорит Шон Блэнчард, ещё один член группы. Некоторые из этих «капель» оказываются нейтронами – и это очень плохо.

«Они могут привести к переключению бита в памяти компьютера, — говорит Дебарделебен, — с 0 на 1, или с 1 на 0». Для домашнего компьютера это ерунда. Но в Лос-Аламосе есть огромные молотилки для чисел. Тот же самый Q начала века напоминает полки супермаркета. А сегодня в лаборатории имеются компьютерные залы размером с футбольное поле, причём все компьютеры в зале могут работать над одной и той же задачей. И, точно так же, как на футбольном поле осадков выпадает больше, чем на дачный участок, так и суперкомпьютеры пронизывает больше космических лучей, чем ваш ноутбук.

Атмосферные ливни приводят к отказу суперкомпьютеров: что можно с этим сделать
В Лос-Аламосе по всему суперкомпьютерному центру расставлены нейтронные детекторы

После Q инженеры по-настоящему поняли, что нейтроны – не такие уж и нейтральные частицы, поэтому сейчас они пытаются предвосхитить проблемы. Перед установкой нового оборудования инженеры проводят что-то вроде космического стресс-теста, помещая электронику в луч нейтронов – их там гораздо больше, чем в атмосферных ливнях – и наблюдая за тем, что произойдёт. «Мы берём отдельные части, делаем их радиоактивными, заставляем их работать на отказ», — объясняет Блэнчард. Скоро они разместят внутри суперкомпьютерного центра нейтронные детекторы, чтобы измерять силу «штормов». Если вам известно, сколько нейтронов прилетело, и вы знаете, как они влияют на работу компьютерных комплектующих, «вы можете предсказать время жизни вашей электроники», — говорит Сюзан Новички, физик из группы космических и прикладных наук лаборатории.

Обычно суперкомпьютеры оказываются достаточно умными, чтобы понять, что что-то пошло не так, и чувствуют переключившийся бит так же, как вы почувствуете, если у вас выдернуть волос. [автор оригинальной статьи — девушка / прим. перев.] В этом случае система обычно просто сообщает об ошибке и исправляется. Но иногда, говорит Блэнчард, компьютер оказывается более пессимистичным. «У меня ошибка, переключилось слишком много битов, — изображает он компьютер,- я не могу это исправить, но хотел сообщить вам об этом».

Когда это происходит в Лос-Аламосе, люди намеренно останавливают все компьютеры. Это всё равно, как специально падать, катаясь с горы на лыжах, потому что так будет менее больно, чем если попытаться устоять. Но в данном случае идти обратно на вершину и начинать всё заново не нужно – инженеры устраивают "контрольные точки" на пути поисков ответа. Это всё равно, что точки сохранения в играх – если вы умерли, не надо начинать всё сначала. Начинайте с последней точки, сохранившей ваши достижения. У суперкомпьютеров тоже есть подобная система сохранения.

Настоящая проблема – это "бесшумная порча данных". Это когда биты переключаются, а никто этого не замечает. И тот ответ, что вы считаете верным, на самом деле может оказаться сном, навеянным нейтронами. Именно поэтому упреждающая работа так важна: известно, чего можно ожидать и как часто, и следить за этим. В то же время, получив эти знания, команда надеется превратить бесшумные ошибки в громко кричащие. Но если что-то и проскользнёт сквозь защиту, возможно, это увидит живой человек. Обычно в Лос-Аламосе не говорят «Вот ваш ответ!», пока человек не проверит результаты работы на осмысленность.

Личное вмешательство происходит в частности потому, что Лос-Аламос занимается критически важными исследованиями по темам, влияющим на множество других людей. «Лаборатория – и в целом энергетический департамент – занимается изучением изменения климата, новых лекарств, эпидемиологии, распространения болезней, моделированием пожаров, материаловедением и хрупкостью металлов», — поясняет Блэнчард. И, как он добавляет после этого списка, причина существования Лос-Аламоса состоит в ядерном оружии, созданном людьми (некоторые из них даже относятся к этой самой лаборатории). «Мы – лаборатория изучения ядерного оружия, — говорит Блэнчард. – Наша работа – заведовать его запасами. Мы должны гарантировать, что оно в безопасности и работает, как надо, и не работает, когда не надо».

Из-за запрета испытаний ядерных вооружений, единственным законным методом перестать волноваться и научиться обслуживать запас бомб будет симуляция происходящего внутри на суперкомпьютере. Вот так лаборатория, беспокоящаяся по поводу излучения на Земле, должна беспокоиться из-за излучения из космоса. Потому что, какую бы работу ни выполняли суперкомпьютеры в будущем, ясно одно: «Каждый год они становятся всё большей мишенью», — говорит Блэнчард. опубликовано econet.ru  Если у вас возникли вопросы по этой теме, задайте их специалистам и читателям нашего проекта здесь.

P.S. И помните, всего лишь изменяя свое потребление - мы вместе изменяем мир! © econet

Источник: https://econet.ru/

Понравилась статья? Напишите свое мнение в комментариях.
Комментарии (Всего: 0)

    Добавить комментарий

    Искусство жизни состоит не только в том, чтобы сесть на подходящий поезд, сколько в том, чтобы сойти на нужной станции Андре Зигфрид
    Что-то интересное