Гонку за терафлопсами пора заканчивать

Александр Андреев, администратор сайта BOINC.RU
Александр Андреев, сайт BOINC.RU

Вот уже в третий раз российские специалисты, работающие в области высокопроизводительных вычислений, завершили год в красивом старинном городе Переславле-Залесском, где в конце 2014 года на базе Института программных систем имени А.К. Айламазяна РАН [1] прошел Третий национальный суперкомпьютерный форум [2].

Мне довелось поучаствовать в работе как этого, так и прошлогоднего, Второго форума (о нем см. [3]). Есть с чем сравнивать. И в этом году можно было заметить существенные отличия как в целом, так и в работе интересующей меня секции. Во-первых, программа форума расширилась за счет проведения двух дополнительных мероприятий: научно-практической конференции «Посткремниевые вычисления» и мини-симпозиума «Прикладная математика в эпоху суперкомпьютеров». Во-вторых, несмотря на некоторое снижение числа участников (449 в 2013 году и 300 в 2014-м), выросло количество докладов на форуме (127 против 110). Изменилась и тематика докладов, которая сместилась от вопросов проектирования суперкомпьютеров к более прикладным вопросам применения высокопроизводительных вычислений в различных областях науки, техники и производства.

В-третьих, форум от формата обычной площадки для обмена мнениями и информацией перешел к непосредственной поддержке исследований в области высокопроизводительных суперкомпьютерных вычислений, учредив собственную отраслевую премию, которая так и называется — премия Национального суперкомпьютерного форума. Ближе к следующему форуму в результате заочного тайного голосования среди специалистов отрасли будет определено 30 участников второго тура. И уже в ходе проведения НСКФ-2015 тайным рейтинговым голосованием изберут трех лауреатов премии.

В-четвертых, на форуме неоднократно и явно прозвучало, что гонку за «попугаями» в виде гига- и терафлопсов пора заканчивать. Конечно, сравнивать различные суперкомпьютерные системы каким-то образом нужно, но это сравнение должно базироваться на основе не искусственных тестов, а реальных задач и приложений, решаемых на высокопроизводительных системах.

Традиционным для форума осталось широкое представительство научных и производственных организаций, занимающихся созданием и исследованием суперкомпьютерных систем.

Уже второй год на форуме была представлена и такая специфичная технология высокопроизводительных вычислений, как грид-системы из персональных компьютеров. Причем в этом году кроме секционных были представлены и два пленарных доклада. С одним из них — «Концепция многозадачной грид-системы с гибким управлением свободными вычислительными ресурсами суперкомпьютеров» —выступил директор Института динамики систем и теории управления СО РАН, академик РАН Игорь Бычков [5].

В целом от Третьего национального суперкомпьютерного форума осталось двойственное впечатление. С одной стороны, явно видно, что в области программных и конечных аппаратных высокопроизводительных систем в нашей стране есть интересные и конкурентоспособные разработки, с другой — все они базируются на импортных составляющих и комплектующих, которым в настоящее время нет отечественной замены. И здесь перед нашей наукой и производством имеется огромный как социальный, так и политический заказ. Хотелось бы увидеть положительные тенденции в развитии именно этого направления.

Будущее персональных грид-систем

Публикуем также комментарии экспертов о роли и месте грид-систем, основанных на использовании персональных компьютеров.

Михаил ПосыпкинМихаил Посыпкин, вед. науч. сотр. Центра распределенных вычислений ИППИ РАН, председатель Российского отделения IDGF:

Многих, вероятно, может удивить то, что на мероприятии, посвященном суперкомпьютерным вычислениям, поднимается тема организации высокопроизводительных расчетов с использованием персональных компьютеров. Однако это не случайно. Нередки случаи, когда на суперкомпьютерах решаются задачи, не требующие интенсивного обмена данными. При этом дорогостоящее сетевое оборудование («интерконнект») кластеров фактически не используется. Подобные задачи целесообразно решать на более дешевых ресурсах, таких как, например, грид-системы персональных компьютеров. Развитием и популяризацией этой технологии мы и пытаемся заниматься.

Несмотря на то что мы участвуем в Национальном суперкомпьютерном форуме уже во второй раз и на этот раз кроме проведения секции нам дали возможность выступить с двумя пленарными докладами, есть ощущение, что представители научной сферы вообще и суперкомпьютерной отрасли в частности недооценивают возможности распределенных вычислений на базе персональных компьютеров. Причиной этого, на наш взгляд, является недостаточная информированность о существовании и особенностях подобной технологии.

В этой связи хотелось бы упомянуть, что в ЦЕРНе, имеющем как собственные огромные вычислительные ресурсы, так и доступ ко многим мировым суперкомпьютерным центрам, тем не менее не только продолжают, но и расширяют использование персональных грид-систем. И более того, у них запущено уже три проекта добровольных распределенных вычислений как для решения технических вопросов функционирования Большого адронного коллайдера, так и для моделирования и обработки данных конкретных физических экспериментов.

На наш взгляд, тормозит внедрение этой удобной технологии и боязнь специалистов-предметников вникать в тонкости информационных технологий, разбираться с работой серверного и клиентского ПО. Поэтому на круглом столе, прошедшем в рамках секционной работы форума, было решено заняться организацией «BOINC-инкубатора», постаравшись организовать поиск потенциально перспективных идей, способных быть решенными в рамках этой компьютерной технологии и максимально облегчить реализацию таких проектов.

С этой целью отобранным в ходе предстоящего конкурса проектам будет оказана серьезная техническая помощь в виде предоставления вычислительных ресурсов и консультационной помощи высококвалифицированных специалистов по адаптации имеющегося расчетного приложения для работы в рамках персонального грида. В результате, как ожидается, будет существенно снижена «стоимость входного билета» в мир высокопроизводительных грид-технологий на базе персональных компьютеров.

Кроме того, на этом форуме был представлен доклад, в котором мы попытались показать, как грид-системы из персональных компьютеров можно успешно интегрировать с суперкомпьютерами, создавая мощные комбинированные распределенные комплексы. Одним из инструментов для такой интеграции может служить совместная разработка команд из Института динамики систем и теории Управления СО РАН и ИППИ РАН — система CluBoRun (Cluster for BOINC Run). Достоинством данной системы является то, что она может использовать простаивающие ресурсы суперкомпьютеров, которые неизбежно образуются при использовании систем пакетной обработки, применяемых на кластерах коллективного доступа.

Хотел бы еще сказать, что Российское отделение IDGF (Международной федерации грид-систем из персональных компьютеров) стало официальным членом Национальной суперкомпьютерной технологической платформы (НСТП). Это открывает нам доступ к информационным ресурсам платформы и позволяет использовать площадку НСТП для налаживания эффективного взаимодействия с представителями российской суперкомпьютерной отрасли.

Олег Заикин

Олег Заикин, науч. сотр. ИДСТУ СО РАН, координатор проекта SAT@home и один из создателей CluBoRun:

Хотел бы прежде всего поддержать высказанную Михаилом мысль о том, что необходимо помогать заинтересованным исследователям в освоении технологии персональных грид-систем и, возможно, в создании и развитии добровольных проектов. Действенность такой поддержки показывает пример нашего проекта SAT@home, работающего уже более трех лет. И на начальном этапе, и даже сейчас большую помощь нам оказывают специалисты Центра распределенных вычислений ИППИ РАН. Собственно, и сам сервер проекта с самого начала работы и до настоящего момента находится на их площадке. Не могу не сказать о той помощи, которую нашему проекту оказывают и добровольные помощники — волонтеры-кранчеры. Причем некоторые из них превратились в реальных помощников в развитии проекта, вошли в команду разработчиков. Один из них, Максим Манзюк, стал одним из основных создателей программы CluBo-Run и полноправным соавтором доклада, с которым выступал на НСКФ И.В. Бычков.

1. Сайт Института программных систем имени А.К. Айламазяна РАН: http://skif.pereslavl.ru/psi-info

2. Сайт Национального суперкомпьютерного форума (НСКФ-2014): http://2014.nscf.ru

3. Андреев А. Суперкомпьютерный Переславль-Залесский // ТрВ-Наука. № 11 февраля 2014 года.

4. Сайт Российского отделения IDGF: http://desktopgrid.ru

5. Видеозапись доклада академика РАНИ.В. Бычкова на НСКФ-2014: http://www.youtube.com/watch?&v=6Gn8tl1515U

6. Сайт Национальной суперкомпьютерной технологической платформы: www.hpc-platform.ru

8 комментариев

  1. IMHO упомянутые проекты ЦЕРН для разворачивания моделирования экспериментов на частных ПК рассматривать имеет смысл исключительно с точки зрения популяризации. Никакого смысла для использования в качестве «продакшн» у этого пути нет и никто этого делать и не планирует.

    @home — это обмен времени квалифицированных исследователей на ресурсы, которое на поверку гороздо дороже выходит, чем получаемые взамен возможности. Смысл исключительно в популяризации (и в конференциях) и к науке это имеет весьма слабое отношение. Только если денег на покупку настольного кластера нет совсем и не предвидится, а времени дофига — то бишь от полной безнадёги. IMHO проще договориться с соседним университетом в котором кластер почти гарантированно простаивает или купить подержанную теслу и оптимизировать свою задачу под CUDA. И да, быстрый интерконнект, не нужен только в определённом классе задач, а кое-где без него никак

  2. Насчет популяризации — однозначно соглашусь.
    Насчет противопоставления кластера и персональных ГРИД-систем лучше Олег Заикин скажет (и то и то успешно использует).
    А вот насчет ЦЕРНовских проектов лучше всего из организаторы могут сказать. Я их, кстати, спрашивал. Процитирую кое что:

    Eric Mcintosh (LHC@home)
    »
    CERN has a very large computing power in different countries. Why is actively developing projects Volunteer computing?

    CERN never has enough computing power and never has had….the GRID was
    developed to allow computing to be carried out world wide and the LHC data is
    distributed to regional centres and can then be accessed from institutes and
    universities. The amount of data generated and to be processed is huge and this processing is not well suited to volunteer computing. However I see at
    least one experiment asking/allowing volunteers to look at a few events.
    There is also a huge amount of event simulation to be performed and this
    can probably be done to some extent on volunteer systems.

    Now CERN has been working for three projects: LHC@Home Classic, vLHCathome, ATLAS@Home.
    There are benefits of these projects for scientists?

    Well LHC@home is easy for me….once again there was never enough computing capacity to carry out all the LHC design studies. In fact I became heavily
    involved more than twenty years ago when the LHC external review committee
    recommended that CERN perform many more simulations. As a amatter of record
    these studies were well worthwhile and the results validated by the measured
    results from the actual LHC operation. Today we can study only a relatively
    small number of particles in a bunch (a bunch is over 100 billion protons).
    Howwver volunteer computing allows us to use a larger sample of particles
    at different initial amplitudes and angles in phase space improving the
    quality of the results.

    For the experiments the computing is essential to reconstruct the events from
    the raw data and to perform the essential staitical analysis.»

    David Cameron (ATLAS@Home):
    «There are two main reasons that CERN is interested in volunteer computing: one is to take advantage of extra computing resources that it does not have to pay for, and the other is to engage the public in the science that CERN is doing. It is important for people to feel that CERN experiments are for the benfit of everyone and doing volunteer computing for CERN is one way to do that.»

    Ben Segal (vLHCathome):
    «Your question is rather general but CERN wants to reach out to the public with Volunteer Computing projects to satisfy those who want to help our work, and also to interest people (especially young people) in science. The amount of CPU power we receive is also large, especially for the theoreticians who have no other resources (they have been the main customers so far for vLHCathome).

    Our other colleagues in IT are interested in what we do and do not think it is either stupid or «unfair competition». Remember we only do CPU-bound work and not heavy I/O or tightly coupled problems.»

    Так что, они видят возможность полезного использования персональных компьютеров.

  3. При всём уважении к людям, которые двигают распределённые проекты в CERN — это бла-бла-бла, презентации, но в продакшен они _никому_ не нужны и никто в здравом уме при реальной обработке хоть чего-нибудь не выберет этот ресурс в качестве основного. Это просто разные весовые категории. В случае обработки экспериментальных данных в ФЭЧ «постоянная загрузка» не очень-то на самом деле и нужна, но необходим мощный, постоянно готовый к работе и абсолютно надёжный кластер для обработки массива данных в разумный промежуток времени. Прока от системы, где условно «99% событий был обработан за два часа, а оставшийся процент завис на месяц» нет никакого. То есть тут надёжность и предсказуемость выходит на первое место в силу итерационности процесса, а также в силу модели всегда для каких-то немэйнстримовых расчётов найдётся минутка. И да, следует понимать, что в случае ФЭЧ данные параллелятся на уровне событий, правда для обработки одного события требуется условно не меньше гигабайта оперативки, так что нужны именно «сферические в вакууме полноценные компьютеры», но даже в этом случае распределённые вычисления уступают по всем параметрам (вклад в рост энтропии вселенной, потребление электричества, число администраторов, предсказуемость и надёжность) стойкам, набитых блейдами.

    Я слышал доклады на эту тему в CERN как и доклады наших энтузиастов на тему того же SAT. Пока это любительщина — интересная, но в большинстве своём бесполезная, типа «школьной физики», которая бесконечно важна для обучения, но к физике не имеет почти никакого отношения. И перспектив особых уйти с этого пути не видно

    А сказки, что за эти ресурсы «extra computing resources that it does not have to pay» рассказывать не нужно — спецы за эти ресурсы платят _своим_ временем (в основном на форумах разъясняя геймерам зачем им загружать их геймерские мощные компьютеры непонятной деятельностью), которое на самом деле _очень_ дорого. Если им нравится тратить на это время, то это замечательно — мало ли хобби на свете есть (вон некоторые любят, о ужас, футбол смотреть), но представить, что эта любительщина проучит хоть сколько-нибудь прочную основу в ближайшей перспективе ожидать не стоит. IMHO разве что только если в какой-то момент гуугл будет захвачен свихнувшимся на распределённых вычислениях искусственным разумом, которые вытеснит всех остальных производителей смартфонов и насильно объединит Android-телефоны (у ПК таких перспектив уже меньше) в единую вычислительную сеть. Я больше перспектив вижу в наколенных кластерах на компьютерах формфактора Rapberri PI, Black Swift или Parallella.

  4. Evgueni, почему все пытаются противопоставлять? НА НСКФ тоже слышал фразы, типа «призывают кластеры на ГРИДы менять». Никто к этому не призывает. Не идет речь о том, чтобы «сделать его основным». Но ведь это рабочий инструмент, который вполне можно применять (с учетом его особенностей и ограничений, но и достоинств тоже). Может ли каждый получить доступ к суперкомпьютеру? Как показывает практика к Ломоносову в МГУ аспиранты и даже студенты — могут. А вот сотрудники других институтов (даже по просьбам академиков) далеко не всегда. И многие ли могут арендовать большой кластер монопольно под себя на месяцы и годы?
    Ведь есть пример подобного сравнения — решение задачи Sudoku. Одну и ту же задачу разные группы на мощном кластере (и не одном) почти год и в проекте РВ, чуть дольше, но с тем же конечным итогом. Вопрос: настолько ли важна для общества подобная (безусловно интересная) задача, чтобы расходовать мощности супервычислительных монстров?
    Ну это как один из примеров.
    Просто где-то без экскаватора не обойдешься, а где-то проще парой лопат обойтись. :)

  5. > Evgueni, почему все пытаются противопоставлять?

    а) Цитирую тут заголовок этого текста: «Гонку за терафлопсами пора заканчивать» — именно этот (вполне допускаю, что просто неудачный заголовок) и сподвигнул меня на написание комментария. Я не считаю, что эту гонку пора заканчивать — более того я говорю «ура домашним кластерам».

    б) Противопоставлять действительно смысла нет, так как распределённые вычисления для целей упомянутого CERNа не годятся ни сейчас, ни в перспективе (если не случится упомянутого мной AI).

    > Может ли каждый получить доступ к суперкомпьютеру?

    Зависит от задачи и от нужности. Я утверждаю, что сейчас с России проблемы с доступом к суперкомпьютерам стоят в череде проблем реальной науки на столько далеко по сравнению с проблемами обветашания парка (да и людей, точнее проблемы обветшания людей давно уже перешли все самые разумные пределы) фундаментальных экспериментальных установок, что даже в телескоп с вершины этой горы эту проблему разглядеть не получается. Когда мне этот доступ понадобился — я его организовал (да, в конце концов потребовались для этого и академики, но не они были инициаторами — ими воспользовались) и эти мощности превышают то, что имеют ребята из SAT, несмотря на свой героический в полном смысле этого слова квест. И да, мне до МГУ три тысяч километров лететь, так что МГУ очевидно не мой случай.

    > Просто где-то без экскаватора не обойдешься, а где-то проще парой лопат обойтись. :)

    Ога — тесла на персональном компьютере и _такая_ проблема решена. Ребята из Гидродинамики не дадут соврать.

  6. > @home — это обмен времени квалифицированных исследователей на ресурсы, которое на поверку гораздо дороже выходит, чем получаемые взамен возможности.

    Частично согласен. Но Вы упомянули идеальный вариант, а на практике бывает совсем по-другому.

    > Смысл исключительно в популяризации (и в конференциях) и к науке это имеет весьма слабое отношение.

    Совершенно не согласен. Я разворачивал проект SAT@home и до сих пор в нем основной программист. И развернуть его мы решили не из-за популяризации (SAT — это не медицина, не астрономия и не CERN, здесь популяризация почти бесполезна) и не из-за конференций. Нужно было решить задачу, а ресурсов не хватало. Развернули проект, задачу решили. И еще много задач решили после этого.

    > Только если денег на покупку настольного кластера нет совсем и не предвидится, а времени дофига — то бишь от полной безнадёги. IMHO проще договориться с соседним университетом в котором кластер почти гарантированно простаивает

    Может Вам проще договориться, а мне оказалось проще развернуть проект. Вот у нас в ИДСТУ СО РАН в Иркутске в 2010 году кластер был довольно слабый. Надо было решить задачу, но его ресурсов не хватало. Попытались получить доступ к Московским кластерам — не получилось. Два раза пытались, не дали нам ресурсы. В соседних университетах кластеры были еще слабее. А ведь на попытки (зачастую безрезультатные) договориться тоже время уходит, между прочим. А мы развернули проект @home и решили задачу. И я не считаю что я потратил время зря. Сейчас то в ИДСТУ кластер довольно мощный, но тогда его не было. Получается, что если бы у меня был тогда мощный кластер, я бы проект SAT@home не развернул. Но в итоге я продолжаю им пользоваться, даже получив доступ (с 2013 года) к мощному кластера.

    > или купить подержанную теслу и оптимизировать свою задачу под CUDA.

    Отличный вариант, но только если алгоритм решения хорошо «ляжет» на GPU. Основной алгоритм решения SAT-задач — это CDCL-алгоритм. Он на GPU не ложится никак. Много кто в мире пробовал, и мы пробовали — никак. Эффективно решать SAT на GPU пока никто не научился.

    > И да, быстрый интерконнект, не нужен только в определённом классе задач, а кое-где без него никак

    Так и не надо заменять все проектами @home. Я вот разделил свои задачи на 2 категории.
    Первая категория — это задачи, в которой допускается декомпозиция на независимые подзадачи. Их я решаю в SAT@home. Вторая — в которых «подзадачи» должны часто обмениваться данными, их я решаю на мощном кластере с помощью MPI-реализации.

  7. Олег, прежде всего: я ни в коем случае не нападаю на вашу работу. Я прекрасно помню как это было в 2010 году: ситуация когда одна итерация моей обработки данных длилась три недели (вместо 3-4 часов сейчас), а для публикации статьи потребовалось около сотни таких итераций. Но сейчас вы же сами подтверждаете, что доступ к разумному объёму вычресурсов у вас есть. А проблемы с ними в 2010 году были от, скажем так, неприличной бедности.

    В тутошних же комментариях я в основном излагаю своё резкое неприятие заголовку к статье «Гонку за терафлопсами пора заканчивать», потому что эту гонку мы так и не начали по хорошему и вряд ли в обозримом будущем начнём. С помощью же @home эту гонку не выиграть даже близко.

  8. Я понял в чем причина. По сути эта статья состоит из 2-х частей. 1-я — краткая информация и впечатление о самом Форуме и вторая — рассказ о работе секции.
    Заголовок, относится к первой части и смысл его в том, о чем говорил, в частности Норман Г.Э.: что показатели «чистых» флопсов, ТОПы и Линпаки» мало что показывают для реальных приложений. И что производительность суперкомпбютеров нужно проверять не на искусственных тестах. Собствено вот в этом и был смысл заголовка. Возможно не совсем корректный.
    А рассказ о работе ГРИД-секции, к названию вообще отношения не имеет.
    Спасибо за то, что «ткнули носом» :), учтем на будущее.

Добавить комментарий

Ваш адрес email не будет опубликован.

Оценить: