О том, что такое машинное обучение и как работать с Big Data, как созданные специалистами программы позволяют, например, вовремя найти поломку в сложных технических системах, — нам рассказал Евгений Бурнаев, канд. физ.-мат. наук, доцент Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных (Skoltech Center for Computational and Data-Intensive Science and Engineering), руководитель научной группы Advanced Data Analytics in Science and Engineering. В 2017 году Евгений стал лауреатом Премии Правительства Москвы для молодых ученых, церемония вручения которой состоялась в Кремле 5 февраля 2018 года. Беседовала Наталия Демина. Полная версия интервью (в *.pdf и в бумажной версии опубликована сокращенная).
— На ваш взгляд, ваша профессия, основывающаяся на анализе и обработке Big Data, — профессия будущего?
— Я очень осторожно отношусь ко всяким таким лозунгам. В истории человечества были разные периоды увлечения какой-то областью знаний, когда говорили, что ядерная физика или космонавтика — это «наше всё», но потом эти области становились чем-то естественным. Объем информации растет, на ее основе можно делать много полезного, в том числе автоматизацию и оптимизацию каких-то процессов и производств. Мне сложно прогнозировать, будет ли потребность в этом расти экспоненциально, но что она будет расти — это точно.
— Спрос на вашу экспертизу растет?
— Сейчас да, причем очень быстро. Мы ведем активную работу над созданием курсов для Сколтеха. Есть много индустриальных заказчиков, которые заинтересованы в том, чтобы к ним пришли люди и рассказали, что же такое Big Data, машинное обучение, нейронные сети. Вот все говорят: «Big Data», а плохо понимают, что это. Мол, Big Data, приди и порядок наведи.
— И кто появится на выходе после такого курса обучения?
— Менеджеры, понимающие, каким образом правильно управлять проектом с привлечением машинного обучения, какие именно задачи машинное обучение может решать, для каких задач — его использования себя не окупит. Порой во время обсуждения проекта с заказчиком приходится не только заниматься проработкой технического задания, но и попутно заказчика образовывать, объяснять, что такое анализ данных. Но было бы правильнее сформировать прослойку управленческого звена, которая уже изначально понимает, что можно делать с методами анализа данных.
Кроме того, у нас есть возможность преподавания самых современных тем – сейчас очень популярны глубинное обучение и нейронные сети, блокчейн, беспроводные сенсорные сети для задач мониторинга и интернет вещей, обработка данных дистанционного зондирования и т.п. Все эти направления важны для инженеров и сейчас очень много приложений строится на такого рода технологиях.
Кроме этого, в нашем центре есть и второе направление, «дополняющее» технологии анализа данных и машинного обучения – а именно, математическое моделирование.
— Как происходил поиск призвания? О чем вы мечтали в детстве?
— В детстве я мечтал о разном, как и все дети. У меня была определенная склонность к точным наукам — как к математике, так и к физике. Основной толчок в правильном направлении дал мне отец, который в свое время закончил МИФИ. Он физик, эксперт в области быстро протекающих химических процессов. Моя бабушка, выпускница химфака МГУ, тоже приняла активное участие в выборе направления учебы. Хотя я и учился в обычной школе, но, к счастью, у нас была очень хорошая учительница математики, Т. А. Лепёхина.
— Вы москвич, не москвич?
— Так получилось, что я оканчивал школу в Волгограде, хотя родился в Москве и живу сейчас в Москве. На выбор — продолжить обучение именно в Физтехе — повлияла опять-таки учительница математики, у которой к тому времени несколько учеников и сын учились в МФТИ; с последним я как-то встречался и слушал его рассказы об МФТИ — и подумал, ну Физтех, почему бы и нет. К тому же мне понравилось, что на том факультете, на который я в итоге собрался идти, была и достаточно полная математическая программа, включавшая специальные курсы на уровне мехмата МГУ, и курс общей физики.
Я поехал на олимпиаду МФТИ, где сразу получил полный балл. Потом съездил ради интереса еще и на физфак МГУ, поступил туда, собрался идти сдавать экзамены и на мехмат МГУ, но у меня в тот момент что-то не складывалось с документами, надо было куда-то за ними ехать, и я решил, что если поступил в МФТИ, то так тому и быть.
— Образование, которое вы получили, где лучше всего давали и дают сейчас?
— В то время в Москве было мало мест, где бы учили не просто чистой математике или инженерным наукам, а давали бы образование в области прикладной математики с уклоном в анализ данных. Можно сказать, что я больше самообразовывался. Когда я прошел в Физтехе общие курсы, я стал заниматься темой, связанной с анализом сигналов с использованием вейвлет-преобразования. У меня не было даже научного руководителя бакалаврской работы, потому что тема была относительно новая, и я не нашел в МФТИ никого, кто мог бы им стать (ст. науч. сотр. Вычислительного центра РАН Николай Оленев и декан факультета управления и прикладной математики МФТИ Александр Шананин помогали мне с организационными вопросами, за что им большое спасибо). Я сам этой темой занимался и успешно защитил бакалаврский диплом.
Потом стало понятно, что мне не хватает знаний, и я стал посещать специализированные курсы по вероятности и случайным процессам на мехмате МГУ, поскольку они лежат в основе методов анализа сигналов. В конце концов я понял, что мне интересна математическая статистика, анализ данных и их приложения. Там я познакомился со своим будущим руководителем диссертации академиком РАН Альбертом Николаевичем Ширяевым.
Когда пришло время аспирантуры, он мне предложил заняться «задачей скорейшего обнаружения разладки». Суть ее в том, что в режиме реального времени наблюдается случайный процесс, и необходимо обнаружить момент изменения его случайных свойств. В настоящее время эта задача крайне востребована. Если рассматривается какая-то сложная техническая система, то нужно вовремя обнаружить, что у нее изменилось поведение: это может быть предвестником будущей неисправности.
Может быть, вы слышали такой термин — «индустриальный интернет вещей» — это сейчас популярная тема, потому что технические и программные системы становятся всё более сложными. У тех же самолетов огромное число различных агрегатов, узлов. И несвоевременная замена узлов/устранение поломок приводит к финансовым потерям; я уж не говорю про безопасность — это отдельный вопрос. Если у вас деталь не довезли вовремя и в управляемой вами системе — будь то ТЭЦ, самолет или IT-сервис, предоставляющий пользователям какие-то услуги, — произошел сбой, то это стоит денег и репутации. Бизнес пытается найти решения, которые помогли бы предотвратить такие сбои.
Сейчас во многих технических системах есть датчики, которые измеряют различные физические показатели — вибрацию, температуру, давление и др. Если в системе начинает что-то разлаживаться, то в этих данных появляются некие предвестники того, что скоро будет проблема, поломка. И, анализируя статистическое поведение этих сигналов, вы можете эти предвестники выделить.
В кандидатской диссертации я исследовал теоретические аспекты задачи о скорейшем обнаружении разладки; быстро защитился. После защиты диссертации я стал сотрудничать с профессором Александром Бернштейном, работавшим в то время зав. лабораторией ИСА РАН, и его коллегами. И тогда уже появилась новая научная тема, связанная с проектом от компании Airbus.
В этом проекте уже надо было не анализировать временные ряды и сигналы, как в кандидатской диссертации, а решать задачи предсказательного моделирования, то есть заниматься построением моделей, которые позволяли бы прогнозировать зависимость одних параметров (например, подъемной силы крыла самолета) от других — например, от геометрии крыла и параметров режима полета.
Изначально в предсказательном моделировании использовались математические модели, основанные на «первых принципах физики». Они описывали физические процессы и явления сложными дифференциальными уравнениями в частных производных с граничными условиями. Методы решения таких уравнений весьма трудоемки — это касается как самих расчетов, так и подготовки исходных данных и расчетных сеток, что существенно сокращает возможности использования таких моделей при проектировании сложных объектов. А это явный недостаток на стадии предварительного проектирования, когда рассматривается большое количество вариантов решения и цена ошибки особенно высока.
Однако если в ходе расчетных симуляций, а также реальных экспериментов (например, в аэродинамической трубе) накоплена некоторая база данных, то по ней можно построить так называемую метамодель (или суррогатную модель, surrogate model), используя методы анализа данных и машинного обучения.
Как правило, такого рода метамодели имеют существенно более высокую вычислительную эффективность по сравнению с исходными источниками данных. За счет этого инженер может оценить значительно больше вариантов дизайна изделия и сравнить их между собой, чтобы выбрать наиболее перспективные.
Другим важным примером использования метамоделей на практике является прогностическое управление производственными системами и экономическими процессами, обычно описываемыми большим количеством параметров (промышленное производство сахара-песка из сахарной свеклы, автоматизированная корректировка параметров кредитной процедуры, и др.).
Так, например, эффективность процесса экстракции (диффузии) сахара-песка зависит от формы свекольной стружки, её качества, значения сахаристости, pH, температуры подаваемой стружки и воды, от распределения температур внутри диффузора, и т.д. При этом, для минимизации затрат и снижения потерь необходим выбор оптимальных значений параметров производства. Очевидно, что даже опытный технолог не в состоянии уследить за всем многообразием управляющих воздействий, условий внешней среды, их взаимозависимостями и влиянием на эффективность производства.
Соответственно, метамодели, построенные по данным, накопленным в результате эксплуатации производственных установок, и лежащие в основе рекомендательных систем, существенно облегчают технологу решение его основных задач по выбору управляющих параметров производственного процесса (своего рода «второе мнение») и позволяют снизить затраты и повысить качество продукции.
Впрочем, как потом оказалось, задачи предсказательного моделирования тесно связаны и с темой моей кандидатской диссертации. Дело в том, что построение метамоделей позволяет выявить взаимосвязи между параметрами системы в нормальном режиме работы, а в дальнейшем путем сравнения выявленных взаимосвязей с текущими результатами телеметрии, снимаемой с датчиков в режиме реального времени, обнаружить аномалии и разладки в работе системы. Таким образом, комбинация методов предсказательного моделирования и скорейшего обнаружения разладок позволяет реализовывать эффективные приложения в области т.н. предсказательного обслуживания.
Методы предсказательного технического обслуживания используются для скорейшего обнаружения аномалий и существенных изменений (разладок) в работе механизмов и сложных технических систем, например, таких как вспомогательная силовая установка пассажирского самолета. Основная цель этого подхода – корректировка технического состояния или полная замена механизмов до того, как выявленные изменения станут критичными для работы отдельных компонент или системы в целом. Диагностические возможности методов интеллектуального предсказательного обслуживания значительно возросли в последние годы. Это удалось сделать благодаря улучшению сенсорных технологий наблюдения и разработке новых алгоритмов обработки собранной информации.
В итоге я занимаюсь развитием методов решения описанных выше задач, а также их индустриальными приложениями.
— Вы один из главных людей, которые помогли Airbus ускорить их производственные процессы?
— Назвать меня главным — это, конечно, было бы не только неверно, но и нечестно по отношению к моим коллегам; например, постановки решаемых мною задач формулировал академик Александр Петрович Кулешов… Правда в том, что после успешной защиты диссертации я работал заведующим лабораторией интеллектуального анализа данных и предсказательного моделирования в Институте проблем передачи информации (ИППИ РАН). В результате успешной реализации ряда проектов для компании Airbus был организован российский спин-офф ИППИ РАН — компания «Датадванс», где я, как руководитель группы анализа данных, внедрил в промышленную практику ряд методов суррогатного моделирования и оптимизации; промышленные реализации этих методов легли в основу программной библиотеки pSeven Core (ранее MACROS) и впоследствии были использованы в различных инженерных проектах для таких компаний, как IHI, SAFT, Airbus, Astrium и другие. В частности, эта программная библиотека применялась для решения задач моделирования и оптимизации дизайна пассажирского самолета и, по оценкам инженеров Airbus, позволила снизить временные затраты на моделирование на этапе предварительного проектирования самолета на 10%.
— Как устроена такого рода программная библиотека и что с ее помощью можно делать?
— Например, нам нужно оптимизировать структуру композитной пластины болида «Формулы-1», защищающей гонщика от боковых столкновений. Существует набор параметров, который определяет толщину различных слоев пластины, их тип. Каждому набору параметров соответствует конкретный дизайн пластины. Чтобы измерить ее прочность, можно изготовить опытный образец и провести эксперимент. Однако это требует значительных средств и времени.
Другой вариант — использовать математическое моделирование для заданной структуры пластины и оценить ее прочность с помощью трудоемких вычислений. В этом случае тоже будет потрачено довольно много времени, а результат расчета, конечно, не совсем точно воспроизведет реальные процессы, происходящие при деформации композита.
Задача инженера в этом случае — найти такой дизайн пластины, при котором масса пластины будет как можно меньше и при этом ее прочность будет удовлетворять заданным требованиям безопасности. Основная проблема заключается в том, что даже специалисту в данной предметной области физически сложно держать в голове то, каким образом на целевые характеристики, в данном случае массу и прочность, влияет одновременное изменение более чем двух-трех параметров.
Если мы значение одного параметра повысили, значение другого — понизили и т. д., то как это отразится на свойствах изделия? При этом инженер не может проверить слишком много гипотез — для каждой требуется либо реальный эксперимент, либо физическое моделирование, которое не столь точно. Именно компьютер и анализ данных помогают «нащупать» эффективную комбинацию параметров, которая соответствует изделию с более эффективным дизайном.
Если мы имеем некоторую начальную базу данных, содержащую значения пар «вход-выход» («вход» — значения входных параметров, задающие дизайн изделия; «выход» — значения выходных характеристик, задающие соответствующие свойства изделия) и полученную в ходе проведения натурных и/или вычислительных экспериментов, то по этой базе данных можно построить прогнозную модель, аппроксимирующую нелинейные зависимости между параметрами, выделить входные параметры, значимо влияющие на прогнозируемые характеристики.
Используя построенную прогнозную модель вместо ресурсоёмких натурных/вычислительных экспериментов можно быстро выбрать перспективные комбинации входных параметров и проверить на практике только эти варианты решения. Далее, на основе полученных оценок с помощью математических методов планирования эксперимента строится план натурных/вычислительных экспериментов и процесс повторяется. При этом для построения прогнозной модели требуется развитие новых математических методов машинного обучения для консолидации разноточных данных (в данном случае, данных натурного и вычислительного экспериментов). Благодаря этим методам можно строить прогнозные модели и легко следить за тем, как все многочисленные входные параметры влияют на свойства изделия.
При этом отметим, что разрабатываемые методы могут применяться для решения инженерных задач подобного типа, возникающих не только при моделировании композитных пластин, но и при работе над задачами из совсем других областей – например, в задаче оптимизации состава крема. В этой задаче изначально имелась небольшая база данных проведенных экспериментов, в ходе которых для разных составов крема были проведены оценки того, каким образом крем влияет на кожу, насколько он хорошо отбеливает, насколько он токсичен и тп. По этому набору данных была построена предиктивная модель, и уже с её помощью удалось выбрать более удачный состав крема.
Конечно, при работе над подобными задачами надо обладать и знаниями из соответствующей предметной области. Поэтому при работе над соответствующим проектом желательно наличие эксперта, который заранее скажет, какие входные параметры наиболее важные, проверит соответствие математической постановки оптимизационной задачи реальным запросам заказчика, и т.п.
Например, эксперт может сразу подсказать, что прогнозную модель надо сразу строить в зависимости от площади изделия, а не от длины и ширины изделия, взятых по отдельности. Понятно, что если выборка данных достаточно представительная, то методы машинного обучения потенциально смогут «вытащить» из данных такого рода зависимость. Однако, если подобное априорное знание учесть заранее, то это позволит построить более робастные и точные прогнозные модели за меньшее время.
Теперь вернемся к разговору о методах машинного обучения и об алгоритмической библиотеке, которую мы развивали. Чтобы решать прикладные задачи, подобные описанным выше, нужно решать набор взаимосвязанных задач анализа данных. Взаимосвязанных в том смысле, что решение одной задачи анализа данных может быть, в некотором смысле «входной информацией» для следующей за ней задачей.
Например, вы снижаете размерность данных (делаете новую параметризацию описания вашего объекта, которая будет содержать меньше параметров и будет менее избыточной). При этом вы должны предложить такую параметризацию, которая далее позволит получить прогнозную модель как можно более высокого качества. Здесь появляется уже специальная поставка задачи снижения размерности, и это является толчком к развитию новых методов машинного обучения.
В той алгоритмической библиотеке, которую компания «Датадванс» сейчас активно индустриализует и продает, речь идет о наборе базовых процедур, позволяющих решать инженерную задачу «в комплексе». Инженер обучен решению задач в своей конкретной предметной области, – он знает про закон какого-нибудь растяжения, но шаг в сторону, и он может уже что-то не знать. Что уж говорить про знание каких-то тонкостей методов машинного обучения.
Инженеру наши математические трудности неинтересны, ему нужно получить результат, улучшить эффективность работы изделия. Соответственно, автоматизация применения базовых процедур анализа данных, специально заточенных под требования задач индустриальной инженерии, и является основной целью данной библиотеки. Как следствие, одной из важных проблем, которую мне и моей команде пришлось решать при создании библиотеки, была разработка такого интерфейса взаимодействия с пользователем, который был бы основан на простых и понятных инженеру понятиях.
Например, автоматическое решение о том, какой же именно метод на каком шаге использовать при анализе данных, должно зависеть от ответов на какие-то содержательные и понятные инженеру вопросы: содержат ли данные шум или нет? Имеет ли расположение таких-то точек данных специальную структуру? находятся ли они на решетке? и так далее.
Если учитывать такие особенности, то это позволяет решать задачи анализа данных гораздо эффективнее. Сейчас для построения предсказательных моделей в различных областях популярны нейросети, алгоритмы их обучения тоже можно было бы использовать и при решении задач индустриальной инженерии. Однако, инженер соответствующий результат вряд ли примет, потому что, скорее всего, он не будет удовлетворять требованиям прикладной области.
Например, ожидается, что зависимость выходной характеристики будет изменяться линейно при изменении того или иного параметра, а из-за того, что нейросетевая модель очень сильно нелинейная, то её прогноз также будет значительно нелинейным и его поведение будет иметь какие-то артефакты. Прорешав большое количество задач инженерного плана, мы примерно поняли, какие особенности у этих задач, что действительно нужно индустрии. Мы сумели формализовать это знание, сделав над библиотекой алгоритмов надстройку «верхнего уровня», которая формализует эти требования в понятных инженеру терминах, а затем переводит их в алгоритмический язык, выбирает наиболее подходящий метод или их комбинацию, а также автоматически задает параметры алгоритмов обучения моделей.
Сейчас компания «надстроила» над разработанной алгоритмической библиотекой графический интерфейс и успешно занимается его продажей, ведь не все инженеры любят и хотят программировать.
— А насколько в вашей работе нужно знать программирование? Вы сами программируете?
— Программирую мало, на это просто нет времени, а раньше да, конечно, программировал.
— На каких языках?
— Как человек научного склада, я начинал делать какие-то вычислительные эксперименты в Matlab’е, а потом, когда в районе 2008 года для анализа данных начал активно использоваться Python, перешел на этот язык программирования. У меня есть команда, с которой я обговариваю, какую функциональность надо реализовать, объясняю коллегам как должны быть устроены алгоритмы и их вычислительная реализация.
Что касается промышленной реализации, то в случае упомянутой выше библиотеки pSeven Core это было устроено следующим образом: мы делали большое количество вычислительных экспериментов, разрабатывали прототип алгоритма на Python, а его вычислительно эффективную реализации на C++ в спин-офф компании делал специально обученный человек, вместе с которым мы потом встраивали алгоритм в библиотеку и разрабатывали документацию.
Я сейчас вернулся к тому, что мне кажется наиболее важным и интересным, и это бОльше академические исследования, но я по-прежнему много работаю с индустриальными приложениями, взаимодействую с различными компаниями. На задачах от них можно, во-первых, проверить разрабатываемые мною методы, а, во-вторых, индустриальные приложения являются потенциальным источником новых постановок задач анализа данных. Тем более, что в Сколтехе активно поощряют сотрудничество с индустрией.
В одном рукопожатии от Колмогорова
— Ваш научный руководитель академик А. Н. Ширяев — ученик Колмогорова. Вы чувствуете, что находитесь в одном рукопожатии от Колмогорова?
— С Альбертом Николаевичем я много общаюсь, бывал не раз у него в Комаровке (дом в поселке недалеко от г. Королёва, бывшая дача А. Н. Колмогорова. — Ред.). Я прочитал дневники Колмогорова, которые Альберт Николаевич подготовил и издал. Кроме того, я читал некоторые исходные материалы. Я думаю, что это оказало на меня определенное влияние — Колмогоров был, конечно, человеком незаурядным. Он внес вклад в самые разные области математики, а в некоторых был первопроходцем. При этом у него есть прикладные работы. Это хороший пример для подражания.
— В лекции на «Постнауке» вы рассказывали про колмогоровскую сложность [1].
— Это один из основополагающих концептов, который позволяет лучше понять, что вообще происходит с тем, что мы называем вероятностью, случайностью.
— А насколько редко встречается сочетание хорошего ученого и хорошего организатора? Можно ли этому научиться, или это врожденный талант — уметь организовывать?
— Я бы сказал, что я организатор поневоле. Бывают такие направления исследований, при которых можно сидеть одному в кабинете и решать какие-то задачи. Но я, к счастью или к сожалению, занимаюсь исследованиями, в результате которых получается алгоритм, который надо проверять на данных и применять его для решения индустриальных задач. Если ты участвуешь в прикладном проекте, в построении реальных информационных систем, то их сложность такова, что без команды не обойтись. Поэтому я волей-неволей такую команду организовал и ею управляю.
У меня, смею надеяться, это получается. Я не думаю, что такого типа вещам можно научиться; одно из двух — либо ты можешь это делать, либо нет. Дело в том, что все люди разные, у кого-то одни представления, как должна быть устроена работа, у кого-то другие. Помимо того что я человеку объясняю чисто формально, что надо сделать, приходится быть немного психологом и говорить с коллегами не только о работе. Хороший руководитель может увидеть, что его сотрудник сегодня «не в себе», настроить его на правильный лад, чтобы в команде было «боевое слаживание». Без этого работа просто не пойдет.
— А в чем главные секреты хорошего руководства?
— Я бы сказал, что с людьми надо общаться, люди должны в тебе видеть лидера. Если я говорю, что задачу надо решать таким-то образом, но не могу объяснить почему, не могу повести людей за собой, то команда распадется. Потом, в коллегах надо прежде всего видеть людей, со всеми их достоинствами и недостатками, не относиться к ним как к неким винтикам — подай-принеси, сделай то, сделай это. У меня был опыт общения с разными руководителями. Некоторые из них подходят к людям формально, это плохо работает и в перспективе приводит к разрушению коллектива.
— Что самое неприятное в вашей работе?
— Пожалуй, это вопросы, связанные с бумагами, когда надо писать какие-то заявки на гранты, ТЗ или отчеты.
— А что самое увлекательное?
— Математические исследования, решение новых задач, взаимодействие с коллегами. Приезжаешь на конференцию, а там новые люди, работающие в твоей области, и ты с ними общаешься, получаешь новую информацию, узнаешь о новых подходах. Мне это приносит большое удовольствие, я испытываю настоящий драйв.
Сколтех открыт новому
— Если говорить о Сколтехе, то какие достоинства или недостатки вы видите в этом проекте?
— Идея Сколтеха здравая. В Сколтехе много различных научных направлений и соответствующих департаментов — есть центр разработки новых производственных технологий и материалов, центры биоинформатики, нефтегазовых технологий и т. п. Я расскажу о центре научных и инженерных вычислительных технологий для задач с большими массивами данных, в котором работаю. У нас есть три основных ключевых показателя (KPI). Первый — это работа со студентами, которая предусматривает разработку и ведение курсов лекций.
В Сколтехе — магистратура, поэтому слушателям читаются не базовые предметы типа математического анализа, а продвинутые курсы в рамках соответствующей специализации. Например, лично я читаю курс лекций по современным методам машинного обучения и курс лекций по байесовским методам машинного обучения. В такого рода курсах, безусловно, есть и базовая часть — ставшие уже классическими модели и методы. Однако значительную часть курса я посвящаю новым результатам, рассказываю о том, что недавно появилось в науке, что я узнал, сотрудничая с индустрией. Кроме чтения лекций я также руковожу дипломными работами магистрантов.
Второй KPI, по которому оценивают мою работу в Сколтехе, — это подготовка и публикация научных статей в рецензируемых журналах, участие в профильных общепризнанных конференциях.
Еще один KPI — взаимодействие с индустрией. В Сколтехе есть проектный офис, который помогает в поиске проектов. Его сотрудники находят наукоемкие индустриальные проекты, в которых нужна серьезная математика и IT-технологии. Мы не «программируем сайты», мы нужны там, где требуется высокая квалификация в математике и computer science, в анализе данных и машинном обучении.
Если благодаря проекту может получиться новый и потенциально востребованный продукт, то можно заняться индустриализацией полученных результатов.
При выходе на стадию индустриализации нужно учесть много прикладных аспектов — для этого мы привлекаем дружественные компании, которые могут взять на себя инженерную и техническую части работы. Я же, как профессор Сколтеха, отвечаю за научную, методологическую составляющую, за разработку алгоритма, постановку задачи, перевод «хотелок» бизнеса на математический и инженерный язык. После того как алгоритм сделан и успешно протестирован, можно начать работать над продуктом для рынка.
В Сколтехе есть возможность получить начальное финансирование, что называется посевные деньги, для того чтобы сделать прототип. Можно создать коллаборацию с другими компаниями, организовать стартап, оформить патент на технологию. В Сколтехе это поощряется, а система Сколково предоставляет необходимые для этого инструменты.
— Насколько это трудно — совмещать фундаментальные и прикладные исследования? Не противоречит ли одно другому?
— Если бы я занимался только доказательством теорем, наверное, противоречило бы. А поскольку у меня такая область, что сегодня можно сделать что-то на бумаге, а завтра-послезавтра уже внедрить в производство, то особого противоречия и нет. Конечно, мне требуются и соответствующие ресурсы, и помощь людей, которые знают, как правильно составить договор, учесть какие-то юридические и экономические аспекты.
— Уже много лет говорят, что российской науке не хватает «цепочки», взаимосвязи между фундаментальной наукой и приложениями. Как вам кажется, Сколтех помогает эту проблему решить?
— Многое зависит от области исследований. Если мы говорим о теоретической математике, то там может и не быть приложений. Но теоретическая математика необходима, она задает некоторый уровень, тренирует экспертов, к которым всегда можно обратиться по каким-то тонким вопросам, — я считаю, что без такой подпитки и экспертизы всё остальное зачахнет. Необходим уровень, с которым вы себя соизмеряете. Что же касается остальных дисциплин, будь то разделы экспериментальной физики, биологии и т.п., там везде возможны приложения. И я не вижу проблем в построении всей цепочки от чистой науки до выхода продукта на рынок, было бы желание. Приходится больше трудиться.
— Этому надо учиться? Вы этому учите?
— Лично я этому не учу, потому что у меня есть конкретный набор учебных дисциплин, за которые я отвечаю. Что касается Сколтеха, то здесь есть специализированные курсы, на которых слушателям рассказывают, что такое инновация, как сделать прототип, как организовать стартап, как построить команду, какими качествами должен обладать ее лидер, как составить план разработки и сформировать техническое задание.
У меня много практического опыта в этих вопросах, так что мне это не требуется, но вот студентам такое обучение очень полезно. Когда ты планируешь какую-то работу (если речь идет о разработке), то нужен план; нужно каждую неделю собираться и его корректировать — что успели, что не успели, рисовать соответствующие графики, определять последовательность задач. Даже для небольших команд подход «да мы и так всё в голове держим» обычно не работает.
К сожалению, для молодых ребят это не всегда понятно. Они не всегда могут найти правильные инструменты, методики правильной организации работы. Какое-то хорошее начинание, хорошая идея может быть просто загублена, потому что люди изначально неправильно сформировали команду и выстроили рабочий процесс. Соответственно, в Сколтехе такого рода вещам обучают.
Конечно, если у людей есть желание, то они всё это освоят и сами, но если им уже рассказали, какие подходы и инструменты есть, и как ими пользоваться, то разумный человек возьмет всё это на вооружение, и у него будет больше шансов на успех. И в этом смысле программа обучения в Сколтехе постоянно совершенствуется.
— Какой горизонт будущего вы видите в Сколтехе? На сколько лет вперед вы можете планировать? (Если полагаться на информацию, что финансирование в Сколтехе есть до 2022 года).
— Я об этом серьезно не думал, но с теми тенденциями, которые сейчас есть, по крайней мере, «вокруг меня», я могу предположить, что всё будет нормально. Сейчас активно отстраиваются исследовательские центры, формируются команды, активно идет работа с индустриальными заказчиками и работа академического плана. Пишутся заявки на различные гранты и субсидии, чтобы было дополнительное финансирование именно на академическую работу. Сильные ребята действительно хотят что-то делать и не собираются просто «ждать у моря погоды».
— Какие задачи решает ваш центр? Сколько в нем научных групп?
— Грубо говоря, у нас есть два направления: моделирование, основанное на «первых принципах физики», и моделирование на основе данных из разных источников, с использованием методов прикладной статистики, анализа данных и машинного обучения. У сотрудников нашего центра, особенно у моей группы, накоплен большой опыт работы по второму направлению.
Как я уже говорил, мы много занимались решением инженерных задач — например, строили модели для прогнозирования аэродинамики крыла самолета для новой геометрии поверхности. При этом мы использовали данные из разных источников: среди них данные полномасштабных аэродинамических экспериментов и данные вычислительных экспериментов с физическими моделями. Для этого мы применяем такие инструменты машинного обучения, как transfer learning (повышаем скорость и эффективность обучения модели, учитывая уже имеющиеся результаты обучения на данных, собранных при сходных условиях) и domain adaptation (повышаем точность прогноза модели для данных, отличающихся от обучающей выборки).
Другой важный пример — прогнозирование урожайности по данным дистанционного зондирования. Для России таких данных мало, а, допустим, для Канады, где климат схож с нашим, данные накоплены; я имею в виду, естественно, не только и не столько спутниковые снимки Земли, сколько детальную информацию о том, какие сельскохозяйственные культуры и на каких полях растут, состоянии почв и т. д. Если построить прогнозную модель урожайности на основе этих данных и потом ее откалибровать по небольшому количеству российских данных, это позволит сделать прогноз урожая и в России, а это важно для нашего сельского хозяйства.
В нефтегазовой отрасли мы тоже видим интересные задачи, там тоже есть широкое поле для приложений, позволяющих повысить эффективность этого сектора.
Наш центр также занимается различными аспектами интернета вещей, разрабатывает подходы к анализу данных о состоянии почвы, поиску новых химических соединений и их использованию в медицине и другими актуальными проектами.
Анализом данных о состоянии почвы занимается команда Ивана Оселедца, у них есть совместный проект с компанией «РусАгро». Почвоведы выезжают на специальные «тестовые» поля, берут пробы земли и изучают, как меняются состав и свойства почвы в зависимости от использованных удобрений. Всё это важно для повышения плодородия и урожайности земель.
Дизайн новых химических соединений позволяет оптимизировать их растворимость, токсичность, «заточить» лекарства под определенные цели. Такого рода задачи находятся на стыке биологии и медицины, с одной стороны, и вычислительной математики, с другой. Приходится обрабатывать большие базы результатов как реальных экспериментов, так и вычислительных на основе трудоемких в построении физических моделей. Последние используются для оценки свойств химических соединений, которую можно значительно ускорить благодаря машинному обучению.
— А вы друг с другом взаимодействуете, проводите какие-то общие конференции? Как вы обмениваетесь информацией?
— У меня с коллегами общий центр, наши кабинеты на одном этаже, и я каждое утро прохожу и со всеми здороваюсь. Тут-то и начинается взаимодействие — мы обсуждаем различные задачи, возможные подходы к ним. Есть общие проекты. Например, с Иваном Оселедцем мы разрабатываем ядерные методы машинного обучения: Иван — известный специалист в области вычислительной математики и знает, как за счет различных аппроксимаций ускорить матричные вычисления; а я хорошо понимаю, как адаптировать такого рода подходы, чтобы построить более эффективные ядерные методы.
С Максимом Фёдоровым, директором центра, мы взаимодействуем по поводу задач хемоинформатики; с Виктором Лемпицким, известным экспертом в области компьютерного зрения, применяем генеративные модели для сегментации изображений и обработки 3D-данных: эта область важна и для медицины, и для распознавания образов, и для создания беспилотных автомобилей…
Я лично много занимаюсь методами быстрого обнаружения изменений свойств больших потоков данных. Среди приложений — некоторые задачи кибербезопасности, прогнозирования поломок технических систем. Специалисты нефтегазовой области уже начали понимать важность подобного рода методов, и мы с ними активно сотрудничаем.
— Когда вы набираете магистрантов и аспирантов, то каких молодых ребят ищете? На что обращаете внимание?
— При приеме в Сколтех мы принимаем экзамены по математике, английскому плюс проводим очное собеседование. Это своего рода фильтр, который позволяет отобрать тех, кого надо. А если ко мне приходит аспирант и спрашивает, могу ли я стать руководителем его диссертации, то я смотрю на его диплом, разговариваю с ним, обсуждаю его интересы и планы на ближайшее будущее.
Я ищу хороших магистров, аспирантов. Хорошие — это те, у кого хорошая математическая подготовка уровня Физтеха, мехмата или физфака МГУ. Ребят, которые могут и в математике разобраться, и правильно «поставить» вычислительный эксперимент. А в целом, я в первую очередь смотрю, что человек может, а не откуда он пришел.
В моей научной группе география учебных заведений, где аспиранты заканчивали бакалавриат и/или магистратуру, достаточно широкая. Например, у меня есть аспирант, закончивший бакалавриат в Саратовском гос. университете, у него – отличные результаты, недавно съездил с докладом по мотивам принятой статьи на передовую конференцию SIGIR в США, попасть на которую весьма непросто.
Причины, по которым люди идут в аспирантуру, разные. Кто-то хочет потом остаться в науке, и в таком случае наличие ученой степени – обязательно условие. Кто-то хочет во время обучения в аспирантуре получить «твёрдые» базовые знания по выбранной специальности, научиться не только использовать методы машинного обучения, но и разрабатывать новые и решать нестандартные задачи, чтобы потом сделать хорошую карьеру.
— А где ваши студенты проходят практику?
— Я и мои коллеги сейчас активно привлекаем аспирантов и постдоков для участия в прикладных проектах Центра. Наши проекты служат для них своего рода испытательным полигоном. В этом смысле студенты видят, как устроены настоящие прикладные проекты, и что необходимо для решения индустриальных задач.
Между пятым и шестым курсом у студентов есть летняя практика, на которой студенты работают в той или иной компании и занимаются наукоёмкими проектами. Есть некоторый набор компаний (и этот набор постоянно расширяется, мы ведем переговоры с заинтересованными компаниями), в них выбираются какие-то задачи, которыми могут заниматься студенты с учетом их профиля подготовки в Сколтехе. Летняя практика длится порядка двух месяцев, студенты получают соответствующее денежное «довольствие» от института и могут сосредоточиться на решении прикладной задачи. Естественно, мы жестко мониторим ситуацию, чтобы это были наукоёмкие задачи, полезные для основной деятельности компаний, а не «перекладывание бумажек».
— Отправляете ли вы студентов в западную аспирантуру? Есть ли в этом необходимость? И где они пишут свои Ph.D. работы?
— Они пишут свои диссертационные работы в России, под руководством профессоров центра Сколтеха. Но в части диссертаций и дипломных работ иногда задействованы и со-руководители из других университетов, в том числе и западных. Недавно один мой дипломник проходил стажировку в компании Philips, занимался детектированием объектов по термальным камерам.
Суть задачи в том, что в помещении установлено два вида камер – термальная и обычная; если в комнате не очень хорошее освещение, то за счет данных с термальной камеры можно улучшить точность, например, детекции человека в комнате. Соответственно, дипломник разрабатывал алгоритм, который позволял за счёт учёта данных от этих двух типов сенсоров улучшить точность детектирования объектов. В итоге, получилась хорошая дипломная работа с полезным индустриальным приложением.
Другой аспирант, стажировавшийся в той же компании, но в другом её отделе, занимался разработкой алгоритмов обнаружения аномалий для анализа различных данных пользователей, использующих некоторую продукцию компании. У него были получены определенные результаты и в настоящее время он готовит статью к публикации. В этом смысле Сколтех поддерживает такого рода контакты, стимулирует студентов к тому, чтобы не замыкаться в себе.
—А вы сами задумывались поехать на работу за рубеж?
— В разные периоды жизни на этот счет у меня были разные мысли. К счастью, так сложилось, что у меня есть интересная работа в России, при этом я довольно много езжу по миру. Например, недавно за месяц у меня было две поездки в США. Сначала я летал с докладом на одну из передовых конференций Artificial Intelligence and Statistics (AISTATS), а через некоторое время – посетил небольшой воркшоп, посвященный памяти М. Бравермана, раньше работавшего в ИПУ, а потом уехавшего в США. Он был одним из патриархов машинного обучения и получил многие значимые результаты.
Киберчеловек — фантазия или реальность?
— Возможно ли создание киберчеловека или искусственного интеллекта, равного человеческому или даже его опережающего?
— На данном этапе, мне кажется, нет. Надо понимать, что русский термин «искусственный интеллект» и английский artifcial intelligence различаются по значению. Русский — подразумевает создание именно чужеродного интеллекта, чего-то типа системы Skynet и Терминатора (из одноименного фильма). Английский же означает скорее компьютерную программу, которая выполняет ограниченный набор интеллектуальных функций согласно некоему алгоритму.
Есть много приложений, где требуются действия, которые человек не может делать быстро, точно, и в этом смысле программы, анализирующие данные, отлично научились заменять людей. Я думаю, что через какое-то время мы будем еще теснее взаимодействовать с такими системами. У нас будет больше электронных помощников, совершающих рутинные операции, дающих нам какие-то полезные рекомендации.
Допустим, врач устал, к концу рабочего дня не увидел затемнение в легком, а компьютер может врачу «дать подсказку». Понятно, что такого рода функции очень полезны, но это не то, что обычно вкладывают в понятие «искусственный интеллект». Такого рода системы будут только развиваться. А появится ли когда-нибудь человекоподобный робот, которого сложно будет отличить от человека? Может быть!
— Вы верите в то, что можно встроить электронную систему в мозг человека?
— Возможно, такое произойдет. Но опять-таки, тут возникает масса проблем, начиная от законодательных и моральных и заканчивая чисто техническими: как должна быть устроена электроника, чтобы ее можно было встроить в мозг человека? Много ли вы найдете людей, которые захотят, чтобы им в голову что-то встроили? Вот, например, по сути, уже существуют технические возможности для построения беспилотных самолетов. В реальности пилоты управляют самолетом около минуты, и даже эти действия мог бы выполнять автопилот. Однако вряд ли люди обрадуются, если узнают, что в кабине никого нет, — они просто не полетят на таком самолете. А вы говорите — внедрить человеку в голову какую-то железку. Может быть, когда-нибудь, когда будет пройден некий психологический барьер… Мне сложно прогнозировать.
— У вас нет ощущения какого-то «стеклянного потолка»? Вы полностью реализовались здесь, или вам было бы лучше в Кремниевой долине?
— Мы сейчас говорим об истории — как могла бы складываться моя жизнь — в сослагательном наклонении, которого история не терпит. На данном этапе пожалуй что никаких упомянутых вами ощущений не испытываю. При этом если бы я работал за рубежом, то баланс между более академическими проектами и индустриальными приложениями, наверное, распределился бы по-другому. В России тоже есть «точки роста» и возможности реализовать себя, при этом в более устоявшейся западной системе такие возможности не всегда легко найти.
Евгений Бурнаев
Беседовала Наталия Демина
Фото Сколтеха
Хорошее, но очень длинное интервью. Было бы хорошо, если бы интервьюируемый кроме Сколтеха работал, например, Пензенском университете. Концентрация всей науки в столице не очень способствует устойчивому развитию всей страны. И ещё, недавно был удивлён малому количеству студентов в Сколково.
Интервью интересное, но…так ли уж много прикладных задач на отечественных предприятиях? Сомневаюсь. Если они даже и есть, их зачастую не могут разглядеть и сформулировать. А в основном заняты выживанием. Прогнозное моделирование- тонкая вещь. Заставить производственников поверить в вашу модель чтобы ею пользоваться, непросто. Надо для начала самим в неё поверить.