ТрВ-Наука неоднократно обращался к теме Российского индекса научного цитирования, РИНЦ («Что делать с индексом цитирования», № 45, 19.01.2010 [1]; «Упорный штурм методических высот», № 57, 06.07.2010 [2]; интервью с руководителями проекта в № 58, 20.07.2010 [3]). С тех пор, как данные РИНЦ стали обязательным элементом заявок на конкурсы, проводимые Минобрнауки, и вошли в показатели оценки результативности научных учреждений РАН, интерес к этой базе только увеличился. Многочисленные обсуждения на форуме Scientific.ru показывали примеры явных несообразностей, однако до сих пор разговор шел в основном о неполноте базы, и, как правило, разработчики быстро исправляли те ошибки, которые становились предметом обсуждения. Более того, в своем июльском интервью они говорили о том, что проблема неполноты будет решена в сентябре 2010 года с инкорпорацией в РИНЦ данных из Scopus. Публикуемое письмо директора Библиотеки по естественным наукам РАН профессора Н.Е. Каленова, направленное им в конце прошлого года министру образования и науки А.А. Фурсенко, показывает, что дело гораздо серьезнее, — похоже, имеются принципиальные ошибки в самой алгоритмической конструкции базы. Примеры таких ошибок приведены в приложениях к письму, которые публикуются на сайте ТрВ-Наука:
Министру образования и науки РФ
г-ну Фурсенко А.А.
Уважаемый Андрей Александрович!
С 2005 года Ваше Министерство финансирует работы по созданию Российского индекса научного цитирования (РИНЦ), которые выполняет ООО «Научная электронная библиотека» (НЭБ).
Согласно «Типовой методике оценки результативности деятельности научных организаций, выполняющих научно-исследовательские, опытно-конструкторские и технологические работы гражданского назначения», утвержденной Минобрнауки приказом № 406 от 14.10.2009 г., РИНЦ должен лежать в основе оценки публикационной активности научных коллективов и отдельных ученых.
РИНЦ, представленный на сайте НЭБ (www.elibrary.ru), в 2009-2010 гг. активно обсуждался на научных конференциях и на форумах Интернета (см., например, [4]). При этом практически все выступления носили критический характер — представителями различных научных организаций приводились примеры ошибок РИНЦ, связанные с отражением публикаций их сотрудников.
Учитывая важность РИНЦ как инструмента, указанного в «Типовой методике…», в июле 2010 г. нами было проведено достаточно серьезное тестирование РИНЦ на нескольких произвольно выбранных журналах, организациях и ученых.
Тестирование РИНЦ по полноте и достоверности данных показало следующее.
1. Отсутствуют контроль и обеспечение полноты ввода данных по журналам, обрабатываемым в РИНЦ, что приводит к потере информации.
2. Количество статей, введенных в РИНЦ за конкретный год по конкретному журналу, указываемое при выводе информации о журнале, не соответствует количеству статей, указанных в распределении по годам. При этом для одних журналов общие суммы совпадают, для других — нет, что говорит об алгоритмической ошибке системы.
3. Алгоритмические ошибки другого рода внутри системы приводят к тому, что статьи сотрудников организации не попадают в списки статей организации, тем самым искажая ее рейтинг.
4. Имеют место потери статей при сопоставлении журнала и автора. Например, для 6-ти из 14-ти авторов статей из журнала «Прикладная математика и механика» (2010, т.74. вып.1) в их авторских профилях статьи из этого журнала отсутствовали.
5. Система ошибочно присваивает статьи авторам (так, из 22 работ одного из тестируемых нами авторов 7 ему присвоено ошибочно, при этом при входе в систему с другой точки выдается правильное авторство, что говорит о принципиальной ошибке системы).
6. Суммы работ и цитирований отдельных авторов организации не совпадают с суммарным числом публикаций и цитированием работ организации как в целом, так и по отдельным журналам (например, из 15 работ одного из сотрудников Института механики МГУ к последнему отнесено лишь 8, из 16 работ другого — 3).
7. Имеют место повторное включение статей в базу данных, ошибки статистики и т.п.
Результаты тестирования были доведены до сведения разработчиков, доложены в августе 2010 г. на научной конференции в г. Екатеринбурге и опубликованы в сборнике научных трудов [5] с приведением копий оригинальных WEB-страниц, выдаваемых РИНЦ (текст публикации приведен в приложении 1).
Конкретные ошибки, приведенные нами в докладе, были исправлены разработчиками. Однако принципиальные источники этих ошибок устранены не были. В октябре 2010 г. мы протестировали РИНЦ на примере журнала «Информационные ресурсы России». При этом проявились все перечисленные выше ошибки. Результаты этого тестирования также с приведением оригинальных WEB-страниц РИНЦ опубликованы в № 6 журнала «Информационные ресурсы России» за 2010 год [6] (приложение 2).
Наши контакты с разработчиками показали, что исправлять очевидные алгоритмические ошибки они не хотят (или не могут).
В этой связи в первую очередь, возникает вопрос: кто и каким образом принимал в эксплуатацию систему РИНЦ, выполненную на государственные деньги, содержащую явные ошибки? Создается впечатление, что тестирование системы не проводилось вообще или в приемной комиссии (если таковая существовала) отсутствовали квалифицированные специалисты в области информатики.
Ни одной публикации в профессиональной научной печати, связанной с принципами построения РИНЦ, алгоритмами обработки данных, заложенными в его основу, нам найти не удалось. Вызывает удивление, как может считаться выполненной научно-исследовательская работа, по которой не опубликовано ни одной статьи (особенно в свете «Типовой методики…», утвержденной Министерством, принявшим подобную работу)!
Несмотря на многочисленные критические замечания в отношении базы данных РИНЦ, в августе 2010 г. руководимое Вами Министерство объявило Открытый конкурс на право заключения госконтрактов на выполнение НИР для государственных нужд в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы» (мероприятие 5.1 — II очередь), лот №1 которого сформулирован как «Разработка информационно-аналитической системы статистического анализа библиометрических показателей науки на основе данных Российского индекса научного цитирования».
Само название лота и конкурсная документация по нему, утвержденная Вашим заместителем г-жой И.П. Биленкиной, предполагают, что в основе создаваемой системы должен лежать РИНЦ в том виде, в котором он существует.
Сотрудники, подготовившие и утвердившие конкурсную документацию, либо не знакомы с критикой РИНЦ ни в части полноты отражения материалов, ни в части многочисленных ошибок, содержащихся в базе данных РИНЦ, либо сознательно игнорировали известные факты.
Процитирую некоторые положения конкурсной документации:
4.5. Технические характеристики
4.5.1. Разрабатываемая ИС должна обеспечить возможность проведения статистического анализа и ранжирования научно-исследовательских организаций и отдельных ученых Российской Федерации на базе следующих основных информационных массивов:
4.5.1.1. Информация о всех публикациях из 1500 самых цитируемых российских журналов (по данным Российского индекса научного цитирования (далее — РИНЦ) за 20052010 годы) за период времени с 2003 по 2012 год;
4.5.1.2. Информация о публикациях российских авторов в зарубежных и российских переводных журналах за 1996-2012 годы (не менее 400 тысяч публикаций).
4.5.2. Формирование информационных массивов, указанных в п.п. 4.5.1.1. и 4.5.1.2., обеспечивается исполнителем НИР самостоятельно.
Формулировка последнего пункта однозначно определяет, что победителем «открытого» конкурса может быть только разработчик РИНЦ, поскольку только он располагает информационным массивом, указанным в п. 4.5.1.1.
Возникает вопрос, почему ресурс, созданный за государственный счет, исполнитель (если это не ООО «НЭБ») должен формировать самостоятельно?
Подраздел 5.2 раздела 5 Конкурсной документации (Технико-экономические показатели) ярко демонстрирует некомпетентность Заказчика (в данном случае — Вашего Министерства):
5.2. В процессе выполнения НИР должны быть достигнуты следующие значения программных индикаторов и показателей (приводятся минимальные установленные значения, которые участник размещения заказа вправе увеличить при подаче заявки на участие в конкурсе):
Индикаторы | ед. изм. |
год |
|||
2010 | 2011 | 2012 | 2013 | ||
И5.1.1 Среднее число организаций, получивших доступ к ведущим мировым информационным ресурсам | единиц | 150 | 300 | 300 | 300 |
И5.1.2 Среднее число ведущих мировых информационных источников, доступных для организаций | единиц | 150 | 200 | 250 | 250 |
Любому специалисту, даже поверхностно знакомому с тематикой конкурса, очевидно, что никакого отношения к разработке «статистической системы библиометрических показателей науки» эти индикаторы не имеют. Более того, они вообще не имеют смысла и не могут быть проверяемы, поскольку понятие «ведущие мировые информационные ресурсы» не определено и является крайне расплывчатым.
Вызывает удивление, как такой «пассаж» мог появиться в документации, утвержденной Вашим заместителем!
Естественно, на такой «конкурс» не было и не могло быть подано ни одной заявки никем, кроме разработчика РИНЦ (ООО «НЭБ»), который, «выиграв» конкурс, будет создавать за государственные средства некую аналитическую систему на основе ошибочных данных.
Непосредственно перед отправкой этого письма я убедился, что принципиальные ошибки в РИНЦ не исправлены. Пример отражения в РИНЦ журнала «Космические исследования» и публикаций в нем сотрудника ИПМ РАН им. М.В. Келдыша чл.-корр. РАН В.В. Белецкого приведен в приложении 3.
При анализе результатов разработки РИНЦ становится очевидным, что у его разработчиков полностью отсутствует математическая культура, им невдомек проверить правильность расчета таких тривиальных характеристик, как сумма и среднее.
Очевидно, что продолжение работ по созданию «информационно-аналитической системы статистического анализа библиометрических показателей науки на основе данных Российского индекса научного цитирования» без исправления ошибок, заложенных в РИНЦ, приведет к появлению неработоспособного продукта, использование которого на практике нанесет значительный вред отечественной науке.
Как специалист в области информационных технологий считаю, что в сложившейся ситуации необходимо:
— приостановить работы по созданию «информационно-аналитической системы статистического анализа библиометрических показателей науки на основе данных Российского индекса научного цитирования», аннулировав результаты конкурса;
— создать экспертную группу из специалистов в области информатики и библиометрии по тестированию и выявлению ошибок РИНЦ;
— обязать разработчиков РИНЦ (ООО «Научная электронная библиотека») исправить алгоритмические ошибки, заложенные в системе, выявленные экспертной группой;
— опубликовать и обсудить в профессиональной печати требования к информационно-аналитической системе статистического анализа библиометрических показателей науки;
— объявить конкурс на создание системы статистического анализа библиометрических показателей науки, соответствующей опубликованным требованиям, поддерживаемым специалистами.
Абсолютно уверен, что мою позицию поддерживают все представителя научной и образовательной сфер, в той или иной мере столкнувшиеся с текущей версией РИНЦ.
Николай Каленов,
профессор, докт. техн. наук, директор БЕН РАН
1. http/trv-science.ru/2010/01/19/chto-delat-s-indeksom-citirovaniya
2. http://trv-science.ru/2010/07/06/upornyj-shturm-metodicheskix-vysot
3. http://trv-science.ru/2010/07/20/provedite-poisk-v-rinc-samostoyatelno
4. Индексы раздора: материалы «Открытого семинара» polit.ru.
www.polit.ru/author/2008/11/07/seminar.html.
5. Н.Е.Каленов, О.В.Селюцкая. О российском индексе цитирования // Новые технологии в информационно-библиотечном обеспечении научных исследований: сборник научных трудов. — Екатеринбург, 2010. — С. 183-198 (приложение 2).
6. Н.Е.Каленов, О.В.Селюцкая. Некоторые оценки качества Российского индекса научного цитирования на примере журнала «Информационные ресурсы России» // Информационные ресурсы России, 2010, № 6. — С. 2-13 (приложение 2).
7. Глушановский А.В., Каленов Н.Е., Лексикова Е.Е База данных «SCIENCE CITATION INDEX» на CD-ROM. — М.: Биоинформсервис, 1993. — 38с.
8. Мохначева Ю.В., Харыбина Т.Н. Применение библиометрических методов исследования в информационном обеспечении ученых НИИ ПНЦ РАН // Библиотека по естественным наукам РАН. Итоги и перспективы. Сборник статей. М., 2008. — С. 255-270.
9. Бескаравайная Е.В., Митрошин И.А., Слащева НА, Мохначева Ю.В., Беспалова Л.А. Библиометрический анализ публикаций организаций Московской области в сфере нанотехнологий // Информационное обеспечение науки: новые технологии: Сб. науч. тр. — М.: Научный мир, 2009. — C. 263-271
10. Мохначева Ю.В. Российско-белорусское научное сотрудничество: библиометрический анализ текущего состояния и перспектив развития // Информационные ресурсы России, 2010. — № 5. — С. 11-15.
Благодарю редакцию ТрВ за интересную статью!
Прочитав её, не могу не отметить следующее. Нужно, как минимум разделить обсуждаемый здесь конкурс на два — разработка «информационно-аналитической системы…» и заполнение библиографической базы данных. Иначе получится, как в поговорке про перевод на русский язык компьютерных программ — «переведено профессиональными программистами».
Также я считаю, что «опубликовать и обсудить в профессиональной печати требования к информационно-аналитической системе» — это полумеры. В одном из прошлых номеров Троицкого Варианта в статье «Распилы и как с этим бороться» уже высказывалось разумное, на мой взгляд, предложение любой заказ на разработку предварять заказом на проектирование и составление подробного техзадания.
Тогда получается, что конкурсов должно быть целых пять:
1. Создание проекта «информационно-аналитической системы…».
2. Разработка «информационно-аналитической системы…» согласно принятому проекту.
3. Создание проекта приложения по вводу данных в библиографическую БД.
4. Разработка этого приложения.
5. И, наконец, конкурс на заполнение этой БД.
Остальные выводы Н.Е. Каленова, на мой взгляд, вполне разумные и нужно учесть их на будущее. Понятно, что в существующих требованиях к «информационно-аналитической системе…» всё свалено в кучу, на выходе получилось не весть что, и экспертной группе вместе с программистами придётся долго мучиться, чтобы спасти проект.
В общем, спасение утопающих — дело рук самих утопающих. Хорошо бы научной общественности организоваться и выявлять подобные этому «кривые» конкурсы и давить их в зародыше. Благо согласно закону о госзакупках они все выкладываются на сайте http://zakupkiold.gov.ru.