Революция в оцифровке научных журналов или?..

Николай Каленов
Николай Каленов

Одним из наиболее обсуждаемых направлений в области библиотечного дела и информационного обеспечения науки является проблема оцифровки научных изданий. Недавно Библиотека по естественным наукам (БЕН) РАН провела конкурс на выполнение работ по оцифровке печатных изданий из собрания БЕН РАН посредством сканирования, выверки текста, формирования библиографических записей, создания дополнительных атрибутивных полей для размещения в автоматизированной информационной системе БЕН РАН. Вся информация о конкурсе (в том числе техническое задание на проведение работ по оцифровке), его победителе и заключенном контракте имеется в свободном доступе в Интернете [1] и представляет большой интерес для специалистов, в той или иной степени связанных с проблемами оцифровки научных изданий.

Согласно ТЗ, исполнителем должны быть выполнены работы по оцифровке 30 тыс. выпусков отечественных научных журналов 1970–2000-х годов издания.

В процессе выполнения работ все отсканированные материалы (в том числе англоязычные аннотации) должны быть распознаны и отредактированы с допускаемым количеством ошибок не более двух на 10 тыс. символов.

Карл Шпицвег. Книжный червь. 1850 год
Карл Шпицвег. Книжный червь. 1850 год

Каждый выпуск журнала должен сопровождаться метаданными, представленными в формате MARC-21, содержащими названия, авторов, страницы, индексы УДК и т. д.

Результирующий массив должен быть загружен в «информационную систему БЕН РАН».

В ТЗ специально оговорено: «Расшивка оригиналов изданий не допускается», а требования к качеству сканов и обеспечению сохранности изданий вполне соответствуют самым высоким требованиям, предъявляемым к сканированию редких книжных изданий и формированию каталогов с широкими поисковыми возможностями.

Все работы по сканированию материалов должны осуществляться на территории исполнителя. Журналы, подлежащие сканированию, направляются и возвращаются партиями, оформленными сопроводительными актами специальной формы.

Стоимость работ, предусмотренных ТЗ, объявленная в конкурсной документации и отраженная в заключенном по результатам конкурса контракте, составляет 2 743 200 (два миллиона семьсот сорок три тысячи двести) рублей.

Срок исполнения контракта — 20 дней.

ТЗ производит впечатление серьезного, тщательно проработанного документа, если бы не несколько «но».

  1. При рассмотрении контракта обращает на себя внимание отсутствие хотя бы приблизительной оценки количества страниц, подлежащих обработке, которое практически целиком определяет трудоемкость выполнения работы. Указано лишь, что объем журнала может колебаться от 8 до 170 страниц. Иными словами, количество обрабатываемых страниц находится в диапазоне от 240 тыс. до 13 млн. Странно, что исполнитель берется выполнить работы, не зная их объема.
  2. Объем одного выпуска научного журнала в среднем составляет около 80 страниц. Таким образом, исполнитель должен обработать и сформировать базу данных с развитым поисковым аппаратом на основе формата MARC21, включающую 2 млн 400 тыс. страниц текста. Это означает, что стоимость одной страницы (сканирование, распознавание текста, редактирование) составляет около одного рубля (без учета затрат на электро­энергию и транспортировку литературы). Такая стоимость (учитывая сложность распо­знавания материалов естественнонаучного характера, включающих формулы, графики, таблицы, а также англоязычные аннотации) вызывает некоторое недоумение.

Если исходить из норм, установленных Министерством культуры РФ на работы, связанные с оцифровкой, распознаванием и «загрузкой в компьютер» печатных текстов [2], то окажется, что (без учета создания метаданных) сотрудники фирмы-исполнителя получат за выполненные работы оплату более чем в пять раз менее установленного в РФ минимального размера оплаты труда, составляющего в настоящее время 12 130 руб. в месяц (см. врезку). Но реально эти выплаты должны быть еще меньше, поскольку они не учитывают не только дополнительные расходы, но и оплату «атрибутирования» изданий в структуре MARC21.

Согласно «Типовым отраслевым нормам труда на работы, выполняемые в библиотеках», утвержденным Министерством культуры РФ Приказом от 30 декабря 2014 года № 2477, временные нормы на «сканирование и распознавание плоскопечатного текста, одна страница объемом 1800–2000 знаков» составляют 4 минуты (табл. 62, п. 2); на «загрузку файла с плоскопечатным документом в компьютер» для такой же страницы требуется 0,5 минуты (табл. 62, п. 3). Норма на «ввод в базу данных аналитической росписи газетно-журнальных статей» составляет 2 минуты на одну запись (табл. 13, п. 21).
  1. Срок исполнения контракта составляет 20 дней. В одном выпуске журнала публикуется в среднем 10 статей. Это означает, что в течение одного дня в среднем должны быть подготовлены метаданные, относящиеся к 15 тыс. статей. Исходя из приведенных выше официальных норм (две минуты на запись), получим, что исполнителю для выполнения работ только по «атрибутированию» изданий потребуется более 60 сотрудников, работающих без выходных в течение 20 дней, и минимум 20 рабочих мест при круглосуточной работе. При оплате их труда на уровне МРОТ еще более упадет оплата сотрудников, обеспечивающих сканирование и обработку текстов статей.

В конкурсе участвовало два претендента — ООО «Восток» из Зеленограда и ООО «Графика» из Омска (с уставным капиталом 10 тыс. руб. и основным видом деятельности — «деятельность по предоставлению прочих вспомогательных услуг для бизнеса, не включенная в другие группировки»). Интересно, что второго участника и заказчика не смутило то, что журналы для оцифровки по требованиям ТЗ должны перемещаться от заказчика к исполнителю (в данном случае из Москвы в Омск) и обратно.

2 октября 2020 года заказчик подвел итоги конкурса и объявил победителем ООО «Восток», аффилированное с компанией «ЭЛАР» (генеральный директор ООО «Восток» является соучредителем компании «ЭЛАР»). Заметим, что директор БЕН РАН Олег Николаевич Шорин, будучи заместителем директора РНБ, неоднократно прибегал к услугам «ЭЛАР», о чем подробно изложено в публикации «Как объединить библиотеки и освоить миллиард» в разделе «Приручить за 170 миллионов» [3].

Судя по контракту, с 23 октября 2020 года 30 тыс. выпусков научных журналов должны быть отражены в «автоматизированной информационной системе БЕН РАН» и, вероятно, должны быть бесплатно доступны пользователям, поскольку оцифровывались за счет бюджетных средств. Казалось бы, научный мир, и в первую очередь сотрудники академических институтов, библиотеки которых входят в централизованную систему БЕН РАН, должны получить существенный информационный ресурс, полезный в их научной деятельности.

Однако, несмотря на очевидную важность вопроса, информация о таком знаменательном событии, как появление цифровых копий 30 тыс. отечественных журналов, на сайте БЕН отсутствует. Информацию об объявленном конкурсе на оцифровку журналов на сайте Библиотеки также не удалось найти. Похоже, вопрос о том, какие журналы и почему именно они должны быть отсканированы, нигде не обсуждался — ни среди сотрудников библиотеки, ни на ученом совете, ни с пользователями. Выборочный опрос заведующих библиотеками, входящими в сеть БЕН РАН, показал, что ни одна из них не знает о проекте. То же самое относится и к пользователям — сотрудникам академических организаций.

Это тем более странно, что контракт (если в него не вкрались ошибки) является революцией в оцифровке печатных изданий.

На мой взгляд, опыт БЕН РАН и ООО «Восток» должен быть немедленно распространен по всей стране. Благодаря этому мы в ближайшее время сможем получить электронную библиотеку всех научных изданий, не подпадающих под законодательство об охране авторских прав, при затратах на порядки меньших, чем выделяются на формирование ведущих электронных библиотек страны — таких как Национальная электронная библиотека, ЭБ Президентской библиотеки имени Б. Н. Ельцина и других.

Николай Каленов,
глав. науч. сотр. МСЦ РАН

  1. contragents.ru/zakupki/1770405341020000011
  2. Приказ Министерства культуры РФ от 30 декабря 2014 года № 2477 «Об утверждении типовых отраслевых норм труда на работы, выполняемые в библиотеках».
  3. fontanka.ru/2017/09/29/130/

6 комментариев

  1. Статья Н. Каленова интересна поднятием проблемы оцифровки научных журналов. Для нашей страны это чрезвычайно важно, т.к. большой объем русскоязычных изданий не оцифрован и может быть утрачен. Кроме того в плюсе, что электронная форма позволяет быстро проводить навигацию по журналам и резко ускоряет поиск нужного выпуска, нужной статьи, статьи конкретного автора, работ в необходимой области и т.д. И? если текущие выпуски русскоязычных журналов еще доступны в электронном виде в Научной электронной библиотеке (НЭБ), то ретроспективные номера журналов и другой печатной продукции лежат лишь в нескольких научных библиотеках, да бывает и утрачиваются. Обращу внимание, что НЭБ при всей своей уникальности и полноты даже близко не подходит к требованию приводимому автором из техзадания (ТЗ) – 2 ошибки на 10 тыс. символов. Каждый, кто занимался такой работой согласится, что этот пункт ТЗ нереален. Можно привести еще много несуразностей в ТЗ, начиная от оценки работы, это, конечно, не 3 млн. рублей для оцифровки 30 тыс. журналов, а гораздо больше и, кончая 20-дневным сроком работы. По моему первому впечатлению, здесь не планируется выполнение самой работы, а просто покупка материала у той же НЭБ или ВИНИТИ. Но ни там, ни там нет такой ретроспективы и, как и автор, я в полном недоумении.

    1. Я тоже думаю, что они хотят просто купить уже готовую базу статей. Есть международные базы научных статей, например Mendeley или ResearchGate. Ими можно воспользоваться.

  2. «Расшивка оригиналов изданий не допускается»- совершенно глупое требование. Кому нужны эти пыльные фолианты? А так срезать корешок и отсканировать автоматически за 5 минут с двух сторон всю подшивку. К тому же периодика обычно наличествует во многих библиотеках по стране и не является уникальной, а вот отчеты ВИНИТИ, ЦИТИС и прочие депонирования гораздо уникальней и просто пропадают в дебрях бюрократии. Даже каталога нет. Если инв.№ не знаешь с тобой никто не разговаривает. А если случайно узнал, приходишь к вороху бухгалтерско-бюрократического ада. Так же не понятно, почему на сайте РГБ диссертации не в свободном доступе для скачивания, хотя они все оцифрованы и доступны за плату на сторонних ресурсах. Погрязло библиотечное дело в бюрократии и коррупции, впрочем как и всё российское общество.

    1. Доступ к иностранных оцифрованным научным журналам тоже, как правило, платный. Хотя авторы могут доплатить и сделать доступ к их статье свободным.

      1. Платный всё-таки не ко всем изданиям. А уж к «древностям» полувековой давности, как правило, бесплатный. Здесь же оцифровка должна проводиться за госудаственные деньги, поэтому хотелось бы бесплатного доступа (тем более это в интересах государства).
        Мне, правда, кажется что будут распознаны только оглавление номеров, их и вывесят на сайт БЕН. По крайней мере за такие деньги (да ещё и в столице) на большее рассчитывать не приходится. Альтернативный вариант — всё уже распознано (на какие-то другие, явно гос.средства) а эти 2,7М пойдут на «вывешивание» в интернет.

    2. ненужно ничего резать. у нас (в РФ) разработаны очень продвинутые комерческие сканеры книг, которые умеют сканить и с корешками. и делают это быстро.

Добавить комментарий

Ваш адрес email не будет опубликован.

Оценить: