Технология: как это делается
По сторонней просьбе из Исторической библиотеки описана технология. Если кому интересно, вот как идёт обработка текста.
- Фотографируем страницы. Другие способы оцифровки громоздки или недоступны.
- Распознаём текст.
- При распознавании первичная правка: раскрытие уродливых сокращений,
возвращение запятых на их историческую родину, пометки проблемных мест.
Что до сокращений, то никто не читает «и пр., и т. д.» Все говорят: «и прочее, и так далее». Поэтому сокращения на письме — особого рода провокации, которые делаются, чтобы сделать текст труднее, чтобы убрать из него понятность. Их надо раскрывать.
Что до проблемных мест, то вы знаете, что такое ЖАКТ? А другие читатели не знают, а стало быть, следует сделать сноску и истолковать.
При распознавании же размечаются страницы оригинала, которые позже будут отмечены на полях.
При распознавании же сшиваются неразрывными пробелами неотделяемые слова, например, одно- и двухбуквенные предлоги, частицы. Корректируются кавычки. - Орфография. Ispell, потому что это единственная программа, которая проверяет русскую орфографию. Другие программы, к сожалению, не русский язык проверяют, а какой-то уродливо другой, так как поддерживают далеко не все буквы алфавита.
- Орфография. Программа, которая сравнивает текст с заданным словарём и отдельно выписывает строки, которые МОГУТ БЫТЬ ошибочными. Проверка её вывода, правка текста.
- Если статья написана неправильно, то есть требует проверок и выяснений, тогда идут проверки и выяснения. Проверенное и выясненное даётся подстраничными редакторскими примечаниями.
По сути, на этом подготовка текста закончена, и СТАТЬЮ в этом месте уже можно класть на сайт, поэтому
- Сформатировать заголовки (атрибуция). Вписать сведения об источнике: название, дата, страницы.
- pdflatex, вгонка абзацев в ширину полосы.
А вот с книгами несколько сложнее.
- Если иллюстраций нет, очень хорошо. Если есть, нужен художник. Но с художником трудности, поэтому иллюстрации мы обрабатывать в принципе не способны.
- Верификация источников. Нередко авторы, ссылаясь на источники, пишут такую глупость, что хоть святых выноси. Следует либо написать правильные ссылки, либо написать о невалидности источников. ГОСТ неспроста устанавливает формат библиографической записи. В этом деле помогает bibtex.
- Разметка страниц оригинала. В тех местах, где оригинал переходит на новую страницу, ставится команда, которая выносит на поля номер страницы оригинала.
- Выходная информация: УДК, ББК, авторский знак, аннотация. С этим большая беда, потому что аннотации писать некому, а как строить УДК, неизвестно. Обходимся ББК и авторским знаком, уже хорошо. Сведения о первоиздании, редакторах текста (не редакторах издательства!). Полное имя автора (если доступно) и год возникновения авторского права.
- Оглавление, колонтитулы, то есть текст заголовков правится с тем, чтобы влезал в колонтитулы и оглавление. В самом тексте он при этом остаётся прежним.
- Указатели. Чудовищное занятие -- разметка текста для сбора именного,
предметного, географического и какого ещё указателя. Дело в том, что
нет ни одного текста, который стал бы лучше БЕЗ указателя.
Построенные указатели форматируются при помощи xindy, вводятся в документ и дополнительно правятся: убираются лишние строки, правятся разрывы страниц, пишутся взаимные ссылки и приводятся к единой форме дубликаты. - Надо, опять же, упомянуть о множестве мелких технических решений, которые накапливаются от текста к тексту и держатся в едином стилевом файле. Это и оформление первой-второй страниц, и все мелкие вопросы форматирования.
Что остаётся после обработки? Исходная вёрстка в LaTeX, базы источников в bibtex, построенные указатели, конечный вариант в PDF.