В работе любого письменного переводчика в один прекрасный день всегда возникает вопрос: что делать с PDF? Давайте же попытаемся найти разумный ответ на него.
Как правило, для всех заказов с исходниками в PDF на выходе требуется редактируемый формат (MS Office, OpenOffice, текст, редко PDF и прочие).
Рассмотрим каждый этап поподробнее.
PDF-файлы могут быть двух типов: текстовыми и растровыми (сканированными). Характерным признаком текстового файла является возможность выделения отдельных слов и фраз. В сканированных этого сделать нельзя. Соответственно и принципы работы с такими файлами будут несколько отличаться. Если из текстовых файлов можно извлечь оригинальный, (почти) безошибочный текст, то сканированные придётся распознавать.
Непосредственный перевод в PDF с помощью таких программ как Infix PDF editor, Adobe Illustrator и т. п. оправдан только для небольших текстовых документов сложной структуры с большим количеством информации, не требующей перевода: спецификации, иллюстрированные буклеты и т. п., при условии, что заказчика устроит перевод в PDF. В остальных случаях необходимо, или просто получится быстрее, переверстать документ.
Каким способом лучше конвертировать документ в текст?
Это зависит от многих факторов:
Рассмотрим каждый из этих факторов подробнее:
Если документ защищён паролем, запрещающим копирование контента, работать с ним становится очень неудобно. FineReader тоже не импортирует такие документы, если нам потребуется их распознать. Что делать? Найти в интернете, скачать и установить программу для вскрывания паролей. Я рекомендую Elcomsoft PDF Password Recovery. Другая аналогичная программа PDF Password Remover версии 3.1 после удаления пароля нарушает структуру исходного файла, делая невозможным поиск.
Более правильный способ, но часто не столь беспроблемный, да и отнимающий драгоценное время — обратиться к заказчику с просьбой прислать незапароленный файл (а лучше вообще исходник). Если такая просьба подкрепляется повышением расценок на работу с неудобным файлом, и заказчик хочет, чтобы работу сделали именно Вы, то чудеса иногда случаются.
Теперь проверим, используется ли в файле стандартная шрифтовая раскладка (эта проблема более актуальна для русскоязычных документов, но, тем не менее, мы должны её знать). Если выделенный текст копируется и вставляется в другую программу правильно, в документе правильная раскладка шрифта. Если при вставке мы видим крякозябры или пустоту — шрифтовая раскладка неверная. Поиск в таких документах работать тоже не будет.
В зависимости от критичности документа и количества в нём шрифтов и знаков, которые потребуют исправления после распознавания, для работы с такими документами можно использовать два способа:
Мы рассмотрим второй, а желающие сами найдут информацию по первому.
Поскольку в PDF нет понятия таблиц, то и извлечь из него таблицы стандартными способами, и даже некоторыми PDF-конвертерами, нельзя. Такие документы лучше распознавать. То же самое относится и к обилию табулированных разделений, колонтитулов, иллюстраций с подписями, обтекаемыми текстом. Извлечь всё это адекватно в текст стандартные преобразователи не могут, а затраты на приведение результатов такого извлечения в нормальный вид часто превышают затраты времени на ручное распознавание текста в FineReader. Правда, разработчики облачной ТМ SmartCAT грозятся сделать чудо, но кажется мне, что это будет очередное рождение мыши горой.
Тут тоже надо смотреть. Часто и при прямом извлечении и при автоматическом распознавании FineReader несколько колонок попадают в один блок и результат на выходе получается ужасный. Но, в отличие от стандартных средств извлечения текста из PDF, FineReader позволяет нам настраивать блоки для распознавания. Аккуратно поколоночно выбирать текст из документа в Acrobat Reader будет быстрее на документах объёмом до 30 страниц. Однако такой текст после придётся обрабатывать (соединять разбитые строки и т. п.). Процесс обработки можно, разумеется, автоматизировать, например с помощью регулярных выражений. Но это выходит за рамки данного документа.
Тут принцип прост — чем проще требуется формат на выходе (крайний случай двухколоночная табличка — оригинал — перевод) тем, в принципе, меньше можно заморачиваться с FineReader и больше обходиться «Акробатом». Ибо обычно простой выходной формат просят в случаях, когда и форматирование исходного PDF несложное. В данном случае также рекомендуется работать с текстом в простом текстовом редакторе типа «Блокнота» — при импорте в ТМ гарантируется полное отсутствие тегов, а табличку можно получить прямо из ТМ, экспортировав файл для редактирования во внешнем приложении (External View, Bilingual Export).
Итак, мы определились. У нас документ сложный — будем распознавать. Задача — перевести его с английского, русский вставить вместо французского, получив англо-русско-немецкий документ с постраничным соответствием оригиналу. Формат конечного документа — MS Word doc(x). Перевод надписей на рисунке дать в табличке «оригинал — перевод» под рисунком.
Итак, если мы взглянем на документ, мы увидим, что он трёхколоночный и каждая колонка на отдельном языке. Проще всего такой текст лучше верстать таблицей, где каждая колонка — отдельный язык.
Если мы ещё посмотрим на схему обработки PDF-документов, то увидим, что вёрстка там стрелочками направлена на этапы до и после перевода. Что это значит? Верстать конечный документ можно и до и после перевода. Каждое решение имеет свои плюсы и минусы.
Тут картина обратная. Затраты времени по обоим способам примерно одинаковы, и выбор, скорее, зависит от самого процесса — кому-то привычнее быстро делать в ТМ черновик, а потом «вылизывать» его параллельно с вёрсткой в MS Word или OO Writer. Кому чистовик нужен в ТМ, альтернативы предварительной вёрстке нет. Пойдём и мы по этому пути.
Если вы правильно уловили мысли, изложенные выше, то в FineReader необходимо получить нечто похожее на следующую картинку:
Картинка в центре получена объединением ячеек таблицы и установкой флажка «Считать ячейку картинкой».
Можете сравнить её с результатами автоматической обработки файла FineReader. Этот пример, хоть он и является некоей крайней ситуацией, хорошо иллюстрирует способность автоматических конвертеров решать сложные задачи на данный момент. А таких задач в техническом переводе большинство.
Блоки колонтитулов (07/03 и @MEDC2003) удаляем со всех страниц, кроме первой.
Один из значков () в конце выделяем картинкой и распознаём страницу. Остальные доставим копированием в MS Word (кому нравится больше OO Writer — работаем с ОО).
Экспортируем результаты в Ворд в режиме «Таблицы, абзацы, шрифты» (в более поздних версиях он называется «Простой текст») с сохранением изображений и займёмся подготовкой к импорту в ТМ.
Прежде всего, удаляем дублированные пробелы (последняя версия FineReader делает это автоматически при экспорте, зато не удаляет мягкие переносы — их тоже нужно будет удалить вручную), удаляем текст из французского столбца и исправляем ошибки в остальных. Буллетированные абзацы буллетируем , нумерованные списки нумеруем автоматом , номера глав и перечисление в конце документа (после Where) по желанию отделяем табами.
Делаем нижний колонтитул. Обратите внимание, он разный для чётных и нечётных страниц. Его лучше сделать однострочной двухколоночной таблицей.
После этого, чтобы в ТМ у нас остался только нужный нам текст, выделяем всё (Ctrl+A), Шрифт и ставим атрибут «Скрытый» (Hidden). Включаем отображение невидимых знаков , предварительно настроив отображение скрытого текста при включённом отображении скрытых знаков, и-продолжаем работу.
Копируем английское название вместо французского и снимаем атрибут «скрытый». Повторяем операцию для всех ячеек нашей таблицы. Сохраняем полученный файл.
Открываем нашу ТМ, я взял для примера DejaVuX3 (30-дневную полнофункциональную демоверсию можно скачать на официальном сайте), создаём проект, добавляем файл и жмём кнопку Свойств (Properties).Устанавливаем флажки и Ignore Hidden Text in Documents (Игнорировать скрытый текст) (зря мы что ли работали) и, в случае DejaVuX2, Run Сode Zapper (это макрос, который удаляет мусорные теги).
Для пользователей других ТМ-программ параметры импорта и соответствующая адаптация формата исходного документа пусть будут домашним заданием.
Получаем красоту
Не красота выглядит похоже на следующую картинку
Переводим, экспортируем, и, если всё ОК, получаем готовый перевод. Размеры полей достаточные, чтобы перевод не сдвинул страницы. Поскольку качество картинки плохое, её потребуется переводить вручную.
Проверяем, всё ли ОК. Обнаруженные ошибки исправляем. Если текст не помещается на страницу, можно чуть раздвинуть столбец таблицы (если поля позволяют), слегка уменьшить шрифт (на 0,5 пункта), выбрать уплотнённый шрифт. Более предпочтителен вариант 2, но чтобы документ смотрелся, шрифт надо будет уменьшить для всего русскоязычного текста.
На сём урок завершён.
Я понимаю, что вопросы работы в FineReader и вёрстки в MS Word я осветил весьма туманно, но каждый из них требует страниц по 5–7 убористого текста. Может как-нибудь в другой раз.