Содержание

Базовые принципы работы с pdf-файлами

В работе любого письменного переводчика в один прекрасный день всегда возникает вопрос: что делать с PDF? Давайте же попытаемся найти разумный ответ на него.

Как правило, для всех заказов с исходниками в PDF на выходе требуется редактируемый формат (MS Office, OpenOffice, текст, редко PDF и прочие).

Этапы перевода

Типичная схема перевода PDF-документов

Типичная схема перевода PDF-документов

Рассмотрим каждый этап поподробнее.

PDF-файлы могут быть двух типов: текстовыми и растровыми (сканированными). Характерным признаком текстового файла является возможность выделения отдельных слов и фраз. В сканированных этого сделать нельзя. Соответственно и принципы работы с такими файлами будут несколько отличаться. Если из текстовых файлов можно извлечь оригинальный, (почти) безошибочный текст, то сканированные придётся распознавать.

Типичный текстовый PDF-файл

Типичный текстовый PDF-файл

Типичный растровый (сканированный) PDF-файл

Типичный растровый (сканированный) PDF-файл

Непосредственный перевод PDF

Непосредственный перевод в PDF с помощью таких программ как Infix PDF editor, Adobe Illustrator и т. п. оправдан только для небольших текстовых документов сложной структуры с большим количеством информации, не требующей перевода: спецификации, иллюстрированные буклеты и т. п., при условии, что заказчика устроит перевод в PDF. В остальных случаях необходимо, или просто получится быстрее, переверстать документ.

Конвертация в текст

Каким способом лучше конвертировать документ в текст?

Это зависит от многих факторов:

  1. используются ли в документе стандартная шрифтовая раскладка (symbol map);

Рассмотрим каждый из этих факторов подробнее:

Защищён ли присланный PDF паролем

Если документ защищён паролем, запрещающим копирование контента, работать с ним становится очень неудобно. FineReader тоже не импортирует такие документы, если нам потребуется их распознать. Что делать? Найти в интернете, скачать и установить программу для вскрывания паролей. Я рекомендую Elcomsoft PDF Password Recovery. Другая аналогичная программа PDF Password Remover версии 3.1 после удаления пароля нарушает структуру исходного файла, делая невозможным поиск.

Более правильный способ, но часто не столь беспроблемный, да и отнимающий драгоценное время — обратиться к заказчику с просьбой прислать незапароленный файл (а лучше вообще исходник). Если такая просьба подкрепляется повышением расценок на работу с неудобным файлом, и заказчик хочет, чтобы работу сделали именно Вы, то чудеса иногда случаются.

Запароленный PDF с запретом копирования содержимого

Запароленный PDF с запретом копирования содержимого

Стандартная шрифтовая раскладка

Теперь проверим, используется ли в файле стандартная шрифтовая раскладка (эта проблема более актуальна для русскоязычных документов, но, тем не менее, мы должны её знать). Если выделенный текст копируется и вставляется в другую программу правильно, в документе правильная раскладка шрифта. Если при вставке мы видим крякозябры или пустоту — шрифтовая раскладка неверная. Поиск в таких документах работать тоже не будет.

PDF с неверной шрифтовой раскладкой

PDF с неверной шрифтовой раскладкой

В зависимости от критичности документа и количества в нём шрифтов и знаков, которые потребуют исправления после распознавания, для работы с такими документами можно использовать два способа:

  1. исправление раскладки в Infix PDF Editor с последующим извлечением и сохранением текста;
  2. распознавание.

Мы рассмотрим второй, а желающие сами найдут информацию по первому.

Много ли в документе таблиц, иллюстраций, нестандартных символов и т. п.

Поскольку в PDF нет понятия таблиц, то и извлечь из него таблицы стандартными способами, и даже некоторыми PDF-конвертерами, нельзя. Такие документы лучше распознавать. То же самое относится и к обилию табулированных разделений, колонтитулов, иллюстраций с подписями, обтекаемыми текстом. Извлечь всё это адекватно в текст стандартные преобразователи не могут, а затраты на приведение результатов такого извлечения в нормальный вид часто превышают затраты времени на ручное распознавание текста в FineReader. Правда, разработчики облачной ТМ SmartCAT грозятся сделать чудо, но кажется мне, что это будет очередное рождение мыши горой.

Результат копирования табличных данных из PDF

Результат копирования табличных данных из PDF

Результат ручного распознавания табличного PDF

Результат ручного распознавания табличного PDF

Колоночность документа

Тут тоже надо смотреть. Часто и при прямом извлечении и при автоматическом распознавании FineReader несколько колонок попадают в один блок и результат на выходе получается ужасный. Но, в отличие от стандартных средств извлечения текста из PDF, FineReader позволяет нам настраивать блоки для распознавания. Аккуратно поколоночно выбирать текст из документа в Acrobat Reader будет быстрее на документах объёмом до 30 страниц. Однако такой текст после придётся обрабатывать (соединять разбитые строки и т. п.). Процесс обработки можно, разумеется, автоматизировать, например с помощью регулярных выражений. Но это выходит за рамки данного документа.

Требуемый формат на выходе

Тут принцип прост — чем проще требуется формат на выходе (крайний случай двухколоночная табличка — оригинал — перевод) тем, в принципе, меньше можно заморачиваться с FineReader и больше обходиться «Акробатом». Ибо обычно простой выходной формат просят в случаях, когда и форматирование исходного PDF несложное. В данном случае также рекомендуется работать с текстом в простом текстовом редакторе типа «Блокнота» — при импорте в ТМ гарантируется полное отсутствие тегов, а табличку можно получить прямо из ТМ, экспортировав файл для редактирования во внешнем приложении (External View, Bilingual Export).


Итак, мы определились. У нас документ сложный — будем распознавать. Задача — перевести его с английского, русский вставить вместо французского, получив англо-русско-немецкий документ с постраничным соответствием оригиналу. Формат конечного документа — MS Word doc(x). Перевод надписей на рисунке дать в табличке «оригинал — перевод» под рисунком.

Итак, если мы взглянем на документ, мы увидим, что он трёхколоночный и каждая колонка на отдельном языке. Проще всего такой текст лучше верстать таблицей, где каждая колонка — отдельный язык.

Если мы ещё посмотрим на схему обработки PDF-документов, то увидим, что вёрстка там стрелочками направлена на этапы до и после перевода. Что это значит? Верстать конечный документ можно и до и после перевода. Каждое решение имеет свои плюсы и минусы.

Преимущества вёрстки после перевода

  1. Меньшие затраты времени на вёрстку, так как документ верстается сразу в чистовик. При предварительной вёрстке после перевода многие элементы из-за большей длины русского текста по сравнению с английским и особенностей оригинала (например, малые поля) могут «уплыть» или сдвинуться на другую страницу. Это потребует исправления в процессе вычитки.
  2. Можно работать с чистым текстом без тегов.
  3. Можно дополнительно улучшить читаемость готового текста в процессе вёрстки.

Минусы

  1. При внесении существенных правок в перевод приходится либо оставлять «сырую» ТМ, либо всё верстать, либо параллельно исправлять и ТМ и текст, что отнюдь не способствует ни качеству, ни эффективности.
  2. Все абзацы перечисления (с буллетами и номерами) попадают в ТМ, создавая ненужные помехи для алгоритмов оценки подобия сегментов.
  3. За счёт использования полей в свёрстанном документе в несвёрстанном документе текста на перевод будет больше.
  4. В перевод идёт, как правило, более ошибочный текст (имеются ввиду ошибки распознавания) т. к. при вёрстке часть ошибок устраняется. Это опять-таки не лучшим образом сказывается на содержании баз пар переводов (т. н. translation memories).
  5. Неидеальная сегментация, неисправимая в некоторых ТМ-программах.

Вёрстка до перевода

Тут картина обратная. Затраты времени по обоим способам примерно одинаковы, и выбор, скорее, зависит от самого процесса — кому-то привычнее быстро делать в ТМ черновик, а потом «вылизывать» его параллельно с вёрсткой в MS Word или OO Writer. Кому чистовик нужен в ТМ, альтернативы предварительной вёрстке нет. Пойдём и мы по этому пути.


Если вы правильно уловили мысли, изложенные выше, то в FineReader необходимо получить нечто похожее на следующую картинку:

Схема наложения блоков и результат распознавания в FineReader

Схема наложения блоков и результат распознавания в FineReader

Картинка в центре получена объединением ячеек таблицы и установкой флажка «Считать ячейку картинкой».

Можете сравнить её с результатами автоматической обработки файла FineReader. Этот пример, хоть он и является некоей крайней ситуацией, хорошо иллюстрирует способность автоматических конвертеров решать сложные задачи на данный момент. А таких задач в техническом переводе большинство.

Блоки колонтитулов (07/03 и @MEDC2003) удаляем со всех страниц, кроме первой.

Один из значков (Ex) в конце выделяем картинкой и распознаём страницу. Остальные доставим копированием в MS Word (кому нравится больше OO Writer — работаем с ОО).

Экспортируем результаты в Ворд в режиме «Таблицы, абзацы, шрифты» (в более поздних версиях он называется «Простой текст») с сохранением изображений и займёмся подготовкой к импорту в ТМ.

Окно настройки параметров сохранения результатов распознавания в MS Word в FineReader 8

Окно настройки параметров сохранения результатов распознавания в MS Word в FineReader 8

Прежде всего, удаляем дублированные пробелы (последняя версия FineReader делает это автоматически при экспорте, зато не удаляет мягкие переносы — их тоже нужно будет удалить вручную), удаляем текст из французского столбца и исправляем ошибки в остальных. Буллетированные абзацы буллетируем Маркированный список, нумерованные списки нумеруем автоматом Нумерованный список, номера глав и перечисление в конце документа (после Where) по желанию отделяем табами.


Работа с колонтитуламиКнопка «Нижний колонтитул»Делаем нижний колонтитул. Обратите внимание, он разный для чётных и нечётных страниц. Его лучше сделать однострочной двухколоночной таблицей.


Настройка отображения скрытого текстаПосле этого, чтобы в ТМ у нас остался только нужный нам текст, выделяем всё (Ctrl+A), Шрифт и ставим атрибут «Скрытый» (Hidden). Включаем отображение невидимых знаков Непечатаемые символы, предварительно настроив отображение скрытого текста при включённом отображении скрытых знаков, и-продолжаем работу.

Копируем английское название вместо французского и снимаем атрибут «скрытый». Повторяем операцию для всех ячеек нашей таблицы. Сохраняем полученный файл.


Ignore Hidden Text in Documents, Run Сode Zapper Открываем нашу ТМ, я взял для примера DejaVuX3 (30-дневную полнофункциональную демоверсию можно скачать на официальном сайте), создаём проект, добавляем файл и жмём кнопку Свойств (Properties).Устанавливаем флажки и Ignore Hidden Text in Documents (Игнорировать скрытый текст) (зря мы что ли работали) и, в случае DejaVuX2, Run Сode Zapper (это макрос, который удаляет мусорные теги).


Для пользователей других ТМ-программ параметры импорта и соответствующая адаптация формата исходного документа пусть будут домашним заданием.


Получаем красоту

Импортированный в программу ТМ (здесь DejaVuX3) документ

Импортированный в программу ТМ (здесь DejaVuX3) документ

Не красота выглядит похоже на следующую картинку

Пример документа, засорённого тегами (в DejaVuX)

Пример документа, засорённого тегами (в DejaVuX)

Переводим, экспортируем, и, если всё ОК, получаем готовый перевод. Размеры полей достаточные, чтобы перевод не сдвинул страницы. Поскольку качество картинки плохое, её потребуется переводить вручную.

Проверяем, всё ли ОК. Обнаруженные ошибки исправляем. Если текст не помещается на страницу, можно чуть раздвинуть столбец таблицы (если поля позволяют), слегка уменьшить шрифт (на 0,5 пункта), выбрать уплотнённый шрифт. Более предпочтителен вариант 2, но чтобы документ смотрелся, шрифт надо будет уменьшить для всего русскоязычного текста.

Готовый перевод

Готовый перевод

На сём урок завершён.

Я понимаю, что вопросы работы в FineReader и вёрстки в MS Word я осветил весьма туманно, но каждый из них требует страниц по 5–7 убористого текста. Может как-нибудь в другой раз.

Файлы

Ссылки