====== Принципы подготовки текста к переводу ======
* Автор: **[[участник:mikhailo]]** %%%%
* Лицензия: [[https://creativecommons.org/licenses/by-nc-sa/3.0/deed.ru|CC BY-NC-SA 3.0]]
**Проблемы вёрстки текста, оказывающие влияние на_перевод с_использованием программ автоматизированного перевода (CAT)**
После посещения [[https://translationforum.by/arhiv/pervyj-forum-perevodchikov-belarusi/|1-го Белорусского форума переводчиков]], выступления с_небольшим докладом и_развернувшейся затем небольшой дискуссии я_увидел, что многие переводчики, как_бы даже владеющие навыками работы в_CAT, приняли моё указание на_то, что выпускники лингвистического, да_и_других вузов тоже, должны владеть навыками вёрстки текста в_одном из_основных своих рабочих инструментов (Microsoft Word (MS(н)Word) или OpenOffice/LibreOffice Writer (LO(н)Writer)), то_ли с_некоторым пренебрежением, то_ли вообще в_штыки (ну не_царское это дело_--- вёрстка). Я_понимаю, что часть переводчиков, постоянно работающая с_присылаемыми готовыми пакетами в_CAT, может даже никогда и_не_задуматься об_этой проблеме. Однако понимание сути проблем, вызываемых вёрсткой в_переводе, помимо повышения производительности, позволит начинающим переводчикам избежать проблем, стоящих массы нервных клеток, когда после экспорта перевода за_5(н)минут до_сдачи вместо красивого документа открывается неприглядно выглядящая мешанина текста и_картинок...
Такое понимание будет полезно и_всем работающим с_MS(н)Word/LO(н)Writer, чтобы просто уметь создавать нормальные документы, экономя при этом собственное время и_нервы.
Поэтому, и_по_вежливой заинтересованности одного из_преподавателей [[wpru>Московский_государственный_лингвистический_университет|МГЛУ]], я_и_решился написать данную статью.
В_общем, проблемы, вызываемые вёрсткой в_переводе, условно (из-за_их тесного переплетения) можно разбить на_три группы:
- [[#Проблемы сегментации]], или разбивки текста на_единицы перевода. В_самом крайнем случае, свойственном, правда, не_MS(н)Word или LO(н)Writer, а_САПР, адекватный перевод может стать невозможен или затраты времени на_него выйдут за_разумные пределы.
- Проблемы вёрстки, [[#Проблемы вёрстки, снижающие эффективность работы в CAT|затрудняющие работу]] в_CAT и_снижающие её_эффективность и_производительность труда.
- Проблемы вёрстки, [[#Проблемы вёрстки, приводящие к искажению внешнего вида готового перевода|приводящие к искажению]] внешнего вида готового перевода вплоть до_состояния, в_котором ни_один заказчик его не_примет.
А теперь подробнее рассмотрим каждый клубок проблем. В_качестве примера я_буду приводить картинки из_CAT DejaVuX. В_Trados, MemoQ и_других CAT они будут похожи.
===== Проблемы сегментации =====
Среди проблем сегментации, или разбивки текста на_единицы перевода, можно условно выделить следующие:
- Разбивка предложений абзацами.
- Неразбивка предложений из-за отсутствия пробелов после конечного знака препинания, широкого использования имён собственных, начинающихся с_маленькой буквы, в_начале предложения (например, Kilgray с_их_MemoQ).
- Использование сокращений, отсутствующих в_стандартных списках сокращений.
- Различная обработка табуляции в_разных CAT на_стандартных настройках (Trados и_DejaVuX не_разбивают сегменты по_табуляции, MemoQ_--- разбивает).
- Перестановка сегментов (обычно в_САПР).
- Разбивка предложений мелкими картинками в_тексте (обычно в_руководствах к_ПО).
==== Разбивка предложений абзацами. Неразбивка соседних предложений ====
С_этой проблемой, в_разной мере, сталкивались абсолютно все переводчики. Выглядит она так:
{{ :принципы_подготовки_текста_к_переводу:pic01.png?direct }}
{{ :принципы_подготовки_текста_к_переводу:pic02.png?direct }}
{{ :принципы_подготовки_текста_к_переводу:pic03.png?direct }}
И_вот так в_CAT:
{{ :принципы_подготовки_текста_к_переводу:pic04.png?direct }}
{{ :принципы_подготовки_текста_к_переводу:pic05.png?direct }}
{{ :принципы_подготовки_текста_к_переводу:pic06.png?direct }}
В_ситуации «полный(н)ах», с_которой в_CAT без оригинала не_справится даже самый опытный переводчик, она выглядит так:
|< 99% 50% >|
^ Оригинал ^ Текст в_CAT. Обратите внимание на_нарушение логического порядка следования сегментов ^
| {{:принципы_подготовки_текста_к_переводу:pic07.png?direct}} | 1) Film coefficients and fouling resistance are related to inside |
|::: | Mapped Version 0, 07/21/00 |
|::: | the tubes. |
|::: | tube for air side. |
|::: | 2) Overall coefficients are related to the bare outer diameter of |
|::: | surfaces of tube for product side and bare outside surface of |
|::: | Air side |
Такую серьёзность проблема чаще всего имеет при переводе текста из_САПР и_DTP, если верстальщик неопытный. Применительно к_ACAD в_моей классификации она называется «TEXT-MTEXT-проблема» (TEXT в_ACAD обозначает однострочный текст, MTEXT_--- многострочный). Когда единица перевода в_САПР набирается в_несколько отдельных строк (TEXT), которые при автоматическом импорте могут разделиться ещё несколькими строками из_других частей чертежа, адекватный перевод без оригинала будет практически НЕВОЗМОЖЕН. А_вот вытребовать оригинал у_заказчика порой чрезвычайно тяжело. Поэтому, если жизнь столкнёт вас с_возможностью повлиять на_определение технических требований к_предоставлению документации заказчиком_--- помните об_этом. Если вы_будете/станете менеджерами в_[[:БП|бюро переводов (БП)]]_--- ВСЕГДА требуйте у_заказчика полный комплект документации.
В_реальной жизни_ такие вещи приходится либо исправлять предварительно (если чертежей много и_использование CAT сулит значительные преимущества), либо переводить вручную.
Учитывая тот факт, что самая распространённая CAT_--- Trados_--- до_2017 версии не_могла объединять сегменты, разбитые абзацами, оптимальным (а_иногда единственным) путём решения проблемы является исправление оригинала.
**Совет**
Если возможность изменения оригинала не_заблокирована, объединить необъединяемые сегменты в_любой CAT можно вручную простым переносом текста из 2-3-4-й частей сегмента в 1-ю и_туда_же вбив полный перевод. Однако следует быть осторожным с_тегами. При таком переносе, если части содержат теги, на_выходе можно получить неэкспортируемый документ. Если такое случится_--- переименуйте оригинал, импортируйте его в_проект, переведите его из_копилки переводов и_экспортируйте.
Некоторые могут возразить: «Ну(н)что за_проблема объединить немного разбитых единиц перевода в_Trados(н)2017, DejaVuX или MemoQ?».
Ответ на_этот вопрос мы_рассмотрим в_следующем разделе. (А_вдумчивым читателям предлагается додуматься до_него самим.)
==== Сокращения ====
Касательно сокращений_--- тут есть несколько решений.
- Настройка списков сокращений в_MemoQ, Trados или исключений из_правил сегментации в_DejaVuX. Поскольку, на_мой взгляд, грамотно эта функция реализована только в_MemoQ (с_автоматическим исправлением сегментации после добавления нового сокращения в_список), то_грамотный подход к_выбору CAT (не_просто Trados, чтобы было как у_всех) с_изучением всех преимуществ и_возможностей выглядит предпочтительным решением. Работа с_настройкой исключений в_DejaVuX требует знания извращённых разновидностей регулярных выражений. Также потребуется повторно импортировать документ с_новыми настройками, что приведёт к_стиранию уже сделанной части перевода. Он, конечно, будет подставлен обратно из_TM((//Англ.// translation memory, //рус.// «память переводов»_--- база данных, содержащая набор ранее переведённых сегментов текста.)), но_только для тех сегментов, которые останутся неизменными. Поэтому более предпочтительным решением (особенно для тех, кто дружит с_Views (в_DejaVuX и_MemoQ)), может быть добавление к_имени файла номера версии и_импорт его новым файлом в_проект.
- Ручное исправление сегментации по_мере перевода_--- простой и_эффективный путь, когда сокращений немного.
==== Мелкие картинки ====
Что касается картинок, тут проблема опять-таки зависит от_используемой CAT: MemoQ не_разбивает сегменты на_таких картинках, DejaVuX_--- разбивает, Trados_--- не_помню. Поэтому один из_путей решения_--- использование наиболее адаптированной к_собственным потребностям CAT или перевод через неё. Вторым способом, более предпочтительным в_преподавании и_для технических писателей, является такое построение текста, при котором количество картинок в_середине предложений будет минимальным.
Однако следует отметить, что если в_некоторых иностранных языках использование имён собственных без пояснительных существительных привычно, в_русском это является признаком дурного стиля. Например:
«ХХХ» dichiara(н)... //(итал.)//
Компания «ХХХ» заявляет(н)...
Поэтому с_полями-названиями, кнопками и_прочими подстановочными элементами в_начале предложения стоит быть осторожнее.
===== Проблемы вёрстки, снижающие эффективность работы в CAT =====
Прежде чем говорить о_проблемах, мне хотелось определить значение словосочетания «повышение эффективности». Итак, под повышением эффективности работы я_подразумеваю следующее:
* уменьшение объёма текста для перевода (насколько это возможно);
* обеспечение последующего эффективного использования сделанных переводов_--- с_максимальным количеством полных совпадений;
* уменьшение количества мусора в_тексте и_TM(н)-> уменьшение размера(н)-> повышение скорости работы.
Итак, какие же дефекты оформления мешают нам достичь указанных целей?
- Использование ручных оглавлений, номеров страниц, различных наименований, которые можно заменить полями, ручной нумерации и_буллетирования списков и_т.п.
- Замусоривание текста_--- отбивка пробелами абзацных отступов и_выключки (выравнивания текста, например, по_центру), многочисленные пробелы, использование большого количества шрифтов, буквицы, разнотипных знаков препинания и_т.п.
- Табулирование текста вместо использования таблиц.
- Орфографические ошибки.
==== Оглавление ====
Как ни_печально говорить, но_большинство пользователей MS(н)Word/LO(н)Writer не_умеют делать автоматическое оглавление. А_ведь замена ручного оглавления в_документе (при его наличии) на_автоматическое перед импортом позволяет сократить объём текста в_переводе порой на_10-15%. Кроме того, ручные оглавления часто форматируются так, что даже при полном совпадении с_названиями заголовков глав они не_дают 100% совпадений по_принципам оценки CAT, а_нередко, из-за синонимичности, пропусков/добавления артиклей, пробелов и_т.д. и_т.п. они и_не_являются полными совпадениями. И_представьте, сколько времени может понадобиться на_проверку того, а_совпадают_ли они в_переводе. (А_потом ещё на_проверку непрерывности нумерации нумерованных заголовков, правильности номеров страниц и_т.п.)
Вот пример того, как такие горе-оглавления с_названиями глав выглядят в_MS(н)Word. (Также обратите внимание, насколько криво выглядит текст_--- разные отступы, пропуски нумерации в_тексте, орфографические ошибки.)
|< 99% 50% >|
^ Как было ^ Как должно быть((Заголовки размечены стилем //Заголовок(н)1// с_автоматической нумерацией)) ^
| {{:принципы_подготовки_текста_к_переводу:pic08.png?direct&400}} | {{:принципы_подготовки_текста_к_переводу:pic09.png?direct&400}} |
| {{:принципы_подготовки_текста_к_переводу:pic10.png?direct}} | {{:принципы_подготовки_текста_к_переводу:pic11.png?direct}} |
| {{:принципы_подготовки_текста_к_переводу:pic12.png?direct&400}} | {{:принципы_подготовки_текста_к_переводу:pic13.png?direct&400}} |
| {{:принципы_подготовки_текста_к_переводу:pic14.png?direct}} | ::: |
Вот пример автоматического оглавления и_двух наиболее часто встречаемых вариантов ручных оглавлений:
{{ :принципы_подготовки_текста_к_переводу:pic15.png?direct }}
И_вот как они выглядят в_CAT:
{{ :принципы_подготовки_текста_к_переводу:pic16.png?direct }}
Как можно видеть, **автоматическое оглавление** просто **отсутствует** в_CAT и_не_требует перевода, сегменты ручного оглавления могут не_на_100% совпадать с_заголовками в_тексте (самые внимательные отметят, вдобавок, отклонение названия 3-й главы в_оглавлении от_названия в_самом тексте документа).
Ещё одним способом уменьшения количества текста в_перевод является использование полей и_скрытие (или оформление специальным стилем) частей, не_требующих перевода_--- в_первую очередь таблиц с_многочисленными цифрами и_обозначениями. Альтернативой данному решению является настройка CAT на_тегирование таких вещей, чтобы они не_отображались в_таблице перевода.
==== Замусоренность ====
Пример замусоренного текста можно легко найти в_текстовых документах на_сайтах разных вузов. Я_же(н)просто покажу самые типичные проблемы на_фрагменте текста, распознанного FineReader:
{{ :принципы_подготовки_текста_к_переводу:pic17.png?direct }}
Псевдонумерация, псевдобуллетирование, отбивка пробелами, разный кегль шрифта... Это то, что видно навскидку. То, что не_видно навскидку, в_CAT может оказаться таким, как показано ниже, бросая в_дрожь новичков:
{{ :принципы_подготовки_текста_к_переводу:pic18.png?direct }}
Остряки, конечно, могут сказать: «Ну_и_в_чём тут проблема? Отключить показ непечатных знаков в_MS(н)Word_--- ужас по_большей части скроется. Теги зачистить CodeZapper_--- и_всё будет(н)OK». Да, возможно, конкретный документ это спасёт, но_в_копилку переводов попадёт много замусоренных сегментов, которые с_нормальным текстом не_дадут даже и_75% совпадения (например, одинаковые заголовки с_разными ручными номерами). А_это_--- снижение производительности, порой очень существенное, конкурентоспособности и_заработка...
Рассмотрим буллетирование. При автоматическом буллетировании в_«Ворд» текст импортируется чистым. С_ручным буллетированием, на_котором настаивает в_своих рекомендациях по_подготовке документов к_переводу БП(н)«Неотек», не_всё так однозначно. Его плюсы и_минусы на_мой взгляд я_привёл ниже:
**Плюсы ручного буллетирования**
* Большая понятность сути текста при отсутствии оригинала.
**Минусы ручного буллетирования**
* Больший размер.
* Проблемы с_отбивкой:
* отбивка пробелами_--- в_MS(н)Word/LO(н)Writer при выключке по_ширине невозможно получить красивый ровный текст;
* отбивка табуляцией_--- разная обработка табуляции в_CAT;
* отбивка неразрывным пробелом. Труднее набирать.\\ Примерно 50-70% пользователей MS(н)Word/LO(н)Writer не_знают, что это такое, и_при включении непечатаемых знаков могут начать удалять значок неразрывного пробела, похожий на_градус.
* Большое количество разновидностей «буллетов» будет снижать степень совпадения.
* Проблемы с_вышеописанными факторами при использовании вручную сопоставленных документов.
Вот так в_CAT выглядит буквица:
{{ :принципы_подготовки_текста_к_переводу:pic19.png?direct }}
Совпадение между сегментами с_буквицей и_без меньше того предела, с_которого CAT начинает предлагать совпадения. Т.е., переведя любой из_вариантов, вы_не_увидите его при переходе на_другой вариант (в_примере хорошо видно, какую проблему представляет синонимичность для ручных оглавлений).
Во-вторых, понимание принципов влияния форматирования и_других особенностей оформления текста на_степень его совпадения в_CAT может дать эффективные способы противодействия тем БП, которые очень любят при своих невысоких расценках дополнительно обирать переводчиков скидками за_совпадения.
==== Табуляции ====
Рассмотрение влияния табуляции на_работу в_различных CAT я_оставляю читателю для самостоятельной работы. Единственной подсказкой будет то, что Trados и_DejaVuX стандартно не_разбивают сегменты по_табуляции, а_MemoQ разбивает.
===== Проблемы вёрстки, приводящие к искажению внешнего вида готового перевода =====
Причиной этой проблемы на_самом деле является не_вёрстка, а_отличие длины перевода от_длины оригинала_--- русский перевод, как правило, на_20-30% длиннее английского оригинала.
Итак, какие_же подводные камни скрываются здесь...
Во-первых, чем меньше свободные поля на_странице, тем больше вероятность того, что добиться постраничного соответствия без уменьшения кегля или подбора специальных уплотнённых шрифтов не_удастся (это, как минимум, потребует исправления номеров страниц ручных оглавлений_--- одна глупость тянет за_собой другую).
Во-вторых, при сдвиге текста скорее всего произойдёт его смещение относительно картинок, колонок, позиций табуляции и_т.п.
|< 99% 50% >|
^ ... ^ Сдвиг заголовка при увеличении межстрочного интервала и_перекрытие его надписью, привязанной к_позиции на_странице ^
| {{:принципы_подготовки_текста_к_переводу:pic20.png?direct&400}} | {{:принципы_подготовки_текста_к_переводу:pic21.png?direct&400}} |
\\
|< 99% 50% >|
^ ... ^Порча внешнего вида документа после перевода из-за сдвига текста ^
| {{:принципы_подготовки_текста_к_переводу:pic22.png?direct}} | {{:принципы_подготовки_текста_к_переводу:pic23.png?direct&400}} |
Поэтому основное правило при вёрстке под перевод с_помощью CAT_--- **минимум позиционно-размерных привязок** с_отсечением_их разрывами страниц. На_практике это значит следующее:
- Картинки следует вставлять предпочтительно «в_тексте», без обтекания.
- Текст, связанный с_картинками, лучше делать в_таблицах.
* Рассмотрим пример:{{:принципы_подготовки_текста_к_переводу:pic24.png?direct&700}}
* Можно сделать так (см.(н)отступ):{{:принципы_подготовки_текста_к_переводу:pic25.png?direct&700}}
* И_так (рамка таблицы показана специально):{{:принципы_подготовки_текста_к_переводу:pic26.png?direct&700}}
Оформление в_таблице будет лучше тем, что даже при изменении длины текста, выставив вертикальное выравнивание в_ячейках «посередине», мы_всегда получим симметричный параграф, для чего первый вариант, возможно, придётся поправлять вручную после экспорта.
- Надписи следует использовать минимально. Если избежать этого нельзя, после перевода следует внимательно проверить, чтобы текст был виден в_надписях полностью (обычно приходится увеличивать размер надписей, уменьшать стандартные поля или уменьшать/заменять шрифт перевода).\\ Вот пример этой проблемы в_документе, некачественно подготовленном для перевода:{{:принципы_подготовки_текста_к_переводу:pic27.png?direct}}
- Избегать использования табуляций вместо таблиц. Позиции табуляторов привязываются к_странице. В_более длинном переводе в_некоторых строках произойдёт смещение текста к_следующей позиции табуляции, и_стройная ровненькая картинка рассыплется. Да, её_можно исправить, но_это_--- время, которого гораздо чаще не_хватает именно в_конце перевода, а_не_в_начале. Кроме того, следует учесть проблемы, связанные с_разной обработкой табуляции в_разных CAT (и_помнить об_этом при интенсивном обмене копилками переводов между разными CAT).
- Не_использовать форматирование в_одну и_несколько колонок на_одной странице (характерная особенность документов, полученных из_FineReader в_режиме сохранения с_максимальным подобием при непонимании особенностей перевода с_помощью CAT).
- Страницы с_отклонениями в_оформлении от_данных указаний по_возможности отсекать разрывами до_и_после.
Желающие изучить вышеописанные проблемы более подробно могут взять какой-нибудь сложный документ, распознать его в_FineReader и_сохранить с_разной степенью подобия (в_случае PDF можно воспользоваться каким-нибудь конвертером_--- Acrobat, Solid и_т.п.), после чего загрузить в_CAT и, воспользовавшись функцией псевдоперевода длиной 120-130% (перевод на_20-30% длиннее оригинала, что типично для перевода с_английского на_русский), посмотреть, что получится с_внешним видом документа на_выходе...
====== ======
Вот вроде и_всё. Возможно, я_что-то пропустил и_что-то недостаточно осветил. Я_не_ставил задачу разжевать материал до_уровня манной каши. Те, кто называет себя переводчиками, должны сами уметь догрызться до_сути в_направлениях, которые я_хотел показать [[участник:mikhailo|своим]] очередным опусом.
-----
\\ P.S. С_замечаниями об_ошибках, предложениями по_улучшению и_дополнению просьба обращаться по_адресу
P.P.S. Поскольку разработчики(н)ПО постоянно совершенствуют свои творения, часть информации может уже быть или скоро стать не_совсем верной. Однако это не_меняет важность рассмотренного вопроса.
---- datatemplateentry articles ----
template : служебные:шаблоны:шаблон_статья_автор # имя страницы, задающей формат отображения
статус : авторство # авторство, соавторство, составление
уинавторовs : 1325 # ID учётной записи пользователя(-ей) на форуме; разделитель -- запятая
авторыs : mikhailo # имя пользователя (имена через запятую)
символ_pages : П # буква(-ы) или цифра(-ы); разделитель -- запятая
категория_nspages : Инструменты перевода # категории, к которым относится статья; разделитель -- запятая
----