Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация О нас пишут Награды Читальня Конкурсы Опросы
Автор

Свет в окошке

Подписаться на RSS  |   На главную

« »

Предложен новый метод машинного перевода — с помощью похожих языков

Compulenta.ru | 29 марта 2012 года, 14:48 | Текст: Дмитрий Целиков

Луис Лейва и Висент Алабау из Политехнического университета Валенсии (Испания) предложили новый подход к машинному переводу, вдохновлённый «ситиспиком» из фильма «Бегущий по лезвию».

Как вы, конечно, помните, на улицах Лос-Анджелеса в 2019 году принято изъясняться на смеси японского, испанского, немецкого, венгерского, китайского, французского, корейского и чёрт знает какого. Так вот, наши герои разработали систему Culturally Influenced Interlanguage (CI2), которая, по сути, изобретает новые языки. Она не переводит в традиционном смысле этого слова, просто делает фразу понятной. Итог почти никогда не бывает грамматически и синтаксически правильным, зато понятен.

Зачем это всё? По одной простой причине: хотя машинным переводом охвачено уже солидное количество языков, в стороне остаются тысячи, которые ничем не хуже, просто у них не очень много носителей или же они не играют большой роли в современном межкультурном общении.

Например, представьте, что испанский — язык меньшинства, и его носитель хочет прочитать вот такое сообщение, выдаваемое операционной системой компьютера по-английски: «Another label with the same name already exists» («Ярлык с таким названием уже существует»). Поскольку испанский в нашем примере — язык меньшинства, он не охвачен создателями автоматических переводчиков. Зато они уже уделили внимание языкам, похожим на испанский, — итальянскому, португальскому и французскому. CI2 выбирает наиболее подходящие эквиваленты из этих языков, и получается следующее: «Un’altra étiquette con mesmo nome existe déjà». Конечно, это не испанский, но испанец должен понять, что имеется в виду.

Слова отбираются по количеству совпадающих букв. Так, в итальянском и испанском есть слово «con» (предлог «с»), поэтому оно получает коэффициент 1, а итальянское слово «nome» («название») оценивается лишь в 0,79, так как в испанском оно звучит как «nombre». Но лучше ничего нет.

Систему протестировали на 17 испанцах, которые читали предложения на шведском, «переведённые» с помощью итальянских, португальских и французских слов. Кроме того, им были предложены переводы на эти языки. Добровольцам было проще понять версию CI2, чем итальянский и французский переводы. Хорошо шёл также португальский — из-за большого сходства с испанским.

Теперь авторы собираются испытать разработку на носителях какого-нибудь маленького языка. Возможно, именно это спасёт «малышей», которым сегодня угрожает новая напасть — Интернет.

Проект анонсируют на Конференции по вопросам человеческого фактора в компьютерных системах, которая пройдёт в мае в Остине (США).

Подготовлено по материалам NewScientist.

P. S. Индустрия машинного перевода активно развивается. Среди новаторов замечена латвийская фирма Tilde, онлайновая система которой называется LetsMT!. В её основе тот же принцип, которым славится и Google Translate, — сравнение большого количества документов на разных языках. Не устраивает «Гугл»? Загружайте документы самостоятельно и создавайте собственный переводчик! Мировая премьера ожидается на апрельской конференции World Wide Web во французском Лионе.


30 марта 2012 eCat-Erina | Пока нет комментариев


Вы должны авторизоваться, чтобы оставлять комментарии.