Предложен новый метод машинного перевода — с помощью похожих языков

Свет в окошке

Предложен новый метод машинного перевода — с помощью похожих языков

Compulenta.ru | 29 марта 2012 года, 14:48 | Текст: Дмитрий Целиков

Луис Лейва и Висент Алабау из Политехнического университета Валенсии (Испания) предложили новый подход к машинному переводу, вдохновлённый «ситиспиком» из фильма «Бегущий по лезвию».

Как вы, конечно, помните, на улицах Лос-Анджелеса в 2019 году принято изъясняться на смеси японского, испанского, немецкого, венгерского, китайского, французского, корейского и чёрт знает какого. Так вот, наши герои разработали систему Culturally Influenced Interlanguage (CI2), которая, по сути, изобретает новые языки. Она не переводит в традиционном смысле этого слова, просто делает фразу понятной. Итог почти никогда не бывает грамматически и синтаксически правильным, зато понятен.

Зачем это всё? По одной простой причине: хотя машинным переводом охвачено уже солидное количество языков, в стороне остаются тысячи, которые ничем не хуже, просто у них не очень много носителей или же они не играют большой роли в современном межкультурном общении.

Например, представьте, что испанский — язык меньшинства, и его носитель хочет прочитать вот такое сообщение, выдаваемое операционной системой компьютера по-английски: «Another label with the same name already exists» («Ярлык с таким названием уже существует»). Поскольку испанский в нашем примере — язык меньшинства, он не охвачен создателями автоматических переводчиков. Зато они уже уделили внимание языкам, похожим на испанский, — итальянскому, португальскому и французскому. CI2 выбирает наиболее подходящие эквиваленты из этих языков, и получается следующее: «Un’altra étiquette con mesmo nome existe déjà». Конечно, это не испанский, но испанец должен понять, что имеется в виду.

Слова отбираются по количеству совпадающих букв. Так, в итальянском и испанском есть слово «con» (предлог «с»), поэтому оно получает коэффициент 1, а итальянское слово «nome» («название») оценивается лишь в 0,79, так как в испанском оно звучит как «nombre». Но лучше ничего нет.

Систему протестировали на 17 испанцах, которые читали предложения на шведском, «переведённые» с помощью итальянских, португальских и французских слов. Кроме того, им были предложены переводы на эти языки. Добровольцам было проще понять версию CI2, чем итальянский и французский переводы. Хорошо шёл также португальский — из-за большого сходства с испанским.

Теперь авторы собираются испытать разработку на носителях какого-нибудь маленького языка. Возможно, именно это спасёт «малышей», которым сегодня угрожает новая напасть — Интернет.

Проект анонсируют на Конференции по вопросам человеческого фактора в компьютерных системах, которая пройдёт в мае в Остине (США).

Подготовлено по материалам NewScientist.

P. S. Индустрия машинного перевода активно развивается. Среди новаторов замечена латвийская фирма Tilde, онлайновая система которой называется LetsMT!. В её основе тот же принцип, которым славится и Google Translate, — сравнение большого количества документов на разных языках. Не устраивает «Гугл»? Загружайте документы самостоятельно и создавайте собственный переводчик! Мировая премьера ожидается на апрельской конференции World Wide Web во французском Лионе.

Метки: статьи, технологии Рубрики: чтиво, языки \| Есть мнение?
30 марта 2012 eCat-Erina \| Пока нет комментариев

Lumosity.com — для тех, кому мозги девать некуда

Потрясающий сайт для разгрузки ~~убийства~~ мозга (и тренировки памяти и внимания)!

Вот одна из самых простых, на мой взгляд, игр (необходимо стрелками на клавиатуре указывать направление центральной птицы и не отвлекаться на остальных):

Brain Shift — гласная или четная? Появляются в паре гласная и цифра, меняются местами, в итоге заглючивает конкретно и чтобы отвечать на вопросы правильно, требуется уйти в нирвану, тут же и безотлагательно. 🙂
Самая злая из бесплатно доступных игр — это Memory Matrix (нужно запоминать количество и размещение красных квадратиков и повторять их «в чистом поле»; количество увеличивается, если все делаешь правильно, а если ошибаешься, то откатываешься на уровень попроще). Это я так думала, пока не добралась до лабиринта с пингвинами. Который все время переворачивается и нужно не терять ориентацию.

Есть и задачка для любителей словесности: даются первые три буквы и надо писать слова, которые с них начинаются. Если будешь умницей, третья буква отвалится и надо будет придумывать слова, которые начинаются на первые две.

Ну и, самое главное, ответьте себе на вопрос: а надо ли вам это? 🙂

Мы уже мечтаем о двух безлимитных платных аккаунтах на семью. Правда, первоклашка из-за плеча поглядывает с завистью, но ей, думаю, бесплатного аккаунта будет достаточно. Скучно школьные задачки с унылой графикой решать: http://www.maths-whizz.ru

Да, все на английском.

Метки: английский, видео, память, технологии Рубрики: сам-себе-режиссер \| Есть мнение?
18 марта 2012 eCat-Erina \| Пока нет комментариев

Compreno от ABBYY (статья в Компьютерре)

Проект Compreno, над которым компания ABBYY корпит уже пятнадцать лет и выводит, дай бог, в этом году на стадию готового к потреблению продукта — это не новое, и тем более — не очередное событие.

Автор: Сергей Голубицкий | Раздел: Голубятня | Дата: 28 февраля 2012 года

http://www.computerra.ru

Больше всего на свете мне хочется выделить тему сегодняшнего рассказа из потока рядовых событий IT, которыми заполняется информационное пространство моей колонки. Новые гаджеты — это замечательно. Новый удачный софт -бальзам на истерзанную душу пользователя. Проект Compreno, над которым компания ABBYY корпит уже 15 лет и выводит, дай бог, в этом году на стадию готового к потреблению продукта — это не новое, и тем более — не очередное событие.

Compreno — это полноценная, не имеющая аналогов в истории технологическая революция. Масштаб этой революции, значение ее для людей (именно для всех людей, а не только для любителей компьютеров) сопоставимы разве что с изобретением World Wide Web или электронной почты. Никак не меньше. Для наглядности можно перевести эту революцию в понятные материально-купюрные реалии: если ABBYY спокойно, без суеты коммерциализирует Compreno хотя бы в десятой части возможных ее практических применений, а затем выйдет на фондовый рынок, капитализация компании затмит всех кумиров сегодняшнего дня — от Apple, грамотно и стильно эксплуатирующего весьма и весьма посредственные в технологическом отношении решения, до Google, умудряющегося заводить в тупик охапками большую часть собственных перспективных начинаний.

(далее…)

Метки: статьи, технологии Рубрики: новости \| Есть мнение?
7 марта 2012 eCat-Erina \| Пока нет комментариев

Подкормка для параноиков

Пришла рассылка от Wordfast. Хвалятся новым средством для подсчета слов в файлах, совершенно бесплатным! Просто пришлите ваши файлы на wordcount@wordfast.com и получите мгновенный ответ с результатом подсчета.

Get instant word counts from anywhere you have email access with Wordfast’s new, FREE word counting tool. Simply email your files to wordcount@wordfast.com and receive an instant response containing the word counts of each file.

Да что там, система полностью автоматическая! Пользуйтесь на здоровье.

Оговорка для новичков и непуганых: этот пост проплачен сарказмом.

Читать на английском тут: www.wordfast.com

Биться головой о твердую поверхность — тут:

Метки: невыносимая легкость бытия, технологии Рубрики: сам-себе-режиссер \| 8 комментариев
20 февраля 2012 eCat-Erina \| 8 комментариев

Rhymes 3.0.8

Rhymes — комплекс словарей русского языка для литературных занятий. В него входят:

• Грамматический словарь (156 тыс. слов, 4.5 млн. словоформ) — для просмотра форм слова, поиска слов по шаблону, части речи и другим характеристикам.
• Орфоэпический словарь — произношение 98 тыс. слов из Грамматического словаря.
• Большой толковый словарь (110 тыс. слов) — толкования, примеры употребления, происхождение, производные слова, фразы.
• Словари синонимов: современный (46 тыс. слов) и Н. Абрамова [1915 г.] (20 тыс. словарных входов).
• Большой словарь рифм (102 тыс. слов, 3.8 млн. словоформ) — подбор рифм на основе фонетических правил.
• Словарь эпитетов (1300 слов, 8700 эпитетов).

Возможности:

• Поиск статей по любой форме слова, исправление ошибок и опечаток.
• Словник (везде кроме словаря рифм). Список вариантов слова при наборе.
• Качественная визуальная разметка статей, несколько уровней детализации.
• Сортировка и фильтрация результатов поиска в Грамматическом словаре и Словаре рифм по алфавиту, части речи, встречаемости, качеству (для рифм), количеству слогов.
• История и Избранное. Возможность отобрать слова из списка результатов (например, рифмы) для дальнейшего использования.
• Удобное клавиатурное управление (можно почти не использовать мышь).

Что нового в Rhymes 3.0.8:

• В Грамматический словарь добавлены связи между видовыми глагольными парами (нсв-св). Это также позволяет при отсутствии искомого глагола расширить запрос парным глаголом противоположного вида (в Толковом словаре и Словаре синонимов).
• В карточке Грамматического и Толкового словарей теперь отображается частота употребления слова (звездочками).
• Исправлено отображение карточек в Толковом словаре при отсутствии некоторых системных шрифтов.
• Исправлена фильтрация зон в карточке для словарей синонимов.
• Исправлено объединение словников нескольких словарей (синонимы).

Программа распространяется бесплатно. Скачать: http://soft.softodrom.ru/ap/Rhymes-p3355

Бонусный трэк:

Метки: технологии Рубрики: словари \| Есть мнение?
3 февраля 2012 eCat-Erina \| Пока нет комментариев

В США назвали победителей конкурса по восстановлению документов

Чудесная новость для гиперответственных исполнителей и любителей паранойи:

Американское агентство передовых оборонных исследований DARPA объявило команду компьютерщиков из Сан-Франциско победителем в конкурсе на лучшую и наиболее эффективную методику восстановления разорванных или пропущенных через шредер документов, сообщает «РИА Новости».

В конкурсе Shredder Challenge участвовали порядка 9 тысяч команд компьютерных специалистов, любителей собирать головоломки-мозаики, и всех, кто любит решать сложные задачи. Победитель, команда под названием «Все ваши обрезки принадлежат США» («All Your Shreds Are Belong To U.S.») получает приз в 50 тысяч долларов.

Компьютерные специалисты из этой команды использовали собственные компьютерные коды визуальных алгоритмов, которые помогли подобрать друг к другу фрагменты документов, обрезанных шредером на более чем 10 тысяч клочков.

«Большинство экспертов были скептически настроены относительно решения такой задачи в относительно короткие временные рамки. Мы были удивлены изобретательности, которая проявилась на этом конкурсе», — сказал Дэн Кауфман (Dan Kaufman), руководитель отдела инноваций в сфере информации DARPA.

По его словам, самыми эффективными способами решения проблемы в конкурсе не были подходы чисто вычислительные или сортирующие, но «комбинированные совместно с умной детективной работой».

При этом подробности о способе, который принес победу компьютерщикам из Сан-Франциско DARPA, не уточняются.

Источник: http://news.softodrom.ru/ap/b12407.shtml

Метки: статьи, технологии Рубрики: новости \| 5 комментариев
5 декабря 2011 eCat-Erina \| 5 комментариев

Вавилонская рыбка Дугласа Адамса?

В Японии создана мобильная система голосового перевода в реальном времени. С её помощью два абонента, говорящие на разных языках, могут общаться здесь и сейчас и понимать друг друга.

Технология, которую показала японская телекоммуникационная компания NTT Docomo на выставке Wireless Japan 2011 (25–27 мая, Токио), основывается на «облачных» вычислениях. С помощью «облака» специалистам удалось объединить распознавание и синтез речи, а также машинный перевод.

Демонстрируя разработку, сотрудник исследовательского подразделения компании в Йокосуке читал японскую газету, а посетители выставки могли одновременно слышать английский вариант текста.

Представитель NTT Docomo Ацуси Сато пояснил, что все три составляющие системы уже существовали: заслуга разработчиков в их интеграции через Интернет и обеспечении быстрой передачи переводимого текста по каналам связи.

Система распознавания речи ещё далека от совершенства, сообщил г-н Сато, её предстоит довести до 100-процентной эффективности. Тем не менее, как считает специалист, даже на таком уровне результат может заинтересовать не слишком привередливых потребителей. Поэтому NTT Docomo намеревается уже в текущем году внедрить технологию в тестовом режиме, наняв добровольцев, которые будут пользоваться ею и сообщать о своих впечатлениях.

С её помощью два абонента, говорящие на разных языках, могут общаться здесь и сейчас и понимать друг друга.

Источник: science.compulenta.ru

Текст: Андрей Величко

Подготовлено по материалам DigInfo TV.

Метки: перевод, технологии Рубрики: перевод \| Есть мнение?
5 июля 2011 eCat-Erina \| Пока нет комментариев