|
|
Compulenta.ru | 29 марта 2012 года, 14:48 | Текст: Дмитрий Целиков
Луис Лейва и Висент Алабау из Политехнического университета Валенсии (Испания) предложили новый подход к машинному переводу, вдохновлённый «ситиспиком» из фильма «Бегущий по лезвию».
Как вы, конечно, помните, на улицах Лос-Анджелеса в 2019 году принято изъясняться на смеси японского, испанского, немецкого, венгерского, китайского, французского, корейского и чёрт знает какого. Так вот, наши герои разработали систему Culturally Influenced Interlanguage (CI2), которая, по сути, изобретает новые языки. Она не переводит в традиционном смысле этого слова, просто делает фразу понятной. Итог почти никогда не бывает грамматически и синтаксически правильным, зато понятен.
Зачем это всё? По одной простой причине: хотя машинным переводом охвачено уже солидное количество языков, в стороне остаются тысячи, которые ничем не хуже, просто у них не очень много носителей или же они не играют большой роли в современном межкультурном общении.
Например, представьте, что испанский — язык меньшинства, и его носитель хочет прочитать вот такое сообщение, выдаваемое операционной системой компьютера по-английски: «Another label with the same name already exists» («Ярлык с таким названием уже существует»). Поскольку испанский в нашем примере — язык меньшинства, он не охвачен создателями автоматических переводчиков. Зато они уже уделили внимание языкам, похожим на испанский, — итальянскому, португальскому и французскому. CI2 выбирает наиболее подходящие эквиваленты из этих языков, и получается следующее: «Un’altra étiquette con mesmo nome existe déjà». Конечно, это не испанский, но испанец должен понять, что имеется в виду.
Слова отбираются по количеству совпадающих букв. Так, в итальянском и испанском есть слово «con» (предлог «с»), поэтому оно получает коэффициент 1, а итальянское слово «nome» («название») оценивается лишь в 0,79, так как в испанском оно звучит как «nombre». Но лучше ничего нет.
Систему протестировали на 17 испанцах, которые читали предложения на шведском, «переведённые» с помощью итальянских, португальских и французских слов. Кроме того, им были предложены переводы на эти языки. Добровольцам было проще понять версию CI2, чем итальянский и французский переводы. Хорошо шёл также португальский — из-за большого сходства с испанским.
Теперь авторы собираются испытать разработку на носителях какого-нибудь маленького языка. Возможно, именно это спасёт «малышей», которым сегодня угрожает новая напасть — Интернет.
Проект анонсируют на Конференции по вопросам человеческого фактора в компьютерных системах, которая пройдёт в мае в Остине (США).
Подготовлено по материалам NewScientist.
P. S. Индустрия машинного перевода активно развивается. Среди новаторов замечена латвийская фирма Tilde, онлайновая система которой называется LetsMT!. В её основе тот же принцип, которым славится и Google Translate, — сравнение большого количества документов на разных языках. Не устраивает «Гугл»? Загружайте документы самостоятельно и создавайте собственный переводчик! Мировая премьера ожидается на апрельской конференции World Wide Web во французском Лионе.
|
|
|
Потрясающий сайт для разгрузки убийства мозга (и тренировки памяти и внимания)!
Вот одна из самых простых, на мой взгляд, игр (необходимо стрелками на клавиатуре указывать направление центральной птицы и не отвлекаться на остальных):
Brain Shift — гласная или четная? Появляются в паре гласная и цифра, меняются местами, в итоге заглючивает конкретно и чтобы отвечать на вопросы правильно, требуется уйти в нирвану, тут же и безотлагательно. 🙂
Самая злая из бесплатно доступных игр — это Memory Matrix (нужно запоминать количество и размещение красных квадратиков и повторять их «в чистом поле»; количество увеличивается, если все делаешь правильно, а если ошибаешься, то откатываешься на уровень попроще). Это я так думала, пока не добралась до лабиринта с пингвинами. Который все время переворачивается и нужно не терять ориентацию.
Есть и задачка для любителей словесности: даются первые три буквы и надо писать слова, которые с них начинаются. Если будешь умницей, третья буква отвалится и надо будет придумывать слова, которые начинаются на первые две.
Ну и, самое главное, ответьте себе на вопрос: а надо ли вам это? 🙂
Мы уже мечтаем о двух безлимитных платных аккаунтах на семью. Правда, первоклашка из-за плеча поглядывает с завистью, но ей, думаю, бесплатного аккаунта будет достаточно. Скучно школьные задачки с унылой графикой решать: http://www.maths-whizz.ru
Да, все на английском.
|
|
|
Проект Compreno, над которым компания ABBYY корпит уже пятнадцать лет и выводит, дай бог, в этом году на стадию готового к потреблению продукта — это не новое, и тем более — не очередное событие.
Автор: Сергей Голубицкий | Раздел: Голубятня | Дата: 28 февраля 2012 года
http://www.computerra.ru
Больше всего на свете мне хочется выделить тему сегодняшнего рассказа из потока рядовых событий IT, которыми заполняется информационное пространство моей колонки. Новые гаджеты — это замечательно. Новый удачный софт -бальзам на истерзанную душу пользователя. Проект Compreno, над которым компания ABBYY корпит уже 15 лет и выводит, дай бог, в этом году на стадию готового к потреблению продукта — это не новое, и тем более — не очередное событие.
Compreno — это полноценная, не имеющая аналогов в истории технологическая революция. Масштаб этой революции, значение ее для людей (именно для всех людей, а не только для любителей компьютеров) сопоставимы разве что с изобретением World Wide Web или электронной почты. Никак не меньше. Для наглядности можно перевести эту революцию в понятные материально-купюрные реалии: если ABBYY спокойно, без суеты коммерциализирует Compreno хотя бы в десятой части возможных ее практических применений, а затем выйдет на фондовый рынок, капитализация компании затмит всех кумиров сегодняшнего дня — от Apple, грамотно и стильно эксплуатирующего весьма и весьма посредственные в технологическом отношении решения, до Google, умудряющегося заводить в тупик охапками большую часть собственных перспективных начинаний.
(далее…)
|
|
|
Пришла рассылка от Wordfast. Хвалятся новым средством для подсчета слов в файлах, совершенно бесплатным! Просто пришлите ваши файлы на wordcount@wordfast.com и получите мгновенный ответ с результатом подсчета.
Get instant word counts from anywhere you have email access with Wordfast’s new, FREE word counting tool. Simply email your files to wordcount@wordfast.com and receive an instant response containing the word counts of each file.
Да что там, система полностью автоматическая! Пользуйтесь на здоровье.
Оговорка для новичков и непуганых: этот пост проплачен сарказмом.
Читать на английском тут: www.wordfast.com
Биться головой о твердую поверхность — тут:
|
|
|
Rhymes — комплекс словарей русского языка для литературных занятий. В него входят:
• Грамматический словарь (156 тыс. слов, 4.5 млн. словоформ) — для просмотра форм слова, поиска слов по шаблону, части речи и другим характеристикам.
• Орфоэпический словарь — произношение 98 тыс. слов из Грамматического словаря.
• Большой толковый словарь (110 тыс. слов) — толкования, примеры употребления, происхождение, производные слова, фразы.
• Словари синонимов: современный (46 тыс. слов) и Н. Абрамова [1915 г.] (20 тыс. словарных входов).
• Большой словарь рифм (102 тыс. слов, 3.8 млн. словоформ) — подбор рифм на основе фонетических правил.
• Словарь эпитетов (1300 слов, 8700 эпитетов).
Возможности:
• Поиск статей по любой форме слова, исправление ошибок и опечаток.
• Словник (везде кроме словаря рифм). Список вариантов слова при наборе.
• Качественная визуальная разметка статей, несколько уровней детализации.
• Сортировка и фильтрация результатов поиска в Грамматическом словаре и Словаре рифм по алфавиту, части речи, встречаемости, качеству (для рифм), количеству слогов.
• История и Избранное. Возможность отобрать слова из списка результатов (например, рифмы) для дальнейшего использования.
• Удобное клавиатурное управление (можно почти не использовать мышь).
Что нового в Rhymes 3.0.8:
• В Грамматический словарь добавлены связи между видовыми глагольными парами (нсв-св). Это также позволяет при отсутствии искомого глагола расширить запрос парным глаголом противоположного вида (в Толковом словаре и Словаре синонимов).
• В карточке Грамматического и Толкового словарей теперь отображается частота употребления слова (звездочками).
• Исправлено отображение карточек в Толковом словаре при отсутствии некоторых системных шрифтов.
• Исправлена фильтрация зон в карточке для словарей синонимов.
• Исправлено объединение словников нескольких словарей (синонимы).
Программа распространяется бесплатно. Скачать: http://soft.softodrom.ru/ap/Rhymes-p3355
Бонусный трэк:
|
|
|
Чудесная новость для гиперответственных исполнителей и любителей паранойи:
Американское агентство передовых оборонных исследований DARPA объявило команду компьютерщиков из Сан-Франциско победителем в конкурсе на лучшую и наиболее эффективную методику восстановления разорванных или пропущенных через шредер документов, сообщает «РИА Новости».
В конкурсе Shredder Challenge участвовали порядка 9 тысяч команд компьютерных специалистов, любителей собирать головоломки-мозаики, и всех, кто любит решать сложные задачи. Победитель, команда под названием «Все ваши обрезки принадлежат США» («All Your Shreds Are Belong To U.S.») получает приз в 50 тысяч долларов.
Компьютерные специалисты из этой команды использовали собственные компьютерные коды визуальных алгоритмов, которые помогли подобрать друг к другу фрагменты документов, обрезанных шредером на более чем 10 тысяч клочков.
«Большинство экспертов были скептически настроены относительно решения такой задачи в относительно короткие временные рамки. Мы были удивлены изобретательности, которая проявилась на этом конкурсе», — сказал Дэн Кауфман (Dan Kaufman), руководитель отдела инноваций в сфере информации DARPA.
По его словам, самыми эффективными способами решения проблемы в конкурсе не были подходы чисто вычислительные или сортирующие, но «комбинированные совместно с умной детективной работой».
При этом подробности о способе, который принес победу компьютерщикам из Сан-Франциско DARPA, не уточняются.
Источник: http://news.softodrom.ru/ap/b12407.shtml
|
|
|
В Японии создана мобильная система голосового перевода в реальном времени. С её помощью два абонента, говорящие на разных языках, могут общаться здесь и сейчас и понимать друг друга.
Технология, которую показала японская телекоммуникационная компания NTT Docomo на выставке Wireless Japan 2011 (25–27 мая, Токио), основывается на «облачных» вычислениях. С помощью «облака» специалистам удалось объединить распознавание и синтез речи, а также машинный перевод.
Демонстрируя разработку, сотрудник исследовательского подразделения компании в Йокосуке читал японскую газету, а посетители выставки могли одновременно слышать английский вариант текста.
Представитель NTT Docomo Ацуси Сато пояснил, что все три составляющие системы уже существовали: заслуга разработчиков в их интеграции через Интернет и обеспечении быстрой передачи переводимого текста по каналам связи.
Система распознавания речи ещё далека от совершенства, сообщил г-н Сато, её предстоит довести до 100-процентной эффективности. Тем не менее, как считает специалист, даже на таком уровне результат может заинтересовать не слишком привередливых потребителей. Поэтому NTT Docomo намеревается уже в текущем году внедрить технологию в тестовом режиме, наняв добровольцев, которые будут пользоваться ею и сообщать о своих впечатлениях.
С её помощью два абонента, говорящие на разных языках, могут общаться здесь и сейчас и понимать друг друга.
Технология, которую показала японская телекоммуникационная компания NTT Docomo на выставке Wireless Japan 2011 (25–27 мая, Токио), основывается на «облачных» вычислениях. С помощью «облака» специалистам удалось объединить распознавание и синтез речи, а также машинный перевод.
Демонстрируя разработку, сотрудник исследовательского подразделения компании в Йокосуке читал японскую газету, а посетители выставки могли одновременно слышать английский вариант текста.
Представитель NTT Docomo Ацуси Сато пояснил, что все три составляющие системы уже существовали: заслуга разработчиков в их интеграции через Интернет и обеспечении быстрой передачи переводимого текста по каналам связи.
Система распознавания речи ещё далека от совершенства, сообщил г-н Сато, её предстоит довести до 100-процентной эффективности. Тем не менее, как считает специалист, даже на таком уровне результат может заинтересовать не слишком привередливых потребителей. Поэтому NTT Docomo намеревается уже в текущем году внедрить технологию в тестовом режиме, наняв добровольцев, которые будут пользоваться ею и сообщать о своих впечатлениях.
Источник: science.compulenta.ru
Текст: Андрей Величко
Подготовлено по материалам DigInfo TV.
|
|
|