white_bars: (Default)

Если кто-то отстал от трамвая, то вот: ноябрьский релиз DoMY CE – это не только опенсорс и статистический движок, но и тулзы для создания собственных языковых пар. Если к нему сбоку прицепить опенсорсный же Симантековский SymEval, то получается вполне кошерно. Знание линуха обязательно: пока что с DoMY без этого никак.

white_bars: (Default)

Продолжаю грузиться  на тему Microsoft Translator web page widget.

Я же точно помню, что некоторое время назад качество перевода было заметно выше, я же сам это все использовал в реальных проектах. А тут читаю “таким образом, здесь Я рад” и не узнаю старика Крупского… Перечитал перевод предложенного тестового сообщения много-много раз, и мне начало казаться, что я понимаю, что произошло: администраторы MSR-MT убрали все "надстройки" (customization rules), оставили чисто статистический движок. На выходе получился незамутненный набор бессвязных слов. Приведу пару примеров.

Надстройки вторым проходом должны хладнокровно менять

   - "Я" -> "я" (в середине предложения)
   - "на четверг" -> "в четверг" (глобально)
   - "для наших" -> "к нашим" (условная замена)

И должны чистить пунктуацию (типа убрать пробел перед точкой). И вот ровно этого не происходит, что наводит меня на мысль о сносе надстроек… Эта мысль получила одобрение знакомых немецких лингвистов, которые по моей просьбе обнюхали немецкий перевод и пришли к аналогичным выводам.

Ответ на вопрос “на кой?”, как мне [опять же] кажется, кроется во все той же внутрикорпоративной борьбе идеалистов с прагматиками.

Прагматики плюют на стандарты и идеалы, и делают так, как хотят или как работает. В результате получается Live Writer, Windows XP, MS IE 3 и система машинного перевода со статистическим движком и системой из десятков надстроек, в порядке исключения добивающих перевод до приемлемого вида. Все это не лишено [огромного числа] недостатков, не стандартно, код закрыт и все такое, но работает и радует массы.
Идеалисты полны чужих стандартов и собственных идей. В результате их деятельности выходит (или не выходит) СССР или нерегулируемая рыночная экономика, назойливый UAC в Vista, привередливый требовательный Internet Explorer 8, Office 2007 без возможности включить меню и голый статистический движок без надстроек. Все они красиво выглядят на слайдах и в принципе-то все даже работает как обещано, но приходится закрывать глаза на то, что “очень ООН microsoft в те дни”.

white_bars: (Default)

Сегодняшний пост в блоге майкрософтовской группы машинного перевода (MSR-MT):

“Группа Microsoft Translator team объявляет о выходе предварительной версии инновационного сервиса для перевода веб-страниц. Участники конференции MIX09 на этой неделе получат специальное приглашение, дающее возможность испытать наш  Microsoft Translator web page widget. Остальные желающие могут зарегистрироваться на сайте, и мы вышлем им отдельные приглашения.image

О чем идет речь: небольшой, настраеваемый виджет создан на базе Microsoft Translator AJAX API (также анонсированном сегодня): его можно поместить в любом месте на вашей странице, и он за один щелчок мыши переведет ее на один из множества доступных языков.

Для кого он: для любого, у кого есть веб-страница. Достаточно вставить код виджета в код вашей страницы, чтобы он стал доступен посетителям. Не нужно знать детали программирования, не нужно знать javascript API, не нужно ничего устанавливать. 

Что предлагается: Простой интерфейс для любого посетителя вашей веб-страницы, кто хочет перевести ее содержимое на другой язык. Вы можете попробовать, как это работает, на этой странице.

Что в этом хорошего:

  • Новизна: в отличие от других существующих решений (включая наше), пользователи остаются на странице. Перевод осуществляется прямо на странице. Пользователям также доступен оригинальный текст – достаточно поместить мышку над фразой. image
  • Простота использования: добавление на втраницу сводится к копированию фрагмента кода. Использование сводится к выбору языка из списка и нажатию кнопки.
  • Настраиваемость: Вы можете выбрать цвета, соответствующие дизайну страницы. Вы можете выбрать размер (на самом деле виджет динамически адаптируется к ширине). image
  • Продуманность: Прогрессивный рендеринг позволяет осуществлять перевод “накатом”: пользователю не приходится ждать окончания перевода, глядя в белый экран.   
  • Локализация: виджет доступен на многих языках, поэтому посетители будут видеть интерфейс виджета на их языке. 

Сколько это стоит: Виджет совершенно бесплатен. Вы можете размещать его на коммерческих и любительских сайтах.

Поддерживаемые языки: арабский, китайский (оба), голландский, французский, немецкий, итальянский, японский, корейский, польский, португальский, русский, испанский.”

Microsoft Research Machine Translation (MSR-MT) Team Blog : Announcing the Microsoft Translator web page widget

Ну… Как сказать… Первое впечатление такое:

  1. Странности: на собственно странице блога означенная фича отсутствует, так что вышепревиденный перевод мне пришлось делать ручками… При моей скорости перевода это – пара минут, но все равно эх!
  2. Я так и не понял, как из режима перевода переключаться назад на язык оригинала. То есть, совсем непонятно.
  3. Предлагаемая демо-страница, будучи переведенной на русский язык, выглядит так:

“Члены нашей группы начали по убыванию в Лас-Вегасе для MIX09. I будет достижение завтра утром и будет готовится для наших сессий и объявления. Можно выполнить действия по  twitter . Напомню, будучи весьма впечатлен с самого первого MIX, чем с сближение конструктор и разработчика (очень ООН microsoft в те дни), BillG, обозреватель IE7, Атлас и более. Несколько лет таким образом, здесь Я рад - очень воспроизведение часть.
Если вы являетесь участника - наши сессии на четверг, но вы также увидите peeks на то, что мы делаем все вокруг MIX. Искать в вашей перенаправляете мешков для пару сюрпризов, включая нечто приятные для вашего ноутбука.
Следите и также извлечь  Группа блога  для обновлений.”

Дальше пока не крутил. Сижу в задумчивости, вчитываюсь в перевод. Может это шифровка? При чем тут ООН? “Перенаправляете мешков для пару”, а я сиди, мучайся…

И еще

Dec. 18th, 2008 03:03 pm
white_bars: (Default)

На NiceTranslator.com можно посмотреть, как можно сделать машинный перевод еще и изящным. Перевод производится по мере набора, язык оригинала определяется автоматически, а собственно перевод может осуществляться одновременно на несколько языков. Ну, и еще некоторое количество приятственных фишечек присутствует.

Сервис использует Google Translation API, на код страницы смотреть интересно. Nice, в общем.

white_bars: (Default)

В последней "волне" обновлений продуктов линейки Windows Live тоже прорезался русский: проверка орфографии добавлена в Windows Live Writer и Windows Live Mail. Как Microsoft обошел лицензионные ограничения я не знаю... Как-то. Но что русский появился в бесплатных продуктах - это правильно.
А вообще, я не об этом. У майкрософтовской системы машинного перевода от Windows Live случилось обрусение: русский добавлен в список полностью поддерживаемых (перевод в обе стороны) языков. Русский же появился и в списке языков TBot-а (mtbot@hotmail.com), который делает автоматический перевод в Live Messenger-е. У самого TBot-а появился юзерпик:

image

И, похоже, TBot-а теперь можно вызывать прямо из браузера. Про собственно машинный перевод Windows Live: появилась возможность добавлять на свои страницы код для машинного перевода содержимого, что приятно. Юзабилити вылизали, сервисов добавили. Это все - в плюс.

Быстрое обнюхивание качества перевода дало примерно следующие результаты.
1. Перевод текстов с Wikipedia (английский->русский): 2 из 5. Насторожил одесский стиль перевода "Такие выпуски несут условных обозначений..." Но приходится сильно напрягаться, чтобы понять смысл набора слов. Сравнение с Google Translate: легкий перевес в пользу Гугла. Google из 20 предложений одно перевел правильно.
2. Газетный текст с CNN.com (английский->русский): 2 из 5. Результат опять напрягает. Сравнение с Google Translate: легкий перевес в пользу Гугла, хотя и там и там поразительно убого. И там и там фамилия госсекретаря США первоначально правильно идентифицирована, но во втором-третьем абзаце переведена как "рис". И опять у Гугла в паре мест обнаружились проблески сознания ("Райс отвергли сообщения о том, что, как советник по национальной безопасности, она допустила ошибку до 11 сентября 2001 года"), а одесская история Live Translator получила безумное продолжение ("Рис отклонил докладов, что, как советника по вопросам национальной безопасности, она ошибаться до нападений 11 сентября 2001 года").
3. Технический перевод руководства по Sybase ASE 15.0 (английский->русский): 3 из 5. Смысл вполне передается. Сравнение с Google Translator опять в пользу Google: по большому счету несвязуха и там и там, но какие-то мелкие детали у Гугла радуют. По контрасту.
4. Перевод с русского на английский на удивление неплох: для газетного текста я бы поставил где-то три с половиной балла. Тут с Гуглом, пожалуй, ничья: ошибки везде примерно одинаковые, да и переводы очень похожи.
Забавно, что неизвестные системе слова Гугл заменяет транслитерацией, а Live Translator оставляет без изменений...

Попробовал было потестировать перевод идиоматических выражений, но это, похоже, отдельная и очень грустная песня. Я понимаю, что задача не для машинного перевода, но подмывает... А результат неизменно поднимает настроение. По "The мужика lived Cossa through жо^у." русский оригинал угадать совершенно невозможно. :)

white_bars: (Default)

MTBot Чтобы закончить с темой машинного перевода: у Microsoft есть сервис, который называется MT Bot. Может быть использован, например, для того, чтобы два человека могли чатиться друг с другом на разных языках: MT Bot переводит фразы с одного языка на другой, используя Майкрософтовскую систему машинного перевода. В Live Messenger оно работает так: добавляешь бота в контакты, открываешь его окно, приглашаешь друга/подругу/другого бота и задаешь язык. После этого он начинает переводить то, что набираешь в окне.

Есть небольшой набор команд.  В общем, игрушечка.

Оно же позволяет встраивать в страницы окна для перевода с одного языка на другой через IFRAME типа такого:

Английский текст:

Есть еще несколько фокусов, которые можно с ним проделать. В IE8 будет доступ к тому же сервису через стандартный интерфейс команд. Блог проекта: http://mtbotprototype.spaces.live.com/

Поддержки русского пока нет.

Может, кому пригодится.

white_bars: (Default)

Чтобы машинный перевод заработал, технологий мало, нужна вера. Именно она после долгих проб и ошибок в клюве принесла процесс: нескладный, нестандартный, но работающий и удешевляющий перевод. За годы обсасыванья счетов и рассматриванья каждой цифты под микроскопом, клиенты поняли: самое дорогое в локализации – перевод документации (перевод софта обычно составляет меньше общей 10% стоимости проекта), а в переводе документации – собственно перевод. Из трех основных операций (перевод, редактирование, вычитка) перевод – самый дорогой и собственно острие MT направлено именно туда.
Полный процесс снижения стоимости перевода условно укладывается в шесть шагов.

1. Написание документации
На этапе планирования для авторов документации и справочной системы устанавливаются правила, определяющие среди прочего:

  • Единообразное использование терминологии и повторяющихся элементов. Это позволяет снизить стоимость на пару процентов за счет использования Translation Memory: повторяющиеся строки переходят из категории “New words” (новые слова для перевода) в категорию “Repetitions” (полностью повторяющиеся сегменты), которая обходится клиентам процентов на 70 дешевле. В качестве примера приведу фирму Adobe: когда-то они выяснили, что в документации к разным их продуктам встречается несколько десятков различных вариантов написания строки копирайта. Соответственно, они столько раз заплатили за ее перевод. Если бы строка была одна, перевести ее можно было один раз. (Теперь это исправлено :) ).
  • Построение фраз: фразы должны быть короткими, однозначными, по возможности соответствующими набору рекомендуемых шаблонов. Такие фразы хорошо отрабатываются системой машинного перевода. Без этого шага все остальные пляски с машинным переводом напрасны. Ничего не выйдет.

2. Утилизация существующих переводов
На документацию натравливается система Translation Memory (возьмем TRADOS для постоты): все, фразы, которые когда-либо переводились, будут переведены как обычно (Full matches или XTranslate), будет произведен поиск похожих фраз и повторений (Fuzzy matches). Для сегментов, принадлежащих к этим категориям, дальнейший процесс перевода происходит как обычно: редактирование, вычитка. Тут ничего не меняется.
Всё остальное (не найденное в Translation Memory) остается помеченным как “New words” и уходит на следующую стадию.

3. Машинный перевод
На этом этапе должны использоваться только системы машинного перевода, обеспечивающие некий минимально достаточный уровень качества (в основном – статистические). Единых критериев тут, кажется, нет. Когда-то я предложил удовлетворительной считать систему МТ, которая может перевести популярную песню на другой язык и назад так, чтобы по переводу можно было догадаться, над какой песней мы тут издеваемся. Шутка в целом прижилась :)
Машинный перевод выполняется для всех сегментов, помеченных как “New words”. Теоретически система машинного перевода в состоянии даже оценить степень достоверности результата исходя из используемых вероятностей, но на практике эта оценка является крайне недостоверной. По окончании этого этапа не остается непереведенных сегментов: либо для них нашли перевод в Translation Memory, либо прогнали через MT.

4. Автоматическое исправление перевода
На сегменты, прошедшие стадию машинного перевода, натравливаются фильтры, исправляющие известные регулярные ошибки: они подправляют склонения и спряжения, переставляют местами слова и фрагменты, правят пунктуацию и пр. Может быть проверена орфография и исправлены встретившиеся очевидные ошибки.
Важный момент: “известные регулярные ошибки” неизвестны до тех пор, пока первый вариант машинного перевода не попадет в руки лингвистам и они не начнут жаловаться. Поэтому первый проект почти гарантировано обречен на провал; к этому нужно быть готовым, нужно собирать информацию о том, какие ошибки встречаются, что нужно подкрутить, чтобы их стало меньше и пр. В общем, надо верить в то, что будет следующий проект. Без веры – никуда :)
Результат отправляется локализационным вендорам, с которыми договариваются о дальнейших операциях и ценах для двух групп.

5. Проверка и исправление перевода
Для сегментов, прошедших через TRADOS (шаг 2) делаются следующие операции:

  • Для Full Matches производится вычитка (стоимость – около 30% от стоимости перевода новых слов)
  • Для Fuzzy Matches производится редактирование (стоимость – около 60% от стоимости перевода новых слов)
  • За Xtranslate (полное совпадение в контексте) никто не платит. Стоимость – 0.
  • За Repetitions платят где-то 30% от полной стоимости… Хотя, это от вендора зависит.

6. Пост-редактирование MT
Стандартных цен для пост-редактирования машинного перевода (шаги 3 и 4) нет совсем никаких, тут как договоришься: некоторые вендоры совсем не берутся за такое, некоторые берутся за 90% от полной стоимости перевода, некоторые – за 80%. Ниже, кажется, не бывает. Но даже 10% скидки – это неплохая прибавка к пенсии…
Важно тут вот что: на малых объемах это не работает. К машинному переводу нужно привыкнуть и нужен особый склад ума (см. “вера” :) ), чтобы с ним работать вообще. Первые две недели производительность переводчиков может быть ниже стандартной раза в два – это почти норма. Если выбраны правильные лингвисты и качество машинного перевода действительно неплохое, то середине третьей недели наступает просветление и производительность резко возрастает. Приведу пример: для перевода на французский нормой считается примерно 2000 слов в день на человека. Первые две недели проверки машинного перевода французы матом крыли всех и писали, что производительность – где-то в районе тысячи слов в день. По окончании третьей недели им было предложено прекратить проект, но они внезапно начали бурно протестовать: оказалось, что они в это дело “воткнулись” и производительность выросла до 5000 слов в день на человека.
Но в принципе нужно быть готовым и к худшему варианту: если время идет, а производительность не растет, нужно останавливать проект.

 Я этот пост переписывал раза четыре: хотелось на примерах показать во что это выливается в цифрах, но получалось крайне неуклюже. В общем, чтобы не утомлять выкладками, приведу три группы цифр. Возьмем гипотетический проект в 300 тысяч слов перевода при цене 30 центов за перевод одного слова.

  • Стоимость обычного перевода “с нуля” без использования TRADOS-а и машинного перевода, соответственно, будет 90 тысяч долларов.
  • При использовании машинного перевода и TRADOS-a стоимость снижается примерно до 76 тысяч долларов; снижение в основном за счет машинного перевода
  • Локализация документации следующей версии продукта (я взял условно-усредненный сценарий с тем же количеством слов) обойдется в 40 тысяч долларов: снижение в основном за счет TRADOS-а

В общем, вот так вот оно как-то…
Попозже еще напишу :)

white_bars: (Default)

На кой этот машинный перевод (MT) вообще нужен и за что там берут деньги-то.
Отбросив разработки под заказ для всяких контор типа Минобороны, мы остаемся с очень лукавым набором. По причинам того, зачем MT возникает на горизонте, проекты условно можно поделить на пять категорий:

1. Приманка

Это, пожалуй, самый забавный способ использования MT. Делается это так: вендор приходит к потенциальному клиенту и предлагает очень низкие расценки на перевод: там, где, другие берут по 20 центов за слово, предлагается перевести по 14-16 центов. Запускается разноцветная презентация и в танце рассказывается о технологической продвинутости вендора: система машинного перевода позволяет сэкономить на собственно переводе, а о качестве не стоит и беспокоиться - в другом кармане у вендора (на слайде номер четыре) обитает проверенная веками система проверки качества, которая, знаете ли, гарантирует.
Если клиента удается раскрутить, перевод просто отправляют самым дешевым переводчикам, берущим по 6 центов за слово и под видом перевода обычно возвращающим полную пургу. Никаким машинным переводом при этом в процессе и не пахнет, но качество получается вполне сравнимое… Впрочем, на MT сваливаются все проблемы клиента…
Посылайте таких друзей открытым текстом. Дешево и качественно не бывает.

2. Эрзац локализации

То же самое, что и предыдущий вариант, только наоборот. Начало такое же: подкат, низкие цены, все такое… Про машинный перевод не упоминается, но в реальности перевод осуществляется какой-нибудь системой типа Google Linguistic Tools или SYSTRAN и присылается клиенту как окончательный вариант перевода. Будучи пойман за руку, вендор может с честными глазами утверждать, что они отработали свои деньги: сидели днями и ночами, копировали текст из одного окна в другое. Этот бред у нас песней зовется…
Интересно, что именно этот вариант всплывает все чаще и чаще: лет пять назад такое проворачивали канадцы, но там хотя бы была никому не известная контора. А с год назад я споткнулся о перевод известной российской локализационной конторы, которая, будучи прижатой к стенке, покололась, что прогнала текст через какую-то MT, но больше этого не повторится.
Рекомендация: любой перевод нужно отправлять на проверку лингвистам. Они такие вещи выщелкивают за пару минут: по общей несвязухе, навязчивому использованию внеконтекстных терминов, шаблонным структурам и прочему.

3. Дурная голова

Самое страшное – это когда какая-нибудь MT попадает в лапы клиента и он начинает мучать ею вендоров. Казалось, ничего не предвещало беды, но внезапно клиент присылает тебе бессмысленный набор слов, обосновывая это техническим прогрессом и манией экспериментирования. Предлагается за фиксированную плату “немножко подправить перевод”. Если клиенту сразу не вправить мозги, то примерно через месяц все ненавидят всех, теряются деньги, проекты, сон. Проблемы тут обычно три:

  • клиент уже заплатил за систему MT и копытом бьет – хочет отработать деньги
  • клиентскому начальству уже пообещали, что локализация теперь будет стоить 15 тысяч долларов, а не 120 тысяч, как раньше
  • очень сложно объяснить ничего не понимающим ни в лингвистике ни в MT клиентским начальникам, что переводом этот набор слов не является

Вляпавшимся в такую ситуацию вендорам один совет: уходите в несознанку, ни за что не соглашайтесь на эксперименты на условиях клиента. Вправляйте мозги. Если не получается – уходите огородами. Клиент вернется. :) Согласие обойдется дороже: во время переговоров с одной немецкой локализационной фирмой (на самом деле великая фирма – с сетью переводчиков и лингвистов высшего класса, студиями звукозаписи и постоянными заказчиками типа Deutsche Welle) я упомянул машинный перевод. Они аж с лица сошли. Я такого в жизни не видел: готовы были встать и уйти, отказаться от довольно легкого проекта на нескольких сотен тысяч долларов; пришлось им пообещать, что никакого машинного перевода не будет, и потом долго еще выспрашивать, кто же это над вами так надругался и выслушивать душераздирающие истории…

4. Время

В отличие от предыдущих двух вариантов этот действительно подразумевает использование MT по назначению, но с побочными эффектами.
Есть набор клиентов, которым действительно кроме машинного перевода ничего не подойдет: им нужен “мгновенный” перевод со сносным качеством. Ждать они не могут по тем или иным причинам: например, госавтоинспекции поселка городского типа Нью-Йорка важно, чтобы любые изменения в законодательстве сразу же становились доступны на их веб-сайте на испанском языке – одновременно с англоязычным оригиналом. Для этой цели используется машинный перевод, а через 2-4 дня он подменяется человечьим текстом (обычный перевод делается отдельно).
Для такого сценария разрабатываются специальные “словари”, скармливаемые системе; берутся существующие переведенные документы, делается частотный анализ, alignment, все это закидывается в базу правил и терминов, используемую MT. Условно говоря, система “затачивается” под перевод очень определенных документов, чтобы результат мог быть хотя бы понят; для этого существует термин intelligibility (“понятность, доступность”): если даже перевод – полная туфта, но его можно понять, то говорится, что у результата приемлемая intelligibility. 
За создание индивидуальных словарей берется 20-30 тысяч долларов за одну языковую пару. Ну, и за обычный перевод/подчистку берется отдельно, по стандартным расценкам.
В принципе-то ничего себе вариант… Дороговато только.

5. Деньги

Про это будет следующий тематический пост :) Он у меня уже в процессе, так что ждать недолго… :)

white_bars: (Default)

Статистический машинный перевод (SMT) основывается на модели, в которой вычисляется вероятность появления в переводе каждого слова из имеющегося набора переведенных предложений, и выбирается вариант с наибольшими вероятностями. Для того, чтобы метод заработал, требуется наличие большой базы существующих правильных переводов, выполненных людьми: моя оценка минимального объема существующих переводов для получения условно-приемлемого качества SMT – три миллиона слов. Я встречал обоснование достаточности меньших объемов (700 тысяч слов), но я ему не очень верю… На текущий момент SMT является наиболее успешной реализацией идеи машинного перевода: она действительно работает. Ее не всякий может себе позволить (крупные базы переводов есть очень не у всех), но…

Приведу пример того, как это работает. Предположим, что нужно перевести “Bush is an idiot” на русский язык. Для начала алгоритмом оптимизации поиска отсекаются переводы, в которых не встречаются слова из исходной фразы, чтобы не перебирать слишком большой объем данных. Дальше определяется набор статистических вероятностей; например, выясняется, что для слова “Bush” есть два всплеска: на слове “куст” и на слове “Буш” (оба этих русских слова встречаются в переводах английских фраз, содержащих слово Bush). Аналогично для “idiot” найдется “идиот” и пара нецензурных вариаций. Для “is” и “an” тоже что-нибудь определится, но, с большой степенью вероятности, результат не будет иметь явно выраженных пиков и будет “прибит” шумодавами SMT (может, и зря). Но на втором проходе выясняется, что вероятность встретить сочетание слов “куст” и “идиот” в одном предложении практически равна нулю, а “Буш” и “идиот” – наоборот, встречается повсеместно. Аналогичные действия производятся для последовательности слов в переводе и синтаксиса. Конечный перевод будет выглядеть как “Буш идиот” (что, безусловно, правильно).

На уровне перевода отдельных фраз это работает более-менее сносно. Следующий шаг в развитии SMT – перенести этот прием на уровень текста: должен анализироваться весь текст, потом система спустится на уровень абзацев, а потом – на уровень предложений. Посик и анализ при этом существенно усложняются, но зато MT может начать “улавливать” контекст и выдавать правильный набор слов. Что-то такое в природе есть, но реально работающие системы ограничиваются статистическим анализом уровня предложений, что снижает качество.

Интересно тут следующее: для системы совершенно неважно, как устроен язык, какие у него правила и исключения, как переводится то или иное слово, с какого на какой переводим... На предпоследнем Localization World на семинаре по SMT раздел “вопросы и ответы” с ведущим Kirti Vashee проходил в однообразном режиме “Да какая разница?”:

Вопрос из зала: “А как система статистического машинного перевода обрабатывает ситуацию с переводом концептуальных структур типа (пример из японского)?”
Kirti: “Да это, в общем-то неважно. Какая вероятность выпадет, так и отработает…”
Другой вопрос из зала: “А вот есть еще такой лингвистический парадокс (описывается парадокс). Что с ним делать?”
Kirti: “А нам, в общем, пофиг ваши парадоксы: что нам формула Байеса выдаст, то и будет.”
итп.

Я млел. Просто млел :)

Понятно, что и тут есть куча деталей, которые нужно учитывать.

  1. Наличие необходимого объема исходных переводов (что мало у кого есть). В мире IT каждый выкручивается сам: у Майкрософта есть миллиарды переведенных слов документации, Гугл импортировал 200 миллиардов переведенных слов из базы данных ООН, остальные экспериментируют с меньшими объемами.
  2. Структура. SMT умирает на длинных фразах: если предложение состоит более чем из 10-12 слов, вероятность выдачи полной пурги становится стопроцентной. Для борьбы с этим явлением необходимо, чтобы авторы документации сочиняли свои тексты короткими лаконичными блоками с минимальным количеством экивоков (знакомо? ;) ). Это называется Controlled English – такой эрзац интерлингвы…
  3. Скорость. Перебор – штука крайне медленная даже на уровне слов в предложении. Алгоритмы оптимизации запросов позволяют получать приемлемые выборки, а предварительная обработка “сырых” данных в разы увеличивает скорость их обработки (Google для этого использует MapReduce на своих кластерах нечеловеческого размера). Но как-то мне кажется, что полноценный статистический анализ на уровне текста целиком или хотя бы абзацев до сих пор не реализован: количество “измерений” (и время работы системы) должны увеличиваться на несколько порядков. Поправьте меня, если я ошибаюсь.
  4. Правила. Лингвисты, проверяющие машинный перевод, довольно быстро просекают, что машины допускает одни и те же регулярные ошибки, и создают макры, которые исправляют их по всему тексту – глобально. По научному это называется “Automated post-editing” и на эту тему можно почитать статью Hugh Lowson-Tancred в последнем выпуске Multilingual. Ничего особенного, впрочем… В свою очередь разработчики систем машинного перевода для улучшения качества SMT вводят правила, избавляющие перевод от этих ошибок: никуда от этого не деться. На каждый язык приходится где-то по 12-16 правил. На русский – больше :)
  5. Словари и Translation Memory. Ясно, что, если можно не переводить, а использовать готовое, то это нужно делать: прежде чем использовать SMT, на текст натравливается Translaton Memory в поисках полных совпадений, а словари встраивают в SMT engine.
  6. Качество все равно будет погановатое: теория – теорией, а обольщаться не надо…

В следующий раз напишу на кой все это нужно :)

PS.

Jan. 31st, 2008 01:55 pm
white_bars: (Default)
При нажатии кнопки "EN" (переход на английскую версию сайта) на официальном вебе Общественной Палаты РФ попадаешь на страницу, переведенную системой машинного первода Гугла. Ну, в общем и правильно: все равно там бред всякий, и, если англичанин прочтет заголовок "Закон - единственная голова журналистов" или надпись "Эти уголовники еще не родились" над фотографией членов Общественной Палаты, то хуже все равно не будет...
white_bars: (Default)

Примеры явно машинного перевода на русский из Debian etch (терминология связанная с криптозащитой):

msgid "Add a new identity to Cryptonit"
msgstr "Добавить личность в Криптоните"

msgid "Choose your private key"
msgstr "Отберите ваш частный ключ" (У кого?)

msgid "Properties Frame"
msgstr "Щит конфигурации"

msgid "Passphrase is correct"
msgstr "Пароль не правилно"

msgid "Certificates chain"
msgstr "Каналы сертификатов"

msgid "CA" (Certification Authority. Соответствующий русский термин "Удостоверяющий центр")
msgstr "Власть удостоверения"

(Взято отсюда: http://vitus-wagner.livejournal.com/246581.html)

А вот - явный пример слишком человеческого перевода (Windows RegSvr32):

Человеческая опечатка по Фрейду из какого-то неуказанного почтового клиента:

"Иногда бывает невозможно отправить страницу доступа к данных через шлюх электронной почты."

Опечатка, заботливо исправленная программой проверки орфографии.


(СМЕХ СКВОЗЬ СЛЕЗЫ)

white_bars: (Default)

На последнем Localization World довольно много обсуждалась тема Community Translation и как использование энтузиастов позволяет сэкономить на услугах профессиональных переводчиков. Другим направлением экономии предлагается машинный перевод. Имея в виду совершенно очевидные недостатки машинного перевода, никто особо не настаивал на его использовании: рассматривались, скорее, варианты "что бы такого сделать, чтобы меньше платить переводчикам" (с очевидными ответами).

С community-based translations не все так очевидно: тут пока не попробуешь - не узнаешь. Если слушать Sun Microsystems и Google, то все расчудесно: энтузиасты все переводят, потом профессионалы проверяют, а на выходе получается хороший перевод.

В реальности все не совсем так. Иногда получается, иногда нет. Суть моего первый проекта с Гуглом состоял в том, чтобы проанализировать качество перевода уже существующего компонента, выпущенного на 12 языках. Пользователи практически всех языков жаловались на качество, и нужно было выяснить, что правда, а что нет. Результаты были примерно такими:

  • 3 языка были чудовищными. Арабы призывали к физической расправе над переводчиками (я не шучу).
  • Еще три языка были просто плохими, включая русский. Переводом нельзя было пользоваться.
  • Два языка имели сомнительное качество, но в целом продуктом можно было пользоваться.
  • Остальные переводы были ничего себе...

То есть, примерно половину языков пришлось переделывать заново, еще пара языков требовала доводки, остальные просто подчистили. Картина, кстати, не самая плохая: нексолько подобных экспериментов с использованием сети партнеров и студентов-добровольцев просто провалились.

Означает ли это, что результатом community-based translation всегда будет плохой или посредственный результат? - Не обязательно: еще фон-Нейман писал о том, как создать надежную систему из ненадежных элементов.
Но надеяться на то, что на халявных переводах можно создать нормальную бизнес-модель - это очень сильно рисковать. Гугл с его бабками может себе позволить рисковать, но удивительно то, что они - после стольких лет - так ничему и не научились. Читаем сегодняшний пост Олега Козырева "причуды толерантности":

"в аккаунте на YouTube в профиле только три варианта семейного положения можно выбрать:
- не женат/ не замужем
- встречаюсь
- в поиске
женатые, видимо, не предусмотрены (как и те, кто не ищет)"

Смотрим английский оригинал и видим три варианта:
- single
- taken
- open
То есть, "не женат/не замужем", "женат/замужем", "в поиске". Сэкономили и на халяву получили геморрой. Международного скандала, конечно, не выйдет, но на месте Гугла я бы таки заплатил баксов 20, чтобы кто-нибудь им проверил бы русский перевод Youtube.

white_bars: (Default)

Я думаю, что использование машинного перевода веб-сайтов на русский язык без последующей лингвистической вычитки должно быть запрещено на уровне Организации Объединенных Наций. На веб-сайтах лучше не иметь никакого перевода на русский, чем иметь машинный. И тем более, если сайт рекламирует систему машинного перевода.

"Я рад объявить об освобождении Angsuman в плагин Translator Pro версия 4.04.0 for WordPress 2.x blogs.WordPress 2.x для блогов. Он обеспечивает автоматический машинный перевод блога в тринадцати разных языках : немецком, испанском, русском, арабском, голландском, шведском, Греческом, французском, итальянском, португальском, японском, корейском и китайском языках. Если бы моим предыдущим переводчиком плагин затем вы собираетесь любить это. Это поисковая система оптимизирована поддерживает WordPress украшений, nice постоянные использует самые скоростные (кешируемым), масштабировать и многое другое. "

Angsuman в Translator Pro плагин для блогов WordPress 2.x - простой мысли

Там есть еще раздел типа "что наши клиенты говорят о нашей продукции", который тоже прогнан через машинный перевод. Если не знать, что это MT, то можно решить, что они все сошли с ума:

  • "Я рекомендовала этот плагин для собеседника по разминированию" (электронный джихад в действии)
  • "Я учтем направление деятельности я могу в любое время" (даром?)
  • "Благодаря партии, этого подключаемого модуля, который вызывает восхищение" (спасибо партии!)
  • "Спасибо .... Любовь ваш переводчик!" (и путеводная звезда. В одном флаконе)
  • "Еще раз спасибо за создание такой команды - осел продукта" (повезло ребятам, что у них в команде есть осел продукта)

Нет, все. Пишу в ООН.

white_bars: (Default)

Еще на любимую тему. И опять перевожу.

"Возмущенные сотрудники голландского министетства иностранных дел могли бы догадаться, в чем дело, когда они получили письмо от израильских журналистов, начинавшееся следующими словами: "Прювет дружбан, прилагается пять вопросов, в честь министр иностранных дел: Вашу мать визит в Израиль - это спать на пользу или в постели вы думаете о конфликте Израильской Палестины" ("Helloh bud, enclosed five of the questions in honor of the foreign minister: The mother your visit in Israel is a sleep to the favor or to the bed your mind on the conflict are Israeli Palestinian").

К сожалению, они не догадались. Дальнейшие вопросы ("Почему мы не слышали о взаимных визитов основных государств Израиля и Голландии, это в этой стране" и "Что на Ваш взгляд необходимо сделать против ужасного Иранского Израиля") тоже не подали им идею о том, что произошло. Теперь, согласно Jerusalem Post, визит журналистов в Голландию для встреч с представителями правительства находится под вопросом. Возмущенный израильский дипломат спрашивает на страницах газеты "Как такое вообще могло произойти? Это письмо журналистов вызвало крайне серьезный индидент."

How Babel Fish almost caused a diplomatic incident | The Guardian | Guardian Unlimited

Для перевода своего письма журналисты использовали бесплатную систему машинного перевода, которая спутала "если" (ha'im на иврите) с "мать" (ha'ima) и вообще выдала полную лапшу. Заметка грешит на Babel Fish - систему, работающую под управлением ядра Systran, но это навет: Babel Fish не работает с ивритом. Эксперименты, проведенные CommonSense Advisory (все тот же Ренато Бениньято) показали, что использвался Babylon (http://www.babylon.com/) - системы немецкой разработки. Она используется для машинного перевода статей Wikipedia, клиентами Babylon являются Avnet, Daimler Chrysler, Ericsson, Ernst & Young, Fujitsu Siemens, Gillette/Braun, IBM, John Deere, Lufthansa, Motorola, Nestlé France, Océ, Petrobras, Philips, UBS, Xerox и другие.

Страшно? :)

Выводы:

1. Не жадничайте. Пара шекелей на профессиональный перевод - это не много.

2. Дипломатические скандалы могут возникать на ровном месте.

white_bars: (Default)

Посмотрел сегодня на результаты тестирования системы машинного перевода (можете догадаться, чьей %) ). Несколько месяцев тестировался перевод с английского на 24 языка, объемы - до 700 тысяч слов. На выходе текст оценивался редакторами по ряду параметров и для каждого переведенного блока (а иногда и предложения) выставлялась оценка по пятибальной шкале. Средний балл по выборке из этих 24 языков составляет примерно 2.7. Результат в 3 балла считается условно-замечательным: такой перевод поддается ненапряжному редактированию. Через 3 балла перепрыгнуло не так много языков на самом деле... Максимальный балл у испанского, на втором месте французский. Все же у этих языков структура во многом пересекающаяся с английским.

Ну так вот, дамы и господа. На самом последнем месте с результатом 1.78 оказался русский. 
Я пока что не копался в деталях, но понятно, что причин для такого результата может быть много:

1. Субъективная. Редакторы были слишком придирчивы и это повлияло на. Вероятность - процентов 25 (есть причины не особо на это надеяться: условия были довольно четкими и одинаковыми для всех языков).
2. Объективная. Структурно английский и русский языки сильно разные и нет хорошего и простого решения. Вероятность - процентов 40. (Распределение результатов для языков на это, в сущности, указывает).
3. Техническая. Неудачно выбранная модель. Типа "все гениально перепишем" и заработает. Вероятность - процентов 20. (Не особо верю).
4. Кривые руки. Модель неплохая, но реализовать ее ровно для русского не удалось. Вероятность - процентов 15. Есть шанс...
5. Что-то еще.

Посмотрим... Но, условно говоря, с языком нам с вами тоже повезло :)

white_bars: (Default)
Вообще, это еще очень большой вопрос, кто переводит хуже: человек или машина. Про машинный перевод я уже самовыражался, а вот - реальные примеры результатов перевода, выполненного нашими соглажданами. 
Автор перевода - профессиональный технически подкованный переводчик (в этом месте я грязно выругался). Примеры:

Обитатели почтового отделения...
Его должны иметь Администpатоpы Системы и Сеpвеpы Сообщений...
Выбеpите во всплывающем меню "Конец" и напечатайте сколько pаз...
...опоpожнить "мусоpное ведpо" 
...побудите вашего системного администpатоpа указать вам маpшpут
...
Пpинятие назначения на участии в меpопpиятии, задания, записки или выpажение согласия с содеpжанием записки (название pаздела).
Пpи пеpемещении мы pекомендуем Вам всенепpеменно менять вpемененную зону...

В переводе пеpвая стpаница озаглавлена "Hачинаем". На последнюю мне даже смотреть страшно...
А вот - другой набор примеров (от другого переводчика):

отправка кораблём и уход... (в оригинале - shipping and handling)
проверьте устройство мастера...
Не вводите кривые символы. (в оригинале речь идет о фигурных скобках)

После этого машинный перевод не кажется таким уж страшным.

white_bars: (Default)
 

Продолжая тему машинных переводов... При всем богатстве выбора в интернете реально работают и используются всего две системы машинного перевода с поддержкой русского: от Prompt и от Systran. Остальные системы либо ссылаются на них, либо используют их SDK/MT Engine. Можно провести простой эксперимент. Скажем, перевести какую-нибудь фразу на русский язык. Ну, например, "I want my fans to respect my privacy". Результаты:

Systran: Я хочу мои вентиляторы уважать мое уединение
Prompt: Я хочу, чтобы мои болельщики уважали мою секретность 

Babelfish: Я хочу мои вентиляторы уважать мое уединение
Freetranslation: Я хочу, чтобы мои болельщики уважали мою секретность
Reverso: Я хочу, чтобы мои болельщики уважали мою секретность

и так далее. О качестве судите сами :) От себя скажу, что за это "чтобы" я готов Prompt-у простить эту вот "секретность" и "болельщиков" - всяко лучше вентиляторов-то...

Отдельной белой вороной тут выделяется Intertrans (Wordtran/Intertran). У них - свой MT Engine и переводит он так: "Я недостаток принадлежащий мне fans к уважение принадлежащий мне уединения". До некоторой степени это вообще не система машинного перевода, а конструктор: "сооружать" переводы предлагается почти самостоятельно. Идея понятная: обучение типа... Но это - для маньяков.

Есть еще вечно подающий надежды ling98, но он реально не работает. Выдает полный мусор (в прямом смысле - что-то там со шрифтами).

За "человеческий" перевод этой фразы людьми предлагается заплатить от 30 до 45 долларов.

Так что, если кого приперло, я бы рекомендовал Prompt: http://www.online-translator.com/text.asp?lang=en

Profile

white_bars: (Default)
white_bars

June 2017

S M T W T F S
    123
45678910
11121314151617
18192021222324
252627 282930 

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 20th, 2017 09:46 pm
Powered by Dreamwidth Studios