white_bars: (Default)
[personal profile] white_bars

На кой этот машинный перевод (MT) вообще нужен и за что там берут деньги-то.
Отбросив разработки под заказ для всяких контор типа Минобороны, мы остаемся с очень лукавым набором. По причинам того, зачем MT возникает на горизонте, проекты условно можно поделить на пять категорий:

1. Приманка

Это, пожалуй, самый забавный способ использования MT. Делается это так: вендор приходит к потенциальному клиенту и предлагает очень низкие расценки на перевод: там, где, другие берут по 20 центов за слово, предлагается перевести по 14-16 центов. Запускается разноцветная презентация и в танце рассказывается о технологической продвинутости вендора: система машинного перевода позволяет сэкономить на собственно переводе, а о качестве не стоит и беспокоиться - в другом кармане у вендора (на слайде номер четыре) обитает проверенная веками система проверки качества, которая, знаете ли, гарантирует.
Если клиента удается раскрутить, перевод просто отправляют самым дешевым переводчикам, берущим по 6 центов за слово и под видом перевода обычно возвращающим полную пургу. Никаким машинным переводом при этом в процессе и не пахнет, но качество получается вполне сравнимое… Впрочем, на MT сваливаются все проблемы клиента…
Посылайте таких друзей открытым текстом. Дешево и качественно не бывает.

2. Эрзац локализации

То же самое, что и предыдущий вариант, только наоборот. Начало такое же: подкат, низкие цены, все такое… Про машинный перевод не упоминается, но в реальности перевод осуществляется какой-нибудь системой типа Google Linguistic Tools или SYSTRAN и присылается клиенту как окончательный вариант перевода. Будучи пойман за руку, вендор может с честными глазами утверждать, что они отработали свои деньги: сидели днями и ночами, копировали текст из одного окна в другое. Этот бред у нас песней зовется…
Интересно, что именно этот вариант всплывает все чаще и чаще: лет пять назад такое проворачивали канадцы, но там хотя бы была никому не известная контора. А с год назад я споткнулся о перевод известной российской локализационной конторы, которая, будучи прижатой к стенке, покололась, что прогнала текст через какую-то MT, но больше этого не повторится.
Рекомендация: любой перевод нужно отправлять на проверку лингвистам. Они такие вещи выщелкивают за пару минут: по общей несвязухе, навязчивому использованию внеконтекстных терминов, шаблонным структурам и прочему.

3. Дурная голова

Самое страшное – это когда какая-нибудь MT попадает в лапы клиента и он начинает мучать ею вендоров. Казалось, ничего не предвещало беды, но внезапно клиент присылает тебе бессмысленный набор слов, обосновывая это техническим прогрессом и манией экспериментирования. Предлагается за фиксированную плату “немножко подправить перевод”. Если клиенту сразу не вправить мозги, то примерно через месяц все ненавидят всех, теряются деньги, проекты, сон. Проблемы тут обычно три:

  • клиент уже заплатил за систему MT и копытом бьет – хочет отработать деньги
  • клиентскому начальству уже пообещали, что локализация теперь будет стоить 15 тысяч долларов, а не 120 тысяч, как раньше
  • очень сложно объяснить ничего не понимающим ни в лингвистике ни в MT клиентским начальникам, что переводом этот набор слов не является

Вляпавшимся в такую ситуацию вендорам один совет: уходите в несознанку, ни за что не соглашайтесь на эксперименты на условиях клиента. Вправляйте мозги. Если не получается – уходите огородами. Клиент вернется. :) Согласие обойдется дороже: во время переговоров с одной немецкой локализационной фирмой (на самом деле великая фирма – с сетью переводчиков и лингвистов высшего класса, студиями звукозаписи и постоянными заказчиками типа Deutsche Welle) я упомянул машинный перевод. Они аж с лица сошли. Я такого в жизни не видел: готовы были встать и уйти, отказаться от довольно легкого проекта на нескольких сотен тысяч долларов; пришлось им пообещать, что никакого машинного перевода не будет, и потом долго еще выспрашивать, кто же это над вами так надругался и выслушивать душераздирающие истории…

4. Время

В отличие от предыдущих двух вариантов этот действительно подразумевает использование MT по назначению, но с побочными эффектами.
Есть набор клиентов, которым действительно кроме машинного перевода ничего не подойдет: им нужен “мгновенный” перевод со сносным качеством. Ждать они не могут по тем или иным причинам: например, госавтоинспекции поселка городского типа Нью-Йорка важно, чтобы любые изменения в законодательстве сразу же становились доступны на их веб-сайте на испанском языке – одновременно с англоязычным оригиналом. Для этой цели используется машинный перевод, а через 2-4 дня он подменяется человечьим текстом (обычный перевод делается отдельно).
Для такого сценария разрабатываются специальные “словари”, скармливаемые системе; берутся существующие переведенные документы, делается частотный анализ, alignment, все это закидывается в базу правил и терминов, используемую MT. Условно говоря, система “затачивается” под перевод очень определенных документов, чтобы результат мог быть хотя бы понят; для этого существует термин intelligibility (“понятность, доступность”): если даже перевод – полная туфта, но его можно понять, то говорится, что у результата приемлемая intelligibility. 
За создание индивидуальных словарей берется 20-30 тысяч долларов за одну языковую пару. Ну, и за обычный перевод/подчистку берется отдельно, по стандартным расценкам.
В принципе-то ничего себе вариант… Дороговато только.

5. Деньги

Про это будет следующий тематический пост :) Он у меня уже в процессе, так что ждать недолго… :)

From: [identity profile] pvax.livejournal.com
... по поводу пресловутого TRADOS. На меня эта фигня произвела в свое время впечаление. Еще большее впечатление произвела информация о принципе, на котором TRADOS работает. Я аж дара речи лишился, на короткий момент.
From: [identity profile] white-bars.livejournal.com
Запросто! А что с ним не так? :) Думаю, что я могу ответить на почти любые связанные с ним вопросы, но там столько всяких аспектов, что... Вы уточните, о чем речь и я попробую откомментировать/ответить.
From: [identity profile] pvax.livejournal.com
Как вы оцениваете TRADOS, исходя из предположения, что это - система машиного перевода?
From: [identity profile] white-bars.livejournal.com
А! Никак: Традос - это Translation Memory (система утилизации существующих переводов), к системе машинного перевода это никакого отношения не имеет.
Суть тут в следующем: где-то в 80-х естественным образом появились простенькие программы, которые сканировали текст на предмет поиска ранее переведенных строк. То есть, если я - переводчик и один раз перевел строчку "Internet Options", то программа, встретив точно ту же строчку, сама ее переведет, а мне не надо будет напрягаться и вспоминать, как же я там раньше-то ее переводил.
К середине 90-х появились более продвинутые системы, которые назывались Translation Memory. Заточены они были уже в основном под перевод документации, но принцип был тот же. Расширением идеи явилось введение Fuzzy Matches: допустим, я уже переводил фразу "От Советского информбюро" на китайский. Дальше мне встретилась фраза "От Ингушского информбюро", и Translation Memory (при правильных настойках) мне скажет, что мы это переводили вот так-то, но фраза отличается одним словом, поэтому перевод я должен вручную подправить.
На обычных проектах исправление перевода в среднем на 30% более производительный процесс, чем перевод "с нуля", поэтому Translation Memory являются инструментом повышения производительности переводчика за счет утилизации ранее переведенных сегментов.
По тому же принципу работает IDIOM, SDLX, Logoport и другие TM.
Вот тут вот я на эту тему чуть-чуть писал: http://white-bars.livejournal.com/202976.html
А машинный перевод - это другая вселенная. Смежная, но другая :)

Date: 2008-07-02 07:57 pm (UTC)
From: [identity profile] dzigoro.livejournal.com
зачетная серия постов. пеши исчо)

Date: 2008-07-02 08:23 pm (UTC)
From: [identity profile] white-bars.livejournal.com
Стараюсь ;)

Date: 2008-07-03 05:58 pm (UTC)
From: [identity profile] occuserpens.livejournal.com
По сути, МТ - это некачественная система, запущенная в массовое производство. Беда в том, что этот хлам создает прецендент для разработчиков аппликейшнов делать такой же хлам для пользователей.

Date: 2008-07-03 07:56 pm (UTC)
From: [identity profile] white-bars.livejournal.com
> По сути, МТ - это некачественная система, запущенная в массовое производство.

И да и нет: да в том смысле, что она не може выдавать качественный перевод. Нет, потому что заложенные в нее идеи по сути правильные. IMHO проблема не столько в системе, сколько в том, как ее позиционируют и чего от нее ожидают.

Date: 2008-07-03 08:23 pm (UTC)
From: [identity profile] occuserpens.livejournal.com
да чего уж там, система просто-напросто некачественная

Date: 2008-07-03 09:16 pm (UTC)
From: [identity profile] white-bars.livejournal.com
Способа сделать ее качественней нет: у модели есть естественные ограничения. Просто физически нет: нельзя научить машину думать как это делает человек. Так что тут достигнут некий предел: дальше только полировать.
Статистический перевод в принципе-то приемлем для очень многих вещей: чтобы прочитать заметку или письмо на другом языке, например. И, опять же, нужно понимать границы применимости этого дела и не ожидать бОльшего, чем система может из себя выжать. В следующем посте про МТ я напишу, как это встраивается в производственные процессы.
Собственно, речь-то идет о том, что свойственно цифровым технологиям в целом: всегда чем-то жертвуешь. А на время или навсегда - это только время покажет.

Date: 2008-07-03 10:38 pm (UTC)
From: [identity profile] occuserpens.livejournal.com
блоги, ефинансы, емагазины вполне могут работать как часы

Date: 2008-07-04 12:42 am (UTC)
From: [identity profile] white-bars.livejournal.com
Это нормально. Перечисленным приложениям не приходится эмулирвать работу головного мозга или преобразовывать данные из одного неформализуемого пространства понятий в другое.

Date: 2008-07-04 01:45 am (UTC)
From: [identity profile] occuserpens.livejournal.com
Как бы то ни было, но одни системы работают ОК, а другие - нет. Вот в чем дело.

Date: 2008-07-04 02:20 am (UTC)
From: [identity profile] white-bars.livejournal.com
С этим никто не спорит. Но большинство проблем - в головах, а не в софте :)

Profile

white_bars: (Default)
white_bars

June 2017

S M T W T F S
    123
45678910
11121314151617
18192021222324
252627 282930 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 15th, 2025 06:59 am
Powered by Dreamwidth Studios