![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
На кой этот машинный перевод (MT) вообще нужен и за что там берут деньги-то.
Отбросив разработки под заказ для всяких контор типа Минобороны, мы остаемся с очень лукавым набором. По причинам того, зачем MT возникает на горизонте, проекты условно можно поделить на пять категорий:
1. Приманка
Это, пожалуй, самый забавный способ использования MT. Делается это так: вендор приходит к потенциальному клиенту и предлагает очень низкие расценки на перевод: там, где, другие берут по 20 центов за слово, предлагается перевести по 14-16 центов. Запускается разноцветная презентация и в танце рассказывается о технологической продвинутости вендора: система машинного перевода позволяет сэкономить на собственно переводе, а о качестве не стоит и беспокоиться - в другом кармане у вендора (на слайде номер четыре) обитает проверенная веками система проверки качества, которая, знаете ли, гарантирует.
Если клиента удается раскрутить, перевод просто отправляют самым дешевым переводчикам, берущим по 6 центов за слово и под видом перевода обычно возвращающим полную пургу. Никаким машинным переводом при этом в процессе и не пахнет, но качество получается вполне сравнимое… Впрочем, на MT сваливаются все проблемы клиента…
Посылайте таких друзей открытым текстом. Дешево и качественно не бывает.
2. Эрзац локализации
То же самое, что и предыдущий вариант, только наоборот. Начало такое же: подкат, низкие цены, все такое… Про машинный перевод не упоминается, но в реальности перевод осуществляется какой-нибудь системой типа Google Linguistic Tools или SYSTRAN и присылается клиенту как окончательный вариант перевода. Будучи пойман за руку, вендор может с честными глазами утверждать, что они отработали свои деньги: сидели днями и ночами, копировали текст из одного окна в другое. Этот бред у нас песней зовется…
Интересно, что именно этот вариант всплывает все чаще и чаще: лет пять назад такое проворачивали канадцы, но там хотя бы была никому не известная контора. А с год назад я споткнулся о перевод известной российской локализационной конторы, которая, будучи прижатой к стенке, покололась, что прогнала текст через какую-то MT, но больше этого не повторится.
Рекомендация: любой перевод нужно отправлять на проверку лингвистам. Они такие вещи выщелкивают за пару минут: по общей несвязухе, навязчивому использованию внеконтекстных терминов, шаблонным структурам и прочему.
3. Дурная голова
Самое страшное – это когда какая-нибудь MT попадает в лапы клиента и он начинает мучать ею вендоров. Казалось, ничего не предвещало беды, но внезапно клиент присылает тебе бессмысленный набор слов, обосновывая это техническим прогрессом и манией экспериментирования. Предлагается за фиксированную плату “немножко подправить перевод”. Если клиенту сразу не вправить мозги, то примерно через месяц все ненавидят всех, теряются деньги, проекты, сон. Проблемы тут обычно три:
- клиент уже заплатил за систему MT и копытом бьет – хочет отработать деньги
- клиентскому начальству уже пообещали, что локализация теперь будет стоить 15 тысяч долларов, а не 120 тысяч, как раньше
- очень сложно объяснить ничего не понимающим ни в лингвистике ни в MT клиентским начальникам, что переводом этот набор слов не является
Вляпавшимся в такую ситуацию вендорам один совет: уходите в несознанку, ни за что не соглашайтесь на эксперименты на условиях клиента. Вправляйте мозги. Если не получается – уходите огородами. Клиент вернется. :) Согласие обойдется дороже: во время переговоров с одной немецкой локализационной фирмой (на самом деле великая фирма – с сетью переводчиков и лингвистов высшего класса, студиями звукозаписи и постоянными заказчиками типа Deutsche Welle) я упомянул машинный перевод. Они аж с лица сошли. Я такого в жизни не видел: готовы были встать и уйти, отказаться от довольно легкого проекта на нескольких сотен тысяч долларов; пришлось им пообещать, что никакого машинного перевода не будет, и потом долго еще выспрашивать, кто же это над вами так надругался и выслушивать душераздирающие истории…
4. Время
В отличие от предыдущих двух вариантов этот действительно подразумевает использование MT по назначению, но с побочными эффектами.
Есть набор клиентов, которым действительно кроме машинного перевода ничего не подойдет: им нужен “мгновенный” перевод со сносным качеством. Ждать они не могут по тем или иным причинам: например, госавтоинспекции поселка городского типа Нью-Йорка важно, чтобы любые изменения в законодательстве сразу же становились доступны на их веб-сайте на испанском языке – одновременно с англоязычным оригиналом. Для этой цели используется машинный перевод, а через 2-4 дня он подменяется человечьим текстом (обычный перевод делается отдельно).
Для такого сценария разрабатываются специальные “словари”, скармливаемые системе; берутся существующие переведенные документы, делается частотный анализ, alignment, все это закидывается в базу правил и терминов, используемую MT. Условно говоря, система “затачивается” под перевод очень определенных документов, чтобы результат мог быть хотя бы понят; для этого существует термин intelligibility (“понятность, доступность”): если даже перевод – полная туфта, но его можно понять, то говорится, что у результата приемлемая intelligibility.
За создание индивидуальных словарей берется 20-30 тысяч долларов за одну языковую пару. Ну, и за обычный перевод/подчистку берется отдельно, по стандартным расценкам.
В принципе-то ничего себе вариант… Дороговато только.
5. Деньги
Про это будет следующий тематический пост :) Он у меня уже в процессе, так что ждать недолго… :)
Хотелось бы услышать ваше мнение...
Date: 2008-07-02 03:18 pm (UTC)Re: Хотелось бы услышать ваше мнение...
Date: 2008-07-02 06:18 pm (UTC)Re: Хотелось бы услышать ваше мнение...
Date: 2008-07-03 03:33 pm (UTC)Re: Хотелось бы услышать ваше мнение...
Date: 2008-07-03 04:43 pm (UTC)Суть тут в следующем: где-то в 80-х естественным образом появились простенькие программы, которые сканировали текст на предмет поиска ранее переведенных строк. То есть, если я - переводчик и один раз перевел строчку "Internet Options", то программа, встретив точно ту же строчку, сама ее переведет, а мне не надо будет напрягаться и вспоминать, как же я там раньше-то ее переводил.
К середине 90-х появились более продвинутые системы, которые назывались Translation Memory. Заточены они были уже в основном под перевод документации, но принцип был тот же. Расширением идеи явилось введение Fuzzy Matches: допустим, я уже переводил фразу "От Советского информбюро" на китайский. Дальше мне встретилась фраза "От Ингушского информбюро", и Translation Memory (при правильных настойках) мне скажет, что мы это переводили вот так-то, но фраза отличается одним словом, поэтому перевод я должен вручную подправить.
На обычных проектах исправление перевода в среднем на 30% более производительный процесс, чем перевод "с нуля", поэтому Translation Memory являются инструментом повышения производительности переводчика за счет утилизации ранее переведенных сегментов.
По тому же принципу работает IDIOM, SDLX, Logoport и другие TM.
Вот тут вот я на эту тему чуть-чуть писал: http://white-bars.livejournal.com/202976.html
А машинный перевод - это другая вселенная. Смежная, но другая :)
no subject
Date: 2008-07-02 07:57 pm (UTC)no subject
Date: 2008-07-02 08:23 pm (UTC)no subject
Date: 2008-07-03 05:58 pm (UTC)no subject
Date: 2008-07-03 07:56 pm (UTC)И да и нет: да в том смысле, что она не може выдавать качественный перевод. Нет, потому что заложенные в нее идеи по сути правильные. IMHO проблема не столько в системе, сколько в том, как ее позиционируют и чего от нее ожидают.
no subject
Date: 2008-07-03 08:23 pm (UTC)no subject
Date: 2008-07-03 09:16 pm (UTC)Статистический перевод в принципе-то приемлем для очень многих вещей: чтобы прочитать заметку или письмо на другом языке, например. И, опять же, нужно понимать границы применимости этого дела и не ожидать бОльшего, чем система может из себя выжать. В следующем посте про МТ я напишу, как это встраивается в производственные процессы.
Собственно, речь-то идет о том, что свойственно цифровым технологиям в целом: всегда чем-то жертвуешь. А на время или навсегда - это только время покажет.
no subject
Date: 2008-07-03 10:38 pm (UTC)no subject
Date: 2008-07-04 12:42 am (UTC)no subject
Date: 2008-07-04 01:45 am (UTC)no subject
Date: 2008-07-04 02:20 am (UTC)