white_bars | Entries tagged with localization

На сайте Windows Live Labs нашел ~~очередное торжество человеческого разума -~~ Microsoft Live Labs Thumbtack (http://thumbtack.livelabs.com/)

Животное чуть-чуть забавное, но это показывать надо, словами будет скучно. Такое онлайновое хранилово того, что надо бы запомнить или куда-нибудь заныкать, чтобы не потерялось. Позволяет расставлять тэги, добавлять комментарии и, как это теперь принято, делиться друг с другом своими подробками. Ну, наверное, есть люди, которым это понравится и наверняка есть такие, которым это надо. Фишечка состоит вот в чем: придуман довольно остроумный способ как обойтись без установки клиентского софта. В список Links (или Bookmarks в ФФ) добавляется закладка с именем "Get with Thumbtack", которая представляет собой не просто Url, а Жабаскрипт. По нажатию на закладку он вытаскивает с сервера окно, вставляет туда текущую страницу или выделенный текст и дальше можно результат закидывать на Thumbtack. Идея ничего так - мне понравилась.

Реализация подкачала: ровно этот великий и ужасный Жабаскрипт с серверной поддержкой обламывается на символах расширенного набора, в том числе и русских.

Поубивал бы...
Впрочем, если зайти на сервис и вводить туда данные руками (или копировать текст через буфер обмена), то все работает чисто. Даже интерфейс - вполне такой себе милый.

А вот основы курса Coding for International Market авторам надо подучить. Да и сам сервис потестировать бы на нескольких языках, знаете ли... Или на псевдо-локализации. И, в общем, как-то бы уже правильно бы выставлять кодировку бы...
Юзабилити тоже бы подучить бы, кстати. Если кто-нибудь утомится искать, как удалить какую-нибудь запись, даю намек: кнопки "Удалить" там нет вообще. Все делается драг-энд-дропом в незаметную урну с неочевидным названием в левом нижнем углу.

Американский морпех объясняет ~~стаду~~ взводу иракских сотрудников правопорядка их место в системе мироздания и способы улучшения имиджа. Без перевода.

Желающим изучать обсценную англо-американскую лексику в подлиннике - настоятельнейше рекомендуется. Академическая часть начинается на сорок второй секунде после слов "Bull$%it! Some of you in this formation are f%^ing lying right now!"
Отдельной строки заслуживает толмач-синхронист в реальном времени переводящий програмную речь на арабский. Кто в курсе - тот оценит.

Купил DVD с музыкальным мультфильмом, который в советском прокате назывался "Джек в стране чудес", и вот что хочу сказать. Очень хорошо, что на DVD сохранили оригинальную японскую звуковую дорожку. Переключаешься и слушаешь все в оригинале, в котором все прекрасно: и текст, и звук, и музыка и интонации.
Как я писал, переозвучка - одно из самых жутких явлений в локализации. Клиенты на удивление редко на самом деле в состоянии самостоятельно спланировать и скоординировать сопутствующий переводу и переозвучке геморрой, оценить работу профессиональных актеров. Чаще всего хотят типа быстро и типа без вопросов. В конце процесса сижу я и переключаюсь назад на японскую звуковую дорожку...
Изумительные по качеству перевода и звучания шедевры в природе есть: например, советские мультфильмы, переведенные на английский, французский и испанский под руководством Михаила Барышникова (серия "Истории моего детства"). Редко, но бывает...
И, кстати, пара примеров грамотного подхода у меня есть прямо таки под рукой.
( Творческий подход )

Источник: Top Ten Internet Languages - World Internet Statistics

Интересно тут вот что: год назад последовательность была почти такой же, с одним исключением: арабский был на десятом месте.
А если проводить сравнение с 2000-м годом, то число арабоязычных пользователей вырасло в 21 раз, в то время как остальные языки "удлинились” в диапазоне от 99% (японский) до 755% (китайский).

Если кого-нибудь волнует Россия, то она - аккуратно на одиннадцатом месте. Число пользователей – 32.7 миллиона, рост числа пользователей по сравнению с 2000-м годом – 954%.

Арабского и иврита девелоперы боятся как огня, жуткие сказки о BiDi рассказывают друг другу на ночь приглушенными голосами, а баги они переадресуют друг другу веками. Я чего-то тут решил тряхнуть стариной и помочь населению: попросил все баги переправить мне, пообнюхивал, пофиксил через вставку U+200E и U+200F и задумался. Должен же существовать способ автоматического определения глюков с BiDi при переводе текста из LTR в RTL (типа в “الوصول إلى ملف data port (.dpt)‎ ، يجب ” разлетаются скобки “الوصول إلى ملف data port (.dpt) ، يجب ” ). Или всё, что не укладывается в стандарт, всегда фиксится руками? А? Френды?

Уж очень не хочется самому писать анализатор…

С месяц назад мне на глаза попалась презентация Controlled English / Simplified English Бэрри Брастера (Berry Braster), которая впечатления не произвела, но запомнилась. Бэрри – директор американского отделения фирмы Tedopres, которая, собственно, и пытается продавать свои услуги в области Controlled Language (www.controlledenglish.com). Из презентации не очень понятно, как они продают себя клиентам, но в январском выпуске Multilingual выйдет его статья (под катом), которая кое-что объясняет. Основные пункты “продажи” выглядят примерно так: контролируемый язык дает

- улучшение “читабельности”
- уменьшение объема исходного текста на 15%
- увеличение процента утилизации при использовании Translation Memory на 10%
- как следствие – общее снижение стоимости локализации на 27%

Достигается это все типа за три простых шага: создание “словаря”, обучение персонала и использование спецсофта. Статья тоже оставляет много вопросов, на что, видимо, и расчет: если, например, кто-нибудь захочет узнать, а какой софт-то нужно использовать, то придется обращаться к Tedopres, а уж они своего шанса не упустят.

Ясно, что 27% экономии – это невсосуемо огромная цифра; клиенты убивают вендоров за 5%, а тут – просто клад, а народ мимо ходит. Что-то тут не то. Я, разумеется, полез все это проверять, кое-что накопал и сделал для себя выводы. Выводы разные. Главный: если вы не понимаете, что, зачем и как нужно делать, то лучше туда и не лезть. Люди, пишушие документацию, ненавидят, когда им указывают, как нужно писать. Люди, читающие документацию, ненавидят, когда им пишут в приказном тоне. Составление словаря для документации менее 100-150 тысяч слов “сожрет” всю экономию от снижения стоимости локализации. Те, у кого есть специализированный софт (Lionbridge, например), его не продают, а разработка и сопровождение такого рода софта – это еще те деньги. Внедрение системы может закончиться неудачей (как у Hewlett Packard). А экономия в конце может оказаться копеечной. И так далее.

Но что-то в этом есть: что-то меня мучает... Пока что не пойму, что :)
В общем – читайте статью: может, чего навеет полезного :)

( Read more... )

Вчерашний пост про Lionbridge я оборвал буквально на середине и убежал по делам. А сегодня уже и дописывать лень, но я все-таки спою…

Lionbridge – вполне себе диверсифицированная фирма: у них есть около тысячи девелоперов в Мумбаях, отрабатывающих софтовые аутсорсинговые проекты (в том числе и от Майкрософт), у них есть большой штат технических писателей (проекты в диапазоне от написания руководств к оборудованию Hewlett Packard до технической документации для военно-воздушных сил), есть некоторое количество толмачей, работающих для госструктур США, есть машинный перевод и много еще чего. Да и собственно локализационные проекты – штука инерционная, длящаяся месяцы, и даже при самом плохом раскладе поток денег не иссякнет довольно долго.

В общем, мы могли бы пойти в разведку, мы могли бы играть в кино, но уже совсем не с кем и – главное - поздно. Кредит доверия исчерпан: акционеры уже давно не реагируют на новости PR-отдела о заключении очередного суперстратегического соглашения с малоизвестными фирмами. Ждут ~~мяса~~ денег. А ближайший квартальный отчет – в конце января; при нынешнем раскладе это – вечность, до января можно просто физически не дотянуть. И даже если результаты квартала получатся удачными, то годовой баланс будет близок к нулю: начало года было традиционно убыточным. Реагировать будет не на что.

Какие еще есть варианты? Взять кредит? - Ясно, что кредитов не дадут: во-первых, таких ясноглазых соколов в очередях на кредиты ~~как до Китая раком~~ уже тысячи, а во-вторых, под что кредит давать?
Пойти кланяться к местным властям на тему “шеф, все пропало, гипс снимают, клиент уезжает”? – Ну, фирма-то крупная только как сумма отдельных подразделений, а каждый отдельный офис – это очень мелкий аквариум: одна-две пираньи и десяток гупёшек. Штаб-квартира фирмы – далеко не градообразующее предприятие, а налоги они платят и вовсе где попало. Таких не спасают, на таких отыгрываются.
Фокусы типа reverse split или buyback? – Имея ярко выраженный звездец в зените, борожом пить поздно.

Но есть же еще темная сторона Силы: их VP of Operations за свою жизнь уволила больше народу, чем слов в этом посте. Думаю, что этот деревянный вариант и отыграют: закрыть пару офисов, повыгонять часть рабочих рук, выйти из долларового диапазона, дотянуть до Нового года.
В общем, такое лучше наблюдать заочно и с почтительного расстояния…

Это случилось: акции крупнейшей локализационной фирмы Lionbridge (торгуются как LIOX) второй день болтаются ниже доллара: текущая цена $0.75 за акцию. Если вчера еще можно было сваливать на то, что рынок падает, то сегодня уже сомнений не остается: за день Nasdaq поднялся на 5%, а LIOX опустился на 24%. Стоимость фирмы (market cap) составил $42 миллиона; по моим прикидкам это меньше суммы, которую Lionbridge должен банкам и VC по кредитам на покупку Bowne Global Solutions. По памяти расклад был примерно такой: около 130 миллионов у них было в банке, 10 миллионов отдали акциями, 52 миллиона заняли. Сколько они отдали за три года? – Думаю, что как раз миллионов 10. Но есть же еще проценты.

Я еще три года назад говорил, что мы столько не стОим :) Нет, угораздило же Рори пообещать акционерам, что он сделает из Lionbridge полумиллиардную фирму…
Не допрыгнул, надорвался.

В аналогичной ситуации в 2001 году они выкарабкались, снизив расценки чуть ли не до себестоимости. Было хорошо известно, что Lionbridge выигрывает все тендеры, и всегда было ясно, что это делается себе в убыток: там, где BGS, SDL и Mendez брали 19 центов за слово, Lionbridge просил 14-16, а то и ниже. Разница была в том, что тогда фирма не была должна банкам, и выкарабкаться было возможно хотя бы технически.

Что будет сейчас? – Сложно сказать. Их не купил Xerox, когда акции LIOX стОили $3. Их не купили индусы (Vipro), когда акции стоили $2,5.
С другой стороны, поглощать их ровно сейчас по дешевке – это на самом деле неплохой вариант: ты платишь, скажем, $50M за фирму + вешаешь на себя миллионов 60 долгов. Учитывая обороты (400-450 миллионов) прибыльность (3-4%), получается прямо по учебнику: при самом плохом раскладе сделка за 7 лет окупается.

Единственно, что делать это нужно буквально в понедельник-вторник:

пока не разбежались клиенты
пока остался хоть кто-то из толковых сотрудников
пока фирма не начала какие-нибудь манипуляции (если акции поднимутся чуть выше доллара, сделка перестает иметь смысл)

Покупать и быстро менять руководство :)
А то будет как с Yahoo: долго, мучительно и зря…

PS. Если кому интересно… Легенда гласит, что название LioNBRIDGE возникло как симбиоз аббревиатуры L10N (обозначающей локализацию) и “львиного” имени владельца (имя “Рори” похоже на “roar” – типа львиный рык). Любит он себя…

“- Вы Йобана мать?
- Я Йобана мать!
- Плачь, женщина! Убили Йобана!”
(Филологическая разговорная шутка из жизни югославских партизан)

Один из самых экзотических способов запороть проект – это с легкостью подписаться на локализацию голосовых информационых команд в софте (о играх и мультимедии я не говорю, там другой мир). Типа "Планета... Шелесяка... Растителности... нет... Населена... роботами... Нажми кнопку ..."Х"... чтобы узнать свое будущее."
Допустим, у вас есть все необходимое: звуковая студия в мансарде, цифровые микрофоны из Австралии, компьютеры, софт, техники, звукоооператоры, база данных дикторов и клиент, которому в голову взбрело добавить к почтовому серверу функцию чтения писем по телефону. Клиент ничего не понимает в локализации и voice prompt-ах, но горит желанием и предлагает делать локализацию в параллель с разработкой сервера. Проект начинается в ноябре. Рассмотрим два возможных варианта:

Сценарий номер 1. Вы соглашаетесь.
Проблема номер один: дикторы. Дикторы – существа капризные и дорогостоящие. Предлагать им приходить каждый день и записывать по пару фраз – разоришься. Клиент столько платить не станет никогда. Посоветовавшись со знатоками, заключаешь с диктором договор на два месяца, а там как масть пойдет. В течение двух месяцев диктор обязан участвовать в четырех сессиях: две для записи, две – для исправления ошибок после прослушивания и интеграции в софт. На практике это выливается в 8-10 оплачиваемых сессий (тон и темп диктора зависят от настроения и расположения звезд, и склеить “двадцать” и “пять” так, чтобы это звучало натурально, не всегда получается, хотя обработка софтом может помочь. Но при большом количестве команд и привередливом клиенте это не вариант) с практически полным переписыванием материала в каждой сессии. После новогодних праздников диктор простужается и у него пропадает голос.
Клиент решает, что вы не в состоянии справиться с проектом. Проект теряется.

Сценарий номер 2. Вы не соглашаетесь.
Вы пытаетесь предусмотреть все возможные варианты, объяснить все детали клиенту и предлагаете произвести запись в конце цикла разработки.
Клиент решает, что вы ему пудрите мозги. Проект теряется.

Предположим, что все обошлось, клиент попался ~~не буйный~~ покладистый: с пятого раза понял разницу между мандаринским и кантонским диалектами, платит как скажешь, соглашается на измененный график и запись материала в конце. Ждем конца, пишем. Оказывается, софт не в состоянии работать с русским и итальянским. Первый же voice prompt накодирован примерно так:

SingularForm = “Hello! You have one message in your mailbox!”
PluralForm = “Hello! You have %1 messages in your mailbox!”

Без вариантов. Либо одно сообщение, либо много. Софт не понимает, что в других (не-английских) языках может быть “три сообщения”, но “пять сообщений”. При локализации собственно софта о такие строки спотыкаешься часто, но и решение известно: громко выматериться и использовать сокращения (“В Вашем почтовом ящике %1 сообщ.”) или изменить структуру (“Число сообщений: %1").
С voice prompts такое не пройдет: работа с числительными, днями недели, названиями месяцев – это медленная смерть.
В этом случае теряется и проект и клиент: пойти на поводу у вендора и так подставиться – такое не прощается.

Хорошего решения в рамках локализации проблема не имеет. Правильный подход: работать с клиентом на этапе написания спецификаций. Для достижения такого уровня координации требуются годы успешной работы и полное доверие. Если они есть – молитесь! :)

На одном из последних конференций Localization World наклюнулась было панель по community localization, но тут же рассосалась: из 25 присутствовавших локализационных фирм никто на эту модную тему ничего внятного сказать не смог. Ведущая выборочно ткнула в Arturo Quintero (это одиозная фигура, такой Жириновский от локализации – то в аэропорту с конкурентом подерется, то выступит так, что его потом на всех углах цитируют), я даже видеокамеру включил. Но лихой мексиканский хлопец бормотал не в лад и невпопад.
Я этой темой немного интересовался, так что изложу… Коротенько.

Для явления есть красивое слово: crowdsourcing, означающая примерно “изготовление толпой”. Популярная в последние два-три года идея community translation (“перевод [силами] сообщества”): модели по образу и подобию опенсорса, где локализация осуществлялась бы безвозмездно (“то есть, даром” (с) ) отдельными переводчиками или группами энтузиастов. Явление в природе существует и в большинстве случаев выражается в отдельных небольших любительских переводах постов и новостей. Это было бы туда-сюда, но есть несколько проектов, будоражащих умы и не дающих остыть интересу к community localization:

Google использовал модель для переводов софта на языки третьей группы (проекты в 12-15 тысяч слов).
Sun Microsystems придерживается модели для бесплатного перевода документации. На самом деле им это и правда неплохо удается.
Facebook community localization. Это, собственно, то, что не дает теме засохнуть: перевод Facebook на 20 языков, включая русский, выполнен энтузиастами. Facebook заявляет, что еще 43 языка – в процессе.

Такая модель в пределе при всей кажущейся финансовой притягательности на самом деле малопригодна для коммерческого применения по двум причинам:

1. Общее настроение, выраженное одним из корейских переводчиков Wikipedia:

“Wikipedia – явление альтруистическое, добровольное, поддерживаемое пожертвованиями, приводящее к распространению информации, Facebook – его прямая противоположность. Поэтому люди не должны тратить свое время и энергию, поддерживая многомиллионную корпорацию, чтобы она на этом заработала еще больше миллионов. Во всяком случае, перевод не должен выполняться даром.”

Это – распространенное (и IMHO весьма справедливое) мнение, и оно тактически является существенным препятствием на пути коммерческих проектов.

2. Крайне низкое качество перевода. Бесплатные переводы, выполненные для Google, были чудовищными: качество перевода на ~60% языков было ниже принятых стандартов, ~20% языков содержало оскорбительные или неполиткорректные переводы. Если хочется испортить себе репутацию, то crowdsourcing коммерческих продуктов очень быстро приведет к цели.

С другой стороны, community-based модель неплохо работают для open source software (OSS) в небольших/средних небюджетных проектах: там и ожидания занижены, и объемы небольшие (никаких миллионов слов перевода, как, скажем, у Adobe или Sybase). Как я писал, по статистике типичные опенсорсные проекты – небольшие, с одним-двумя разработчиками и незначительным воздествием на рынок. Большинство опенсорсных проектов никогда не локализаются на другие языки. По локализованным продуктам данные примерно такие:

1.       Число слов в большинстве опенсорсных локализационных проектов не превышает 15 тысяч слов. Пример типичного проекта: Mojiti (1117 фраз).
2.       Есть единичные крупные долгосрочные локализационные проекты (большая часть связана с Линуксом).
3.       Подавляющее большинство переводчиков (более 95%), участвующих в долгосрочных проектах, переводят менее 10 тысяч слов на человека. Единичные переводчики отрабатывают 20-30 тысяч слов. Встречаются данные о людях, на счету которых 50-150 тысяч слов (встретившийся рекордсмен в этом деле, кстати, русский: может быть, он не умеет считать, но по самым скромным расценкам он мог бы получить 12 тысяч долларов). Это, собственно, еще одно ограничение модели: низкая пропускная способность и слабая управляемость.
4.       Подробная документация часто переводится только выборочно из-за проблем с ресурсами (сложность отслеживания, что переведено, а что нет, тут тоже играет роль). В то же время важные для пользователей разделы обычно все же переводятся полностью.
5.       Качество перевода чаще всего крайне низкое, но подразумевается, что если кому чего не нравится, тот то сам и исправит и свяжется с авторами документации или софта. Читая переводы, есть ощущение, что этого не происходит.

Есть еще комбинированный вариант, используемый коммерческими фирмами: перевод осуществляется силами студентов не совсем даром, но дешевле, чем обычно. Студентам – практика, а фирмам – прибыль. Пример - перевод Visual Studio 2008 и .NET 2.5 на бразильский выполнен студентами и MVP. Гибридная схема не устраняет врожденных проблем модели, но позволяет лучше планировать сроки локализации и переводить гораздо большие объемы.

В качестве короткого вывода: если у вас коммерческий проект, то не царское это дело. Лучше заплатить две тысячи за перевод, чем десять тысяч за восстановление репутации.

ЗЫ. Если у кого есть дополнительные цифры и данные на эту тему – буду благодарен за информацию.

Если кому интересны события в мире локализационных монстров и зубров: акции крупнейшей локализационной фирмы LioNBRIDGE упали почти до двух долларов за акцию, подешевев за день почти на 17 процентов. Еще год назад акционеры, помнится, мечтали о десяти долларах за акцию…

Рыночная стоимость фирмы (Market Cap) опустилась до 120 миллионов долларов. Чтобы дать масштаб: это на 10 процентов меньше, фирма имела на счете в банке в 2003 году. Это почти в два раза меньше, чем LioNBRIDGE заплатил за покупку Bowne Global Solutions. Это почти в 4 раза меньше, чем обороты фирмы в прошлом году.

Фирма полумиллиардного масштаба за 120 миллионов – это подарок любому, кто надеется выгодно вложить капитал (но еще не знает, какой за этим скрывается геморрой :) ). Тем не менее, ходят слухи о двух потенциальных покупателях: индийская Wipro и Xerox. Есть еще третий вариант – не продаваться совсем. В этом случае Рори Кован (CEO) второй раз в жизни будет близок к тому, чтобы потерять фирму. Хотя, собственно, нынешняя финансовая яма вырыта в том числе и его молитвами.

В дополнение к этому на LioNBRIDGE падают другие неприятности: на прошлой неделе офисы фирмы провели ряд забастовок в знак протеста против увольнений лидера только что созданного профсоюза в польском офисе. История там и правда нездоровая: с шантажом и угрозами со стороны фирмы и судом. Как я понимаю, международная солидарность проявлена из небезосновательных опасений, что такое может произойти в любом другом офисе.

Хочу продолжить тему, почему одни фирмы на рынке выигрывают, а другие – проигрывают. Мысль о том, что пираты являются разносчиками прогресса и залогом успеха той или иной софтины, а маркетинговые усилия, функционал софта и правильные решения тут как бы и не при чем – это остроумно и способно увлечь впечатлительные массы. Другими популярными идеями являются связи в правительствах, расположение звезд, подкуп конкурентов, страшный и ужасный Media Player, встроенный в винду и прочая: you name it.

У меня на этот счет гораздо более прозаичные мысли. Ну, чтобы опять же далеко не ходить, взять хотя бы российский рынок интернет-браузеров и попробовать разобраться, почему в конце 90-х Internet Explorer стал популярным браузером, а Opera и Netscape пролетели. В картинках.

Картинка первая. Сюреш

Человека, отвечающего за политику Netscape в России звали Сюреш Патэл. Имя соответствовало общему сюру: Сюреш был индусом, родившимся в Англии, жившим в Австрии, работавшем в Германии. И – самое страшное - отвечавшим за Россию. Мысль о том, что для российского рынка нужна локализованная версия Netscape Communicator и техподдержка продуктов, была ему не чужда, но потребовалось почти полгода, чтобы получить от него согласие и контракт на перевод. Все эти долгие месяцы он проводил где угодно, только не в России. Выцепить его для переговоров удалось на Комтеке, куда он прилетел на пару дней.

Сказать, что на этом все закончилось – это ничего не сказать. Ни обещанных исходников, ни изменения кода для поддержки национальных стандартов – ничего не было прислано/сделано ни Нетскейпом ни Сюрешем. На письма они отвечали раз в месяц. От безнадеги я начал разбираться в том, как эта софтина устроена: выяснилось, что все незамысловато. Софт можно разобрать на ресурсы, а справку – на HTML-и. Я пару вечеров посидел за компом, сделал черновой перевод софта. Запустил - работает! “Вот оно, счастье!”

Дальнейший ужас я подробно описывать не буду, скажу только, что Сюреша уволили, дело утрясал глава Европейского Нетскейпа, за локализацию нам никто и никогда не заплатил, зато разрешили убрать из продукта упоминание Netscape и выпустить его со своим логотипом.

Вот скажите, это что – политика, ведущая к успеху и доминированию на рынке?

Картинка вторая. Опера

Мужик на фотографии с мегафоном – один из директоров фирмы Opera Software, занимающейся протестами и засуживанием конкурентов… Ой, то есть, конечно, разработкой браузеров.

В общем, человека зовут Хокон Ли, он – технический директор фирмы. Он протестует против OOXML.

Вовзращаясь к теме… Примерно во время эпопеи с Нетскейпом, я связывался и с Opera Software. Моим контактом был один из директоров фирмы, отвечающий за продвижение браузера на международном рынке. Обычно он не отвечал на письма и звонки, но, когда ему было совсем нечего делать, он звонил мне сам и ~~правой рукой~~ по телефону мечтал о том, чтобы Opera была переведена на все языки мира, включая русский. Когда я спрашивал о том, что планируется делать для завоевания российского рынка, он мне честно отвечал, что ЮАР на международном рынке для него важнее России (я могу ошибаться, но он сам был, кажется, ровно из Южной Африки), да и переводить туда ничего не надо. А в настоящее время он вообще находится в Андорре, где ведет переговоры с важным клиентом.

В России он не был и не собирался.

Теперь эта фирма, для которой Андорра важнее России, а технические директора вместо руководства разработкой софта стоят в пикетах, непрерывно жалуется, что Microsoft мешает честной конкуренции.

Задам тот же вопрос: вот это что – политика, ведущая к успеху и доминированию на рынке?

Картина третья. MS IE

А что в это время делал злобный Microsoft?

Да ничего особенного. Локализовал себе, помнится, Internet Explorer на русский язык и подло осуществлял его раскрутку через московское представительство и партнерскую сеть.

Читая некоторые статьи, оправдывающие пиратство, выдавая его за двигатель прогресса, не оставляет ощущение, что тебя держат за идиота, элементарно подтасовывая факты. По цепочке через dantilly прочел об изысках некоего Ariel Katz:

“В частности, автор ссылается как раз на пример продукта Microsoft Word и таких альтернатив, как Corel Word Perfect и так далее. То есть он сделал предположение, что не без помощи пиратов продукт Microsoft стал одним из основных, фактически единственным, на рынке сегодня текстовым редактором. Это достаточно хорошо перекликается с упоминанием о ситуации в России. То есть до какого-то времени в отношении пиратства не предпринималось никаких мер, или они больше заключались в словесном порицании пиратов, какие они «нехорошие», пока продукт не захватил рынок полностью. После этого уже стали применять меры по борьбе с пиратством по-настоящему».”

Даже не задаваясь вопросом “а с чего бы это пираты так благоволили ненавистным продуктам Майкрософт?”, бросается в глаза явное незнание предмета.

Если взять тот же рынок офисных наборов, что было в наличие 15 лет назад? - Word Perfect Office, Lotus Smart Suite и Microsoft Office.
Word Perfect был самым популярным текстовым процессором в мире, а Word Perfect Office был в принципе самым полнофункциональным и продвинутым набором – с поддержкой SGML, разметки, продвинутым встроенным языком программирования и всем таким.
Lotus 1-2-3 был самым популярным в мире табличным процессором – фактически стандартом в этой области. Хотя, был еще Quattro Pro, популярные еще с Борланда, поскольку именно там впервые появился настоящий WYSIWYG. В Lotus-овский набор входил популярный AmiPro. Но – главное – он интегрировался с Lotus Notes, поэтому все фирмы, автоматизирующие документооборот, рассматривали Lotus Smart Suite как основной продукт.
Что касается Microsoft Office, он был средним неуклюжим продуктом, на который пользовали других пакетов смотрели более чем снисходительно.

Что из этого тащили пираты? – Всё тащили. Никакой дескриминации не было.

Что из этого переводилось на другие языки? – Всё переводилось. Это на самом деле немаловажно.

Что произошло дальше?

Word Perfect Office. Рэя Ноорду сместили, на его место поставили Боба Франкенберга, который продал Word Perfect Office канадской фирме Corel. Программисты разбежались (переезжать из Юты в Канаду? – Вы шутите!), а Corel потратил 5 лет на то, чтобы научиться продавать новый для себя продукт: рынок был потерян. Локализация на бОльшую часть языков (включая русский) прекратилась: международные рынки были потеряны.
Lotus SmartSuite. Джим Мэнзи продал Lotus косолапой фирме IBM. Программисты частично разбежались (включая Рэя Оззи, который теперь вице-президент в Майкрософт), а IBM так никогда и не научилась продавать новый для себя продукт: рынок ушел навсегда. Локализация на бОльшую часть языков (включая русский) прекратилась: международный рынок фирмой IBM был честно прохлопан.
За то же время Microsoft никому ничего не продавал, фокусируясь на выпуске новых версий Microsoft Office, сделал несколько наборов для разных групп пользователей, локализовал его на 36 языков (включая русский. И – отдельной строкой – не свернул локализацию в 1998 году, как это сделали 99% западных фирм), пОтом и кровью научился его продавать, интегрировал его со средствами разработки приложений, накрутил вокруг офиса сервисов и сделал еще много чего правильного.

Что должен сказать честный автор, сравнивая эти три истории? – а. Продажа фирмы больно бьет по продажам софта. б. Продажа фирмы с переездом больно бьет по мозгам. в. Продажа в кривые руки – это смерть. г. Пираты тут не при чем. Все это время пираты тащили все эти пакеты и тащат по сей день: Corel Word Perfect Office и ломалки регулярно мелькают во всех злачных местах. А Lotus Symphony (в девичестве – тот самый SmartSuite, только без AmiPro) и вообще бесплатен: тяни – не хочу.

Вот, как-то так…

Чтобы машинный перевод заработал, технологий мало, нужна вера. Именно она после долгих проб и ошибок в клюве принесла процесс: нескладный, нестандартный, но работающий и удешевляющий перевод. За годы обсасыванья счетов и рассматриванья каждой цифты под микроскопом, клиенты поняли: самое дорогое в локализации – перевод документации (перевод софта обычно составляет меньше общей 10% стоимости проекта), а в переводе документации – собственно перевод. Из трех основных операций (перевод, редактирование, вычитка) перевод – самый дорогой и собственно острие MT направлено именно туда.
Полный процесс снижения стоимости перевода условно укладывается в шесть шагов.

1. Написание документации
На этапе планирования для авторов документации и справочной системы устанавливаются правила, определяющие среди прочего:

Единообразное использование терминологии и повторяющихся элементов. Это позволяет снизить стоимость на пару процентов за счет использования Translation Memory: повторяющиеся строки переходят из категории “New words” (новые слова для перевода) в категорию “Repetitions” (полностью повторяющиеся сегменты), которая обходится клиентам процентов на 70 дешевле. В качестве примера приведу фирму Adobe: когда-то они выяснили, что в документации к разным их продуктам встречается несколько десятков различных вариантов написания строки копирайта. Соответственно, они столько раз заплатили за ее перевод. Если бы строка была одна, перевести ее можно было один раз. (Теперь это исправлено :) ).
Построение фраз: фразы должны быть короткими, однозначными, по возможности соответствующими набору рекомендуемых шаблонов. Такие фразы хорошо отрабатываются системой машинного перевода. Без этого шага все остальные пляски с машинным переводом напрасны. Ничего не выйдет.

2. Утилизация существующих переводов
На документацию натравливается система Translation Memory (возьмем TRADOS для постоты): все, фразы, которые когда-либо переводились, будут переведены как обычно (Full matches или XTranslate), будет произведен поиск похожих фраз и повторений (Fuzzy matches). Для сегментов, принадлежащих к этим категориям, дальнейший процесс перевода происходит как обычно: редактирование, вычитка. Тут ничего не меняется.
Всё остальное (не найденное в Translation Memory) остается помеченным как “New words” и уходит на следующую стадию.

3. Машинный перевод
На этом этапе должны использоваться только системы машинного перевода, обеспечивающие некий минимально достаточный уровень качества (в основном – статистические). Единых критериев тут, кажется, нет. Когда-то я предложил удовлетворительной считать систему МТ, которая может перевести популярную песню на другой язык и назад так, чтобы по переводу можно было догадаться, над какой песней мы тут издеваемся. Шутка в целом прижилась :)
Машинный перевод выполняется для всех сегментов, помеченных как “New words”. Теоретически система машинного перевода в состоянии даже оценить степень достоверности результата исходя из используемых вероятностей, но на практике эта оценка является крайне недостоверной. По окончании этого этапа не остается непереведенных сегментов: либо для них нашли перевод в Translation Memory, либо прогнали через MT.

4. Автоматическое исправление перевода
На сегменты, прошедшие стадию машинного перевода, натравливаются фильтры, исправляющие известные регулярные ошибки: они подправляют склонения и спряжения, переставляют местами слова и фрагменты, правят пунктуацию и пр. Может быть проверена орфография и исправлены встретившиеся очевидные ошибки.
Важный момент: “известные регулярные ошибки” неизвестны до тех пор, пока первый вариант машинного перевода не попадет в руки лингвистам и они не начнут жаловаться. Поэтому первый проект почти гарантировано обречен на провал; к этому нужно быть готовым, нужно собирать информацию о том, какие ошибки встречаются, что нужно подкрутить, чтобы их стало меньше и пр. В общем, надо верить в то, что будет следующий проект. Без веры – никуда :)
Результат отправляется локализационным вендорам, с которыми договариваются о дальнейших операциях и ценах для двух групп.

5. Проверка и исправление перевода
Для сегментов, прошедших через TRADOS (шаг 2) делаются следующие операции:

Для Full Matches производится вычитка (стоимость – около 30% от стоимости перевода новых слов)
Для Fuzzy Matches производится редактирование (стоимость – около 60% от стоимости перевода новых слов)
За Xtranslate (полное совпадение в контексте) никто не платит. Стоимость – 0.
За Repetitions платят где-то 30% от полной стоимости… Хотя, это от вендора зависит.

6. Пост-редактирование MT
Стандартных цен для пост-редактирования машинного перевода (шаги 3 и 4) нет совсем никаких, тут как договоришься: некоторые вендоры совсем не берутся за такое, некоторые берутся за 90% от полной стоимости перевода, некоторые – за 80%. Ниже, кажется, не бывает. Но даже 10% скидки – это неплохая прибавка к пенсии…
Важно тут вот что: на малых объемах это не работает. К машинному переводу нужно привыкнуть и нужен особый склад ума (см. “вера” :) ), чтобы с ним работать вообще. Первые две недели производительность переводчиков может быть ниже стандартной раза в два – это почти норма. Если выбраны правильные лингвисты и качество машинного перевода действительно неплохое, то середине третьей недели наступает просветление и производительность резко возрастает. Приведу пример: для перевода на французский нормой считается примерно 2000 слов в день на человека. Первые две недели проверки машинного перевода французы матом крыли всех и писали, что производительность – где-то в районе тысячи слов в день. По окончании третьей недели им было предложено прекратить проект, но они внезапно начали бурно протестовать: оказалось, что они в это дело “воткнулись” и производительность выросла до 5000 слов в день на человека.
Но в принципе нужно быть готовым и к худшему варианту: если время идет, а производительность не растет, нужно останавливать проект.

Я этот пост переписывал раза четыре: хотелось на примерах показать во что это выливается в цифрах, но получалось крайне неуклюже. В общем, чтобы не утомлять выкладками, приведу три группы цифр. Возьмем гипотетический проект в 300 тысяч слов перевода при цене 30 центов за перевод одного слова.

Стоимость обычного перевода “с нуля” без использования TRADOS-а и машинного перевода, соответственно, будет 90 тысяч долларов.
При использовании машинного перевода и TRADOS-a стоимость снижается примерно до 76 тысяч долларов; снижение в основном за счет машинного перевода
Локализация документации следующей версии продукта (я взял условно-усредненный сценарий с тем же количеством слов) обойдется в 40 тысяч долларов: снижение в основном за счет TRADOS-а

В общем, вот так вот оно как-то…
Попозже еще напишу :)

На кой этот машинный перевод (MT) вообще нужен и за что там берут деньги-то.
Отбросив разработки под заказ для всяких контор типа Минобороны, мы остаемся с очень лукавым набором. По причинам того, зачем MT возникает на горизонте, проекты условно можно поделить на пять категорий:

1. Приманка

Это, пожалуй, самый забавный способ использования MT. Делается это так: вендор приходит к потенциальному клиенту и предлагает очень низкие расценки на перевод: там, где, другие берут по 20 центов за слово, предлагается перевести по 14-16 центов. Запускается разноцветная презентация и в танце рассказывается о технологической продвинутости вендора: система машинного перевода позволяет сэкономить на собственно переводе, а о качестве не стоит и беспокоиться - в другом кармане у вендора (на слайде номер четыре) обитает проверенная веками система проверки качества, которая, знаете ли, гарантирует.
Если клиента удается раскрутить, перевод просто отправляют самым дешевым переводчикам, берущим по 6 центов за слово и под видом перевода обычно возвращающим полную пургу. Никаким машинным переводом при этом в процессе и не пахнет, но качество получается вполне сравнимое… Впрочем, на MT сваливаются все проблемы клиента…
Посылайте таких друзей открытым текстом. Дешево и качественно не бывает.

2. Эрзац локализации

То же самое, что и предыдущий вариант, только наоборот. Начало такое же: подкат, низкие цены, все такое… Про машинный перевод не упоминается, но в реальности перевод осуществляется какой-нибудь системой типа Google Linguistic Tools или SYSTRAN и присылается клиенту как окончательный вариант перевода. Будучи пойман за руку, вендор может с честными глазами утверждать, что они отработали свои деньги: сидели днями и ночами, копировали текст из одного окна в другое. Этот бред у нас песней зовется…
Интересно, что именно этот вариант всплывает все чаще и чаще: лет пять назад такое проворачивали канадцы, но там хотя бы была никому не известная контора. А с год назад я споткнулся о перевод известной российской локализационной конторы, которая, будучи прижатой к стенке, покололась, что прогнала текст через какую-то MT, но больше этого не повторится.
Рекомендация: любой перевод нужно отправлять на проверку лингвистам. Они такие вещи выщелкивают за пару минут: по общей несвязухе, навязчивому использованию внеконтекстных терминов, шаблонным структурам и прочему.

3. Дурная голова

Самое страшное – это когда какая-нибудь MT попадает в лапы клиента и он начинает мучать ею вендоров. Казалось, ничего не предвещало беды, но внезапно клиент присылает тебе бессмысленный набор слов, обосновывая это техническим прогрессом и манией экспериментирования. Предлагается за фиксированную плату “немножко подправить перевод”. Если клиенту сразу не вправить мозги, то примерно через месяц все ненавидят всех, теряются деньги, проекты, сон. Проблемы тут обычно три:

клиент уже заплатил за систему MT и копытом бьет – хочет отработать деньги
клиентскому начальству уже пообещали, что локализация теперь будет стоить 15 тысяч долларов, а не 120 тысяч, как раньше
очень сложно объяснить ничего не понимающим ни в лингвистике ни в MT клиентским начальникам, что переводом этот набор слов не является

Вляпавшимся в такую ситуацию вендорам один совет: уходите в несознанку, ни за что не соглашайтесь на эксперименты на условиях клиента. Вправляйте мозги. Если не получается – уходите огородами. Клиент вернется. :) Согласие обойдется дороже: во время переговоров с одной немецкой локализационной фирмой (на самом деле великая фирма – с сетью переводчиков и лингвистов высшего класса, студиями звукозаписи и постоянными заказчиками типа Deutsche Welle) я упомянул машинный перевод. Они аж с лица сошли. Я такого в жизни не видел: готовы были встать и уйти, отказаться от довольно легкого проекта на нескольких сотен тысяч долларов; пришлось им пообещать, что никакого машинного перевода не будет, и потом долго еще выспрашивать, кто же это над вами так надругался и выслушивать душераздирающие истории…

4. Время

В отличие от предыдущих двух вариантов этот действительно подразумевает использование MT по назначению, но с побочными эффектами.
Есть набор клиентов, которым действительно кроме машинного перевода ничего не подойдет: им нужен “мгновенный” перевод со сносным качеством. Ждать они не могут по тем или иным причинам: например, госавтоинспекции ~~поселка городского типа~~ Нью-Йорка важно, чтобы любые изменения в законодательстве сразу же становились доступны на их веб-сайте на испанском языке – одновременно с англоязычным оригиналом. Для этой цели используется машинный перевод, а через 2-4 дня он подменяется человечьим текстом (обычный перевод делается отдельно).
Для такого сценария разрабатываются специальные “словари”, скармливаемые системе; берутся существующие переведенные документы, делается частотный анализ, alignment, все это закидывается в базу правил и терминов, используемую MT. Условно говоря, система “затачивается” под перевод очень определенных документов, чтобы результат мог быть хотя бы понят; для этого существует термин intelligibility (“понятность, доступность”): если даже перевод – полная туфта, но его можно понять, то говорится, что у результата приемлемая intelligibility.
За создание индивидуальных словарей берется 20-30 тысяч долларов за одну языковую пару. Ну, и за обычный перевод/подчистку берется отдельно, по стандартным расценкам.
В принципе-то ничего себе вариант… Дороговато только.

5. Деньги

Про это будет следующий тематический пост :) Он у меня уже в процессе, так что ждать недолго… :)

Статистический машинный перевод (SMT) основывается на модели, в которой вычисляется вероятность появления в переводе каждого слова из имеющегося набора переведенных предложений, и выбирается вариант с наибольшими вероятностями. Для того, чтобы метод заработал, требуется наличие большой базы существующих правильных переводов, выполненных людьми: моя оценка минимального объема существующих переводов для получения условно-приемлемого качества SMT – три миллиона слов. Я встречал обоснование достаточности меньших объемов (700 тысяч слов), но я ему не очень верю… На текущий момент SMT является наиболее успешной реализацией идеи машинного перевода: она действительно работает. Ее не всякий может себе позволить (крупные базы переводов есть очень не у всех), но…

Приведу пример того, как это работает. Предположим, что нужно перевести “Bush is an idiot” на русский язык. Для начала алгоритмом оптимизации поиска отсекаются переводы, в которых не встречаются слова из исходной фразы, чтобы не перебирать слишком большой объем данных. Дальше определяется набор статистических вероятностей; например, выясняется, что для слова “Bush” есть два всплеска: на слове “куст” и на слове “Буш” (оба этих русских слова встречаются в переводах английских фраз, содержащих слово Bush). Аналогично для “idiot” найдется “идиот” и пара нецензурных вариаций. Для “is” и “an” тоже что-нибудь определится, но, с большой степенью вероятности, результат не будет иметь явно выраженных пиков и будет “прибит” шумодавами SMT (может, и зря). Но на втором проходе выясняется, что вероятность встретить сочетание слов “куст” и “идиот” в одном предложении практически равна нулю, а “Буш” и “идиот” – наоборот, встречается повсеместно. Аналогичные действия производятся для последовательности слов в переводе и синтаксиса. Конечный перевод будет выглядеть как “Буш идиот” (что, безусловно, правильно).

На уровне перевода отдельных фраз это работает более-менее сносно. Следующий шаг в развитии SMT – перенести этот прием на уровень текста: должен анализироваться весь текст, потом система спустится на уровень абзацев, а потом – на уровень предложений. Посик и анализ при этом существенно усложняются, но зато MT может начать “улавливать” контекст и выдавать правильный набор слов. Что-то такое в природе есть, но реально работающие системы ограничиваются статистическим анализом уровня предложений, что снижает качество.

Интересно тут следующее: для системы совершенно неважно, как устроен язык, какие у него правила и исключения, как переводится то или иное слово, с какого на какой переводим... На предпоследнем Localization World на семинаре по SMT раздел “вопросы и ответы” с ведущим Kirti Vashee проходил в однообразном режиме “Да какая разница?”:

Вопрос из зала: “А как система статистического машинного перевода обрабатывает ситуацию с переводом концептуальных структур типа (пример из японского)?”
Kirti: “Да это, в общем-то неважно. Какая вероятность выпадет, так и отработает…”
Другой вопрос из зала: “А вот есть еще такой лингвистический парадокс (описывается парадокс). Что с ним делать?”
Kirti: “А нам, в общем, пофиг ваши парадоксы: что нам формула Байеса выдаст, то и будет.”
итп.

Я млел. Просто млел :)

Понятно, что и тут есть куча деталей, которые нужно учитывать.

Наличие необходимого объема исходных переводов (что мало у кого есть). В мире IT каждый выкручивается сам: у Майкрософта есть миллиарды переведенных слов документации, Гугл импортировал 200 миллиардов переведенных слов из базы данных ООН, остальные экспериментируют с меньшими объемами.
Структура. SMT умирает на длинных фразах: если предложение состоит более чем из 10-12 слов, вероятность выдачи полной пурги становится стопроцентной. Для борьбы с этим явлением необходимо, чтобы авторы документации сочиняли свои тексты короткими лаконичными блоками с минимальным количеством экивоков (знакомо? ;) ). Это называется Controlled English – такой эрзац интерлингвы…
Скорость. Перебор – штука крайне медленная даже на уровне слов в предложении. Алгоритмы оптимизации запросов позволяют получать приемлемые выборки, а предварительная обработка “сырых” данных в разы увеличивает скорость их обработки (Google для этого использует MapReduce на своих кластерах нечеловеческого размера). Но как-то мне кажется, что полноценный статистический анализ на уровне текста целиком или хотя бы абзацев до сих пор не реализован: количество “измерений” (и время работы системы) должны увеличиваться на несколько порядков. Поправьте меня, если я ошибаюсь.
Правила. Лингвисты, проверяющие машинный перевод, довольно быстро просекают, что машины допускает одни и те же регулярные ошибки, и создают макры, которые исправляют их по всему тексту – глобально. По научному это называется “Automated post-editing” и на эту тему можно почитать статью Hugh Lowson-Tancred в последнем выпуске Multilingual. Ничего особенного, впрочем… В свою очередь разработчики систем машинного перевода для улучшения качества SMT вводят правила, избавляющие перевод от этих ошибок: никуда от этого не деться. На каждый язык приходится где-то по 12-16 правил. На русский – больше :)
Словари и Translation Memory. Ясно, что, если можно не переводить, а использовать готовое, то это нужно делать: прежде чем использовать SMT, на текст натравливается Translaton Memory в поисках полных совпадений, а словари встраивают в SMT engine.
Качество все равно будет погановатое: теория – теорией, а обольщаться не надо…

В следующий раз напишу на кой все это нужно :)

Уважаемая t_link сделала большое дело: перевела визионерское выступление Билла от 21-го мая сего года. К процессу она подошла творчески (что правильно), но не все удалось, поэтому к результату нужно относиться с осторожностью: рекомендуется заглядывать в оригинал. Я сделал то, что в локализации называется нежным словом “align”: свел оригинал и перевод, чтобы можно было их сравнивать. Пропущенные места я оставил без изменений. Результат выглядит примерно так:

Английский	Русский
ANNOUNCER: Ladies and gentlemen, please welcome Microsoft Chairman Bill Gates. (Applause.)
BILL GATES: Well, good morning, and thanks for coming to Microsoft. I get to talk about some of the ways that software is really going to change the game, not just in search and not even just in advertising, but change the game for so many of the activities that we engage in. You know, 10 years ago we didn't think about software being related to how we organized our photos. We didn't think about software being related to how we organized our purchases. And yet today, those are very much mainstream activities.	Билл Гейтс: Доброе утро и спасибо, что пришли в Майкрософт. В последнее время я часто говорю о том, что очень скоро ПО кардинально изменит ситуацию на рынке ИТ, и речь идет не столько о поисковых системах или рекламе, сколько о многих других вещах, с которыми мы сталкиваемся повсеместно, работая за компьютером. Лет 10 назад, просматривая и сортируя фотографии, мы даже не задумывались о ПО. У нас не было и мысли о ПО, когда мы совершали какие-либо покупки. Но уже сегодня эти вещи напрямую связаны с ПО.
The miracle of software playing a central role, running on the PC, running on your phone, in your car, in the set-top box attached to your TV set, that's going to change dramatically in the years ahead. So I'm here to share some of the ways that our research and development is going to redefine those experiences, and then in turn that will change the way we think about marketing and advertising and the user model of how they find information.	В ближайшие годы роль ПО, которое сегодня используется везде, где только можно: в компьютерах, мобильных устройствах, спутниковых декодерах и т.д., чудесным образом изменится. И сегодня я с удовольствием расскажу вам о том, как наш отдел исследований и разработок (r&d) собирается этого добиться. Речь идет кардинальном изменении отношения людей к ПО. Изменится современное представление о маркетинге, о рекламе, о поиске информации.

Ознакомиться с полной версией можно тут. Билла читать полезно по многим причинам, от "где я, а где гора" до простого интереса: он, бывает и ошибается, но в целом у человека поразительное чутье на тенденции.

Кстати, как нас и учит наука, русский перевод в среднем на 41% длинее английского оригинала :)

К концу 80-х на проблему машинного перевода забили почти все, кто пытался финансировать коммерческие разработки. Понятно, что оставались еще всякие IBM-ы, которым было все равно, сколько и куда вкладывать, SYSTRAN, который с середины 70-х жил на военных заказах, энтузиасты и мелкие академические группы. На слайдах по прежнему все было разноцветно: вот французская фраза, вот она превращается... Фраза превращается... Превращается фраза... Вообще, интересно, что такого есть между английским и французским, что большинство презентаций по MT эксплуатируют именно эту языковую пару?..
Презентациями можно было поразить воображение один-два раза. Иногда три. Впрочем, если инвестор совсем тупой, то можно и больше. Но рано или поздно заинтересованные стороны начинали осторожно спрашивать "А где же долгожданный результат?"
Базовая стоимость разработки заказной коммерческой системы машинного перевода колебалась в диапазоне 6-16 миллионов долларов, но результат мог порадовать только энтузиастов и впечатлительных журналистов; индустрию MT не впечатлил. Основные неработающие методики можно свести к трем категориям:

Word-by-word (подстрочный перевод). В качестве методологии перевода используется голый словарь для генерации квази-подстрочника: таких систем в интернете довольно много. На выходе они в лучшем случае выдают "Я стрелять мой нога", в худшем "Он(она) (с)делала это(т)". Предполагается, что по набору слов пользователь поймет хотя бы о чем речь.
Слабым местом таких систем является практически все.
Rule-based (на основе правил). Собственно, наиболее частый метод. Перевод осуществляется на базе жестко заданных правил для преобразования одной группы слов в другую (на другом языке). Подразумевается, что система распознает структуру предложения и правильно переставит и согласует переведенные слова; в реальности это происходит только на эталонных фразах. SYSTRAN, от которого сейчас отказались и Google и Microsoft, и BabelFish - наиболее яркие представители этого класса. На выходе в лучшем случае получаются "Однажды в течение ледяного холодного зимнего времени I от леса уезжают, было сильный мороз", в худшем - "В левом окне верхней рукы" (примеры реальных переводов). Предполагается, что такого качества будет достаточно, чтобы понять суть.
Слабых мест много, но основное - такие системы не улавливают контекста и применимы только к очень ограниченному количеству языковых пар. Чтобы как-то адресовать проблему контекста, некоторые системы MT позволяют выбрать из списка домен (то, о чем речь): IT, деловая переписка, политика и пр. Приемлемое качество перевода при этом подходе - явление почти случайное. Пустые хлопоты - на протяжении нескольких десятков лет прорыва в качестве добиться не удалось.
Interlingua/Transfer-based (с промежуточным языком). Мой личный безнадежный фаворит. Идея состоит в том, чтобы перевести исходный текст на некий логичный промежуточный язык, а потом с него - на нужный. В качестве промежуточного языка используют либо что-то совсем синтетическое, либо интерлингву или эсператно. Иногда используются два промежуточных языка: сначала производится описание исходного предложения, потом описание переводится в описание для целевого языка, а потом - на целевой язык. Метод заманчив многим, в частности, теоретической возможностью переводить с любого на любой. Про это все читать безумно интересно (а уж с разработчиками беседовать - это редкостное удовольствие), но такие системы относятся, скорее, к мифическим созданиям и в природе не встречаются. Цепочка "морфологический анализ" - "лексический анализ" - "семантический анализ" - "перевод в интерлингву" склонна рваться в любом месте.
Интересно тут вот что. Ходили назойливые слухи, что интерлингве пытались приделать альтернативное применение: идея состояла в том, что, если писать документацию сразу на синтетическом языке, то потом можно будет сгенерить ее на всех нужных языках и сэкономить на локализации. Я даже не могу себе представить, куда и в какой форме авторы технической документации посылали энтузиастов машинной генерации текста...

И даже не то, чтобы все было совсем уж безнадежно: на самом деле многие системы всерьез использовались, под них затачивались производственные процессы и документооборот, клиентам делались звонкие обещания, из лабораторий в поисках смысла жизни выползали десятки коммерческих големов и просили госфинансирования. Но, по моему опыту, машинный перевод был и остается кошмаром всех профессиональных переводчиков, которых вынуждали им пользоваться: года три назад менеджеры крупнейшей немецкой локализационной фирмы отказались от долгожданного проекта, в котором использование машинного перевода рассматривалась теоретически. Уговорить их взяться за проект удалось только клятвенно (и неоднократно) пообещав, что никакого MT там не будет.

Но неожиданно что-то заработало. И заработало не совсем в технологическом смысле.

Про статистический машинный перевод - позже.

(окончание эпопеи BGS)

В 1999 году место ушедшего Клаудио Пинкуса занял назначенец от "Большого Bowne" Карл Глейзер: человек, имевший к локализации такое же отношение, как Джордж Буш к исламу. Этим не преминули воспользоваться директора из LBU. Дело в том, что 180 человек из CBU жили куда лучше, чем 600 человек из LBU: у сотрудников работавшего на Майкрософт CBU были выше зарплаты, больше премии, меньше начальства, а LBU в стороне сосало лапу. У сосания была простая причина: несмотря на то, что Майкрософта делались огромные скидки, прибыль, приносимая CBU, в разы превышала прибыль LBU. Майкрософт действительно был доволен качеством работы и проекты шли широким потоком. Но гонцы из LBU представили это Карлу так: мы тут кровь из носа, пашем, как слоны, а они там жируют, гады! Надо немедленно отнять и поделить! Знакомо? - Совок в действии.

Карл объявил о том, что CBU сливается в экстазе с LBU, а деньги - всем поровну. Тут уже возмутился Майкрософт: CBU - это наше совместное творение, заточенное под нас, процессы - специфические для Microsoft, и мы - против этого слияния, оно нарушает договоренности, полиси, безопасность и пр. Карл гордо ответил в том смысле, что "моя фирма, что хочу, то и ворочу". Майкрософт в лице Анила Сингх-Молареса почесал в затылке и отозвал один из своих проектов (Microsoft Encarta). BGS за один день потеряла 11 миллионов долларов; это было что-то около сорока процентов всего бизнеса BGS.

Карл ~~задницей~~ сердцем почувствовал, что под ним зашаталось кресло. Как-то нужно было отыграть и вашим и нашим. Объявленное слияние CBU с LBU было решено прекратить, да еще и с противоположным знаком: CBU становился независимой фирмой "Immersant" и отходил каким-то друзям Карла. Говорят, что на этот раз его наконец-то отымели, чтобы он пришел в сознение. Перестройка была отменена, возобновились переговоры с Майкрософт о возвращении бизнеса, но Карл чувствовал, что наверху, в Большом Bowne, им по прежнему недовольны, и сделал роковой шаг: в конце 2001 года было объявлено о приобретении BGS-ом небольшой фирмы Mendez за 47 миллионов долларов. Эти 47 миллионов были оборотом BGS за два года; это как если бы Microsoft предложил за Yahoo 100 миллиардов...

Эта сделка не принесла счастья никому. BGS приобрела большой мыльный пузырь: за вывеской "Mendez" ничего не скрывалось, ни клиентов, ни сервисов. Флорите Мендез, на халяву получившей 47 миллионов, деньги тоже не пошли впрок: через месяц после получения денег, у Флориты обнаружился рак по всему телу и она по полной программе загрохотала в клинику. Тоже завидовать нечему.

Кстати, с Mendez-ом BGS-у всучили систему машинного перевода, которую теперь пытается использовать LioNBRIDGE. Разрабатывать ее начал еще L'n'H, но быстро понял, что это - пустая трата сил и денег, привинтил это все к Mendez-у и сплавил в BGS.

В любом случае, это был звонкий провал Карла: огромные деньги потрачены совершенно впустую. Вдобавок, в IT был кризис, денег не было ни у кого (если кто помнит, Lionbridge был близок к банкротству: если бы BGS купил бы его, индустрия сегодня была бы совсем другой). Именно в моменты отсутствия финансов люди и фирмы начинают делать глупости; Карл обратился к заклятым друзьям из руководства Berlitz Global Network, которые находились в финансовом завале, с предложением спасти друг друга. Типа BGS покупает Berlitz, последний соглашается, обороты увеличиваются, все довольны. Berlitz согласился, но выставил свое условие: никого из руководства Berlitz не увольняют. Карл это, разумеется, пообещал. Сделка состоялась, и Карл начал увольнять своих. Это было как отрубать самому себе голову, если разобраться...

Карла уволили в 2002-м году, за день до Рождества, прямо посреди переговоров с тем же директором Майкрософта Анилом Сингх-Моларесом. В 2:30 пополудни зазвонил телефон, Карл извинился, вышел и уже никогда не вернулся. Вместо него через 15 минут пришел изящный Джим Фейган и вице-президент Лэрри Вейд. Джим сказал, что переговоры закончит он.

После себя Карл оставил фирму, голова которой была практическт отрублена, у руля стояли люди, которые довели до финансовой ручки Berlitz, а BGS для них был совсем уже чужим, поэтому сокращения и закрытия офисов стали буднями. За все время своего президентства Карл так и не научился с первого раза без запинки выговаривать слово "локализация" (с легкой руки Скотта Телфорда появился язвительный термин "лоКарлизация").

Мягкий Джим Фейган, в прошлом - пастор, стал новым CEO фирмы. Одним из первых его шагов стал прием на работу в качестве CFO Сары Боден - брюнетки с Уолл Стрит. Она получила карт-бланш, и воспользовалась им по полной программе: полгода бесцельно ездила по всему миру. Вернувшись в Парсиппани, Сара высочайше повелела увеличить обороты фирмы на 20 процентов, а прибильность - в два с половиной раза. Второй кардинальной переменой стала передача всей власти в фирме девелоперам. Теперь не локализация ставила девелоперам задачи, а 70 девелоперов диктовали двухтысячной фирме, как им делать локализацию. Многочисленные расплодившиеся директора (около 100!) наполнили фирму кучей "инициатив" и комитетов, которые мешали работать и оттягивали на себя финансы. Вообще, директора, конкурирующие в области генерации идиотских идей, чтобы доказать свою нужность - это страшная разрушительная сила, заслуживающая отдельной реплики. Может быть, когда-нибудь...

Сару выгнали из фирмы через год, вместе с протежируемыми ей директорами и кучей девелоперов. Карл дал им пинка под зад: обычно при увольнении второго лица в фирме пишут обкатанные слова про то, что это лицо решило изменить карьеру... Про Сару Карл процедил сквозь зубы что-то типа "начиная с 9 часов утра сегодняшнего дня считайте, что ее никогда не было". После себя Сара оставила около 30 неработающих никому не нужных систем, грандиозные финансовые убытки и много еще всякого... Миллионы долларов были потрачены на разработку и раскрутку мертворожденных систем, Сара уволила нескольких лучших руководителей (в том числе Майка Марсана, если кто помнит такого), оставила шлейф данных обещаний и недовольных клиентов.

Большой Bowne тоже штормило: президент Боб Джонсон попался на скачивании на рабочий ноутбук детской порнографии откуда-то из Молдавии. Будучи пойман ФБРовцами, он попытался уничтожить улики. Забавно, что в бытность свою CEO, он рассылал по всей фирме строгие письма, запрещающие сотрудникам пользоваться рабочими компьютерами не по назначению... Ничего не напоминает?

Руководство Bowne, озабоченное падением акций, пришло к выводу, что что-то надо делать, и начало избавляться от подразделений (ничему люди не учатся). В 2005 году Джим Фейган продал непрофильный BGS за 198 миллионов долларов LioNBRIDGE - гораздо меньшей конкурирующей фирме. Нужно понимать, что это была не покупка, а продажа: от BGS просто хотели избавиться и, даже не уведомив, выставили на продажу и назначили цену. Продать готовы были хоть кому - хоть фирме по разведению чебурашек. Говорят, что было еще два покупателя, но больше 120 миллионов никто давать не хотел. А Рори (CEO Lionbridge) ради уничтожения главного конкурента залез в долги, но заплатил, сколько просили.

После продажи от BGS осталось очень мало: все эти объединения фирму сильно покалечили, кто мог уйти - ушел, часть офисов закрылась, не осталось ничего, реально напоминающего о том, чем когда-то был BGS. Примерно через год после поглощения Лайонбриджем в Калифорнии утонул Лэрри Вэйд - вице-президент LioNBRIDGE, когда-то работавший в IDOC проджект менеджером. Лэрри был одним из последних сотрудников BGS, работающих в LioNBRIDGE. Можно сказать, что в истории BGS его смерть стала завершающей точкой.

Вендоры в локализации - это очень отдельный зоопарк, где каждая особь уникальна, неповторима, да и (в ряде случаев) незачем. Вендоров можно делить по размерам (как это делает Common Sense Advisory), можно - по схожести внешних ~~половых~~ признаков (ну, например, Moravia и LCJ - практически близнецы-братья, только разнояйцевые), можно по историческому источнику раскрутки (например, BGS, SDL, Moravia и Mendez раскрутились на контрактах с Microsoft. Кстати, Рори Кован умудрился с первых дней существования Lionbridge разругаться с Microsoft, отчего несколько лет LIOX был запрещенной в Майкрософт фирмой и сосал лапу в стороне. Впрочем, Рори не только с Майкрософтом разругивался...)

В недрах каждой локализационной фирмы обитает свой Наполеон и кипят мексиканские страсти. Чтобы не тревожить сон существующих титанов, заглянем в душу почившей фирмы BGS. История Bowne Global Solutions настолько же уникальна, насколько и типична в деталях: купание в деньгах в конце 90-х, финансовые провалы начала века, метания, безумие руководства. Но фирма-то была действительно великой: и размерами, и людьми и историей.

Все началось в далеком 1980 году, когда аргентинец Клаудио Пинкус основал фирму под названием Alba Translations, жившую случайными переводами. В 1981 году на него работало уже 40 переводчиков, а фирма называлась Alpha Language Group Inc. - исторически это была одна из первых в Штатах локализационных фирм (сам Клаудио в интервью 1999 года назвал Alpha Language Group первой американской локализационной фирмой). Клаудио из подручных средств разработал одну из первых систем управления переводами - прообраз Translation Memory. В 1986 году фирма была переименована в IDOC, обосновалась в Лос-Анджелесе на окраине Беверли-Хиллз, и неторопливо начала прирастать офисами - в Рио и Дублине. (Кстати, кто знает, почему в локализации так много бразильцев? :) ). IDOC уже можно считать предтечей BGS: офисы, состав и принципы функционирования фирмы от переименования не изменились.

К началу 90-х фирма мало отличалась от других таких же, повсеместно возникших и выпасавшихся вокруг IT. Все шло своим чередом до тех пор, пока в 1992 году уездная корпорация Майкрософт не осознала, что перевод - это не основная для нее деятельность. Переводить софт силами собственных сотрудников, как это делалось в конце 80-х, было геморройно, дорого и некачественно. В качестве эксперимента заявку на перевод отправили в IDOC и - ура, получилось! IDOC оказался в нужное время в нужном месте, и несколько лет выступал для Майкрософта подопытным локализационным кроликом, получая все более крупные проекты. К середине 90-х IDOC под руководством Microsoft переработал свою инфраструктуру следующим образом:

Было создано отдельное подразделение - CBU (Content Business Unit), фактически бывшее внешним "расширением" Майкрософта, выполнявшее локализационные проекты именно так, как было нужно клиенту. Подразделение было миниатюрным, невероятно эффективным, без лишнего "жира". Майкрософт это устраивало, и большинство локализационных проектов того времени шло через IDOC.
IDOC-ом были открыты новые офисы во всех основных европейских и азиатских странах, чтобы выполнять поддержку и сопровождение локализационных проектов Майкрософт на восьми ключевых рынках.
Была создана группа Central Services: люди отвечали за единообразность процессов во всех офисах. Хранители печати. На самом деле - изумительная идея, до сих пор являющаяся объектом зависти многих локализационных фирм, которые не в состоянии себе позволить иметь что-то подобное.
Большинство сотрудников первого состава фирмы получили директорские должности :)

Кроме Microsoft-а IDOC сотрудничал с другими монстрами духа - от IBM до Novell. К 1997 году, когда фирма стала крупнейшей локализационной компанией в мире, обороты росли, а деньги на фирму падали буквально из воздуха, Клаудио продал IDOC корпорации Bowne, занимавшейся Financial Printing (термин, не имеющий смысловых аналогов в русском языке) и озаботившейся диверсификацией бизнеса. Пару лет Клаудио поработал в Bowne, продолжая возглавлять свою фирму, перекрещенную в Bowne Global Solutions, а в 1999 году ушел директором в Ask Jeeves.

После себя он оставил идеально работающую локализационную машину с инфраструктурой, функционирующими самодостаточными системами, сетью вендоров и переводчиков и лучшими специалистами в индустрии. Даже собственное периодическое печатное издание было. Вы много знаете локализационных фирм, выпускающих свою бумажную газету?

Уход Клаудио стал своего рода изгнанием BGS из рая: счастливые времена, рост зарплат, премии на новый год - все осталось в прошлом.

Продолжение традиционно следует. Может, даже завтра :)

Profile

white_bars

June 2017

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

Syndicate

Page Summary

Microsoft Live Labs Thumbtack
Млею
Переозвучка
Top 10: разбивка интернет-пользователей по языкам
BiDi
Simplified English
Львиный мост-2
Львиный мост
Голоса
Локализация, часть 4: Толпой
LIOX
Opera, Netscape, IE
Пираты, пираты, по морю плывут
Локализация, часть 3.5: Машинный перевод, борьба за огонь
Локализация, часть 3.4. Машинный перевод: воздаяние
Локализация. Часть 3.3. Машинный перевод возвращается
Advance08: выступление Билла Гейтса
Локализация. Часть 3.2. Машинный перевод-2
Локализация, ч. 2.2. Клоуны
Локализация, часть 2.1. Рай Клаудио Пинкуса

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Jul. 14th, 2025 01:00 pm