Лингвистическое
Dec. 26th, 2008 10:29 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Ответы на вчерашние вопросы:
1. Русский.
2. Французский.
3. Русский.
Детали – под катом.
Для начала – пара замечаний.
1. Цифры какие есть, такие есть :) У меня нет цели разобраться, как надо переводить, мне интересно, как реально переводят, что на что влияет, и какие из этого следуют выводы.
2. Набор исходных английских терминов для всех языков примерно один и тот же, а использованные переводы делались разными фирмами и переводчиками на протяжении нескольких лет, так что выборка, как мне кажется, может считаться полной, а результаты – корректными применительно к языкам.
1. У какого из вышеперечисленных языков встретился перевод с максимальным удлинением?
Понятно, что тут – почти чистая лотерея, и понятно, что наибольшее “удлинение” происходит на коротких терминах. Но, честно говоря, я не ожидал увидеть на первом месте именно русский, а на втором - итальянский. Глядя на результат, я, кажется, начинаю понимать, что произошло: в русские и итальянские переводчики стараются передать смысл или ввести контекст, поэтому акронимы часто заменяют на “развернутую” версию. Скажем, в немецком такого нет: они с удовольствием сохраняют акронимы в первозданном виде, не изменяя. Удивило то, что такого явления нет в французском (единственное найденное исключение – замена “ KPI” на “Indicateur de performance clé”: удлинение – 900%). Видимо, придумывают свои акронимы: я не могу допустить, чтобы французы использовали английские :) В испанском заметная де-акронимизация встретилась только один раз: “OEM” –> “fabricante de equipo original” (867%)
Top 3 “удлиненных” терминов выглядят так:
Русский:
XP -> Расширенная хранимая процедура (удлинение 1400%)
KPI -> Ключевой индикатор производительности (1133%)
3D -> Объемные эффекты (700%)
Итальянский:
SQL -> Agente log shipping Microsoft SQL Server (1233%)
UDF -> Funzione definita dall'utente (866%)
SCD -> Dimensione a modifica lenta (800%)
Интересно, что, если отбросить акронимы, то на первое место попадает испанский, а второе место делят немцы и бразильцы. Для такого варианта Top-3 переводов по всем языкам выглядит так:
Испанский – 800%
Lift -> Mejora respecto al modelo predictivo (800%)
Reads -> Operaciones de lectura (340%)
Zip -> Código postal (333%)
(Кстати, OK –> Aceptar (250%): испанский – единственный язык, где “ОК” переводится).
Португальский (бразильский) - 450%
Lift -> Comparação de Precisão (450%)
Tan -> Marrom-claro (300%)
Views -> Modos de Exibições (260%)
Немецкий – 450%
Go -> Wechseln zu (450%)
Go –> Ausführen (350%)
Unsort -> Sortieren rückgängig machen (350%)
Французский – 433%
Any -> N'importe lequel (433%)
Order by -> Trier par ordre croissant ou décroissant (400%)
Letter -> Lettre US (215,9 x 279,4 mm) (366%)
Русский
Tan -> желто-коричневый (433%)
Usage -> Сведения об использовании (400%)
Bcc -> Скрытая копия (333%)
Итальянский
Done -> Operazione completata (425%)
E-Mail -> Messaggio di posta elettronica (400%)
Login -> Nome account di accesso (360%)
2. У какого из вышеперечисленных языков самое большое “среднее” удлинение текста по всей выборке?
Французский. На втором – немецкий. Русский попал на последнее место по простой причине: у него оказалось максимальное количество переводов, длина которых короче оригинала (см. п. 3). Результаты получились такими:
Fre – 23%
Ger – 21.7%
Spa – 20%
Ita – 18%
BrP – 13.7%
Rus – 13.1%
Интересно то, что, хотя эта цифра – объективная, толку от нее, похоже, мало. Хотя, я еще покопаю…
3. У какого из языков получилось наибольшее количество переводов, где длина оригинала больше длины перевода?
Русский. Сводка:
Rus – 22%
BrP – 15%
Ita – 11.5%
Ger – 10%
Spa – 9.7%
Fre – 8.2%
В качестве бонуса подкину вот какие данные: французский же попал на первое место по проценту переводов, длина которых превышает оригинал больше, чем на 40%. Для меня 40% всегда было “магическим” числом: многие клиенты требуют, чтобы при переводе софта длина переведенных терминов не превышала эту цифру: в пользовательском интерфейсе разработчики оставляют под “удлинение” примерно столько места. Оказывается, что в среднем каждый пятый перевод превышает этот предел.
Разбивка по условным группам выглядит так:
В общем, начало положено. Промежуточный вывод: похоже, что по совокупности именно французский может претендовать на звание наиболее “длинного” языка. Хотя, я еще не закончил :)
no subject
Date: 2008-12-27 07:26 am (UTC)no subject
Date: 2009-03-07 11:15 am (UTC)no subject
Date: 2009-03-07 02:58 pm (UTC)no subject
Date: 2008-12-27 07:37 am (UTC)no subject
Date: 2008-12-28 06:24 am (UTC)Это, кстати, правильная мысль. Я ее подумаю. На первый взгляд (на графики) может показаться, что медиана может быть очень близкой к среднему значению. Но я могу быть неправ.
> Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть.
Под рукой ничего нет, но в понедельник я попробую поискать переводы с хорошей выборкой. Если найду - кину сюда. У меня в планах польский пообнюхивать, но его тоже нет :) Буду искать оба языка. Уверен, что найду :)
no subject
Date: 2008-12-28 01:35 pm (UTC)no subject
Date: 2008-12-30 06:31 am (UTC)no subject
Date: 2008-12-30 06:39 am (UTC)no subject
Date: 2009-01-08 10:00 pm (UTC)Выглядит это так (с табуляциями):
SHORTER THAN ORIGINAL WITH NO INCREASE 0-10% INCREASE 10-20% INCREASE 20-30% INCREASE 30-40% INCREASE EXCEEDING 40% INCREASE Unchanged AVG INCREASE MAX INCREASE
36448 80765 5742 5360 4933 4204 8443 75842 -5.26% 1175%
В общем, налицо среднее _уменьшение_ длины в размере -5.26%
То есть, по большому счету в среднем текст действительно остается примерно той же длины.
Если интересно, то еще вот цифры:
- наибольшее "удлинение" происходит, если длина исходной английской строки находится в пределах 1-6 знаков: текст удлиняется на 24-28 процентов.
- дальше все равномерно укорачивается и уходит "в минус" на переводах длиных строк (длинее 25 знаков)
Полная статистика по разбивке:
1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28+
24.05% 28.07% 12.75% 9.95% 7.12% 3.77% 1.56% 0.74% -1.28% -9.84%
Вот примерно так... :)
no subject
Date: 2009-01-08 10:12 pm (UTC)no subject
Date: 2008-12-28 12:47 pm (UTC)Так говорил Заратустра
Date: 2009-01-07 12:37 am (UTC)Интересно...
Мне кажется, что эти данные можно использовать и для сравнения иностранных языков друг с другом - например, получится, что французский текст в среднем длиннее английского на 9%.
Re: Так говорил Заратустра
Date: 2009-01-07 12:52 am (UTC)Ну, если брать за основу русский и считать в терминах "укорочения", то мои данные довольно близки: разница в 3-4 процента это приемлемо...
> а венгерский и финский - на 29%!
Про венгерский не знаю, а финский - да, один из самых "длинных" получается.
> Мне кажется, что эти данные можно использовать и для сравнения иностранных языков друг с другом - например, получится, что французский текст в среднем длиннее английского на 9%.
Это да. Тут еще интереснее, похоже.
Я проанализировал языки по такому параметру как среднее удлинение в зависимости от длины исходного текста с интервалом в 3 знака. То есть, первый интервал - английские строки от 1 до 3 знаков, потом - от 4 до 6 и пр. Я об этом нигде не писал, но для русского получается вот что:
1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28+
56.01% 42.81% 28.31% 22.65% 25.80% 26.60% 21.84% 20.84% 18.09% 8.59%
Интересно тут то, что анализ такой разбивки позволил получить довольно четкую зависимость числа обрезанных строк в софте (resizing bugs) от некоторых интергральных значений. Другими словами, если мы добавляем новый язык, то для каждого продукта можно примерно предсказать, сколько багов мы найдем для этого "нового" языка.