white_bars: (Default)
[personal profile] white_bars

Ответы на вчерашние вопросы:

1. Русский.
2. Французский.
3. Русский.

Детали – под катом.

Для начала – пара замечаний.

1. Цифры какие есть, такие есть :) У меня нет цели разобраться, как надо переводить, мне интересно, как реально переводят, что на что влияет, и какие из этого следуют выводы.
2. Набор исходных английских терминов для всех языков примерно один и тот же, а использованные переводы делались разными фирмами и переводчиками на протяжении нескольких лет, так что выборка, как мне кажется, может считаться полной, а результаты – корректными применительно к языкам.

1. У какого из вышеперечисленных языков встретился перевод с максимальным удлинением?

Понятно, что тут – почти чистая лотерея, и понятно, что наибольшее “удлинение” происходит на коротких терминах. Но, честно говоря, я не ожидал увидеть на первом месте именно русский, а на втором - итальянский. Глядя на результат, я, кажется, начинаю понимать, что произошло: в русские и итальянские переводчики стараются передать смысл или ввести контекст, поэтому акронимы часто заменяют на “развернутую” версию. Скажем, в немецком такого нет: они с удовольствием сохраняют акронимы в первозданном виде, не изменяя. Удивило то, что такого явления нет в французском (единственное найденное исключение – замена “ KPI” на “Indicateur de performance clé”: удлинение – 900%). Видимо, придумывают свои акронимы: я не могу допустить, чтобы французы использовали английские :) В испанском заметная де-акронимизация встретилась только один раз: “OEM” –> “fabricante de equipo original” (867%)

Top 3 “удлиненных” терминов выглядят так:

Русский:

XP -> Расширенная хранимая процедура (удлинение 1400%)
KPI -> Ключевой индикатор производительности (1133%)
3D -> Объемные эффекты (700%)

Итальянский:

SQL -> Agente log shipping Microsoft SQL Server (1233%)
UDF -> Funzione definita dall'utente (866%)
SCD -> Dimensione a modifica lenta (800%)

Интересно, что, если отбросить акронимы, то на первое место попадает испанский, а второе место делят немцы и бразильцы. Для такого варианта Top-3 переводов по всем языкам выглядит так:

Испанский – 800%

Lift -> Mejora respecto al modelo predictivo (800%)
Reads -> Operaciones de lectura (340%)
Zip -> Código postal (333%)
(Кстати, OK –> Aceptar (250%): испанский – единственный язык, где “ОК” переводится).

Португальский (бразильский) - 450%

Lift -> Comparação de Precisão (450%)
Tan -> Marrom-claro (300%)
Views -> Modos de Exibições (260%)

Немецкий – 450%

Go -> Wechseln zu (450%)
Go –> Ausführen (350%)
Unsort -> Sortieren rückgängig machen (350%)

Французский – 433%

Any -> N'importe lequel (433%)
Order by -> Trier par ordre croissant ou décroissant (400%)
Letter -> Lettre US (215,9 x 279,4 mm) (366%)

Русский

Tan -> желто-коричневый (433%)
Usage -> Сведения об использовании (400%)
Bcc -> Скрытая копия (333%)

Итальянский

Done -> Operazione completata (425%) 
E-Mail -> Messaggio di posta elettronica (400%)
Login -> Nome account di accesso (360%)

2. У какого из вышеперечисленных языков самое большое “среднее” удлинение текста по всей выборке?

Французский. На втором – немецкий. Русский попал на последнее место по простой причине: у него оказалось максимальное количество переводов, длина которых короче оригинала (см. п. 3). Результаты получились такими:

Fre – 23%
Ger – 21.7%
Spa – 20%
Ita – 18%
BrP – 13.7%
Rus – 13.1%

Интересно то, что, хотя эта цифра – объективная, толку от нее, похоже, мало. Хотя, я еще покопаю…

3. У какого из языков получилось наибольшее количество переводов, где длина оригинала больше длины перевода?

Русский. Сводка:

Rus – 22%
BrP – 15%
Ita – 11.5%
Ger – 10%
Spa – 9.7%
Fre – 8.2%

В качестве бонуса подкину вот какие данные: французский же попал на первое место по проценту переводов, длина которых превышает оригинал больше, чем на 40%. Для меня 40% всегда было “магическим” числом: многие клиенты требуют, чтобы при переводе софта длина переведенных терминов не превышала эту цифру: в пользовательском интерфейсе разработчики оставляют под “удлинение” примерно столько места. Оказывается, что в среднем каждый пятый перевод превышает этот предел.

Разбивка по условным группам выглядит так:

image

В общем, начало положено. Промежуточный вывод: похоже, что по совокупности именно французский может претендовать на звание наиболее “длинного” языка. Хотя, я еще не закончил :)

Date: 2008-12-27 07:26 am (UTC)
From: [identity profile] skylump.livejournal.com
Интересно, спасибо.

Date: 2009-03-07 11:15 am (UTC)
From: [identity profile] skylump.livejournal.com
Во, сейчас эти цифры очень пригодились при планировании многоязычной газеты :)

Date: 2009-03-07 02:58 pm (UTC)
From: [identity profile] white-bars.livejournal.com
:)) Классно! :)

Date: 2008-12-27 07:37 am (UTC)
From: [identity profile] ak-47.livejournal.com
Я думаю что в пункте 2 стоит указать не только среднее удлинение, но и медиану. Это несколько нивелирует крайности. Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть. По моим прикидам иврит будет примерно равен английскому но в среднем чуть длиннее. С одной стороны нет гласных и написание короче, но с другой имеет место "введение контекста" и расшифровка аббревиатур.

Date: 2008-12-28 06:24 am (UTC)
From: [identity profile] white-bars.livejournal.com
> Я думаю что в пункте 2 стоит указать не только среднее удлинение, но и медиану.

Это, кстати, правильная мысль. Я ее подумаю. На первый взгляд (на графики) может показаться, что медиана может быть очень близкой к среднему значению. Но я могу быть неправ.

> Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть.

Под рукой ничего нет, но в понедельник я попробую поискать переводы с хорошей выборкой. Если найду - кину сюда. У меня в планах польский пообнюхивать, но его тоже нет :) Буду искать оба языка. Уверен, что найду :)

Date: 2008-12-28 01:35 pm (UTC)
From: [identity profile] ak-47.livejournal.com
Спасибо! :)

Date: 2008-12-30 06:31 am (UTC)
From: [identity profile] white-bars.livejournal.com
quick update: польские переводы нашел, иврита нет. Запросил у другой группы :) Жду ответа.

Date: 2008-12-30 06:39 am (UTC)
From: [identity profile] ak-47.livejournal.com
Спасибо. Если это сложно, так и чёрт с ним. Это всего лишь праздный интерес. :)

Date: 2009-01-08 10:00 pm (UTC)
From: [identity profile] white-bars.livejournal.com
Иврит подкрался незаметно.
Выглядит это так (с табуляциями):

SHORTER THAN ORIGINAL WITH NO INCREASE 0-10% INCREASE 10-20% INCREASE 20-30% INCREASE 30-40% INCREASE EXCEEDING 40% INCREASE Unchanged AVG INCREASE MAX INCREASE
36448 80765 5742 5360 4933 4204 8443 75842 -5.26% 1175%

В общем, налицо среднее _уменьшение_ длины в размере -5.26%
То есть, по большому счету в среднем текст действительно остается примерно той же длины.

Если интересно, то еще вот цифры:
- наибольшее "удлинение" происходит, если длина исходной английской строки находится в пределах 1-6 знаков: текст удлиняется на 24-28 процентов.
- дальше все равномерно укорачивается и уходит "в минус" на переводах длиных строк (длинее 25 знаков)

Полная статистика по разбивке:

1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28+
24.05% 28.07% 12.75% 9.95% 7.12% 3.77% 1.56% 0.74% -1.28% -9.84%

Вот примерно так... :)

Date: 2009-01-08 10:12 pm (UTC)
From: [identity profile] ak-47.livejournal.com
Это примерно то что я и ожидал. Удлинение на коротких словах - расшифровка аббревиатур и полный перевод всяких устоявшихся терминов (типа bitmap). Чем исходная строка длиннее, тем больше экономия благодаря отсутствию гласных и общей краткости слов.

Date: 2008-12-28 12:47 pm (UTC)
From: [identity profile] ben-leizer.livejournal.com
Спасибо :)

Так говорил Заратустра

Date: 2009-01-07 12:37 am (UTC)
From: [identity profile] dtishin.livejournal.com
В Приложении 2 к Рекомендациям Союза переводчиков России, которые можно скачать с официального сайта СПР (http://www.translators-union.ru/netcat_files/File/Recommendations_V1_02.zip), приводится таблица примерного изменения объёма текста при переводе с иностранных языков на русский. При этом получается, что английский текст в среднем короче русского на 17%, французский - на 9%, а венгерский и финский - на 29%!
Интересно...
Мне кажется, что эти данные можно использовать и для сравнения иностранных языков друг с другом - например, получится, что французский текст в среднем длиннее английского на 9%.

Re: Так говорил Заратустра

Date: 2009-01-07 12:52 am (UTC)
From: [identity profile] white-bars.livejournal.com
> При этом получается, что английский текст в среднем короче русского на 17%,

Ну, если брать за основу русский и считать в терминах "укорочения", то мои данные довольно близки: разница в 3-4 процента это приемлемо...

> а венгерский и финский - на 29%!

Про венгерский не знаю, а финский - да, один из самых "длинных" получается.

> Мне кажется, что эти данные можно использовать и для сравнения иностранных языков друг с другом - например, получится, что французский текст в среднем длиннее английского на 9%.

Это да. Тут еще интереснее, похоже.
Я проанализировал языки по такому параметру как среднее удлинение в зависимости от длины исходного текста с интервалом в 3 знака. То есть, первый интервал - английские строки от 1 до 3 знаков, потом - от 4 до 6 и пр. Я об этом нигде не писал, но для русского получается вот что:

1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28+
56.01% 42.81% 28.31% 22.65% 25.80% 26.60% 21.84% 20.84% 18.09% 8.59%

Интересно тут то, что анализ такой разбивки позволил получить довольно четкую зависимость числа обрезанных строк в софте (resizing bugs) от некоторых интергральных значений. Другими словами, если мы добавляем новый язык, то для каждого продукта можно примерно предсказать, сколько багов мы найдем для этого "нового" языка.

Profile

white_bars: (Default)
white_bars

June 2017

S M T W T F S
    123
45678910
11121314151617
18192021222324
252627 282930 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 20th, 2025 01:34 pm
Powered by Dreamwidth Studios