потенциальные проблемы с кодировками при переходе на новый Традос
Objavljivač niti: Vitali Stanisheuski
Vitali Stanisheuski
Vitali Stanisheuski
Belorusija
Local time: 16:25
Član (2005)
engleski na ruski
+ ...
LOKALIZATOR SAJTA
May 26, 2008

Собирась перейти с Традоса 6.5 на 8.0 (есть, но еще не установлен) и предвижу проблемы с использованием баз, созданных в версии 6.5. А именно баз, где задействован польский или немецкий язык.
Дело в том, что в старой используется кодировка ANSI, в новой - Юникод. Не раз были ситуац�
... See more
Собирась перейти с Традоса 6.5 на 8.0 (есть, но еще не установлен) и предвижу проблемы с использованием баз, созданных в версии 6.5. А именно баз, где задействован польский или немецкий язык.
Дело в том, что в старой используется кодировка ANSI, в новой - Юникод. Не раз были ситуации, когда при передаче баз из одной версии пользователям другой версии их (текстовые экспортированные файлы) или получении баз от таковых приходилось пересохранять в нужную кодировку. Все бы ничего, но знаки с диакритиками искажаются, причем, как я заметил, по-разному: при пересохранении из Юникода в ANSI знак с диакритиком теряет этот диакритик, а при работе в старой версии знак с диакритиком превращается в кириллический, или точнее в "дополнительный" знак, соответствующий по неким кодовым таблицам и т.д. и т.п. (напр., польский ę становится к, а ą становится №). Простое пересохранение из одной кодировки в другую не дает эффекта, идентичного созданию этой базы в этой же (другой) кодировке.

То есть, даже если в базе есть сегменты для перевода одного и того же предложения, то при работе в другой версии Традоса они могут не распознаны, как на 100% совпадающие (могут даже и до 70% не дотянуть).

Поэтому я думаю, что мне делать со своими базами - или после установки новой версии произвести очистку предыдущих двуязычных переводов с одновременным внесением в базу, или взять текстовые экспорт. файлы и произвести в них замену этих кириллических и пр. дополнительных знаков на соответствующие знаки с диакритиками.
В последнем случае, правда, есть еще заковыка, т.к. кроме искажения также появляются какие-то таинственные письмена типа {\f78 , напр.:
Przep}{\f78 і}{\f61 yw powietrza i odpowiednia temperatura s}{\f78 №}{\f61 bardzo wa}{\f78 ї}{\f61 ne.}
И я не знаю, повлияют ли они на качество преобразованной базы или нет, а если их просто удалить, не будет ли проблем?

Сталкивался ли кто-нибудь с подобной проблемой и как ее решил?
Collapse


 
Nadiia and Vatslav Yehurnovy
Nadiia and Vatslav Yehurnovy
Ukrajina
Local time: 16:25
Član (2008)
engleski na ruski
+ ...
произвести очистку предыдущих переводов с внесением в May 26, 2008

И больше, боюсь, никак...
Можно еще поэкспериментировать с экспортом-импортом в формат тмх, но не факт, что это поможет. А про экспорт в текстовые файлы (тхт) и импорт из них лучше просто забыть - с польским сам один раз получил подобные "грабли" на ровном месте, после этого п
... See more
И больше, боюсь, никак...
Можно еще поэкспериментировать с экспортом-импортом в формат тмх, но не факт, что это поможет. А про экспорт в текстовые файлы (тхт) и импорт из них лучше просто забыть - с польским сам один раз получил подобные "грабли" на ровном месте, после этого поставил на формате экспорта тхт жирный крест.

А таинственные письмена - это разметка rtf и представление диакритики в нем.
Przep}{\f78 і}{\f61 yw - это на самом деле "przepływ"
Комбинаций из фигурных скобок и косых с цифрами будет настолько много и разных, что вычищать их придется именно вручную. И все равно после этого скорее всего потом будут "выплывать" некие не часто встречающиеся малозаметные "глюки".

Имхо, проще и надежней будет убить время на подъем архивов и их сортировку, а потом поставить традосу задачу "клинапить" до полного прозрения. Хотя, конечно, это применимо если разные версии ворда или еще чего-то там не будут тоже "гадить" кодировку
Collapse


 
Roman Bulkiewicz
Roman Bulkiewicz  Identity Verified
Local time: 16:25
engleski na ukrajinski
+ ...
Альтернативный путь May 26, 2008

Vitali Stanisheuski wrote:
Поэтому я думаю, что мне делать со своими базами - или после установки новой версии произвести очистку предыдущих двуязычных переводов с одновременным внесением в базу, или взять текстовые экспорт. файлы и произвести в них замену этих кириллических и пр. дополнительных знаков на соответствующие знаки с диакритиками.


Экспортировать базу в TXT-файл, потом сделать из него в Ворде двуязычный традосовский файл, при необходимости поисправлять кривые символы, потом очистить в новой версии Традоса.

Этот путь может оказаться более коротким, чем собирание и сортировка старых переводов, и более надежным, чем импорт TXT-базы в новую версию. (А может и не оказаться -- я на практике с такой проблемой не сталкивался, поэтому предложение чисто теоретическое.)


 
Vitali Stanisheuski
Vitali Stanisheuski
Belorusija
Local time: 16:25
Član (2005)
engleski na ruski
+ ...
POKRETAČ TEME
LOKALIZATOR SAJTA
ответ вроде нашелся May 31, 2008

обратил внимание, что в базах моих диакритика искажена обоими из описанных способов - т.е. функции "Найти и заменить" будет недостаточно, ведь в случае с потерянными (а не искаженными) диакритиками (ciezki вместо ciężki) я их уже не восстановлю. (Судя по всему это та часть файлов, которую делал в ТагЭдиторе.) Придется "клинапить". До прозренья, так сказать...

 
Valentinas & Halina Kulinic
Valentinas & Halina Kulinic  Identity Verified
Local time: 16:25
engleski na ukrajinski
+ ...
Стоит ли шкурка выделки? Jun 5, 2008

Если речь идет о испорченных символах в языке перевода (как ciezki вместо ciężki), то Вы это исправите в ходе перевода новых документов. Ведь все 100% накопившихся у Вас готовых сегментов Вам не придется использовать. Зачем же все исправлять?

 
Vitali Stanisheuski
Vitali Stanisheuski
Belorusija
Local time: 16:25
Član (2005)
engleski na ruski
+ ...
POKRETAČ TEME
LOKALIZATOR SAJTA
Concordance и др. Jun 5, 2008

Valentinas & Halina Kulinic wrote:

Если речь идет о испорченных символах в языке перевода (как ciezki вместо ciężki), то Вы это исправите в ходе перевода новых документов. Ведь все 100% накопившихся у Вас готовых сегментов Вам не придется использовать. Зачем же все исправлять?


Потому что через Concordance тоже много приходится проверять часто повторяющиеся термины и формулировки. При искаженных символах поиск тоже может не сработать нормально.


 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

потенциальные проблемы с кодировками при переходе на новый Традос


Translation news in Ruska Federacija





Wordfast Pro
Translation Memory Software for Any Platform

Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value

Buy now! »
Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers!

The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc.

More info »