Как переводчик использует компьютер
Компьютер как инструмент переводчика
В наши дни невозможно представить себе работу письменного переводчика без персонального компьютера (ПК). ПК используются как для собственно перевода, так и для решения сопутствующих задач, возникающих в деятельности переводчика, включая:
Одним словом, ПК является важнейшим техническим средством в инструментарии переводчика.
1. Общие требования к ПК переводчика
1.1. Аппаратная база
Требования к аппаратной базе (равно как и к программному обеспечению и компьютерной грамотности переводчика) определяются двумя обстоятельствами.
С одной стороны, переводчик является независимым производителем перевода. В этом качестве ему нужен текстовый процессор с проверкой орфографии на языке перевода, средства доступа к Интернету, словари и в некоторых случаях накопители переводов. Все эти программы сами по себе не отличаются особо жесткими требованиями к аппаратной базе.
С другой стороны, переводчик является подчиненным звеном в технологической цепочке заказчика, в связи с чем встает вопрос о пригодности используемых переводчиком технических средств для обработки файлов, создаваемых заказчиком, а это зачастую означает необходимость использования значительно более мощного ПК.
В целом при выборе ПК можно руководствоваться следующими соображениями:
Для письменного переводчика самое важное в компьютере — экран монитора, клавиатура и мышь, поскольку от их качества зависит не только производительность труда, но и здоровье и сохранение работоспособности переводчика.
Рекомендации по выбору монитора см.: viewtopic.php?f=68&t=7551
Рекомендации по выбору монитора, клавиатуры и мыши см.: www.ixbt.com/peripheral/ergonomic.html
1.2. Операционная система
2. Прикладные программы
Программы, которыми пользуются переводчики, можно разделить на перечисленные ниже основные категории.
Программы, используемые в процессе собственно перевода (включая программы, необходимые для обеспечения совместимости с ПО заказчика, т. е., грубо говоря, программы, которыми переводчик пользуется не потому, что они помогают в процессе перевода, а потому, что ими пользуется заказчик).
Программы для информационной поддержки и связи. Программы для обработки и подготовки исходных файлов и формирования и доработки конечных файлов.
Программы для административного сопровождения (учет работ, выставление счетов, налоговая отчетность)
Программы вспомогательного назначения (создание резервных копий, обеспечение надежности и безопасности, преобразование файлов в требуемые форматы)
2.1 Программы, используемые для собственно перевода
2.1.1 Офисные, верстальные и др. программы общего назначения
Первым орудием переводчика был (и остается по сей день) ближайший родственник пишущей машинки — текстовый процессор. Тем не менее, по мере отказа специалистов заказчика от калькуляторов и кульманов в пользу специализированного программного обеспечения, оказалось, что переводчику во многих случаях целесообразно владеть навыками работы с другими используемыми заказчиком программами, включая программы для обработки электронных таблиц, создания презентаций, верстки и черчения. Умение работать в программном обеспечении заказчика зачастую избавляет переводчика от необходимости «играть в испорченный телефон», т. е. выдавать не владеющему специалисту указания по поводу устранения ошибок, возникших при переносе текста в другие программы.
В прошлом решения о целесообразности освоения навыков работы в тех или иных программах часто упирались в вопрос о стоимости приобретения и обновления соответствующих программ, заказы на работу в которых поступали нерегулярно. Сейчас этот вопрос в отношении многих программ отпал, поскольку их можно загрузить с сайта производителя в виде полностью функциональной пробной версии со сроком действия от 15 до 60 дней (это относится, в частности, к программам фирмы Adobe).
2.1.2 Накопители переводов
Начиная с середины 90-х годов переводчики используют в работе т. н. накопители переводов (они же Translation Memory, TM-tools, CAT-tools ).
В основе накопителя переводов лежит специализированная база, которая содержит пары предложений и (или) терминов на двух языках. Если в переводимом документе встречаются термины или предложения, совпадающие с сохраненными в базе данных предложениями или терминами полностью или в достаточно большой степени, программа предлагает переводчику использовать существующий перевод или доработать его требуемым образом.
См. общие сведения о накопителях на русском языке: Накопитель переводов
Общие сведения о накопителях на английском языке: Translation memory
Сравнительный анализ накопителей на английском языке: Computer-assisted translation
2.1.3 Электронные словари и справочники
Популярные словари для перевода с русского и на русский:
Записки переводчика, или Человек не против компьютера
Мои субъективные заметки не охватывают всех сторон переводческой деятельности, а скорее обозначают подходы к использованию компьютерных средств с точки зрения рядового переводчика. Но определенное представление о процессе перевода компьютерных книг и специальных текстов у вас, обещаю, появится.
В не такие уж давние времена переводчик довольствовался собственной головой, печатал на пишущей машинке и искал термины в словарях. С появлением компьютера характер работы не изменился: переводчик по-прежнему печатает, только теперь уже в текстовом редакторе; ищет термины, только теперь уже в электронных словарях; и по-прежнему переводит головой, с меньшим, чем хотелось бы, успехом пытаясь научить своему ремеслу компьютер. Вот только времени на работу переводчику с каждым годом дается все меньше и меньше.
От факса к InCopy
От Multilex до Multitran
От MT к TM
Как же все-таки обстоят дела с автоматизацией процесса? На какой стадии развития находятся системы автоматизированного перевода, по аналогии с Computer-Assisted Design (CAD) называемые Computer-Assisted Translation (CAT)? Не вдаваясь в лингвистические и технологические тонкости, попытаюсь обрисовать положение дел все с той же утилитарной позиции экономии времени. Первыми на ум приходят технологии машинного перевода, по-английски machine translation. В двух словах, они сводятся к грамматическому анализу, то есть переводу частей речи. Можно подключить словари по тематике оригинала и погадать по результату «перевода», о чем же хотели сказать авторы. Но если нужно не ознакомиться с оригиналом, а опубликовать его перевод, сэкономить время не удастся. «Белковый» переводчик затратит меньше времени на перевод оригинального документа, чем на переделку творения машинного «переводчика», даже если речь идет о больших объемах технической документации с высокой степенью рекуррентности.
Для подобного рода работ в переводческой отрасли прижилась другая технология автоматизации процесса. Правда, прижилась в основном за границей, о чем можно судить даже по разнобою в переводах названия технологии translation memory. Кроме лобовой «переводческой памяти» встречается «накопительный перевод», «автоматизированный перевод» и даже «пул переводов». Подробная статья на эту тему со множеством ссылок есть в Wikipedia.
В общих чертах технология сводится к следующим процедурам. Вы загружаете исходный текст в программу переводческой памяти. Программа сегментирует текст, извлекает из своей базы ранее переведенных текстов совпадающие сегменты и выдает частично переведенный текст. Главное отличие от машинного перевода состоит в том, что базу переводческой памяти составляют сегменты из текстов, переведенных человеком. В качестве же сегмента или элемента переводческой памяти чаще всего берется предложение. Отсюда и концепция translation memory, которая основана на том, что предложения в предыдущих переводах можно использовать повторно. Очевидный выигрыш во времени частично нивелируется увеличением затрат на проверку качества перевода. И не только из-за того, что незамеченная ошибка может бесконечно повторяться, но и потому, что переводчик должен передать идею, мысль (словом, message) текста, а не переводить отдельные элементы в виде предложений.
Тем не менее по мере ускорения процессов глобализации спрос на программы переводческой памяти растет. Цены на полные версии многих программ translation memory колеблются от 500 до 2500 долларов и обусловлены не столько технологией, сколько многообразием поддерживаемых форматов переводимой документации. В качестве примеров можно упомянуть STAR Transit и Deja Vu.
Если же перед переводчиком не стоит задача переводить во всех мыслимых форматах, он может выбрать относительно дешевую программу WordFast, которая, в отличие от вышеупомянутых пакетов, не имеет собственной оболочки, а встраивается в Word.
Мало-помалу отношение к этой технологии меняется и в России. Например, компания Promt включила в свою последнюю версию машинного «переводчика» функцию translation memory. Еще одним свидетельством растущего спроса на такого рода программы стало событие, не оставшееся без внимания переводческого сообщества. В июле прошлого года компания SDL объединилась с разработчиком самой популярной программы переводческой памяти Trados. По мере обострения конкурентной борьбы меняется и идеология переводческой деятельности. Все чаще говорят не столько о переводе документации на язык страны назначения, сколько о локализации продукта на десятки языков. Став крупнейшим игроком на рынке средств локализации, компания SDL заговорила уже о стратегии управления глобальными данными (Global Information Management).
Впрочем, тема развития систем переводческой памяти и вообще средств автоматизации переводческого труда достойна не одной статьи в компьютерном журнале и привлечения участников разных сторон этого процесса. Меня же со своей колокольни интересует чисто практический вопрос: где место переводчика в процессе локализации? Начнем с того, что наше занятие еще долго будет оставаться очень трудоемким. В то же время перевод занимает в среднем лишь 40% общих расходов на локализацию, а остальное приходится на долю таких операций, как обработка файлов, форматирование, управление базами данных терминов и переводческой памяти, управление проектом, утверждение готового материала в стране целевого языка. Переводчику на этом конвейере обычно достается файл в формате программы переводческой памяти, где уже учтены предыдущие переводы по этому и подобным проектам и встроена терминологическая база. Некоторые особо продвинутые агентства разделяют работу до конца и не заставляют переводчика овладевать несвойственными ему навыками. В этом случае обработка документа в translation memory выполняется в агентстве, а переводчик получает в файлах Word сегментированный текст, не требующий форматирования и размеченный по степени совпадения с предыдущими переводами, а также глоссарий терминов по данному проекту. Результат работы переводчика снова вставляется в ту же программу для обновления баз данных переводческой памяти и терминологии. Таким образом, круг замыкается, и переводчик возвращается к идеальному варианту работы в текстовом редакторе, имея возможность целиком и полностью сосредоточиться на лингвистических задачах.
Так что я пока не вижу в компьютере серьезного конкурента живому переводчику. Не обойтись им без нас. К сожалению.
Путеводитель по электронным переводчикам
В те времена, когда компьютер считался скорее роскошью, чем универсальным инструментом для работы, понятие «электронный переводчик» также ассоциировалось с малодоступным, дорогим гаджетом. Программное обеспечение для перевода сейчас используется повсеместно: например, браузер Chrome предлагает автоматический перевод страниц посредством сервиса Google Translate.
В обзоре будут рассмотрены контекстные переводчики. Следует внести ясность, что «контекстный» в данном случае — это перевод не в зависимости от контекста, а с помощью контекстного меню или по всплывающей подсказке над переводимым текстом. Данный способ перевода оптимален при повседневной работе на компьютере: значение незнакомого слова можно узнать при его выделении и / или нажатии сочетания клавиш.
Условно программы для контекстного перевода, вошедшие в обзор, можно разделить на две категории: автономные приложения и расширения к браузерам.
Приложения
Программы для перевода позволяют переводить текст в приложениях, где поддерживается выделение текста курсором. Бывают исключения, они будут оговорены отдельно.
TranslateClient
После того, как в Google Translate API были введены ограничения и плата за использование, существование контекстных переводчиков, работающих на основе этого API, усложнилась в том смысле, что пользователям предлагается платный доступ либо использование альтернативных способов машинного перевода.
Так произошло и с Translate Client, который до известных событий предлагал бесплатное использование базового функционала, что позволяло беспрепятственно переводить текст с помощью Google. Сейчас использование незарегистрированной версии практически бессмысленно. Так, при попытке контекстного перевода через Microsoft Translator квота заканчивается уже на втором слове, а при попытке переключения в Google Translate программа сообщает, что функция доступна только в TranslateClient Pro.
Если абстрагироваться от недостатков незарегистрированной версии, переводить отдельные слова и словосочетания посредством TranslateClient достаточно удобно. В браузере TranslateClient работает в режиме выбора текста и нажатия значка перевода. Две другие иконки — «W» и «S» — поиск в Wikipedia и Google соответственно. Чтобы сократить количество кликов до одного, можно переключиться в режим «Just select text». Для перевода текста в окне другого приложения (например, Microsoft Word), нужно предоставить клиенту доступ, переключив TranslateClient на оранжевую иконку — активный режим. Двойной щелчок по значку вызывает окно для перевода текста.
Весьма странно, что бесплатные словари, по факту, требуют оплаты, установленной разработчиком программы. А бесплатный режим не располагает к активному использованию программы, что является дополнительной ложкой дегтя.
QTranslate
Перевод во всплывающем окне срабатывает при нажатии Ctrl+Q. При выделении нескольких слов выводится их автоматический перевод, для отдельных переводимых слов чаще всего отображаются варианты перевода. Переведенные слова и словосочетания записываются в журнал QTranslate («История» в меню).
Поддерживаются следующие сервисы: Google Translate, Microsoft Translator, Promt, Babylon, SDL, FreeTranslation.com, Яндекс перевод. Безусловно, наибольшее количество направлений перевода поддерживает Google Translate, но с англо-русским переводом справляются все перечисленные сервисы. Качество перевода можно сравнить, нажимая на кнопки соответствующих сервисов внизу всплывающего окна QTranslate (также см. Таблицу 2 обзора). В Microsoft Translator и Google Translate возможна озвучка слова («Сtrl+E»), а вот транскрипции, к сожалению, нет. Обнаружить ее можно только в словаре QTranslate при отображении искомого термина.
Словарь доступен по нажатию клавиш «Ctrl+W» либо в одноименном пункте меню. Учитывая то, что данное сочетание в браузере отвечает за закрытие вкладки, его можно поменять в настройках программы в разделе «Горячие клавиши».
В работе словаря используются такие сервисы, как Babylon Dictonary, Multitran и другие. К сожалению, поддержки локальных словарей нет. В настройках программы, кстати, можно отключить ненужные сервисы и языки перевода — в дальнейшем они не будут отображаться в окне переводчика.
Таким образом, QTranslate — бесплатный контекстный переводчик, функционально схожий с TranslateClient (причем версии Pro), вместе с тем, лишенный его недостатков.
OnTranslator
OnTranslator — еще один переводчик на основе Google Translate API. Возможности весьма скромные: при выделении слов появляется окно с опциями: перевод, поиск в Google, поиск в Википедии, копирование текста в буфер обмена (ненужные кнопки можно отключить в настройках программы). Из других опций стоит упомянуть «Tweet translations» — публикация перевода в Twitter. Однако иначе, чем «узкоспециализированная», эту опцию не назовешь.
Из вышесказанного понятно, что действительно полезной используемой функцией можно назвать только перевод слов и словосочетаний. Всплывающий перевод реализован аналогично Qtranslate и TranslateClient: нужно выделить текст и нажать на значок перевода. В дальнейшем окно с переводом будет закреплено на экране, количество кликов сведено к минимуму.
Минимализм OnTranslator никаких претензий не вызывает, единственный спорный момент — размер шрифта смотрится «неказисто». Впрочем, параметры вроде размера и гарнитуры несложно поменять в настройках программы.
TranslateIt!
Отличие TranslateIt! от программ, работающих на онлайновом переводе — в наличии локального словаря. Это не только делает переводчик относительно не зависимым от Интернета, но и ускоряет его работу. В TranslateClient для подключения оффлайн-словаря необходимо купить лицензию, здесь же можно свободно ознакомиться с этой особенностью, пусть и не столь существенно влияющей на итоговое качество перевода.
Поддерживаются направления перевода с английского, французского, испанского, немецкого на русский и наоборот. Все словари содержат общую лексику, английский дополнительно содержит словарь компьютерных терминов. Возможно подключение дополнительных словарей, в настройках программы предлагается скачать их отдельно с сайта программы.
Переводить можно не только выделенный текст, но и, например, надписи и элементы меню. Пользователи, слабо понимающие иностранный язык и использующие для работы нелокализованные программы, сочтут такую возможность крайне полезной.
Работает программа в трех режимах: контекстный переводчик, словарь и перевод текстов.
С первым режимом предельно понятно: если навести курсор на любое слово, появится его перевод вместе с транскрипцией, а также возможность озвучивания слова. С одной стороны, с разработчиками можно согласиться: «Вам не надо отвлекаться от чтения и искать перевод в словаре». Тем не менее, такой режим очень сильно отвлекает ввиду «вездесущего» всплывающего окна. В таком случае можно посоветовать перейти в режим «Перевод выделением», который активирует всплывающее окно при нажатии клавиши Ctrl и выделении слова.
Если у термина имеется несколько вариантов перевода, также возможно сделать обратный перевод во всплывающем непосредственно окне. Также предусмотрен перевод слов, в которых допущена ошибка в написании: TranslateIt пытается подобрать похожие термины в словаре.
А вот для перевода текста более чем в одно слово TranslateIt! предлагает воспользоваться Google Translate через отдельное окно программы («Перевести текст»). При этом — странная особенность — направлений перевода намного меньше, чем предоставляет Google на странице http://translate.google.com/. Это упущение можно связать с тем, что последнее обновление программы вышло 2 года назад.
Расширения
Расширения — без малого полнофункциональные программы. Их главное отличие от десктоп-приложений состоит в том, что они, с одной стороны, мультиплатформенны, с другой — их функции доступны только в рабочей среде браузера. Далее будут выборочно рассмотрены расширения для Chrome. Использование именно Chrome не столько принципиально, важнее показать использование расширений в связке с различными сервисами перевода: LinguaLeo, Microsoft Translator и др.
LinguaLeo
Обзор сервиса для изучения английского языка LinguaLeo был в прошлом месяце, на этот раз в угол обозрения попадает только контекстный переводчик.
После установки расширения и авторизации на сервисе, перевод осуществляется по двойному клику (если нужно перевести одно слово) либо через контекстное меню браузера (команда «Добавить в словарь. ») — если необходим перевод фразы размером до 50 символов. Расширение не работает со страницами, которые были открыты до авторизации (нужно перезагружать станицу).
Во всплывающем окне будут отображены варианты перевода, транскрипция, картинка-ассоциация (если доступна) и предложена озвучка. Если нужно изучить слово в словаре, то, помимо встроенных возможностей сервиса, для ознакомления с дополнительной информацией можно перейти на соответствующий сервис — Multitran, Abbyy Lingvo, Dictonary.com и прочие.
Главное достоинство контекстного переводчика LinguaLeo в том, что переведенные слова не «канут в лету», а будут отложены во внутренний словарь сервиса, где его можно заучить путем специальных тренировок различных уровней сложности: от перевода слов из списка на выбор до аудирования. Для каждого слова отображается прогресс изучения, по достижению которого слово переходит в категорию «изученных».
На данный момент из языков доступен только перевод с английского на русский, но, согласно обещаниям разработчиков внедрить новые языки на сервис, ситуация может улучшиться в скором времени.
В итоге получаем, пожалуй, самый удобный контекстный переводчик с английского на русский язык для заучивания новых слов.
Instant Translate
Instant Translate предоставляет удобную оболочку Google Translate. Перевод возможен как в режиме ввода (в настройках можно переключиться на мгновенный перевод), так и через контекстное меню, посредством сочетания клавиш Shift+T, которое можно переназначить. Перевод будет отображаться во всплывающем окне или отдельной вкладке, на усмотрение пользователя.
Сохранены все базовые функции сервиса Google Translate, нет лишь возможности перевода страницы при вставке URL. Однако браузер Chrome и без расширений предоставляет подобный функционал через панель перевода.
Замечена отдельная графа в настройках — «История переводов». Но просмотреть историю, как журнал в вышеупомянутой программе QTranslate, к сожалению, нельзя. Это сугубо служебная опция для хранения в кэше браузера перевода слов для ускорения их повторного отображения.
Translate selection
В настройках расширения Translate selection оптимально указать целевой язык перевода, а в качестве исходного указать пункт «Определить язык».
Для перевода используется не привычный Google Translate, а Microsoft Translator. Результат отображается во всплывающем окне. Недостаток проявляется в том, что текст нельзя скопировать для использования в других приложениях.
Второй, и более удобный вариант перевода, — в отдельном окне перевода. Таким образом также можно избежать неприятного бага расширения в виде наслоения нескольких всплывающих окон.
everygain Translator
Вместо выбора источника предлагается только указать целевой язык: как будто намек на то, что перевод осуществляется с любого языка. В настройках расширения можно переключиться на движок перевода Bing или Google: здесь лишь вопрос приемлемости одного из двух вариантов автоперевода.
Из дополнительных возможностей — мгновенный перевод в Twitter, Facebook и Google+ при наведении на твит или сообщение. К сожалению, в текущей версии расширения перевод, по ошибке, осуществляется только на немецкий язык (невзирая на настройки).
Я.Перевод
Очень простое расширение, при выделении и нажатию CTRL отображает варианты перевода слова. Разумный минимализм — так можно охарактеризовать расширение. Из недостатков — требует неоправданно много привилегий от браузера, поддерживает весьма скромное количество языков.
Как машинный перевод экономит время переводчиков
Машинное обучение упрощает работу специалистов в самых разных областях, например, переводчикам. Хотя без живых людей по-прежнему не обойтись, их роль в процессе меняется. Технический специалист MedConsult Татьяна Апраксина рассказывала, как в бюро внедрили машинный перевод, как выглядит работа с ним на практике и каких результатов удалось достичь.
У переводчиков есть популярный анекдот: «Голый кондуктор бежит под вагоном» — так выглядит автоматический перевод фразы «A naked conductor runs under the tram» без учета контекста. А должно быть: «Оголенный провод проходит под вагоном». Примерно так выглядел и машинный перевод еще в 2008 году. Но сейчас все сильно изменилось: перевод, выполненный благодаря алгоритмам, сложно отличить от «человеческого». Да, полностью заменить переводчиков нельзя, но новые технологии сильно повышают качество и скорость. Разберемся, как это работает, на примере компании MedConsult.
MedConsult — бюро переводов медицинских документов. Его сотрудники помогают фармацевтическим, медицинским, страховым компаниям и частным заказчикам с переводом документов для регистрации препаратов, выписок из карт и т. д.
Татьяна Апраксина занимается внедрением и поддержкой инструментов автоматизации перевода в компании MedConsult. «Мы решили не разрабатывать программы сами, — рассказывает Татьяна, — создавать свое решение долго и дорого. На рынке есть поставщики услуг машинного перевода: мы пользуемся программой MemoQ и сервисами компании Intento. Наша задача — сделать использование этих инструментов максимально простым для наших переводчиков».
MemoQ — это программа для перевода текстов, в которой сотрудники используют разные плагины, помогающие в работе. В MedConsult начали использовать ее девять лет назад, отказавшись от обычных Word и Excel, и соответственно перестраивать работу переводчиков.
«Это было непросто: обычно переводчики — очень консервативные люди. Но они попробовали инструмент и поняли, что он значительно облегчает работу. Два года назад мы внутри компании начали внедрять плагин с машинным переводом, и теперь большинство переводчиков сами просят подготовить текст с использованием этой технологии».
Как работает программа для перевода
Даже без машинного перевода в MemoQ есть много полезных функций. Например, функция «память переводов» — файл, в котором записаны пары «оригинал-перевод». Если программа находит в тексте сегмент, который уже переводили ранее, — его перевод появится автоматически. В работе с медицинской документацией это экономит кучу времени: многие типовые куски документов уже когда-то переводили. А если программа находит похожий переведенный сегмент, то переводчик просто исправляет различающиеся детали.
Другая функция — глоссарий, словарь терминов. MemoQ позволяет создавать множество глоссариев, по которым программа будет подсвечивать медицинские термины, предлагая правильный перевод. В MedConsult создают глоссарии для каждой компании-заказчика, поэтому все переводчики, работающие над большим пакетом документов одного клиента, используют везде одинаковые термины.
Качество машинного перевода растет. У того же Google с 2009 по 2019 год работал сервис Translator Toolkit — в нем переводчики получали машинный перевод в веб-интерфейсе. Благодаря этому у Translator Toolkit появился большой массив данных о переводах и ручных исправлениях переводчиков за 10 лет. Эти данные использовали для обучения алгоритмов и повысили качество перевода.
По словам Татьяны, пока не все работает идеально. Иногда у поставщиков машинного перевода случаются сбои — может прийти текст очень плохого качества. Тогда приходится снова отправлять запросы на серверы и ждать, когда алгоритмы начнут работать правильно.
Как машинный перевод упрощает работу переводчиков
Пример: индийская фармацевтическая компания хочет продавать в России новое лекарство. Сначала компания оформит российское представительство и запросит в Минздраве список нужных документов. После этого она обратится в бюро медицинских переводов, чтобы перевести всю документацию с английского и подготовить ее по стандартам Минздрава.
Компания присылает в бюро большое количество документов: сертификаты, инструкции, результаты исследований и т. д. Чаще всего их присылают в формате сканов в PDF. Поэтому сканы нужно сначала распознать и перевести в удобный для перевода формат — в текстовые документы, например в Microsoft Word.
В бюро разбирают эти документы по темам и отдают переводчикам, которые, специализируются на конкретных направлениях. Специалист, как правило, имеет медицинское или химическое образование и узкое направление. Если с фармацевтикой могут работать многие, то документы, например, по эндокринологии будет переводить только специалист в этой теме.
Менеджеры бюро загружают текстовые файлы в программу MemoQ, подключают глоссарии и память переводов, после чего начинает работу переводчик. Если работают с типовым документом — может быть достаточно ручных исправлений из памяти переводов. Если текст нужно перевести с нуля, то работают с плагином для машинного перевода.
Переводчик использует машинный перевод как инструмент, но за конечный результат все равно отвечает человек. Чтобы документ был переведен правильно, проверяют падежи, стиль, формулировки, терминологию. Документ также утверждает редактор, а затем верстальщики оформляют его в нужной для Минздрава форме.
Кто занимается машинным переводом?
Обработкой текста занимаются специалисты по NLP (Natural Language Processing) — направлению Data Science. NLP-дата-сайентисты создают нейросети, которые анализируют исходный текст и выдают перевод. Для этого используют машинное обучение — нейросети обучают на больших наборах данных о правильном переводе слов.
В этой профессии есть две специальности, но иногда ими занимается один специалист:
NLP Researcher — исследователь со знаниями в лингвистике. Он подбирает данные для обучения разрабатываемых нейросетей и проводит в них эксперименты по переводу.
NLP Research Engineer — разработчик со знаниями математики и алгоритмов машинного обучения. Он пишет код на Python, который реализует задачи исследователя.
Дата-сайентисты могут работать и в других областях машинного обучения, например бизнес-аналитике и компьютерном зрении.
Data Science с нуля
Освойте самую востребованную профессию 2021 года! Только реальные знание и навыки, поддержка менторов и помощь в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.
Что дало внедрение машинного перевода?
Компания MedConsult работает с программой MemoQ уже девять лет, а плагин для машинного перевода внедрили два года назад. Главное преимущество над простой работой в Word — упрощение редактуры большого проекта, над которым работает несколько переводчиков. Машинный перевод делает работу качественнее и быстрее. Вот каких результатов с его помощью удалось достичь:
Как обучить компьютер переводу?
Мы спросили у Вячеслава Лялина, ведущего автора NLP-трека (интенсивного курса по Natural Language Processing — обработке естественного языка) в Акселераторе SkillFactory, как можно обучить компьютер машинному переводу. По его словам, современные системы перевода можно описать одним предложением: подаем в нейросеть текст на одном языке, а на выходе получаем текст на другом языке.
До нейронных сетей пользовались статистическими системами. Они были сложными и состояли из большого числа компонентов, таких как модель перевода отдельных фраз, языковая модель, которая старается получить из перевода фраз связный текст, и большого числа других подсистем. А с 2016 года мир начал двигаться в сторону нейронных моделей по нескольким причинам.
«Во-первых, нейронные модели стали работать лучше статистических, во-вторых, они были проще, но самое главное — их качество лучше “склеилось” с данными», — считает Вячеслав.
Для обучения нейронной системы перевода достаточно большого датасета так называемых параллельных предложений, то есть пар «предложение-перевод». При обучении системе подают на вход предложение, которое хотят перевести, и внутри она преобразует его в набор чисел (векторы). Эта часть нейросети называется энкодером. Дальше эти векторы изначального предложения передаются в следующую часть нейросети — декодер, — которая предсказывает вероятность следующего слова перевода на основе предыдущих слов перевода и слов оригинального предложения.
Когда система обучена, перевод генерируется пословно. Декодер предсказывает одно слово, после чего оно добавляется в перевод. Дальше декодер на основе векторов из энкодера (информации об оригинальном предложении) и уже сгенерированной части перевода предсказывает следующее слово. Операция повторяется, пока декодер не выдает специальное слово, обозначающее конец перевода.
Machine Learning и Deep Learning
На курсе вы освоите все классические алгоритмы машинного обучения — от деревьев до рекомендательных систем — а также научитесь создавать нейросети.