kapetan_zorbas (
kapetan_zorbas) wrote2020-09-05 04:34 pm
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Entry tags:
О постредактировании машинного перевода и перспективах профессии технического переводчика
В отличие от широкой публики, из года в год задающей риторический вопрос, сможет ли когда-нибудь машинный перевод потеснить позиции традиционного перевода, полностью осуществляемого человеком, профильные специалисты прекрасно осведомлены о том, что такой момент вообще-то уже наступил. Большинству из нас не по душе перспективы автоматизации многих профессий: почему в прошлое непременно должны отойти, например, «живые» продавцы в продуктовых магазинах, что могут в ненавязчивом разговоре порекомендовать тот или иной товар, или таксисты, что могут развлечь в пробке всяческими байками? Однако широкое внедрение машинного перевода, что безусловно здорово преобразит сферу лингвистических услуг и профиль переводчика будущего, выглядит совершенно неизбежным. Поясню эту мысль буквально парой цифр.
По расчётам профильных экспертов, в период с 2016 по 2017 гг., то есть всего за два года, человечеством было сгенерировано больше информационных единиц, чем за всю предыдущую его историю, а по состоянию на 2018-й год Google Translate обрабатывал 143 миллиарда слов в день. Обработать такие объёмы силами живых людей немыслимо в принципе, поскольку по самым максимальным оценкам все профессиональные переводчики в мире в состоянии совокупно обработать менее 1 миллиарда слов в день – т.е. менее одного процента от объёмов одного лишь Google Translate. Подобный информационный взрыв обусловлен, в частности, развитием соцсетей, а те из нас, кто не строчат посты или твиты, всё равно оставляют отзывы, например, о тех или иных приобретённых продуктах или забронированных отелях, вносят коррективы в страницы Википедии и т.д. и т.п. Указанный экспоненциальный рост привёл к появлению бесплатных многоязычных сервисов машинного перевода, что, согласно усреднённым оценкам, переводят около 800 миллиардов слов в день. На фоне последней цифры объёмы переводов, выполняемых людьми традиционным способом, выглядят просто статистической погрешностью. Но даже для тех объемов, которые остаются на долю традиционного перевода (где требуется не скорость ознакомления или появления финального текста, а в первую очередь качество), применяется широкий спектр вспомогательных инструментальных средств, включающих последние несколько лет и машинный перевод. Что означает, что традиционные переводческие техники и методы, по-прежнему по инерции культивируемые в вузах, с каждым годом всё меньше и меньше связаны с реальностью. Потому для успешной работы переводчикам настоящего и будущего совершенно необходимо понимать, какое влияние новые технологии оказывают на их профессию, и уметь адаптироваться к постоянным изменениям, вносимым такими технологиями.
Краткая история машинного перевода
Становление машинного перевода в середине прошлого века в первую очередь было обусловлено успехами в криптографии, достигнутыми в ходе Второй Мировой войны, а в 1954-м году случилось знаменательное событие – т.н. «Джорджтаунский эксперимент», в ходе которого был осуществлён полностью автоматизированный перевод примерно шестидесяти предложений с русского языка на английский. Успех этого первого маленького шажка, что типично для той нетерпеливой эпохи, здорово вскружил всем голову – учёные тогда посчитали, что им под силу создать полностью автоматизированную систему машинного перевода в течение ближайших трёх-пяти лет, а военные и государственные организации немедленно выделили на исследования в области МП миллионы долларов. Ну а что, запуск первого спутника, а затем и человека в космос породил уверенность, что межгалактические путешествия это вопрос лишь нескольких десятилетий, а лунные базы – вообще пары следующих лет; а тут же всего лишь какой-то перевод, в общем-то совсем плёвое дело. Впрочем, эта наивная нетерпеливость отчасти присуща и нашей, вроде бы менее склонной безудержному прожектёрству эпохе, когда, например, достаточно скромные успехи в деле продления даже не жизни, а всего лишь старости сподвигают широкую публику на непоколебимую уверенность в обретении аж целого бессмертия – вспоминать эти большие надежды в разгар нынешней пандемии особенно горько. Но вернёмся к машинному переводу: вслед за предсказуемым головокружением от первого локального успеха стало понятно, что ни о каком быстром развитии этого направления не может быть и речи. Машинный перевод в те времена основывался на кодировании ограниченного набора лингвистических правил (Rule-Based Machine Translation) в сочетании со словарём и работал по принципу переноса: система анализировала каждое исходное предложение, выделяла в нём грамматические составляющие (например, подлежащее, сказуемое, дополнение), затем просматривала переводы этих выделенных слов и словосочетаний в загруженном словаре и объединяла их в конечное предложение с учётом грамматических правил языка перевода. Такой подход с его довольно жёсткими рамками совершенно не предусматривал разнообразия, присущего «живому» языку, и классические примеры неуклюжести, а то и нелепости машинного перевода (приводимые, например, в монументальной работе Умберто Эко «Сказать почти то же самое», посвящённой ремеслу перевода), относятся именно к такому подходу. Исправить его недостатки предполагалось увеличением количества кодируемых правил, что однако породило другую серьёзную проблему – как же обеспечить согласование всевозрастающего количества лингвистических правил друг с другом и установить приоритеты их обработки.
Увеличение и удешевление вычислительных мощностей в конце 1980-х в сочетании с появлением технологии Translation Memory, которая позволила накапливать многоязычные переводческие базы огромных объемов, дало толчок развитию машинного перевода иного типа – статистического (Statistical Machine Translation). Системы статистического машинного перевода более не требовали кропотливого кодирования человеком лингвистических правил и регулярного обновления словарей; вместо этого они использовали корпус уже существующих переводов, охватывающих многочисленные языковые пары, для самостоятельного извлечения правил на основе статистической вероятности. Вкратце, такие системы самообучаются переводу посредством анализа статистических отношений между загруженными исходными и переведёнными данными. Каждое предполагаемое к переводу предложение система разбивает на более мелкие части, ищет возможные переводы в загруженной базе данных и при помощи средств статистики отбирает из набора переводов наилучший вариант. Качество перевода напрямую зависит от объёма двуязычных данных (как правило, речь идёт о сотнях миллионов слов), от качества их согласованности между собой и тематической направленности. Грубо говоря, «накормив» систему образцами плохого перевода, относящимися преимущественно к горнодобывающей сфере, глупо ожидать гладких результатов при переводе медицинских текстов.
Преимущества систем, основанных на статистических подходах, очевидны каждому, кто когда-либо пользовался Google Translate, качество переводов которого исправно растёт из года в год, в первую очередь, за счёт увеличения объёма «скармливаемых» ему двуязычных данных. Кроме того, статистический МП (в сочетании с основной переводческой технологией – ТМ) стал первым видом машинного перевода, с которым начали более-менее профессионально работать «живые» переводчики, то есть первые постредакторы появились примерно в это же время.
В последние годы на фоне активных работ в области ИИ всевозрастающую популярность снискал себе третий подход, разработчики которого обещают вывести машинный перевод на уровень, практически не отличимый от «живого» перевода. Не будем забывать, правда, что с каждым из вышеперечисленных подходов в своё время также связывали разного рода революции и «окончательное решение» проблемы различий между машинным и традиционным переводом, поэтому такие лозунги вполне могут остаться лишь рекламными трюками разработчиков. Однако этот новый подход к машинному переводу, в котором используется большая искусственная нейронная сеть, подражающая работе человеческого мозга, выглядит весьма многообещающим. И статистический, и нейронный машинный перевод работают на основе уже переведённых огромных массивов многоязычных данных, но если результат статистического машинного перевода получается путём объединения отдельно обработанных составных частей предложения, то система нейронного машинного перевода пытается зафиксировать содержание и смысл законченных исходных предложений, формируя метаязык, из которого уже предложения переводятся на требуемый конечный язык, что приводит к гораздо более плавному переводу, звучащему куда более естественно. Кроме того, особенности нейронных сетей позволяют им ещё и группировать слова со схожими значениями по различным кластерам, что позволяет устранять неоднозначность таких слов гораздо в большей степени, чем в случае статистического машинного перевода. Например, слово bank нейронная система переведёт как «банк», если другими словами в предложении будут «финансы», «транзакции», «счета» и т.д., и как «берег» при наличии соседствующего «канала», «реки» и т.д. Указанные преимущества позволяют системам нейронного машинного перевода обеспечивать очень гладкий результат даже для языков с совершенно разным грамматическим строем (что ещё будет продемонстрировано). Но любые достоинства порождают и специфические недостатки – в случае с нейронным машинным переводом гладкость и естественность нередко достигаются за счёт смысловых искажений. Исправлять которые должен человек.
Возникновение необходимости в обработке машинного перевода
Практически каждый переводчик-редактор в технической сфере периодически выслушивает от заказчиков обвинения в применении в своей работе машинного перевода. Однако в последние годы, в том числе по причине уже упомянутого экспоненциального увеличения информационных объёмов, начинает происходить нечто прежде немыслимое – когда запрос на обработку машинного перевода уже исходит от самого заказчика. Здесь, правда, необходимо оговориться, что речь идёт о применении вовсе не общеизвестного, смешного и бесплатного машинного перевода, но результатов внедренной в компании системы МП, что подразумевает регулярное обучение и настройку под профиль деятельности заказчика. Внимание крупных компаний, вкладывающихся во внедрение таких систем, к машинному переводу обусловлено не только желанием унифицировать и удешевить процесс перевода, но и соображениями конфиденциальности, ведь широко распространены ситуации, когда сотрудники компаний загружают не подлежащую разглашению информацию в Google Translate, после чего она оказывается, по сути, во всеобщем доступе. Учитывая растущее внимание в современном мире к проблеме конфиденциальности данных, имеются все основания предполагать, что громкие иски о нарушении условий конфиденциальности в связи с использованием лингвистами бесплатных онлайн-переводчиков уже не за горами.
Предлагаемые разработчиками платные модули или системы МП можно разделить на два типа: универсальные и настроенные (кастомизированные). Первые обучаются самими разработчиками на основе данных из надежных и общедоступных источников, вроде новостных лент, технических руководств, законодательных баз и т.д. и представляют собой продвинутый вариант Google Translate. Подобно переводчику «Гугла», они постоянно обновляются через регулярные промежутки времени и дают хороший результат в том случае, если предлагаемые к переводу материалы носят достаточно общий характер. Настроенные (кастомизированные ) же модули обучаются под конкретные проекты, и их обучение основывается, преимущественно, на имеющихся у заказчика базах памяти переводов (Translation Memory), т.е. корпусах уже переведённых данных, относящихся к той или иной предельно конкретной сфере. Как и в случае с универсальными модулями, качество машинного перевода, обеспечиваемого после настройки, также напрямую связано с объёмом загруженных уже переведённых данных, потому предлагаемая для обучения память перевода должна быть очень хорошего качества и пройти редакторскую проверку, гарантирующую отсутствие лексических, синтаксических, грамматических и прочих ошибок. В противном случае ошибки во введённых обучающих данных напрямую скажутся на качестве нового перевода.
Что такое постредактирование машинного перевода и в чём заключается работа постредактора
Наиболее простым определением постредактирования (Post-Editing of Machine Translation, PEMT) будет следующее: редакторская обработка человеком текста, переведённого с помощью средств машинного перевода. Приведённые выше примеры весьма достойных результатов машинного перевода, особенно на основе нейросетей, позволяют рассматривать сочетание MT (Machine Translation) и PE (Post-Editing) как весьма перспективное направление в техническом переводе, обеспечивающее больший объём обработки текстов за тот же или меньший объём времени. Но очень важно понимать, что нейронный машинный перевод обеспечивает такую, на первый взгляд, потрясающую гладкость порой за счёт смысловых искажений и потому по-прежнему нуждается в обработке, несмотря на все старания разработчиков, которые стремятся обеспечить максимально близкое к человеческому переводу качество. Постредактирование значительным образом отличается от редактирования, поскольку заменяет собой традиционный этап перевода с нуля. Постредактирование МП предполагает исправление текста как результата работы компьютерной программы, тогда как процесс редактирования предполагает исправление текста, переведенного переводчиком, а не машиной. Основными задачами постредактора в этом случае становятся следующие: научиться использовать результат МП по максимуму, вносить изменения только тогда, когда это совершенно необходимо (стилем иногда можно пренебречь), ничего не добавлять и ничего не удалять по сравнению с исходным текстом и в целом улучшать результат МП за минимальное количество времени и с минимальными усилиями (иначе эффективность использования машинного перевода значительно снижается и возникает вопрос, а нужно ли было его использовать вообще).
При этом финальный уровень качества такой работы в каждом случае оговаривается между исполнителем и заказчиком исходя из потребностей последнего. Чаще всего заказчику нужно т.н. полное постредактирование (full post-editing), когда на выходе должен получиться текст практически такого же качества, что и при традиционном переводе. Однако к контенту, который не требует официальной публикации и традиционным способом вообще не переводится по причинам стоимости и затрат времени, может применяться и лёгкое/частичное постредактирование (light post-editing), в рамках которого результат МП обрабатывается лишь до такого уровня, на котором перевод становится попросту понятным реципиенту. Переводом такого уровня часто грешит, например, Википедия, что объяснимо – у общеобразовательного ресурса, настроенного на все языки мира, в принципе не может быть возможностей для надлежащей обработки переводов, потому многие страницы в ней вообще лишены какой-либо обработки МП (последний яркий пример, на который я наткнулся буквально вчера, блуждая по пространствам Вики: «Хитрый использует траур для расширения возможностей Рокки» (в статье про создание фильма «Рокки Бальбоа») – очевидно, что такой ошибки можно было бы избежать, всего лишь добавив в модуль МП уточнение, что применительно к любой статье о Сталлоне Sly, в первую очередь, должен переводится как Слай). В таблице ниже обозначены основные области применения лёгкого и полного постредактирования.
Выгоды для заказчика при таком подходе очевидны: тексты переводятся в закрытой среде по индивидуально предоставляемому доступу, что обеспечивает повышенную конфиденциальность; кроме того, при условии правильной настройки системы МП перевод значительных объёмов текста осуществляется за меньшее количество времени и с меньшими затратами. Причём сокращение издержек не всегда является приоритетом – в сфере бизнеса нередки случаи, когда огромный объём документации должен быть переведён в весьма сжатые сроки, например, для регистрации зарубежной «дочки», реорганизации, выхода компании на IPO или ежегодного совещания крупного холдинга, и тогда задержка переводов может привести лишь к тому, что не вовремя сданные документы уже никому не нужны. Без средств автоматизации в таких ситуациях просто не обойтись.
Однако внедрение средств МП это всегда «игра с нулевой суммой», обеспечивающей выигрыш разработчикам ПО и экономию средств для заказчика, но проигрыш переводчика, на которого и ложатся все издержки этой экономии – ставки на перевод, несмотря ни на какую инфляцию, неуклонно снижаются уже в течение десятилетий. Если ещё в начале «нулевых» переводчикам платили пословно, вне зависимости от числа повторов в тексте, то уже к началу «десятых» с повсеместным использованием каждым бюро переводов т.н. памяти переводов (Translation Memory) оплачиваться стал лишь полностью новый контент – за договор, который лишь на 10% отличается от договора, что ты переводил, допустим, месяц назад, ты получишь оплату в размере 10% от общего количества слов. Теперь же всё идёт к тому, что техническому переводчику будут платить уже лишь за клики, которые необходимо сделать для улучшения качества результата МП. Здесь, правда, открываются некие возможности и для маленьких хитростей – например, переписывать гораздо больше, чем требуется, тем самым повышая статистику внесённых изменений, однако, если на стороне заказчика работу также анализируют опытные лингвисты (в случае с крупными заказчиками так оно и бывает), то подобный источник халтуры будет быстро пресечён. Таким образом, у технических переводчиков будущего попросту не остаётся иного выбора, кроме как совершенствовать новые навыки и работать в соответствии с развитием технологий, поскольку даже в условиях падающих ставок всегда найдётся кто-то, кто сделает такую работу в случае отказа того или иного исполнителя.
Рассмотрим тогда необходимые навыки для овладения профессией постредактора. Выше уже отмечались серьёзные отличия постредактирования МП в сравнении с традиционным редактированием (в частности, РЕМТ заменяет традиционный этап перевода), потому здесь присутствуют другие, «свои» типы ошибок. Постредактор должен иметь в виду, что исправление перевода, выполненного машиной, сильно отличается от редактуры традиционных текстов. Результат МП редко бывает безупречным, и постредактор должен знать о тех проблемных элементах, которые могут присутствовать в переведённом таким способом тексте, т.е. ему должны быть знакомы особенности трёх типов машинного перевода, что были перечислены выше, с точки зрения присущих им разных типов ошибок. Понимание «поведения» системы МП напрямую влияет на скорость работы постредактора, когда последний заранее знает, каких ошибок ожидать.
Обработка машинного перевода это отнюдь не работа для студентов и начинающих. Да, на выходе результаты РЕМТ хоть и должны быть приближены к лучшим образцам «живого» перевода, но все равно будут уступать им в качестве. Но это совершенно не значит, что и постредактору достаточно обладать лишь средним лингвистическим опытом. На деле такая работа требует высоких аналитических навыков, и главное тут – умение отделять важное от неважного, существенное от несущественного, использовать результат МП по максимуму, внося лишь самые необходимые коррективы, понимание, что оставить, что выкинуть, а что парой кликов поправить, обойтись минимумом усилий для максимума результата, не переписывать то, что в переписывании не нуждается, а также предоставить по итогам работы заказчику список тех ошибок МП, которые в дальнейшем можно было бы исправить путем дополнительной настройки модуля, – такие навыки и такое понимание приходят исключительно с опытом, потому при кажущейся несложности обработки машинного перевода лучше всего с РЕМТ должны справляться опытные и внимательные лингвисты. Как и любой иной навык, постредактирование оттачивается со временем, и постредакторы не будут полностью продуктивными с первого же дня работы. В среднем, на то, чтобы постредактирование обеспечило желаемую эффективность (обычно речь идёт о 50-процентном увеличении объёма обработанных текстов за прежнюю единицу времени), может потребоваться до трёх месяцев при условии совершенствования этих навыков на регулярной основе.
Однако в процессе переквалификации в постредактора немало и подводных камней. В первую очередь, поскольку РЕМТ это абсолютно новый вид деятельности, то в его отношении пока что отсутствуют какие-либо общие отраслевые инструкции, у всех заказчиков разные ожидания в части итогового результата, кроме одного: они считают, что постредактор должен обеспечить повышенную производительность при сохранении привычного уровня качества. К тому же при постоянной работе в этой области неизбежна и определённая профессиональная деформация лингвиста, привыкающего к работе исключительно с машинным переводом и потому теряющего определённые творческие навыки. В связи с этим некоторые эксперты полагают, что РЕМТ должен занимать не более 30% рабочего времени лингвиста-человека. Но если указанные подводные камни получится обойти, то овладение навыками постредактора позволит переводчикам-людям сохранить свою конкурентоспособность на рынке, а также более-менее приемлемую оплату труда даже в условиях постоянного снижения ставок.
Будущее профессии технического переводчика
Исходя из вышесказанного, попробуем обрисовать перспективы профессии технического переводчика. Они выглядят удручающими для тех, кто хочет продолжать работать по старинке, словно нескольких десятилетий развития переводческих технологий, включая МП, и не бывало. В современных условиях всевозрастающих информационных объёмов, сокращения сроков выполнения переводов, диктуемого стремительностью нашей информационной эпохи, а также удешевления человеческого труда за счёт работы машин переводчику старой формации очень непросто, да и порой невыгодно работать. Но происходит это не потому, что прежние навыки не нужны – напротив, требования к уровню владения языком в наше время, пожалуй, выше чем когда-либо. Проблема в том, что эти прежние навыки без овладения новыми с каждым годом стоят всё меньше и меньше. Ещё раз оговорюсь: всё вышесказанное не касается переводчиков художественной литературы и рекламно-маркетинговых текстов, работающих с уникальным и не имеющим аналогов контентом, в отношении которого достоинства машинного перевода с его накопленными базами данных практически не применимы (хотя некоторые образцы современной художественной литературы, очевидно, пишутся конвейерным способом с привлечением «литературных негров», потому перевод их машинным способом вполне может оказаться оправданным). Однако доля такого рода текстов в общем информационном объёме с каждым годом снижается – мы уже видели, что сегодня она составляет менее одного процента, т.е. статистическую погрешность, потому при обсуждении перспектив профессии и методиках подготовки переводчиков будущего ориентироваться на эту отнюдь уже не типичную область выглядит не слишком разумным.
Итак, развитие машинного перевода мало чем грозит лишь переводчикам уникального контента – в остальных же сферах эта профессия, нет, не исчезнет, вопреки распространённому мнению многих прогрессистов, но определённым образом видоизменится. На смену прежним техническим переводчикам придут «постредакторы», или «постмашинные обработчики», или «постпереводчики», – те, кто будут готовы работать в тандеме с МП. Грубо говоря, переводчики не будут заменены роботами – переводчики будут заменены теми переводчиками, которые используют роботов. Важно помнить, что машинный перевод не заменяет потребность в человеческом переводе и переводчиках-людях – он лишь позволяет переложить на машины черновую работу по поиску подходящих слов и словосочетаний. Несмотря на все достигнутые в последние годы успехи в области машинного перевода, многие специалисты считают неизбежным наличие в нём систематических ошибок. Даже с появлением нейронного машинного перевода, имитирующего работу человеческого мозга, ни одна из систем МП не в состоянии обеспечить перевод, неотличимый от работы человека, – на момент написания этой заметки на очередной конференции с участием крупнейших разработчиков систем МП эта цель было снова отложена на дежурные 10 лет.
Всегда ли люди будут переводить лучше машин? На самом деле этот вопрос не имеет большого смысла, если мы вспомним, что даже продвинутые нейронные системы машинного перевода на самом деле ничего не переводят: они ищут в своих гигантских базах фрагменты ранее выполненных человеком переводов и по-новому компилируют их (по этой причине машинный перевод и непригоден для обработки уникального контента, порой требующего создания новых слов). Потому появление систем МП вовсе не обозначает распространённую и пугающую дихотомию человек-компьютер – здесь нет никакого противопоставления, только симбиоз, поскольку на каждом этапе система МП оперирует данными, созданными и обработанными людьми. В современную эпоху ни одному человеку не под силу держать в голове и своевременно оперировать всей полнотой данных, относящихся даже к самой узкой специализации, – эти задачи закреплены за системами автоматизации, включая МП. Но только за человеком останется умение выбрать из результатов алгоритмизированного перевода наилучший и адекватно адаптировать его под нужную задачу. Машинный же перевод служит лишь эффективным инструментом для помощи человеку в повседневной работе.
Системы нейронного машинного перевода не обладают самостоятельным интеллектом и потому не понимают, что именно они анализирует. Это означает, что как бы ни был гладок полученный текст (а нейросети выдают существенно более гладкий текст, чем все системы предыдущих поколений), он весь требует сплошной вычитки на предмет фактической точности перевода, ибо фактические ошибки в нём по-прежнему присутствуют, только теперь их ещё труднее обнаружить в силу кажущейся гладкости. Из этого следует, что если вы хотите получить гарантированно точный перевод, то результат машинного перевода в любом случае должен полностью прочитать человек, обладающий высоким уровне знаний не только в части искомой языковой пары, но и особенностей поведения систем МП.
Таким образом, профессия технического переводчика в будущем будет подразумевать сочетания следующих навыков: собственно лингвиста, а также своего рода IT-аналитика, постоянно выискивающего изъяны в системе МП с целью её улучшения, и специалиста по МП, доводящего до сведения заказчика найденные изъяны и согласующего всякий раз различные ожидания по качеству и оплате. И, пожалуй, самое главное: технические переводчики будущего будут продавать не слова, которые машина уже генерирует быстрее и в большем объёме, но достоверность этих слов, удостоверение сути того или иного документа, подтверждение того, что смысл того или иного документа передан правильно, то есть ответственность (которую МП ни при каких обстоятельствах взять на себя не может и не сможет). Одно лишь умение перевести с нуля, скажем, типовой договор с каждым днём оплачивается всё меньше и меньше, но те, кто готовы освоить возможности, предлагаемые системами автоматизации, и станут разом операторами таких систем и своего рода нотариусами-удостоверителями выдаваемых такими системами результатов, совершенно точно не останутся невостребованными[1].
[1] И даже появление гипотетически-фантастического ИИ, этого очередного Священного Грааля (в одном ряду с межгалактическими полётами, машиной времени, телепортацией и бессмертием), вряд ли в обозримом будущем кардинально изменит ситуацию на рынке лингвистических услуг. В самом деле, если ошибка всегда свойственна человеку, то почему её должен быть начисто лишен искусственный интеллект, созданный по принципу имитации работы человеческого мозга? В наши дни работа переводчика требует верификации редактором, причём даже два редактора не всегда договорятся между собой во всех аспектах текста. Потому нет никаких оснований считать, что перевод от ИИ не будет вызывать никаких нареканий со стороны редакторов и не требовать их доработки под ту или иную конкретную задачу.
По расчётам профильных экспертов, в период с 2016 по 2017 гг., то есть всего за два года, человечеством было сгенерировано больше информационных единиц, чем за всю предыдущую его историю, а по состоянию на 2018-й год Google Translate обрабатывал 143 миллиарда слов в день. Обработать такие объёмы силами живых людей немыслимо в принципе, поскольку по самым максимальным оценкам все профессиональные переводчики в мире в состоянии совокупно обработать менее 1 миллиарда слов в день – т.е. менее одного процента от объёмов одного лишь Google Translate. Подобный информационный взрыв обусловлен, в частности, развитием соцсетей, а те из нас, кто не строчат посты или твиты, всё равно оставляют отзывы, например, о тех или иных приобретённых продуктах или забронированных отелях, вносят коррективы в страницы Википедии и т.д. и т.п. Указанный экспоненциальный рост привёл к появлению бесплатных многоязычных сервисов машинного перевода, что, согласно усреднённым оценкам, переводят около 800 миллиардов слов в день. На фоне последней цифры объёмы переводов, выполняемых людьми традиционным способом, выглядят просто статистической погрешностью. Но даже для тех объемов, которые остаются на долю традиционного перевода (где требуется не скорость ознакомления или появления финального текста, а в первую очередь качество), применяется широкий спектр вспомогательных инструментальных средств, включающих последние несколько лет и машинный перевод. Что означает, что традиционные переводческие техники и методы, по-прежнему по инерции культивируемые в вузах, с каждым годом всё меньше и меньше связаны с реальностью. Потому для успешной работы переводчикам настоящего и будущего совершенно необходимо понимать, какое влияние новые технологии оказывают на их профессию, и уметь адаптироваться к постоянным изменениям, вносимым такими технологиями.
Краткая история машинного перевода
Становление машинного перевода в середине прошлого века в первую очередь было обусловлено успехами в криптографии, достигнутыми в ходе Второй Мировой войны, а в 1954-м году случилось знаменательное событие – т.н. «Джорджтаунский эксперимент», в ходе которого был осуществлён полностью автоматизированный перевод примерно шестидесяти предложений с русского языка на английский. Успех этого первого маленького шажка, что типично для той нетерпеливой эпохи, здорово вскружил всем голову – учёные тогда посчитали, что им под силу создать полностью автоматизированную систему машинного перевода в течение ближайших трёх-пяти лет, а военные и государственные организации немедленно выделили на исследования в области МП миллионы долларов. Ну а что, запуск первого спутника, а затем и человека в космос породил уверенность, что межгалактические путешествия это вопрос лишь нескольких десятилетий, а лунные базы – вообще пары следующих лет; а тут же всего лишь какой-то перевод, в общем-то совсем плёвое дело. Впрочем, эта наивная нетерпеливость отчасти присуща и нашей, вроде бы менее склонной безудержному прожектёрству эпохе, когда, например, достаточно скромные успехи в деле продления даже не жизни, а всего лишь старости сподвигают широкую публику на непоколебимую уверенность в обретении аж целого бессмертия – вспоминать эти большие надежды в разгар нынешней пандемии особенно горько. Но вернёмся к машинному переводу: вслед за предсказуемым головокружением от первого локального успеха стало понятно, что ни о каком быстром развитии этого направления не может быть и речи. Машинный перевод в те времена основывался на кодировании ограниченного набора лингвистических правил (Rule-Based Machine Translation) в сочетании со словарём и работал по принципу переноса: система анализировала каждое исходное предложение, выделяла в нём грамматические составляющие (например, подлежащее, сказуемое, дополнение), затем просматривала переводы этих выделенных слов и словосочетаний в загруженном словаре и объединяла их в конечное предложение с учётом грамматических правил языка перевода. Такой подход с его довольно жёсткими рамками совершенно не предусматривал разнообразия, присущего «живому» языку, и классические примеры неуклюжести, а то и нелепости машинного перевода (приводимые, например, в монументальной работе Умберто Эко «Сказать почти то же самое», посвящённой ремеслу перевода), относятся именно к такому подходу. Исправить его недостатки предполагалось увеличением количества кодируемых правил, что однако породило другую серьёзную проблему – как же обеспечить согласование всевозрастающего количества лингвистических правил друг с другом и установить приоритеты их обработки.
Увеличение и удешевление вычислительных мощностей в конце 1980-х в сочетании с появлением технологии Translation Memory, которая позволила накапливать многоязычные переводческие базы огромных объемов, дало толчок развитию машинного перевода иного типа – статистического (Statistical Machine Translation). Системы статистического машинного перевода более не требовали кропотливого кодирования человеком лингвистических правил и регулярного обновления словарей; вместо этого они использовали корпус уже существующих переводов, охватывающих многочисленные языковые пары, для самостоятельного извлечения правил на основе статистической вероятности. Вкратце, такие системы самообучаются переводу посредством анализа статистических отношений между загруженными исходными и переведёнными данными. Каждое предполагаемое к переводу предложение система разбивает на более мелкие части, ищет возможные переводы в загруженной базе данных и при помощи средств статистики отбирает из набора переводов наилучший вариант. Качество перевода напрямую зависит от объёма двуязычных данных (как правило, речь идёт о сотнях миллионов слов), от качества их согласованности между собой и тематической направленности. Грубо говоря, «накормив» систему образцами плохого перевода, относящимися преимущественно к горнодобывающей сфере, глупо ожидать гладких результатов при переводе медицинских текстов.
Преимущества систем, основанных на статистических подходах, очевидны каждому, кто когда-либо пользовался Google Translate, качество переводов которого исправно растёт из года в год, в первую очередь, за счёт увеличения объёма «скармливаемых» ему двуязычных данных. Кроме того, статистический МП (в сочетании с основной переводческой технологией – ТМ) стал первым видом машинного перевода, с которым начали более-менее профессионально работать «живые» переводчики, то есть первые постредакторы появились примерно в это же время.
В последние годы на фоне активных работ в области ИИ всевозрастающую популярность снискал себе третий подход, разработчики которого обещают вывести машинный перевод на уровень, практически не отличимый от «живого» перевода. Не будем забывать, правда, что с каждым из вышеперечисленных подходов в своё время также связывали разного рода революции и «окончательное решение» проблемы различий между машинным и традиционным переводом, поэтому такие лозунги вполне могут остаться лишь рекламными трюками разработчиков. Однако этот новый подход к машинному переводу, в котором используется большая искусственная нейронная сеть, подражающая работе человеческого мозга, выглядит весьма многообещающим. И статистический, и нейронный машинный перевод работают на основе уже переведённых огромных массивов многоязычных данных, но если результат статистического машинного перевода получается путём объединения отдельно обработанных составных частей предложения, то система нейронного машинного перевода пытается зафиксировать содержание и смысл законченных исходных предложений, формируя метаязык, из которого уже предложения переводятся на требуемый конечный язык, что приводит к гораздо более плавному переводу, звучащему куда более естественно. Кроме того, особенности нейронных сетей позволяют им ещё и группировать слова со схожими значениями по различным кластерам, что позволяет устранять неоднозначность таких слов гораздо в большей степени, чем в случае статистического машинного перевода. Например, слово bank нейронная система переведёт как «банк», если другими словами в предложении будут «финансы», «транзакции», «счета» и т.д., и как «берег» при наличии соседствующего «канала», «реки» и т.д. Указанные преимущества позволяют системам нейронного машинного перевода обеспечивать очень гладкий результат даже для языков с совершенно разным грамматическим строем (что ещё будет продемонстрировано). Но любые достоинства порождают и специфические недостатки – в случае с нейронным машинным переводом гладкость и естественность нередко достигаются за счёт смысловых искажений. Исправлять которые должен человек.
Возникновение необходимости в обработке машинного перевода
Практически каждый переводчик-редактор в технической сфере периодически выслушивает от заказчиков обвинения в применении в своей работе машинного перевода. Однако в последние годы, в том числе по причине уже упомянутого экспоненциального увеличения информационных объёмов, начинает происходить нечто прежде немыслимое – когда запрос на обработку машинного перевода уже исходит от самого заказчика. Здесь, правда, необходимо оговориться, что речь идёт о применении вовсе не общеизвестного, смешного и бесплатного машинного перевода, но результатов внедренной в компании системы МП, что подразумевает регулярное обучение и настройку под профиль деятельности заказчика. Внимание крупных компаний, вкладывающихся во внедрение таких систем, к машинному переводу обусловлено не только желанием унифицировать и удешевить процесс перевода, но и соображениями конфиденциальности, ведь широко распространены ситуации, когда сотрудники компаний загружают не подлежащую разглашению информацию в Google Translate, после чего она оказывается, по сути, во всеобщем доступе. Учитывая растущее внимание в современном мире к проблеме конфиденциальности данных, имеются все основания предполагать, что громкие иски о нарушении условий конфиденциальности в связи с использованием лингвистами бесплатных онлайн-переводчиков уже не за горами.
Предлагаемые разработчиками платные модули или системы МП можно разделить на два типа: универсальные и настроенные (кастомизированные). Первые обучаются самими разработчиками на основе данных из надежных и общедоступных источников, вроде новостных лент, технических руководств, законодательных баз и т.д. и представляют собой продвинутый вариант Google Translate. Подобно переводчику «Гугла», они постоянно обновляются через регулярные промежутки времени и дают хороший результат в том случае, если предлагаемые к переводу материалы носят достаточно общий характер. Настроенные (кастомизированные ) же модули обучаются под конкретные проекты, и их обучение основывается, преимущественно, на имеющихся у заказчика базах памяти переводов (Translation Memory), т.е. корпусах уже переведённых данных, относящихся к той или иной предельно конкретной сфере. Как и в случае с универсальными модулями, качество машинного перевода, обеспечиваемого после настройки, также напрямую связано с объёмом загруженных уже переведённых данных, потому предлагаемая для обучения память перевода должна быть очень хорошего качества и пройти редакторскую проверку, гарантирующую отсутствие лексических, синтаксических, грамматических и прочих ошибок. В противном случае ошибки во введённых обучающих данных напрямую скажутся на качестве нового перевода.
Что такое постредактирование машинного перевода и в чём заключается работа постредактора
Наиболее простым определением постредактирования (Post-Editing of Machine Translation, PEMT) будет следующее: редакторская обработка человеком текста, переведённого с помощью средств машинного перевода. Приведённые выше примеры весьма достойных результатов машинного перевода, особенно на основе нейросетей, позволяют рассматривать сочетание MT (Machine Translation) и PE (Post-Editing) как весьма перспективное направление в техническом переводе, обеспечивающее больший объём обработки текстов за тот же или меньший объём времени. Но очень важно понимать, что нейронный машинный перевод обеспечивает такую, на первый взгляд, потрясающую гладкость порой за счёт смысловых искажений и потому по-прежнему нуждается в обработке, несмотря на все старания разработчиков, которые стремятся обеспечить максимально близкое к человеческому переводу качество. Постредактирование значительным образом отличается от редактирования, поскольку заменяет собой традиционный этап перевода с нуля. Постредактирование МП предполагает исправление текста как результата работы компьютерной программы, тогда как процесс редактирования предполагает исправление текста, переведенного переводчиком, а не машиной. Основными задачами постредактора в этом случае становятся следующие: научиться использовать результат МП по максимуму, вносить изменения только тогда, когда это совершенно необходимо (стилем иногда можно пренебречь), ничего не добавлять и ничего не удалять по сравнению с исходным текстом и в целом улучшать результат МП за минимальное количество времени и с минимальными усилиями (иначе эффективность использования машинного перевода значительно снижается и возникает вопрос, а нужно ли было его использовать вообще).
При этом финальный уровень качества такой работы в каждом случае оговаривается между исполнителем и заказчиком исходя из потребностей последнего. Чаще всего заказчику нужно т.н. полное постредактирование (full post-editing), когда на выходе должен получиться текст практически такого же качества, что и при традиционном переводе. Однако к контенту, который не требует официальной публикации и традиционным способом вообще не переводится по причинам стоимости и затрат времени, может применяться и лёгкое/частичное постредактирование (light post-editing), в рамках которого результат МП обрабатывается лишь до такого уровня, на котором перевод становится попросту понятным реципиенту. Переводом такого уровня часто грешит, например, Википедия, что объяснимо – у общеобразовательного ресурса, настроенного на все языки мира, в принципе не может быть возможностей для надлежащей обработки переводов, потому многие страницы в ней вообще лишены какой-либо обработки МП (последний яркий пример, на который я наткнулся буквально вчера, блуждая по пространствам Вики: «Хитрый использует траур для расширения возможностей Рокки» (в статье про создание фильма «Рокки Бальбоа») – очевидно, что такой ошибки можно было бы избежать, всего лишь добавив в модуль МП уточнение, что применительно к любой статье о Сталлоне Sly, в первую очередь, должен переводится как Слай). В таблице ниже обозначены основные области применения лёгкого и полного постредактирования.
Выгоды для заказчика при таком подходе очевидны: тексты переводятся в закрытой среде по индивидуально предоставляемому доступу, что обеспечивает повышенную конфиденциальность; кроме того, при условии правильной настройки системы МП перевод значительных объёмов текста осуществляется за меньшее количество времени и с меньшими затратами. Причём сокращение издержек не всегда является приоритетом – в сфере бизнеса нередки случаи, когда огромный объём документации должен быть переведён в весьма сжатые сроки, например, для регистрации зарубежной «дочки», реорганизации, выхода компании на IPO или ежегодного совещания крупного холдинга, и тогда задержка переводов может привести лишь к тому, что не вовремя сданные документы уже никому не нужны. Без средств автоматизации в таких ситуациях просто не обойтись.
Однако внедрение средств МП это всегда «игра с нулевой суммой», обеспечивающей выигрыш разработчикам ПО и экономию средств для заказчика, но проигрыш переводчика, на которого и ложатся все издержки этой экономии – ставки на перевод, несмотря ни на какую инфляцию, неуклонно снижаются уже в течение десятилетий. Если ещё в начале «нулевых» переводчикам платили пословно, вне зависимости от числа повторов в тексте, то уже к началу «десятых» с повсеместным использованием каждым бюро переводов т.н. памяти переводов (Translation Memory) оплачиваться стал лишь полностью новый контент – за договор, который лишь на 10% отличается от договора, что ты переводил, допустим, месяц назад, ты получишь оплату в размере 10% от общего количества слов. Теперь же всё идёт к тому, что техническому переводчику будут платить уже лишь за клики, которые необходимо сделать для улучшения качества результата МП. Здесь, правда, открываются некие возможности и для маленьких хитростей – например, переписывать гораздо больше, чем требуется, тем самым повышая статистику внесённых изменений, однако, если на стороне заказчика работу также анализируют опытные лингвисты (в случае с крупными заказчиками так оно и бывает), то подобный источник халтуры будет быстро пресечён. Таким образом, у технических переводчиков будущего попросту не остаётся иного выбора, кроме как совершенствовать новые навыки и работать в соответствии с развитием технологий, поскольку даже в условиях падающих ставок всегда найдётся кто-то, кто сделает такую работу в случае отказа того или иного исполнителя.
Рассмотрим тогда необходимые навыки для овладения профессией постредактора. Выше уже отмечались серьёзные отличия постредактирования МП в сравнении с традиционным редактированием (в частности, РЕМТ заменяет традиционный этап перевода), потому здесь присутствуют другие, «свои» типы ошибок. Постредактор должен иметь в виду, что исправление перевода, выполненного машиной, сильно отличается от редактуры традиционных текстов. Результат МП редко бывает безупречным, и постредактор должен знать о тех проблемных элементах, которые могут присутствовать в переведённом таким способом тексте, т.е. ему должны быть знакомы особенности трёх типов машинного перевода, что были перечислены выше, с точки зрения присущих им разных типов ошибок. Понимание «поведения» системы МП напрямую влияет на скорость работы постредактора, когда последний заранее знает, каких ошибок ожидать.
Обработка машинного перевода это отнюдь не работа для студентов и начинающих. Да, на выходе результаты РЕМТ хоть и должны быть приближены к лучшим образцам «живого» перевода, но все равно будут уступать им в качестве. Но это совершенно не значит, что и постредактору достаточно обладать лишь средним лингвистическим опытом. На деле такая работа требует высоких аналитических навыков, и главное тут – умение отделять важное от неважного, существенное от несущественного, использовать результат МП по максимуму, внося лишь самые необходимые коррективы, понимание, что оставить, что выкинуть, а что парой кликов поправить, обойтись минимумом усилий для максимума результата, не переписывать то, что в переписывании не нуждается, а также предоставить по итогам работы заказчику список тех ошибок МП, которые в дальнейшем можно было бы исправить путем дополнительной настройки модуля, – такие навыки и такое понимание приходят исключительно с опытом, потому при кажущейся несложности обработки машинного перевода лучше всего с РЕМТ должны справляться опытные и внимательные лингвисты. Как и любой иной навык, постредактирование оттачивается со временем, и постредакторы не будут полностью продуктивными с первого же дня работы. В среднем, на то, чтобы постредактирование обеспечило желаемую эффективность (обычно речь идёт о 50-процентном увеличении объёма обработанных текстов за прежнюю единицу времени), может потребоваться до трёх месяцев при условии совершенствования этих навыков на регулярной основе.
Однако в процессе переквалификации в постредактора немало и подводных камней. В первую очередь, поскольку РЕМТ это абсолютно новый вид деятельности, то в его отношении пока что отсутствуют какие-либо общие отраслевые инструкции, у всех заказчиков разные ожидания в части итогового результата, кроме одного: они считают, что постредактор должен обеспечить повышенную производительность при сохранении привычного уровня качества. К тому же при постоянной работе в этой области неизбежна и определённая профессиональная деформация лингвиста, привыкающего к работе исключительно с машинным переводом и потому теряющего определённые творческие навыки. В связи с этим некоторые эксперты полагают, что РЕМТ должен занимать не более 30% рабочего времени лингвиста-человека. Но если указанные подводные камни получится обойти, то овладение навыками постредактора позволит переводчикам-людям сохранить свою конкурентоспособность на рынке, а также более-менее приемлемую оплату труда даже в условиях постоянного снижения ставок.
Будущее профессии технического переводчика
Исходя из вышесказанного, попробуем обрисовать перспективы профессии технического переводчика. Они выглядят удручающими для тех, кто хочет продолжать работать по старинке, словно нескольких десятилетий развития переводческих технологий, включая МП, и не бывало. В современных условиях всевозрастающих информационных объёмов, сокращения сроков выполнения переводов, диктуемого стремительностью нашей информационной эпохи, а также удешевления человеческого труда за счёт работы машин переводчику старой формации очень непросто, да и порой невыгодно работать. Но происходит это не потому, что прежние навыки не нужны – напротив, требования к уровню владения языком в наше время, пожалуй, выше чем когда-либо. Проблема в том, что эти прежние навыки без овладения новыми с каждым годом стоят всё меньше и меньше. Ещё раз оговорюсь: всё вышесказанное не касается переводчиков художественной литературы и рекламно-маркетинговых текстов, работающих с уникальным и не имеющим аналогов контентом, в отношении которого достоинства машинного перевода с его накопленными базами данных практически не применимы (хотя некоторые образцы современной художественной литературы, очевидно, пишутся конвейерным способом с привлечением «литературных негров», потому перевод их машинным способом вполне может оказаться оправданным). Однако доля такого рода текстов в общем информационном объёме с каждым годом снижается – мы уже видели, что сегодня она составляет менее одного процента, т.е. статистическую погрешность, потому при обсуждении перспектив профессии и методиках подготовки переводчиков будущего ориентироваться на эту отнюдь уже не типичную область выглядит не слишком разумным.
Итак, развитие машинного перевода мало чем грозит лишь переводчикам уникального контента – в остальных же сферах эта профессия, нет, не исчезнет, вопреки распространённому мнению многих прогрессистов, но определённым образом видоизменится. На смену прежним техническим переводчикам придут «постредакторы», или «постмашинные обработчики», или «постпереводчики», – те, кто будут готовы работать в тандеме с МП. Грубо говоря, переводчики не будут заменены роботами – переводчики будут заменены теми переводчиками, которые используют роботов. Важно помнить, что машинный перевод не заменяет потребность в человеческом переводе и переводчиках-людях – он лишь позволяет переложить на машины черновую работу по поиску подходящих слов и словосочетаний. Несмотря на все достигнутые в последние годы успехи в области машинного перевода, многие специалисты считают неизбежным наличие в нём систематических ошибок. Даже с появлением нейронного машинного перевода, имитирующего работу человеческого мозга, ни одна из систем МП не в состоянии обеспечить перевод, неотличимый от работы человека, – на момент написания этой заметки на очередной конференции с участием крупнейших разработчиков систем МП эта цель было снова отложена на дежурные 10 лет.
Всегда ли люди будут переводить лучше машин? На самом деле этот вопрос не имеет большого смысла, если мы вспомним, что даже продвинутые нейронные системы машинного перевода на самом деле ничего не переводят: они ищут в своих гигантских базах фрагменты ранее выполненных человеком переводов и по-новому компилируют их (по этой причине машинный перевод и непригоден для обработки уникального контента, порой требующего создания новых слов). Потому появление систем МП вовсе не обозначает распространённую и пугающую дихотомию человек-компьютер – здесь нет никакого противопоставления, только симбиоз, поскольку на каждом этапе система МП оперирует данными, созданными и обработанными людьми. В современную эпоху ни одному человеку не под силу держать в голове и своевременно оперировать всей полнотой данных, относящихся даже к самой узкой специализации, – эти задачи закреплены за системами автоматизации, включая МП. Но только за человеком останется умение выбрать из результатов алгоритмизированного перевода наилучший и адекватно адаптировать его под нужную задачу. Машинный же перевод служит лишь эффективным инструментом для помощи человеку в повседневной работе.
Системы нейронного машинного перевода не обладают самостоятельным интеллектом и потому не понимают, что именно они анализирует. Это означает, что как бы ни был гладок полученный текст (а нейросети выдают существенно более гладкий текст, чем все системы предыдущих поколений), он весь требует сплошной вычитки на предмет фактической точности перевода, ибо фактические ошибки в нём по-прежнему присутствуют, только теперь их ещё труднее обнаружить в силу кажущейся гладкости. Из этого следует, что если вы хотите получить гарантированно точный перевод, то результат машинного перевода в любом случае должен полностью прочитать человек, обладающий высоким уровне знаний не только в части искомой языковой пары, но и особенностей поведения систем МП.
Таким образом, профессия технического переводчика в будущем будет подразумевать сочетания следующих навыков: собственно лингвиста, а также своего рода IT-аналитика, постоянно выискивающего изъяны в системе МП с целью её улучшения, и специалиста по МП, доводящего до сведения заказчика найденные изъяны и согласующего всякий раз различные ожидания по качеству и оплате. И, пожалуй, самое главное: технические переводчики будущего будут продавать не слова, которые машина уже генерирует быстрее и в большем объёме, но достоверность этих слов, удостоверение сути того или иного документа, подтверждение того, что смысл того или иного документа передан правильно, то есть ответственность (которую МП ни при каких обстоятельствах взять на себя не может и не сможет). Одно лишь умение перевести с нуля, скажем, типовой договор с каждым днём оплачивается всё меньше и меньше, но те, кто готовы освоить возможности, предлагаемые системами автоматизации, и станут разом операторами таких систем и своего рода нотариусами-удостоверителями выдаваемых такими системами результатов, совершенно точно не останутся невостребованными[1].
[1] И даже появление гипотетически-фантастического ИИ, этого очередного Священного Грааля (в одном ряду с межгалактическими полётами, машиной времени, телепортацией и бессмертием), вряд ли в обозримом будущем кардинально изменит ситуацию на рынке лингвистических услуг. В самом деле, если ошибка всегда свойственна человеку, то почему её должен быть начисто лишен искусственный интеллект, созданный по принципу имитации работы человеческого мозга? В наши дни работа переводчика требует верификации редактором, причём даже два редактора не всегда договорятся между собой во всех аспектах текста. Потому нет никаких оснований считать, что перевод от ИИ не будет вызывать никаких нареканий со стороны редакторов и не требовать их доработки под ту или иную конкретную задачу.