Facebook сообщил о создании искусственного интеллекта, способного к точному переводу между двумя языками без использования английского языка в качестве промежуточного звена, для группы из 100 различных языков.
Компания сообщила об открытии исходников программного кода её новейшей программы многоязычного машинного перевода, M2M-100. По информации Facebook, это первая такая программа, способная точно переводить напрямую между любой парой из 100 языков, не полагаясь на промежуточный перевод на английский, как это делают многие существующие системы перевода.
До сих пор программы-переводчики сначала выполняли перевод на английский, поскольку для этого языка накоплено больше всего тренировочных данных. Например, с иврита на русский перевод выполнялся по схеме: с иврита на английский, а затем — с английского на русский. Результат знаком многим — программа даёт сбой на большинстве сложных предложений.
Исследовательница из подразделения Facebook AI Анжела Фань рассказывает, что её команде пришлось составить огромный массив тренировочных данных для всех языковых комбинаций. Он содержал свыше 7,5 миллиардов параллельных предложений (для 2200 направлений перевода), собранных при помощи инструментов для информационного майнинга.
«Что меня действительно интересовало, так это отказ от английского как посредника. В мире есть множество регионов, где говорят на двух языках, среди которых нет английского», — говорит Фань.
Обучение ИИ было сконцентрировано на языках, которые часто переводятся друг с друга. Они были сгруппированы в 14 языковых групп на основе географического и культурного сходства. Это было сделано для обеспечения высокого качества перевода, наиболее часто используемых языковых сочетаний и более точного обучения программы.
В каждой из этих 14 языковых групп Facebook определила от одного до трех «языков-мостов», которые стали основой для переводов на языки других языковых групп. Команда Фань также использовала технику, известную как «обратный перевод», для создания синтетических данных в дополнение к уже полученным параллельным данным. Такая стратегия позволила наилучшим образом охватить все 100×100 комбинаций (всего 9 900 направлений) в одной модели.
Для некоторых языковых пар новая программа показывает значительные улучшения по сравнению с существующим качеством перевода. Лучшую точность показала языковая пара испанский-португальский, поскольку испанский является вторым по распространенности языком во всем мире, а это означает, что исследователи имели доступ к большому количеству данных для обучения ИИ. Перевод между английским и белорусским языками также значительно улучшился по сравнению с существующими электронными переводчиками, так как в этом случае ИИ учился на переводе на русский язык, который имеет много общего с белорусским.
Фань утверждает, что готовая модель M2M-100 превосходит все существующие многоязычные модели, ориентированные на английский язык, на 10 пунктов по шкале BLEU, широко используемой для оценки машинных переводов. Переводы, сделанные с помощью ИИ, также оценивались разными людьми, которые оценили его точность примерно в 90%.
Хотя эта система еще не используется на сайте социальной сети, Facebook планирует вскоре запустить ее, чтобы обрабатывать 20 миллиардов переводов, выполняемых каждый день, когда люди нажимают «Перевести» в публикациях, написанных более чем на 160 языках. По словам Фань, в будущем работа будет вестись и над другими языками. «Особенно мы займемся языками, по которым у нас мало данных, такими как языки Юго-Восточной Азии и Африки», — сказала она в заключении.