TransEvalnia: система оценки качества перевода на основе подсказок для языковых моделей

Системы перевода, основанные на языковых моделях (LLM), достигли такого уровня развития, что в некоторых случаях могут превзойти переводчиков-людей. По мере совершенствования LLM, особенно в сложных задачах, таких как перевод документов или литературный перевод, становится всё сложнее добиваться дальнейшего прогресса и точно оценивать этот прогресс.

Традиционные автоматизированные метрики и их ограничения

Традиционные автоматизированные метрики, такие как BLEU, всё ещё используются, но они не могут объяснить, почему была поставлена та или иная оценка. Когда качество перевода приближается к человеческому уровню, пользователям требуются оценки, выходящие за рамки числовых показателей, предоставляющие обоснования по ключевым параметрам, таким как точность, терминология и соответствие аудитории.

Новые метрики для оценки качества перевода

Новые метрики, такие как BLEURT, COMET и MetricX, настраивают мощные языковые модели для более точной оценки качества перевода. Большие модели, такие как GPT и PaLM2, теперь могут предлагать оценки без обучения (zero-shot) или структурированные оценки, даже генерируя обратную связь в стиле MQM.

TransEvalnia: система оценки и ранжирования переводов

Исследователи из Sakana.ai разработали TransEvalnia — систему оценки и ранжирования переводов, которая использует рассуждения на основе подсказок для оценки качества перевода. Она предоставляет подробную обратную связь, используя выбранные параметры MQM, ранжирует переводы и присваивает оценки по 5-балльной шкале Лайкерта, включая общую оценку.

Система TransEvalnia демонстрирует конкурентоспособность или даже превосходит ведущую модель MT-Ranker в нескольких языковых парах и задачах, включая английский — японский, китайский — английский и другие.

Методология оценки переводов

Методология сосредоточена на оценке переводов по ключевым аспектам качества, включая точность, терминологию, соответствие аудитории и ясность. Для поэтических текстов, таких как хайку, эмоциональный тон заменяет стандартные грамматические проверки. Переводы разбиваются на части и оцениваются по шкале от 1 до 5, а затем ранжируются.

Для снижения предвзятости исследование сравнивает три стратегии оценки: одношаговую, двухшаговую и более надёжный метод чередования. Также тестируется метод «без рассуждений», но он лишён прозрачности и склонен к предвзятости. Наконец, эксперты-люди просматривают выбранные переводы, чтобы сравнить свои суждения с суждениями системы.

Результаты исследования

Исследователи оценили системы ранжирования переводов, используя наборы данных с человеческими оценками, сравнивая свои модели TransEvalnia (Qwen и Sonnet) с MT-Ranker, COMET-22/23, XCOMET-XXL и MetricX-XXL. На WMT-2024 en-es модель MT-Ranker показала лучшие результаты, вероятно, благодаря богатым обучающим данным. Однако в большинстве других наборов данных TransEvalnia соответствовала или превосходила MT-Ranker.

Выводы

TransEvalnia — это система на основе подсказок для оценки и ранжирования переводов с использованием LLM, таких как Claude 3.5, Sonnet и Qwen. Система предоставляет подробные оценки по ключевым параметрам качества, вдохновлённым структурой MQM, и выбирает лучший перевод среди вариантов. Она часто соответствует или превосходит MT-Ranker в нескольких языковых парах WMT, хотя MetricX-XXL лидирует на WMT благодаря тонкой настройке.

Эксперты-люди сочли результаты Sonnet надёжными, а оценки показали сильную корреляцию с человеческими суждениями. Тонкая настройка Qwen заметно улучшила производительность. Команда также изучила решения проблемы позиционной предвзятости, постоянной проблемы в системах ранжирования, и поделилась всеми данными и кодом оценки.

1. Какие традиционные автоматизированные метрики используются для оценки качества перевода и в чём их ограничения?

2. Какие новые метрики для оценки качества перевода были разработаны и как они работают?

3. Как система TransEvalnia оценивает и ранжирует переводы и какие параметры она использует для этого?

4. Какие стратегии оценки переводов были протестированы в исследовании и какие из них оказались наиболее надёжными?

5. Какие выводы были сделаны исследователями относительно системы TransEvalnia и её сравнения с другими моделями?

Источник