Системы перевода, основанные на языковых моделях (LLM), достигли такого уровня развития, что в некоторых случаях могут превзойти переводчиков-людей. По мере совершенствования LLM, особенно в сложных задачах, таких как перевод документов или литературный перевод, становится всё сложнее добиваться дальнейшего прогресса и точно оценивать этот прогресс.
Традиционные автоматизированные метрики и их ограничения
Традиционные автоматизированные метрики, такие как BLEU, всё ещё используются, но они не могут объяснить, почему была поставлена та или иная оценка. Когда качество перевода приближается к человеческому уровню, пользователям требуются оценки, выходящие за рамки числовых показателей, предоставляющие обоснования по ключевым параметрам, таким как точность, терминология и соответствие аудитории.
Новые метрики для оценки качества перевода
Новые метрики, такие как BLEURT, COMET и MetricX, настраивают мощные языковые модели для более точной оценки качества перевода. Большие модели, такие как GPT и PaLM2, теперь могут предлагать оценки без обучения (zero-shot) или структурированные оценки, даже генерируя обратную связь в стиле MQM.
TransEvalnia: система оценки и ранжирования переводов
Исследователи из Sakana.ai разработали TransEvalnia — систему оценки и ранжирования переводов, которая использует рассуждения на основе подсказок для оценки качества перевода. Она предоставляет подробную обратную связь, используя выбранные параметры MQM, ранжирует переводы и присваивает оценки по 5-балльной шкале Лайкерта, включая общую оценку.
Система TransEvalnia демонстрирует конкурентоспособность или даже превосходит ведущую модель MT-Ranker в нескольких языковых парах и задачах, включая английский — японский, китайский — английский и другие.
Методология оценки переводов
Методология сосредоточена на оценке переводов по ключевым аспектам качества, включая точность, терминологию, соответствие аудитории и ясность. Для поэтических текстов, таких как хайку, эмоциональный тон заменяет стандартные грамматические проверки. Переводы разбиваются на части и оцениваются по шкале от 1 до 5, а затем ранжируются.
Для снижения предвзятости исследование сравнивает три стратегии оценки: одношаговую, двухшаговую и более надёжный метод чередования. Также тестируется метод «без рассуждений», но он лишён прозрачности и склонен к предвзятости. Наконец, эксперты-люди просматривают выбранные переводы, чтобы сравнить свои суждения с суждениями системы.
Результаты исследования
Исследователи оценили системы ранжирования переводов, используя наборы данных с человеческими оценками, сравнивая свои модели TransEvalnia (Qwen и Sonnet) с MT-Ranker, COMET-22/23, XCOMET-XXL и MetricX-XXL. На WMT-2024 en-es модель MT-Ranker показала лучшие результаты, вероятно, благодаря богатым обучающим данным. Однако в большинстве других наборов данных TransEvalnia соответствовала или превосходила MT-Ranker.
Выводы
TransEvalnia — это система на основе подсказок для оценки и ранжирования переводов с использованием LLM, таких как Claude 3.5, Sonnet и Qwen. Система предоставляет подробные оценки по ключевым параметрам качества, вдохновлённым структурой MQM, и выбирает лучший перевод среди вариантов. Она часто соответствует или превосходит MT-Ranker в нескольких языковых парах WMT, хотя MetricX-XXL лидирует на WMT благодаря тонкой настройке.
Эксперты-люди сочли результаты Sonnet надёжными, а оценки показали сильную корреляцию с человеческими суждениями. Тонкая настройка Qwen заметно улучшила производительность. Команда также изучила решения проблемы позиционной предвзятости, постоянной проблемы в системах ранжирования, и поделилась всеми данными и кодом оценки.
1. Какие традиционные автоматизированные метрики используются для оценки качества перевода и в чём их ограничения?
Традиционные автоматизированные метрики, такие как BLEU, всё ещё используются, но они не могут объяснить, почему была поставлена та или иная оценка. Когда качество перевода приближается к человеческому уровню, пользователям требуются оценки, выходящие за рамки числовых показателей, предоставляющие обоснования по ключевым параметрам, таким как точность, терминология и соответствие аудитории.
2. Какие новые метрики для оценки качества перевода были разработаны и как они работают?
Новые метрики, такие как BLEURT, COMET и MetricX, настраивают мощные языковые модели для более точной оценки качества перевода. Большие модели, такие как GPT и PaLM2, теперь могут предлагать оценки без обучения (zero-shot) или структурированные оценки, даже генерируя обратную связь в стиле MQM.
3. Как система TransEvalnia оценивает и ранжирует переводы и какие параметры она использует для этого?
Исследователи из Sakana.ai разработали TransEvalnia — систему оценки и ранжирования переводов, которая использует рассуждения на основе подсказок для оценки качества перевода. Она предоставляет подробную обратную связь, используя выбранные параметры MQM, ранжирует переводы и присваивает оценки по 5-балльной шкале Лайкерта, включая общую оценку.
4. Какие стратегии оценки переводов были протестированы в исследовании и какие из них оказались наиболее надёжными?
Для снижения предвзятости исследование сравнивает три стратегии оценки: одношаговую, двухшаговую и более надёжный метод чередования. Также тестируется метод «без рассуждений», но он лишён прозрачности и склонен к предвзятости. Наконец, эксперты-люди просматривают выбранные переводы, чтобы сравнить свои суждения с суждениями системы.
5. Какие выводы были сделаны исследователями относительно системы TransEvalnia и её сравнения с другими моделями?
TransEvalnia — это система на основе подсказок для оценки и ранжирования переводов с использованием LLM, таких как Claude 3.5, Sonnet и Qwen. Система предоставляет подробные оценки по ключевым параметрам качества, вдохновлённым структурой MQM, и выбирает лучший перевод среди вариантов. Она часто соответствует или превосходит MT-Ranker в нескольких языковых парах WMT, хотя MetricX-XXL лидирует на WMT благодаря тонкой настройке.