Почему большие языковые модели пропускают инструкции и как решить эту проблему

Большие языковые модели (БЯМ) быстро стали незаменимыми инструментами искусственного интеллекта (ИИ), лежащими в основе таких приложений, как чат-боты, создание контента и помощь в программировании. Несмотря на их впечатляющие возможности, пользователи часто сталкиваются с проблемой: эти модели иногда пропускают части полученных инструкций, особенно когда инструкции длинные или содержат несколько шагов. Это приводит к неполным или неточным результатам, что может вызвать путаницу и подорвать доверие к системам ИИ. Понимание причин, по которым БЯМ пропускают инструкции, и способов решения этой проблемы важно для пользователей, которые полагаются на эти модели для получения точных и надёжных результатов.

Почему БЯМ пропускают инструкции?

БЯМ обрабатывают входной текст как последовательность токенов. Токены — это небольшие фрагменты, на которые разделён текст. Модель обрабатывает эти токены один за другим, от начала до конца. Это означает, что инструкциям в начале ввода уделяется больше внимания. Более поздние инструкции могут получать меньше внимания и игнорироваться.

Это происходит из-за ограниченной способности БЯМ к концентрации внимания. Внимание — это механизм, который модели используют для определения важности различных частей ввода при генерации ответов. Когда ввод короткий, внимание работает хорошо. Но внимание снижается по мере увеличения длины ввода или усложнения инструкций. Это ослабляет концентрацию на более поздних частях, вызывая пропуски.

Кроме того, одновременное выполнение множества инструкций увеличивает сложность. Когда инструкции перекрываются или противоречат друг другу, модели могут запутаться. Они могут пытаться ответить на всё, но выдать расплывчатые или противоречивые ответы. Это часто приводит к тому, что некоторые инструкции пропускаются.

БЯМ также имеют некоторые человеческие ограничения. Например, люди могут терять концентрацию при чтении длинных или повторяющихся текстов. Аналогично БЯМ могут забывать более поздние инструкции при обработке большего количества токенов. Эта потеря концентрации является частью конструкции и ограничений модели.

Ещё одна причина — то, как обучаются БЯМ. Они видят множество примеров простых инструкций, но меньше сложных, многошаговых. Из-за этого модели склонны предпочитать более простые инструкции, которые чаще встречаются в их обучающих данных. Это смещение заставляет их пропускать сложные инструкции. Также ограничения по количеству токенов ограничивают объём вводимых данных, которые может обработать модель. Когда входные данные превышают эти ограничения, инструкции за их пределами игнорируются.

Пример: предположим, вы даёте БЯМ пять инструкций в одном запросе. Модель может сосредоточиться в основном на первых двух инструкциях и частично или полностью проигнорировать последние три. Это напрямую влияет на то, как модель обрабатывает токены последовательно и её ограничения по вниманию.

Насколько хорошо БЯМ справляются с последовательными инструкциями на основе результатов SIFo 2024

Недавние исследования тщательно изучили, насколько хорошо БЯМ выполняют несколько инструкций, заданных последовательно. Одним из важных исследований является бенчмарк Sequential Instructions Following (SIFo) 2024. Этот бенчмарк тестирует модели на задачах, требующих пошагового выполнения инструкций, таких как модификация текста, ответы на вопросы, математика и следование правилам безопасности. Каждая инструкция в последовательности зависит от правильного выполнения предыдущей. Этот подход помогает проверить, правильно ли модель выполнила всю последовательность.

Результаты SIFo показывают, что даже лучшим БЯМ, таким как GPT-4 и Claude-3, часто трудно правильно выполнить все инструкции. Это особенно верно, когда инструкции длинные или сложные. Исследование выделяет три основные проблемы, с которыми сталкиваются БЯМ при выполнении инструкций:

* Понимание: полное осмысление того, что означает каждая инструкция.
* Рассуждение: логическая связь нескольких инструкций для обеспечения ясности ответа.
* Надёжный вывод: получение полных и точных ответов, охватывающих все данные инструкции.

Такие методы, как разработка подсказок и тонкая настройка, помогают улучшить выполнение моделей инструкций. Однако эти методы не полностью решают проблему пропуска инструкций. Использование обучения с подкреплением с обратной связью от человека (RLHF) ещё больше улучшает способность модели реагировать соответствующим образом. Тем не менее, модели испытывают трудности, когда инструкции требуют много шагов или являются очень сложными.

Исследование также показывает, что БЯМ работают лучше всего, когда инструкции просты, чётко разделены и хорошо организованы. Когда задачи требуют длинных цепочек рассуждений или множества шагов, точность модели снижается. Эти результаты помогают предложить более эффективные способы использования БЯМ и показывают необходимость создания более совершенных моделей, которые действительно могут последовательно выполнять инструкции.

Технические проблемы и практические соображения

БЯМ могут пропускать инструкции из-за нескольких технических и практических факторов, связанных с тем, как они обрабатывают и кодируют входной текст.

Ограниченный объём внимания и разбавление информации

БЯМ полагаются на механизмы внимания, чтобы присвоить важность различным частям ввода. Когда подсказки краткие, внимание модели сфокусировано и эффективно. Однако по мере того, как подсказка становится длиннее или более повторяющейся, внимание становится более рассеянным, и более поздние токены или инструкции получают меньше внимания, что увеличивает вероятность их пропуска. Это явление, известное как разбавление информации, особенно проблематично для инструкций, которые появляются в конце подсказки. Кроме того, модели имеют фиксированные ограничения по количеству токенов (например, 2048 токенов); любой текст за пределами этого порога усекается и игнорируется, что приводит к полному игнорированию инструкций в конце.

Сложность и неоднозначность вывода

БЯМ могут испытывать трудности с выдачей чётких и полных ответов, когда сталкиваются с несколькими или противоречивыми инструкциями. Модель может генерировать частичные или расплывчатые ответы, чтобы избежать противоречий или путаницы, эффективно опуская некоторые инструкции. Неоднозначность формулировки инструкций также создаёт проблемы: неясные или неточные подсказки затрудняют для модели определение предполагаемых действий, повышая риск пропуска или неправильной интерпретации частей ввода.

Чувствительность к дизайну и форматированию подсказок

Структура и формулировка подсказок также играют решающую роль в выполнении инструкций. Исследования показывают, что даже небольшие изменения в том, как написаны или отформатированы инструкции, могут существенно повлиять на то, будет ли модель следовать им.

Плохо структурированные подсказки, в которых отсутствуют чёткое разделение, пункты списка или нумерация, затрудняют для модели различение шагов, увеличивая вероятность объединения или пропуска инструкций. Внутреннее представление модели подсказки очень чувствительно к этим вариациям, что объясняет, почему разработка подсказок (перефразирование или реструктуризация подсказок) может существенно улучшить соблюдение инструкций, даже если основное содержание остаётся прежним.

Как исправить пропуск инструкций в БЯМ

Улучшение способности БЯМ точно следовать инструкциям имеет важное значение для получения надёжных и точных результатов. Чтобы минимизировать пропуск инструкций и повысить качество ответов, сгенерированных ИИ, следует учитывать следующие рекомендации:

1. Разбиение задач на более мелкие части. Длинные или многошаговые подсказки следует разделить на более мелкие, более целенаправленные сегменты. Предоставление одной или двух инструкций за раз позволяет модели поддерживать более высокую концентрацию внимания и снижает вероятность пропуска каких-либо шагов.

Пример: вместо объединения всех инструкций в одну подсказку, например: «Кратко изложи текст, перечисли основные моменты, предложи улучшения и переведи на французский», каждую инструкцию следует представить отдельно или в небольших группах.

2. Форматирование инструкций с использованием нумерованных списков или маркеров. Организация инструкций с явным форматированием, таким как нумерованные списки или маркеры, помогает указать, что каждый пункт является отдельной задачей. Это повышает шансы на то, что ответ будет учитывать все инструкции.

Пример:
* Кратко изложи текст.
* Перечисли основные моменты.
* Предложи улучшения.

Такое форматирование обеспечивает визуальные подсказки, которые помогают модели распознавать и разделять отдельные задачи в подсказке.

3. Инструкции должны быть явными и однозначными. Важно, чтобы инструкции чётко указывали на необходимость выполнения каждого шага. Следует избегать двусмысленных или расплывчатых формулировок. В подсказке должно быть чётко указано, что нельзя пропускать ни одного шага.

Пример: «Пожалуйста, выполните все три задачи ниже. Пропуск каких-либо шагов недопустим».

Прямые утверждения, подобные этому, уменьшают путаницу и побуждают модель давать полные ответы.

4. Для важных или критических задач следует использовать отдельные подсказки. Каждую инструкцию следует отправлять в виде отдельной подсказки для задач, где точность и полнота имеют решающее значение. Хотя этот подход может увеличить время взаимодействия, он значительно повышает вероятность получения полных и точных результатов. Этот метод обеспечивает полную концентрацию модели на одной задаче за раз, снижая риск пропуска инструкций.

Продвинутые стратегии для обеспечения полноты и эффективности

Ожидание ответа после каждой отдельной инструкции может занять много времени у пользователей. Чтобы повысить эффективность, сохраняя при этом ясность и уменьшая количество пропущенных инструкций, могут быть эффективны следующие продвинутые методы:

1. Пакетные инструкции с чётким форматированием и явными метками. Несколько связанных инструкций можно объединить в одну подсказку, но каждую следует разделить с помощью нумерации или заголовков. Подсказка также должна инструктировать модель отвечать на все инструкции полностью и по порядку.

Пример подсказки: «Пожалуйста, выполните все следующие задачи внимательно, не пропуская ни одной:
* Кратко изложи текст.
* Перечисли основные моменты из твоего краткого изложения.
* Предложи улучшения на основе основных моментов.
* Переведи улучшенный текст на французский».

2. Цепочка мыслей. Подсказки в стиле цепочки мыслей направляют модель на пошаговое обдумывание каждой задачи перед предоставлением ответа. Поощрение модели к последовательному выполнению инструкций в рамках одного ответа помогает убедиться, что ни один шаг не будет пропущен, что снижает вероятность пропуска инструкций и повышает полноту.

Пример подсказки: «Прочитай текст ниже и выполни следующие задачи по порядку. Покажи свою работу чётко:
* Кратко изложи текст.
* Выдели основные моменты из твоего краткого изложения.
* Предложи улучшения к тексту.
* Переведи улучшенный текст на французский.
Пожалуйста, ответь на все задачи полностью и отдельно в одном ответе».

3. Добавление инструкций и напоминаний о завершении. Явное напоминание модели:
* «Ответь на каждую задачу полностью».
* «Не пропускай ни одной инструкции».
* «Ясно раздели свои ответы».

Такие напоминания помогают модели сосредоточиться на полноте, когда несколько инструкций объединены.

4. Тестирование различных моделей и настроек параметров. Не все БЯМ одинаково хорошо справляются с выполнением нескольких инструкций. Рекомендуется оценить различные модели, чтобы определить те, которые лучше всего справляются с многошаговыми задачами. Кроме того, настройка параметров, таких как температура, максимальное количество токенов и системные подсказки, может дополнительно улучшить концентрацию внимания и полноту ответов. Тестирование этих настроек помогает адаптировать поведение модели к конкретным требованиям задачи.

5. Тонкая настройка моделей и использование внешних инструментов. Модели следует настраивать на наборах данных, которые включают многошаговые или последовательные инструкции, чтобы улучшить их соблюдение сложных подсказок. Такие методы, как RLHF, могут дополнительно повысить точность выполнения инструкций.

Для продвинутых случаев использования интеграция внешних инструментов, таких как API, плагины для конкретных задач или системы дополненной генерации на основе поиска (RAG), может предоставить дополнительный контекст и контроль, тем самым повысив надёжность и точность результатов.

Итог

БЯМ — это мощные инструменты, но они могут пропускать инструкции, когда подсказки длинные или сложные. Это происходит из-за особенностей их обработки ввода и концентрации внимания. Инструкции должны быть чёткими, простыми и хорошо организованными для более надёжных результатов. Разбиение задач на более мелкие части, использование списков и чёткие инструкции помогают моделям полностью следовать шагам.

Отдельные подсказки могут повысить точность для критически важных задач, хотя они требуют больше времени. Кроме того, продвинутые методы создания подсказок, такие как цепочка мыслей и чёткое форматирование, помогают сбалансировать скорость и точность. Тестирование различных моделей и тонкая настройка также могут улучшить результаты. Эти идеи помогут пользователям получать последовательные, полные ответы и сделать инструменты ИИ более полезными в реальной работе.

Источник