Компания Perplexity выпустила pplx-embed — набор многоязычных моделей встраивания, оптимизированных для задач веб-поиска в больших масштабах. Эти модели предназначены для работы с шумом и сложностью данных веб-масштаба, предоставляя альтернативу проприетарным API встраивания.
Архитектурные инновации: двунаправленное внимание и диффузия
Большинство крупных языковых моделей (LLM) используют причинно-следственные архитектуры с декодированием. Однако для задач встраивания понимание полного контекста предложения важнее, чем предсказание следующего токена. Команда исследователей Perplexity решила эту проблему, внедрив двунаправленное внимание. Это позволяет модели обрабатывать все токены в последовательности одновременно, что приводит к более полному представлению скрытого состояния.
Кроме того, модели используют предварительное обучение на основе диффузии. Хотя диффузия часто используется в генеративных медиа, применение её к текстовым вложениям помогает модели научиться восстанавливать чистые семантические сигналы из зашумлённых или фрагментированных входных данных. Этот этап предварительного обучения обеспечивает устойчивость модели при обработке неформатированного текста, часто встречающегося в открытом интернете.
https://arxiv.org/pdf/2602.11151
Оптимизация для RAG: запрос против контекста
Распространённой проблемой в генерации с извлечением (RAG) является «асимметрия» между коротким поисковым запросом пользователя и длинным фрагментом документа. Команда Perplexity решает эту проблему, предоставляя две специализированные версии модели:
* pplx-embed-v1: оптимизирована для независимых текстовых вложений и поисковых запросов.
* pplx-embed-context-v1: специально настроена для фрагментов документов, используемых в качестве базы знаний в конвейерах RAG.
Разделив эти роли, модели лучше согласовывают векторное пространство между тем, что спрашивает пользователь, и конкретной информацией, хранящейся в базе данных. Эти модели были проверены на реальных сценариях поиска с участием десятков миллионов документов.
Технические характеристики и эффективность
Модели доступны в двух масштабах параметров, чтобы сбалансировать производительность и вычислительные затраты:
| Характеристика | Модель 0,6B | Модель 4B |
| — | — | — |
| Основное применение | Задачи с высокой пропускной способностью и низкой задержкой | Сложное семантическое рассуждение |
| Квантование | Нативная поддержка INT8 | Нативная поддержка INT8 |
| Архитектура | На основе Qwen3 | На основе Qwen3 |
| Внимание | Двунаправленное | Двунаправленное |
Включение нативного INT8 квантования позволяет инженерам развёртывать эти модели с значительно меньшим объёмом памяти и более высокой скоростью вывода. Это делает модель 4B пригодной для производственных сред, для которых ранее требовались более мелкие и менее мощные модели.
Ключевые выводы
* Двунаправленная архитектура через диффузию. В отличие от стандартных моделей с декодированием (например, оригинального Qwen3), команда Perplexity преобразовала их в двунаправленные энкодеры с помощью предварительного обучения на основе диффузии. Это позволяет модели «видеть» весь контекст предложения одновременно, создавая более точные семантические представления для зашумлённых данных веб-масштаба.
* Специализированные варианты RAG. Релиз предоставляет две отдельные модели для оптимизации генерации с извлечением: pplx-embed-v1 настроена для независимых запросов и автономного текста, а pplx-embed-context-v1 специально разработана для фрагментов документов, обеспечивая лучшее согласование между тем, что спрашивают пользователи, и тем, как хранится информация.
* Эффективность для производства. Модели поддерживают нативное INT8 и бинарное квантование, что значительно снижает требования к хранению и памяти (до 32 раз для бинарного) без существенной потери точности. Они также используют обучение представлению матрёшки (MRL), что позволяет разработчикам усекать размеры векторов для экономии затрат при сохранении высокой производительности.
Ознакомьтесь с [документом](https://arxiv.org/pdf/2602.11151), [весами модели](https://arxiv.org/pdf/2602.11151) и [техническими деталями](https://arxiv.org/pdf/2602.11151). Также подписывайтесь на нас в [Twitter](https://twitter.com/) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/). Не забудьте подписаться на нашу [рассылку](https://newsletter.marktechpost.com/). А если вы в Telegram, присоединяйтесь к нам и там!
1. Какие инновационные архитектурные решения были внедрены в модели pplx-embed для улучшения веб-поиска?
В статье говорится, что в модели pplx-embed внедрено двунаправленное внимание и предварительное обучение на основе диффузии. Двунаправленное внимание позволяет модели обрабатывать все токены в последовательности одновременно, что приводит к более полному представлению скрытого состояния. Предварительное обучение на основе диффузии помогает модели научиться восстанавливать чистые семантические сигналы из зашумлённых или фрагментированных входных данных.
2. Какие проблемы решает использование специализированных версий модели pplx-embed для поисковых запросов и контекстов документов?
В статье указано, что распространённой проблемой в генерации с извлечением (RAG) является «асимметрия» между коротким поисковым запросом пользователя и длинным фрагментом документа. Команда Perplexity решает эту проблему, предоставляя две специализированные версии модели: pplx-embed-v1 и pplx-embed-context-v1. Первая модель оптимизирована для независимых текстовых вложений и поисковых запросов, а вторая специально настроена для фрагментов документов, используемых в качестве базы знаний в конвейерах RAG.
3. Какие технические характеристики делают модели pplx-embed эффективными для производственных сред?
В статье указано, что модели pplx-embed поддерживают нативное INT8 и бинарное квантование, что значительно снижает требования к хранению и памяти без существенной потери точности. Они также используют обучение представлению матрёшки (MRL), что позволяет разработчикам усекать размеры векторов для экономии затрат при сохранении высокой производительности.
4. Какие преимущества предоставляет использование двунаправленного внимания в моделях pplx-embed по сравнению со стандартными моделями с декодированием?
В статье говорится, что двунаправленная архитектура через диффузию позволяет модели «видеть» весь контекст предложения одновременно, создавая более точные семантические представления для зашумлённых данных веб-масштаба. Это отличает pplx-embed от стандартных моделей с декодированием, таких как оригинальный Qwen3.
5. Какие варианты моделей pplx-embed представлены для оптимизации генерации с извлечением (RAG)?
В статье указано, что для оптимизации генерации с извлечением представлены две отдельные модели: pplx-embed-v1, которая настроена для независимых запросов и автономного текста, и pplx-embed-context-v1, которая специально разработана для фрагментов документов.