Поиск на основе встраивания превосходит традиционные методы поиска по ключевым словам в различных областях, фиксируя семантическое сходство с помощью плотных векторных представлений и поиска по приближённым соседям (ANN). Однако структура данных ANN требует чрезмерного объёма памяти, часто в 1,5–7 раз превышающего размер исходных необработанных данных. Такой объём памяти допустим в крупномасштабных веб-приложениях, но становится непрактичным для персональных устройств или больших наборов данных.
Критически важно сократить объём памяти до менее 5% от исходного размера данных для периферийного развёртывания, но существующие решения не справляются с этой задачей. Такие методы, как продуктовая квантизация (PQ), могут сократить объём памяти, но либо приводят к снижению точности, либо требуют увеличения задержки поиска.
Рекомендуемые статьи: NVIDIA AI выпустила DiffusionRenderer — модель искусственного интеллекта для редактирования фотореалистичных 3D-сцен по одному видео
Методы векторного поиска зависят от IVF и графов близости. Графические подходы, такие как HNSW, NSG и Vamana, считаются современными благодаря балансу точности и эффективности.
Исследователи из Калифорнийского университета в Беркли, Китайского университета Гонконга, Amazon Web Services и Калифорнийского университета в Дейвисе разработали LEANN — индекс поиска ANN, оптимизированный для ресурсоограниченных персональных устройств. LEANN интегрирует компактную графовую структуру со стратегией пересчёта на лету, обеспечивая быстрый и точный поиск при минимальном объёме памяти.
LEANN достигает до 50 раз меньшего объёма памяти по сравнению со стандартными индексами, сокращая размер индекса до менее 5% от исходных необработанных данных. Она поддерживает 90% топ-3 отзыва менее чем за 2 секунды на реальных тестах ответов на вопросы.
Для сокращения задержки LEANN использует двухуровневый алгоритм обхода и динамическую пакетизацию, которая объединяет вычисления встраивания по поисковым переходам, повышая использование GPU.
Архитектура LEANN сочетает основные методы, такие как пересчёт на основе графов, основные приёмы и системный рабочий процесс. LEANN начинает с вычисления вложений для всех элементов набора данных, а затем создаёт векторный индекс, используя готовый подход к индексированию на основе графов.
LEANN превосходит EdgeRAG, метод пересчёта на основе IVF, достигая сокращения задержек в диапазоне от 21,17 до 200,60 раз на различных наборах данных и аппаратных платформах. Это преимущество обусловлено полилогарифмической сложностью пересчёта LEANN, которая масштабируется более эффективно, чем рост √𝑁 в EdgeRAG.
В этой статье исследователи представили LEANN — нейронную систему поиска с эффективным использованием памяти, которая сочетает пересчёт на основе графов с инновационными оптимизациями. LEANN показывает высокую производительность в различных тестах.
В будущем работа может быть сосредоточена на сокращении задержек и повышении скорости отклика, что откроет путь для более широкого внедрения в средах с ограниченными ресурсами.
Ознакомиться с докладом и страницей GitHub можно здесь. Посетите нашу страницу GitHub, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.
1. Какие проблемы решает LEANN в контексте поиска на основе векторных представлений?
LEANN решает проблему чрезмерного объёма памяти, который требуется для структуры данных ANN. Она сокращает объём памяти до менее 5% от исходного размера данных, что делает её более практичной для персональных устройств и больших наборов данных.
2. Какие методы используются в LEANN для оптимизации поиска?
LEANN использует двухуровневый алгоритм обхода и динамическую пакетизацию для сокращения задержки поиска. Она также интегрирует компактную графовую структуру со стратегией пересчёта на лету, обеспечивая быстрый и точный поиск при минимальном объёме памяти.
3. Как LEANN сравнивается с другими методами поиска, такими как EdgeRAG?
LEANN превосходит EdgeRAG, метод пересчёта на основе IVF, достигая сокращения задержек в диапазоне от 21,17 до 200,60 раз на различных наборах данных и аппаратных платформах. Это преимущество обусловлено полилогарифмической сложностью пересчёта LEANN, которая масштабируется более эффективно, чем рост √𝑁 в EdgeRAG.
4. Какие перспективы развития LEANN упоминаются в статье?
В будущем работа может быть сосредоточена на сокращении задержек и повышении скорости отклика, что откроет путь для более широкого внедрения LEANN в средах с ограниченными ресурсами.
5. Какие преимущества предоставляет LEANN для разработчиков и пользователей?
LEANN предоставляет разработчикам и пользователям высокоэффективную систему поиска с оптимизированным использованием памяти. Она позволяет сократить объём памяти до менее 5% от исходного размера данных, обеспечивая при этом быстрый и точный поиск. Это делает LEANN идеальным решением для персональных устройств и сред с ограниченными ресурсами.