Метка: большие языковые модели
-
Insight-RAG: новый подход к улучшению больших языковых моделей
Рамки RAG (Retrieval-Augmented Generation) привлекли внимание благодаря своей способности улучшать большие языковые модели (LLM), интегрируя внешние источники знаний. Это помогает решить такие проблемы, как галлюцинации и устаревшая информация. Однако традиционные подходы RAG часто опираются на поверхностную релевантность документов, упуская глубоко заложенные идеи в текстах или информацию, распределённую по нескольким источникам. Эти методы также ограничены в…
-
Как обучить большие языковые модели генерировать менее токсичный язык: метод SASA
По мере взросления наш словарный запас и способы его использования расширяются, а опыт становится богаче. Это позволяет нам мыслить, рассуждать и взаимодействовать с другими людьми более точно и целенаправленно. Соответственно, наш выбор слов начинает соответствовать нашим личным ценностям, этике, культурным нормам и взглядам. Со временем у большинства из нас формируется внутренний «гид», который помогает понимать…
-
Apriel-5B: инновационное семейство малых языковых моделей от ServiceNow AI
По мере увеличения размера и сложности языковых моделей растут и требования к ресурсам, необходимым для их обучения и использования. Хотя крупномасштабные модели демонстрируют впечатляющие результаты в различных тестах, они часто недоступны для многих организаций из-за ограничений инфраструктуры и высоких операционных затрат. Этот разрыв между возможностями и практическим применением представляет собой серьёзную проблему, особенно для предприятий,…
-
Расширение контекста в больших языковых моделях: инновационный подход к обработке сверхдлинных последовательностей
Большие языковые модели (LLM) продемонстрировали впечатляющие результаты в решении разнообразных текстовых и мультимодальных задач. Однако многие приложения, такие как понимание документов и видео, обучение в контексте и масштабирование в процессе вывода, требуют способности обрабатывать и анализировать длинные последовательности токенов. Ограниченный контекстный окно LLM создаёт значительные трудности в этих ситуациях, поскольку важная информация, распределённая по обширным…
-
Как большие языковые модели помогают врачам в постановке дифференциального диагноза: исследование эффективности AMIE
Разработка точного дифференциального диагноза (ДД) является основополагающей частью медицинской помощи. Обычно это достигается путём поэтапного процесса, который объединяет историю болезни пациента, физикальное обследование и диагностические тесты. С развитием больших языковых моделей (LLM) появляется всё больше возможностей для поддержки и автоматизации части этого диагностического процесса с помощью интерактивных инструментов на основе искусственного интеллекта. В отличие от…
-
NVIDIA Llama-3.1-Nemotron-Ultra-253B-v1: революция в эффективности искусственного интеллекта
С ростом использования искусственного интеллекта в цифровой инфраструктуре предприятия и разработчики сталкиваются с возрастающим давлением, необходимостью балансировать вычислительные затраты с производительностью, масштабируемостью и адаптивностью. Быстрый прогресс в области больших языковых моделей (LLM) открыл новые горизонты в понимании естественного языка, рассуждении и диалоговом искусственном интеллекте. Однако их размер и сложность часто приводят к неэффективности, которая препятствует…
-
DeepCoder-14B-Preview: революция в генерации кода с помощью искусственного интеллекта
Спрос на интеллектуальную генерацию кода и автоматизированные решения в программировании резко возрос из-за усложнения программного обеспечения и необходимости повышения продуктивности разработчиков. Хотя в области обработки естественного языка и моделей общего рассуждения произошли значительные прорывы, в сфере кодирования прогресс был более медленным. Это отставание в основном объясняется нехваткой высококачественных, проверяемых наборов данных, критически важных для эффективного…
-
Чат-бот и тест Тьюринга: разбираемся в спорах и результатах нового исследования
На прошлой неделе появились заголовки о том, что чат-бот с искусственным интеллектом официально прошёл тест Тьюринга. Эти новости основаны на недавнем препринте исследования двух учёных из Университета Калифорнии в Сан-Диего, в котором четыре большие языковые модели (LLM) прошли тест Тьюринга. Одна из моделей — GPT-4.5 от OpenAI — более чем в 70% случаев была неотличима…
-
Генеративные модели вознаграждения в больших языковых моделях: оптимизация рассуждений при ограниченных вычислительных ресурсах
Большие языковые модели (LLMs) продемонстрировали значительный прогресс в области рассуждений в различных областях, включая математику и естественные науки. Однако улучшение этих способностей к рассуждению во время тестирования остаётся задачей, над которой активно работают исследователи. Основное внимание уделяется разработке методов эффективного масштабирования вычислений во время тестирования при максимальном повышении качества рассуждений. Текущие методологии включают генерацию нескольких…
-
Стоки внимания в больших языковых моделях: функциональная роль и влияние на стабильность и эффективность
Большие языковые модели (LLM) часто демонстрируют своеобразное поведение, при котором первый токен в последовательности привлекает необычно много внимания — это явление известно как «сток внимания». Несмотря на кажущуюся неважность, этот токен часто доминирует в распределении внимания во многих компонентах моделей Трансформера. Хотя предыдущие исследования изучали, когда и как возникают стоки внимания, причины их появления и…