Метка: big language models

Рефлексивное мышление в больших языковых моделях: как формируется и измеряется способность к самоанализу

15.04.2025 от Neuro Sova

Что отличает большие языковые модели (LLMs) от традиционных методов, так это их зарождающаяся способность к рефлексии — распознаванию ситуаций, когда что-то в их ответе не соответствует логике или фактам, и попытке это исправить. Эта способность, называемая рефлексией, отражает форму метапознания на машинном уровне. Её наличие свидетельствует о переходе от поверхностной обработки к более глубокому оценочному … Читать далее

GLM 4 от Университета Цинхуа: как модель среднего размера конкурирует с гигантами языковых моделей

15.04.2025 от Neuro Sova

В быстро меняющемся мире больших языковых моделей (LLM) исследователи и организации сталкиваются с серьёзными вызовами. Среди них — улучшение способностей к рассуждению, обеспечение надёжной многоязычной поддержки и эффективное управление сложными задачами с открытыми концами. Хотя меньшие модели часто более доступны и экономически эффективны, они обычно уступают по производительности своим более крупным аналогам. Поэтому всё больше … Читать далее

LightPROF: инновационный фреймворк для улучшения логического вывода больших языковых моделей на графах знаний

13.04.2025 от Neuro Sova

Большие языковые модели (LLMs) произвели революцию в обработке естественного языка благодаря обширным данным для обучения и множеству параметров, что позволяет им выполнять сложные задачи без предварительного обучения. Однако LLMs часто испытывают трудности с задачами, требующими глубоких знаний, из-за ограниченного специфического знания и понимания. Для эффективного логического вывода LLMs нуждаются в доступе к надёжным и постоянно … Читать далее

OLMoTrace: новый инструмент для повышения прозрачности больших языковых моделей

12.04.2025 от Neuro Sova

### Понимание пределов прозрачности больших языковых моделей По мере того как большие языковые модели (LLM) становятся основой для всё большего числа приложений — от поддержки принятия решений в бизнесе до образования и научных исследований — возрастает необходимость понимания их внутреннего механизма принятия решений. Основная проблема остаётся прежней: как определить, откуда берётся ответ модели? Большинство LLM … Читать далее

Как сократить длину ответов больших языковых моделей без потери качества: двухэтапный подход RL

11.04.2025 от Neuro Sova

Недавние достижения в области больших языковых моделей (LLM) значительно улучшили их способности к рассуждению, особенно благодаря дообучению с помощью метода обучения с подкреплением (RL). Первоначально модели обучаются с использованием контролируемого обучения для прогнозирования токенов, а затем подвергаются дообучению с помощью RL, исследуя различные пути рассуждений для получения правильных ответов. Этот процесс похож на то, как … Читать далее