Метка: big language models

  • Рефлексивное мышление в больших языковых моделях: как формируется и измеряется способность к самоанализу

    Что отличает большие языковые модели (LLMs) от традиционных методов, так это их зарождающаяся способность к рефлексии — распознаванию ситуаций, когда что-то в их ответе не соответствует логике или фактам, и попытке это исправить. Эта способность, называемая рефлексией, отражает форму метапознания на машинном уровне. Её наличие свидетельствует о переходе от поверхностной обработки к более глубокому оценочному…

  • GLM 4 от Университета Цинхуа: как модель среднего размера конкурирует с гигантами языковых моделей

    В быстро меняющемся мире больших языковых моделей (LLM) исследователи и организации сталкиваются с серьёзными вызовами. Среди них — улучшение способностей к рассуждению, обеспечение надёжной многоязычной поддержки и эффективное управление сложными задачами с открытыми концами. Хотя меньшие модели часто более доступны и экономически эффективны, они обычно уступают по производительности своим более крупным аналогам. Поэтому всё больше…

  • LightPROF: инновационный фреймворк для улучшения логического вывода больших языковых моделей на графах знаний

    Большие языковые модели (LLMs) произвели революцию в обработке естественного языка благодаря обширным данным для обучения и множеству параметров, что позволяет им выполнять сложные задачи без предварительного обучения. Однако LLMs часто испытывают трудности с задачами, требующими глубоких знаний, из-за ограниченного специфического знания и понимания. Для эффективного логического вывода LLMs нуждаются в доступе к надёжным и постоянно…

  • OLMoTrace: новый инструмент для повышения прозрачности больших языковых моделей

    ### Понимание пределов прозрачности больших языковых моделей По мере того как большие языковые модели (LLM) становятся основой для всё большего числа приложений — от поддержки принятия решений в бизнесе до образования и научных исследований — возрастает необходимость понимания их внутреннего механизма принятия решений. Основная проблема остаётся прежней: как определить, откуда берётся ответ модели? Большинство LLM…

  • Как сократить длину ответов больших языковых моделей без потери качества: двухэтапный подход RL

    Недавние достижения в области больших языковых моделей (LLM) значительно улучшили их способности к рассуждению, особенно благодаря дообучению с помощью метода обучения с подкреплением (RL). Первоначально модели обучаются с использованием контролируемого обучения для прогнозирования токенов, а затем подвергаются дообучению с помощью RL, исследуя различные пути рассуждений для получения правильных ответов. Этот процесс похож на то, как…