Как создать систему глубокого обучения с подкреплением, управляемую агентом, с поэтапным обучением, адаптивным исследованием и планированием на метауровне

Создание системы глубокого обучения с подкреплением, управляемой агентом

В этом руководстве мы создадим продвинутую систему глубокого обучения с подкреплением, которая научит агента не только действовать в среде, но и выбирать собственные стратегии обучения. Мы разработаем Dueling Double DQN learner, представим учебный план с возрастающей сложностью и интегрируем несколько режимов исследования, которые адаптируются по мере обучения.

Мы создадим мета-агент, который планирует, оценивает и регулирует весь процесс обучения, позволяя нам увидеть, как агентское управление преобразует обучение с подкреплением в самоуправляемый стратегический рабочий процесс.

Основные компоненты системы

* DuelingQNet: нейронная сеть, используемая для оценки состояний и выбора действий.
* ReplayBuffer: буфер для хранения переходов и эффективного повторного использования данных.
* DQNAgent: агент, который взаимодействует со средой и учится на основе полученных данных.
* MetaAgent: мета-агент, который выбирает планы обучения и направляет процесс обучения агента.

Код

«`python
import gymnasium as gym
import numpy as np
import torch, torch.nn as nn, torch.optim as optim
from collections import deque, defaultdict
import math, random, matplotlib.pyplot as plt

random.seed(0); np.random.seed(0); torch.manual_seed(0)

class DuelingQNet(nn.Module):
def init(self, obsdim, actdim):
super().init()
hidden = 128
self.feature = nn.Sequential(
nn.Linear(obs_dim, hidden),
nn.ReLU(),
)
self.value_head = nn.Sequential(
nn.Linear(hidden, hidden),
nn.ReLU(),
nn.Linear(hidden, 1),
)
self.adv_head = nn.Sequential(
nn.Linear(hidden, hidden),
nn.ReLU(),
nn.Linear(hidden, act_dim),
)

def forward(self, x):
h = self.feature(x)
v = self.value_head(h)
a = self.adv_head(h)
return v + (a — a.mean(dim=1, keepdim=True))

class ReplayBuffer:
def init(self, capacity=100000):
self.buffer = deque(maxlen=capacity)

def push(self, s,a,r,ns,d):
self.buffer.append((s,a,r,ns,d))

def sample(self, batch_size):
batch = random.sample(self.buffer, batch_size)
s,a,r,ns,d = zip(*batch)
def to_t(x, dt): return torch.tensor(x, dtype=dt, device=device)
return tot(s,torch.float32), tot(a,torch.long), tot(r,torch.float32), tot(ns,torch.float32), to_t(d,torch.float32)

def len(self): return len(self.buffer)

class DQNAgent:
def init(self, obsdim, actdim, gamma=0.99, lr=1e-3, batch_size=64):
self.q = DuelingQNet(obsdim, actdim).to(device)
self.tgt = DuelingQNet(obsdim, actdim).to(device)
self.buf = ReplayBuffer()
self.opt = optim.Adam(self.q.parameters(), lr=lr)
self.gamma = gamma
self.batchsize = batchsize
self.global_step = 0

def epsvalue(self, step, start=1.0, end=0.05, decay=8000):
return end + (start — end) * math.exp(-step/decay)

def selectaction(self, state, mode, strategy, softmaxtemp=1.0):
# [код метода]

def train_step(self):
# [код метода]

def update_target(self):
self.tgt.loadstatedict(self.q.state_dict())

def run_episodes(self, env, episodes, mode, strategy):
# [код метода]

def evaluateacrosslevels(self, levels, episodes=5):
# [код метода]

class MetaAgent:
def init(self, agent):
# [код метода]

def ucbscore(self, plan, c=2.0):
# [код метода]

def select_plan(self):
# [код метода]

def make_env(self, diff):
# [код метода]

def metarewardfn(self, diff, mode, avg_return):
# [код метода]

def updateplanvalue(self, plan, meta_reward):
# [код метода]

def run(self, meta_rounds=30):
# [код метода]

«`

Grok 4.1 от xAI: новый уровень эмоционального интеллекта, снижение галлюцинаций и повышение безопасности

Введение

xAI представляет Grok 4.1 — последнюю большую языковую модель, которая делает значительный шаг вперёд в области эмоционального интеллекта и надёжности. Grok 4.1 теперь доступен для всех пользователей на grok.com, X и в приложениях для iOS и Android.

Основные улучшения

* Эмоциональный интеллект: Grok 4.1 оценивается на EQ Bench3, многооборотном бенчмарке, который фокусируется на эмоциональном интеллекте в ролевых играх и аналитических задачах.
* Снижение галлюцинаций: в конфигурации без рассуждений Grok 4.1 демонстрирует значительное снижение частоты галлюцинаций для запросов, требующих фактической информации.
* Повышение безопасности: модель тестируется на наличие потенциально вредного контента и демонстрирует низкие показатели по таким метрикам, как AgentHarm.

Конфигурации

Grok 4.1 доступен в двух конфигурациях:

* Grok 4.1 Thinking: работает с явной фазой внутреннего рассуждения перед созданием окончательного сообщения.
* Grok 4.1 в режиме без рассуждений: пропускает дополнительные токены рассуждения и ориентирован на задержку и стоимость.

Результаты

На LMArena Text Arena Grok 4.1 Thinking занимает первое место с 1483 Elo, а Grok 4.1 в режиме без рассуждений — второе место с 1465 Elo.

Ключевые выводы

* Grok 4.1 настроен для производства, а не только для участия в соревнованиях на досках лидеров.
* Модель сочетает в себе крупномасштабное обучение с подкреплением с передовыми агентскими моделями рассуждения в качестве моделей вознаграждения.
* xAI сообщает о значительном снижении частоты галлюцинаций для запросов, требующих фактической информации, в конфигурации без рассуждений.

Заключение

Grok 4.1 показывает, как повышение эмоционального интеллекта и удобства использования может сопровождаться измеримым регрессом в согласованности, который команды должны отслеживать явно.

1. Какие основные компоненты включает в себя система глубокого обучения с подкреплением, управляемая агентом?

Ответ: система включает в себя следующие основные компоненты: DuelingQNet (нейронная сеть для оценки состояний и выбора действий), ReplayBuffer (буфер для хранения переходов и повторного использования данных), DQNAgent (агент, который взаимодействует со средой и учится на основе полученных данных) и MetaAgent (мета-агент, который выбирает планы обучения и направляет процесс обучения агента).

2. Какие преимущества даёт использование Dueling Double DQN learner в системе глубокого обучения с подкреплением?

Ответ: использование Dueling Double DQN learner позволяет агенту не только действовать в среде, но и выбирать собственные стратегии обучения, что делает систему более гибкой и адаптивной.

3. Какие методы используются для снижения галлюцинаций в модели Grok 4.1?

Ответ: в конфигурации без рассуждений Grok 4.1 демонстрирует значительное снижение частоты галлюцинаций для запросов, требующих фактической информации. Это указывает на то, что модель была оптимизирована для уменьшения генерации недостоверной информации в таких ситуациях.

4. Какие основные улучшения были внесены в модель Grok 4.1 по сравнению с предыдущими версиями?

Ответ: Grok 4.1 оценивается на EQ Bench3, многооборотном бенчмарке, который фокусируется на эмоциональном интеллекте в ролевых играх и аналитических задачах. Модель демонстрирует значительное снижение галлюцинаций и повышение безопасности.

5. Какие конфигурации доступны для Grok 4.1 и в чём их отличие?

Ответ: Grok 4.1 доступен в двух конфигурациях: Grok 4.1 Thinking (работает с явной фазой внутреннего рассуждения перед созданием окончательного сообщения) и Grok 4.1 в режиме без рассуждений (пропускает дополнительные токены рассуждения и ориентирован на задержку и стоимость).

Источник