AI AI Vibe Digest

AI Vibe Digest за 12 мая 2026

Открыть пост выпуска в Telegram

Кратко главное

  • Thinking Machines создали модель с нативной интерактивностью — она слышит, видит и говорит без костылей из внешних модулей
  • CopilotKit позволяет агентам управлять интерфейсом — open-source стек для встраивания AI прямо в React-приложения
  • Gemini Omni учится генерировать текст в видео без ошибок — ровные надписи вместо каши из букв
  • Разбор DeepSeek v4 с интерактивными сносками уже доступен — 50 заметок с кодом и визуализациями сложных мест

Подробности по блокам

Модели реального времени

Анализ данных сообщает о запуске Thinking Machines TML-Interaction-Small — MoE на 276B параметров, где 12B активны. Модель нативно работает с потоками аудио, видео и текста через микротурны по 200 мс.

По информации Адель и МЛь, интерактивность здесь не собрана снаружи через VAD и ASR, а является свойством самой модели — она перебивает, реагирует на жесты и запускает фоновые тулы.

Интерактивные агенты в UI

Анализ данных рассказывает о CopilotKit — стеке, где агент не просто отвечает текстом, а обновляет компоненты, вызывает инструменты и делит состояние с приложением.

Мультимодальность

Анализ данных показывает ролик Gemini Omni с поразительно чистыми надписями — без артефактов и случайных символов, характерных для видеогенерации.

Deep dive в архитектуру

Сиолошная выпустила интерактивный разбор DeepSeek v4 — читатель получает сноски с кодом и визуализациями, когда материал усложняется.

Продолжение

Ещё выпуски