AI Vibe Digest за 12 мая 2026
Открыть пост выпуска в TelegramКратко главное
- Thinking Machines создали модель с нативной интерактивностью — она слышит, видит и говорит без костылей из внешних модулей
- CopilotKit позволяет агентам управлять интерфейсом — open-source стек для встраивания AI прямо в React-приложения
- Gemini Omni учится генерировать текст в видео без ошибок — ровные надписи вместо каши из букв
- Разбор DeepSeek v4 с интерактивными сносками уже доступен — 50 заметок с кодом и визуализациями сложных мест
Подробности по блокам
Модели реального времени
Анализ данных сообщает о запуске Thinking Machines TML-Interaction-Small — MoE на 276B параметров, где 12B активны. Модель нативно работает с потоками аудио, видео и текста через микротурны по 200 мс.
По информации Адель и МЛь, интерактивность здесь не собрана снаружи через VAD и ASR, а является свойством самой модели — она перебивает, реагирует на жесты и запускает фоновые тулы.
Интерактивные агенты в UI
Анализ данных рассказывает о CopilotKit — стеке, где агент не просто отвечает текстом, а обновляет компоненты, вызывает инструменты и делит состояние с приложением.
Мультимодальность
Анализ данных показывает ролик Gemini Omni с поразительно чистыми надписями — без артефактов и случайных символов, характерных для видеогенерации.
Deep dive в архитектуру
Сиолошная выпустила интерактивный разбор DeepSeek v4 — читатель получает сноски с кодом и визуализациями, когда материал усложняется.