AI Vibe Digest за 12 мая 2026

Кратко главное

Thinking Machines создали модель с нативной интерактивностью — она слышит, видит и говорит без костылей из внешних модулей
CopilotKit позволяет агентам управлять интерфейсом — open-source стек для встраивания AI прямо в React-приложения
Gemini Omni учится генерировать текст в видео без ошибок — ровные надписи вместо каши из букв
Разбор DeepSeek v4 с интерактивными сносками уже доступен — 50 заметок с кодом и визуализациями сложных мест

Подробности по блокам

Модели реального времени

Анализ данных сообщает о запуске Thinking Machines TML-Interaction-Small — MoE на 276B параметров, где 12B активны. Модель нативно работает с потоками аудио, видео и текста через микротурны по 200 мс.

По информации Адель и МЛь, интерактивность здесь не собрана снаружи через VAD и ASR, а является свойством самой модели — она перебивает, реагирует на жесты и запускает фоновые тулы.

Интерактивные агенты в UI

Анализ данных рассказывает о CopilotKit — стеке, где агент не просто отвечает текстом, а обновляет компоненты, вызывает инструменты и делит состояние с приложением.

Мультимодальность

Анализ данных показывает ролик Gemini Omni с поразительно чистыми надписями — без артефактов и случайных символов, характерных для видеогенерации.

Deep dive в архитектуру

Сиолошная выпустила интерактивный разбор DeepSeek v4 — читатель получает сноски с кодом и визуализациями, когда материал усложняется.

Продолжение

Открыть пост выпуска в Telegram Читать новые выпуски в Telegram Перейти в архив AI Vibe Digest

Ещё выпуски

10 мая 2026 Дайджест за 10 мая 2026 9 мая 2026 Дайджест за 9 мая 2026 8 мая 2026 Дайджест за 8 мая 2026