AI AI Vibe Digest

AI Vibe Digest за 30 апреля 2026

Открыть пост выпуска в Telegram

Кратко главное

  • Google показала ERA — ИИ-ассистент закрывает реальные задачи в эпидемиологии, космологии и климате.
  • Sakana AI научила голосовую модель думать прямо во время разговора — без паузы и потери глубины.
  • Qwen открыли ядра линейного внимания FlashQLA — инференс больших моделей ускорен в 2-3 раза.
  • На предтренировку DeepSeek ушло 10^25 FLOPs — установка xAI может выдать столько же за 18 часов.
  • Andrew Ng: после ускорения кода бутылочным горлышком становится AI-адаптация людей — вся пирамида процессов рвётся.

Подробности по блокам

Наука и AI

Machinelearning раскрывает, как система Empirical Research Assistance от Google Research помогает настоящим учёным. Это ИИ-помощник, который строит вычислительные модели, пишет софт и анализирует данные. Уже есть четыре боевых кейса: - прогнозирование госпитализаций по гриппу, COVID-19 и RSV — модель держится в топе публичных рейтингов наравне с CDC; - космология — вывод обобщённых решений для гравитационного излучения космических струн; - климат — извлечение сигнала CO₂ из данных погодного спутника с более плотным покрытием, чем обычно; - нейронаука — поиск интерпретируемых механизмов нейронных цепей у рыбок зебрафиш с последующей экспериментальной проверкой. Материал показывает, как ИИ выходит из лаборатории в серьёзную науку.

Голосовой ИИ без паузы

Machinelearning рассказывает о системе KAME от Sakana AI. Проблема голосовых ассистентов известна: либо отвечают быстро, но поверхностно, либо думают долго и выдают глубокий ответ, но диалог разрушается паузой. KAME работает как человек: лёгкая речевая модель начинает говорить сразу, а тяжёлая языковая параллельно углубляет мысль и прямо в речи подмешивает более сильные формулировки. Можно подключать разные LLM-бэкенды (Claude для логики, GPT для гуманитарных тем). Работа принята на ICASSP 2026, код открыт на Hugging Face.

Оптимизация инференса

Machinelearning объясняет суть FlashQLA — библиотеки ядер от Qwen для линейного внимания Gated Delta Network. Обычные ядра гоняют огромные тензоры между памятью и чипом, а при малом батче или тензорном параллелизме GPU простаивает. Авторы заметили, что у большинства голов влияние старых токенов быстро затухает, и не нужно считать рекуррентный стейт с нуля. Прогрев на 6-8 чанках даёт почти точный стейт. На чипах Hopper forward ускоряется в 2-3 раза, backward — в 2 раза. Код открыт под MIT, но работает только на архитектуре SM90 (Hopper).

Неравенство compute

Сиолошная приводит грубую оценку: предтренировка DeepSeek V4 Pro обошлась примерно в 10^25 FLOPs. Один дата-центр xAI на 100 000 GPU может выдать тот же объём вычислений за 18 часов. Даже с учётом подготовки данных и посттренировок, разрыв в доступных мощностях колоссальный.

Инструменты и сдвиг ролей

AI и грабли сообщает о новой фиче Codex — хоткей для транскрибации в любой среде ОС, что может заменить Wispr Flow.

Мысли вслух развивают мысль Andrew Ng о том, что при ускорении кода в 10-100 раз узкое место мигрирует на других участников процесса: маркетинг, юристов, клиентов. Вывод — растить генералистов, а не узких спецов, и мерить скорость доставки ценности, а не утилизацию разработки.

Всеволод Викулин дополняет: для создания эффективного агента не важен конкретный фреймворк (n8n, LangGraph, Dify). Важны детальное описание процесса (как стажёру), понятные API‑инструменты и дешёвый инференс. Сначала процесс, потом кнопки, потом движок.

🔍 Инсайд: 10^25 FLOPs за 18 часов — это значит, что целые тренировочные итерации можно прокручивать ежедневно, если есть доступ к крупным инсталляциям. Конкурентное преимущество всё сильнее упирается не в алгоритмы, а в железо и инфраструктуру.

Продолжение

Ещё выпуски