AI AI Vibe Digest

AI Vibe Digest за 28 мая 2026

Кратко главное

  • Обучение нейросетей поблочно — метод Sakana AI снижает требования к памяти без потери качества.
  • Безопасность кода с Claude Code — автоматический поиск уязвимостей сократил замечания на ревью на 30–40%.
  • Google Colab стал AI-first — агент на базе Gemini самостоятельно строит пайплайны и предлагает исправления.
  • LLM «спит» для длинного контекста — консолидация памяти офлайн открывает глубокие рассуждения без задержек.
  • Рекордные 580 токенов/с для Qwen3.5 — агентские задачи разгоняются на TokenSpeed с FlashAttention‑4.

Подробности по блокам

Инструменты для разработки

Machinelearning сообщает о плагине Anthropic Security Guidance для Claude Code. Он ищет уязвимости на трёх этапах: при редактировании, в диффе и перед коммитом. По данным компании, такой пре-фильтр убирает до 40% замечаний по безопасности на код-ревью.

Там же раскрывают Grok Build от xAI — CLI-ассистент для отладки и рефакторинга, вышедший из беты. Режим Plan Mode анализирует проект целиком и составляет план правок, а Code Mode вносит изменения после одобрения. Инструмент поддерживает MCP и параллельных агентов.

Data Secrets описывает обновлённый Google Colab. Теперь внутри живёт дата-сайенс агент на Gemini, который видит ноутбук целиком, создаёт и запускает ячейки, обучает модели и даже предлагает исправления в виде диффов прямо в интерфейсе.

Обучение и новые архитектуры

Machinelearning рассказывает о DiffusionBlocks — способе Sakana AI обучать глубокие сети поблочно. Каждый блок оптимизирует свой локальный лосс, не завися от остальных, поэтому память нужна лишь под один блок, а не под всю модель. Качество при этом сопоставимо со сквозным обучением на ViT, DiT и авторегрессионных трансформерах.

gonzo-обзоры ML статей знакомит с LLM Sleep — методом для гибридных архитектур (внимание+SSM). Периодические «отключения» рекуррентности консолидируют длинный контекст в SSM перед очисткой KV‑кэша. Это разделяет дорогую консолидацию и быструю генерацию, позволяя строить многошаговые рассуждения без роста задержек.

Ускорение и оптимизация

Анализ данных разбирает рекорд инференса Qwen3.5: 580 токенов в секунду на агентских задачах. Достигнуто на связке TokenSpeed, FlashAttention‑4 и плотного тюнинга командами Alibaba, Lightseek Foundation, NVIDIA и Mooncake. Под капотом — оптимизация под GPU и дизайн движка TokenSpeed.

AI[ex]Time объясняет Gumbel coupling — приём, упрощающий спекулятивное декодирование. Одинаковый шум Гумбеля для драфтовой и основной модели избавляет от необходимости таскать драфтовые вероятности при верификации, а генерация перестаёт зависеть от того, какой драфтер используется.

AI в реальной жизни

Мысли вслух делятся опытом расшифровки собственного генома с Claude Code. За два выходных сырой файл 23andMe превратился в отчёт о наследственных рисках, метаболизме лекарств и древних миграциях — без единого bash-скрипта. Claude сам подобрал базы ClinVar, PharmGKB и GWAS Catalog и провёл полный анализ.

Продолжение

Ещё выпуски