AI AI Vibe Digest

AI Vibe Digest за 10 мая 2026

Открыть пост выпуска в Telegram

Кратко главное

  • AI-геометрия как ключ к интерпретации — исследователи показали, что мысли моделей можно описать через многомерные формы
  • SpaceXAI и конец xAI — ИИ-лаборатория стала частью ракетной компании для переупаковки в IPO
  • Некро-PR для старых GPU — китайский форк vLLM реанимирует Iron-карты, заставляя Qwen 3.5 летать на 80 токенов в секунду

Подробности по блокам

Модели и архитектуры

Machinelearning рассказывает о превью ZAYA1-74B от Zyphra. Это масштабированная версия их 8B-модели, где половину слоев заменили на скользящее окно внимания, что почти вдвое сокращает кэш без потерь на длинных текстах. Модель прошла только предобучение и mid-train, но по метрике pass@4 уже подбирается к лидерам — авторы делают ставку на то, что RL-постобучение раскроет заложенный потенциал.

Анализ данных сообщает о китайском ERNIE 5.1. Baidu заявляет о затратах на обучение около 6% от сопоставимых моделей, но без технического отчета это лишь маркетинг. Модель поднялась на 4-е место в мире по Search-задачам, однако глобальный рейтинг (13-е место в Text Arena) пока не впечатляет.

Интерпретируемость и внутреннее устройство

Data Secrets публикует работу Goodfire о neural geometry. Внутренние представления моделей не хаотичны, а организованы в сложные геометрические структуры — например, дни недели лежат не по прямой, а по кругу. Если механически смешивать понедельник и пятницу, результат будет бессмысленным, но движение по дуге окружности генерирует промежуточные дни. Аналогичные формы обнаружили для чисел, цветов и биологической таксономии.

Время Валеры резюмирует дискуссию Yuandong Tian о grokking — феномене, когда модель сначала зубрит, а потом внезапно обобщает. Tian математически показал, что между меморизацией и обобщением есть энергетический барьер, а большой learning rate может выбить модель из бассейна обобщения обратно в зубрежку. Практический совет: слишком долгое обучение способно вызвать коллапс генерализации.

Инфраструктура и индустрия

Анализ данных разбирает поглощение xAI компанией SpaceX. Маск свернул самостоятельную ИИ-лабораторию с убытком $2.5 млрд и влил ее в ракетный бизнес для общего IPO. Заявка на бренд SpaceXAI включает орбитальные дата-центры — ставка делается не на конкуренцию моделей, а на продажу вычислений с миллиона спутников.

Инструменты и локальный запуск

Агенты ИИ | AGI_and_RL делятся one-click coding agent на Qwen 3.6 и 3.5. Собирается локально и устанавливается в одно нажатие: для 35B-модели хватает RTX 3090, а 9B-версия работает на ноутбучной связке 12 ГБ VRAM + 16 ГБ RAM со 128k контекстом — практичное решение для офлайн-разработки.

Сиолошная сообщает о тестах Mythos Preview на задачах METR. Модель сломала бенчмарк, показав горизонт планирования более 16 часов — предыдущий флагман работал 12, а Gemini 3.1 Pro держит лишь полтора часа при 80% надежности. Слабое место — нехватка экстремально длинных задач, ведь каждые полгода этот показатель удваивается.

Инсайд с практическим профитом

Love. Death. Transformers. раскрывает прорыв энтузиастов: китайский форк 1Cat-vLLM с кастомными ядрами заставил 27B Qwen 3.5 выдавать 80 токенов в секунду на четырех 4v100. Решение полезно владельцам старых GPU Iron-поколения — для запуска достаточно добавить скилы ассистента, иначе модель скатывается в вызов transformers.generate. Код уже на GitHub, а сам проект открыт.

Продолжение

Ещё выпуски