AI Vibe Digest за 1 июля 2026
Кратко главное
- Claude Sonnet 5 по производительности близок к Opus 4.8 — цена $2/$10 за млн токенов до конца лета
- OpenAI вдвое снизила стоимость инференса — обслуживание ChatGPT потребовало всего несколько сотен GPU
- Экспортные ограничения с Anthropic сняты — восстановление доступа с 2 июля, возможна верификация личности
- Google анонсировала Nano Banana 2 Lite — генерация изображения за 4 секунды и видео-ассистент Omni Flash
- NVIDIA показала HORIZON для agentic hardware design — 100% выполнение бенчмарков в проектировании чипов
Подробности по блокам
Новые модели и доступ
эйай ньюз сообщает о выходе Claude Sonnet 5 — модель приближается к Opus 4.8 по качеству, но стоит гораздо дешевле: $2 за миллион входных и $10 за выходные токены до конца лета. Затем цена вернётся к $3/$15.
эйай ньюз передаёт, что с Anthropic сняты экспортные ограничения, доступ к Fable 5 начнут восстанавливать уже 2 июля. Детали сделки не раскрыты, неизвестно, сохранится ли модель в подписке.
эйай ньюз рассказывает о LongCat 2.0 от Meituan — первой большой LLM, полностью обученной на 50 тыс. китайских чипов, похожих на Huawei Ascend 910C. Модель насчитывает 1,6 трлн параметров (48 млрд активных) и тренирована на 35 трлн токенов, включая контексты до миллиона токенов.
Инференс и оптимизация
Machinelearning пишет, что OpenAI более чем вдвое сократила стоимость запуска моделей с помощью новых оптимизаций. Инженеры утверждают, что в определённый момент ChatGPT без аккаунтов обслуживался всего несколькими сотнями GPU. Метод, предположительно, включает квантизацию, кеширование и маршрутизацию запросов.
Machinelearning добавляет, что Amazon дистиллирует модели Anthropic для внутреннего использования, чтобы сдержать расходы. С 2027 года компания перейдёт на тарификацию за токены вместо почасовой оплаты; пока дистилляция Claude доступна только внутренним инженерам.
Генеративные медиа
Machinelearning освещает запуск Google Nano Banana 2 Lite — самой быстрой image-модели в линейке, выдающей картинку в среднем за 4 секунды по $0,034 за 1K изображений. Gemini Omni Flash превращает изображения в видео и поддерживает текстовое редактирование роликов, а через Interactions API можно сохранять историю и делать до трёх последовательных правок.
Агенты и автоматизация
Анализ данных разбирает NVIDIA HORIZON — систему, где ИИ-агент не пишет разовый код, а эволюционно меняет репозиторий чипа, проходя через симуляции и верификацию. Заявлено 100% выполнение бенчмарков — агентный подход заходит в область, где ошибка стоит исключительно дорого.
Анализ данных намекает, что Fable 5 от Anthropic может потребовать верификацию личности и отдельную оплату через usage credits вне подписки. Строки из утечки приложения говорят о подтверждении личности, хотя ранее такая связь отрицалась.
Опенсорс и наука
эйай ньюз рассказывает о публикации Сбером токенизатора KVAE-Audio, который сжимает аудио с качеством 48 кГц в 960 раз, оставляя всего 64 канала. Благодаря кастомной регуляризации модель превосходит MMAudio (Sony) и соперничает с DACVAE (Meta) при меньшем размере. Код и веса под MIT доступны на GitHub и HuggingFace.
Machinelearning сообщает об обновлении открытой модели Allen Institute — OlmoEarth v1.2 для анализа спутниковых снимков. Переход на RoPE устранил артефакты в эмбеддингах и улучшил качество в задачах kNN и linear-probe. Модель обрабатывает Sentinel-2, Sentinel-1, рельеф и индексы растительности, доступна в четырёх размерах.