AI Vibe Digest за 12 марта 2026
Открыть пост выпуска в TelegramКратко главное
- NVIDIA выпустила открытые модели для автономной работы в терминале — небольшие модели конкурируют с гигантами в инженерных задачах.
- Google представила мультимодальные эмбеддинги — одна модель обрабатывает текст, видео, PDF и аудио.
- Claude Opus 4.6 вдвое превзошла конкурентов в тесте на замену человеческого труда — решает задачи на целый рабочий день.
- Perplexity анонсировала постоянно активного локального ИИ-агента — система работает на Mac mini и управляет компьютером.
- Исследование показало, что плотные слои в LLM работают как скрытые Mixture of Experts — это объясняет эффективность разреженных архитектур.
Подробности по блокам
Дайджест
🤖 Модели и инструменты
Machinelearning рассказывает о семействе моделей NVIDIA Nemotron-Terminal. Эти относительно небольшие модели (от 8 до 32 миллиардов параметров) обучены для автономного выполнения инженерных задач в терминале Linux: от установки зависимостей и отладки кода до настройки окружений. Они показывают результаты, сравнимые с моделями-гигантами в 10 раз больше, благодаря специально собранному датасету из адаптированных и синтетических задач.
Эйай ньюз сообщает о выпуске Gemini Embedding 2 от Google. Это первая нативно мультимодальная модель для преобразования данных в числовые векторы: она может одновременно обрабатывать в одном запросе текст, изображения, видео (до 120 секунд), PDF-страницы и аудио без предварительной расшифровки. Это позволяет улавливать смысловые связи между разными форматами данных, например, между картинкой и её описанием.
Эйай ньюз пишет о выходе Flash Attention 4 — оптимизированной библиотеке для ускорения вычислений в нейросетях. На этот раз разработчики специально доработали её для новейших GPU архитектуры Blackwell, достигнув значительного прироста скорости по сравнению с предыдущими решениями. Код теперь написан на Python, что ускорило его компиляцию.
⚙️ Агенты и практика
По информации Data Secrets, Perplexity представила концепцию Personal Computer — постоянно активной локальной ИИ-системы. Она работает на базе Mac mini, интегрируется с файлами и приложениями пользователя и может автономно выполнять сложные рабочие процессы, продолжая работу даже когда пользователь отошёл.
AI и грабли делится личным опытом перехода на Codex Desktop для работы с ИИ-агентами. Автор отмечает, что ключевая часть работы смещается к планированию и ревью: теперь он предварительно «прогоняет» задачи через агента, чтобы тот сам находил потенциальные проблемы и нестыковки в техническом задании, прежде чем приступить к написанию кода.
🔬 Исследования и аналитика
Мысли вслух анализирует свежие результаты независимого тестирования моделей METR. Claude Opus 4.6 показала впечатляющий отрыв: она может с 50% вероятностью решить задачу, на которую опытный специалист потратил бы около 14,5 часов, что более чем вдвое превышает возможности ближайших конкурентов.
Gonzo-обзоры ML статей рассказывает об исследовании, показавшем, что плотные слои (MLP) внутри больших языковых моделей по своей сути работают как разреженные «смеси экспертов» (Mixture of Experts). Это открытие даёт теоретическое объяснение, почему переход на разреженные архитектуры MoE так эффективен — они просто делают явным то, что уже заложено в модели.
🎓 События и инфраструктура
Machinelearning информирует о спецпредложении от Cloud.ru, которое даёт скидки до 40% на инфраструктурные сервисы для запуска и масштабирования AI-проектов, включая аренду GPU и ML-инференс.
ODS Events анонсирует митап по компьютерному зрению, который пройдёт 19 марта в Воронеже. В программе — доклады о мультимодальном поиске по видео и о гибридном подходе к распознаванию старинных рукописных текстов с помощью OCR и LLM.