AI AI Vibe Digest

AI Vibe Digest за 4 мая 2026

Открыть пост выпуска в Telegram

Кратко главное

  • NVIDIA выкатила мультимодальную Nemotron 3 Nano Omni — видит видео, слышит аудио и умещается в одну GPU.
  • LLM без знаний о мире после 1930 года освоила программирование — модель натренировали писать код с нуля без данных о нём.
  • Микро-LLM в 30 млн параметров мгновенно отвечает с носимых устройств — первые слова выдаются за 45 мс пока облачная модель думает.
  • Рекуррентный трансформер генерирует изображения не вылезая из кеша GPU — архитектура в 4 раза экономичнее по памяти.
  • В Петербурге покажут пайплайн адаптации LLM к арабскому языку — семинар лаборатории Маркова 8 мая о непрерывном дообучении.

Подробности по блокам

Новые модели

Machinelearning разбирает анонс NVIDIA — мультимодальную модель Nemotron 3 Nano Omni на 30B параметров. Под капотом гибрид Mamba2 и MoE, способный одновременно работать с видео до двух минут, аудио до часа, картинками и текстом. Модель показывает до 9-кратного прироста пропускной способности по сравнению с аналогами, а на задачах навигации по интерфейсам (OSWorld) бьёт предыдущую версию со счётом 47,4 против 11,1. Доступны веса в трёх вариантах точности, включая NVFP4 на 5 бит, который влезает в edge-устройства практически без потери качества.

gonzo-обзоры ML статей рассказывают про Elastic Looped Transformers — рекуррентную архитектуру для генерации изображений, которая целиком помещается в SRAM ускорителя. Вместо того чтобы гонять гигабайты весов между памятью и чипом, модель итеративно применяет один и тот же блок слоёв. Благодаря новому методу дистилляции она умеет динамически прерывать вычисления на инференсе, давая непрерывный выбор между скоростью и качеством — от слабых устройств до облака.

Инсайды и эксперименты

Data Secrets делится удивительным результатом: студенты из Германии взяли LLM, обученную исключительно на текстах до 1930 года (никаких современных технологий в претрейне), и файнтюнили её на программировании. После всего 250 примеров модель решила первую задачу из SWE-bench, а после 75 тысяч — набрала 4,5%, сравнявшись с Claude Opus 3 начала 2024 года. Авторы отмечают, что узкое место — не возраст данных, а банальная недообученность исходной модели.

gonzo-обзоры ML статей описывают подход Micro Language Models — крохотные модели от 8M до 30M параметров для носимых устройств. Идея в асимметричном протоколе: локальная модель мгновенно генерирует первые 4–8 слов ответа и выводит их на экран, а облачная LLM бесшовно продолжает мысль. Время до первого токена — меньше 50 мс, пользователь воспринимает общение как моментальное, а корректировать начало облачной модели приходится лишь в 8% случаев.

Мероприятия

Sinекура приглашает на онлайн-семинар лаборатории Маркова в пятницу (01.05.2026) (8 мая в 14:00). Артём Липиньски из СПбГУ расскажет, как методом непрерывного дообучения создавалась арабская языковая модель. Разберут полный пайплайн: сбор корпуса с нуля, смешение языков в обучении, адаптация к низкоресурсному языку. Подходы применимы далеко за пределами арабского — для всех, кто работает с языками, по которым мало открытых данных.

Продолжение

Ещё выпуски