AI AI Vibe Digest

AI Vibe Digest за 24 июня 2026

Кратко главное

  • Mistral и Baidu подняли планку для OCR — модели теперь понимают структуру документа и масштабируются на десятки страниц.
  • Архитектура трансформеров пересматривается — переменная ширина слоёв снижает вычислительные затраты без потери качества.
  • Цепочки рассуждений перестают быть линейными — для сложных задач эффективнее строить графы мыслей, а не просто удлинять промпт.

Подробности по блокам

Документы и текст: новое поколение OCR

Machinelearning рассказывает о выходе Mistral OCR 4 — модель не просто распознаёт текст, а собирает полную структуру документа. Она выделяет заголовки, таблицы и формулы, оценивая уверенность для каждого слова. Главную пользу разработчики видят не в самом распознавании, а в чистой подготовке данных для RAG-систем и агентов. Модель можно запустить локально в одном контейнере, а обработка через API стоит $4 за тысячу страниц.

Machinelearning анализирует другой подход в Unlimited OCR от Baidu. Модель на 3 млрд параметров использует механизм Reference Sliding Window Attention, который фокусируется на исходном документе и ближайшем контексте, «забывая» лишнее без перегрузки вычислений. Это позволяет за один проход обрабатывать более 40 страниц с сохранением контекста, показывая лучшие на сегодня результаты на бенчмарках.

Архитектурные инновации: экономия без ущерба

gonzo-обзоры ML статей разбирает концепцию Variable-Width Transformers — архитектуру, где слои имеют разную размерность. Авторы предлагают модель в форме «галстука-бабочки»: широкие первые и последние слои, а в середине — узкое горлышко. Такой трюк работает как регуляризатор и снижает общие затраты на предобучение до 22%. Неактивные координаты просто копируются дальше по сети, без обучения дополнительных проекций, но для полноценного ускорения на GPU пока потребуются специализированные кернелы.

Рассуждения: от цепочек к графам

Анализ данных публикует официальную Python-реализацию Graph of Thoughts. Инструмент позволяет описывать решение задачи как граф операций, а не как одну линейную цепочку промптов. Контроллер выполняет этот граф, используя LLM как движок, и может сохранять отчёты с израсходованными токенами и стоимостью. Проект доступен через PyPI и open-source.

Инструменты на практике

Tips AI рассказывает о плагине для Obsidian, который встраивает агента в боковую панель редактора. Он поддерживает Claude Code, Codex и другие инструменты, позволяя оставлять комментарии прямо в тексте заметки.

Анализ данных сравнивает ответы 1-bit GLM-5.2, Claude 4.8 Opus и GPT-5.5 на один промпт в режиме one-shot. Сжатая модель GLM запускалась локально на Mac Studio M3 Ultra и выдавала около 21 токена в секунду.

Продолжение

Ещё выпуски