AI AI Vibe Digest

AI Vibe Digest за 6 июня 2026

Кратко главное

  • Claude пишет 80% кода в Anthropic — компания приближается к рекурсивному самоулучшению ИИ.
  • Claude без подготовки сравнялся с профильным софтом в химии — модель точно предсказывает спектры ЯМР и молекулы.
  • Фэй-Фэй Ли разделила модели мира на три функции — рендерер, симулятор и планировщик.

Подробности по блокам

Индустрия: курс на самоулучшение

Machinelearning сообщает, что Claude пишет уже более 80% кода в кодовой базе самой Anthropic, а типичный инженер вносит в 8 раз больше строк в день, чем в 2024 году. Время, которое модели способны автономно отрабатывать без ошибок, удваивается каждые четыре месяца и уже достигает 12 часов.

Аналитики Data Secrets добавляют интриги — в рамках эксперимента по AI-safety агенты за неделю улучшили решение на 97%, тогда как люди лишь на 23%. По сути, Claude уже автоматизирует большую часть работы, из которой состоит создание следующего, более сильного Claude.

Наука и AI

Новый бенчмарк Anthropic показывает неожиданную силу Claude в химии — в задаче «предсказать спектр ЯМР по структуре» Opus 4.7 оказался точнее специализированного софта вроде ChemDraw, а форму пиков угадывает в несколько раз лучше. В обратной задаче, где по спектру нужно восстановить молекулу, модель правильно собрала 8 из 8 простых соединений и половину сложных, используя лишь список пиков и масс-спектр, без необходимости покупать дорогой софт.

Концепции и архитектуры

Фэй-Фэй Ли и команда World Labs опубликовали эссе, где предложили разложить перегруженный термин «модель мира» на три части. Рендерер создаёт картинку, симулятор честно считает геометрию и физику, а планировщик отвечает за действия. Мостом между генеративным ИИ и робототехникой она называет именно симулятор — как несущий каркас, из которого выводятся и внешний вид, и последствия действий.

Инструменты для практиков

Для тех, кто путается в скиллах Claude Code и MCP-серверах Cursor, Tips AI нашёл минималистичное приложение Skills. Вместо копирования файлов туда-сюда оно показывает всё установленное по категориям и разрешает менять скилл сразу для нескольких сред. Из минусов — работает только на macOS и не детектит настройки внутри проектов.

Команда Data Blog выкатила Plot Your Metric — лёгкое веб-приложение, где можно построить 3D-ландшафт любой лосс-функции или сравнить Hinge, Logistic и Squared на одной оси. Когда голова ломается от граничных случаев, такая визуализация сразу показывает логику градиента и форму «зелёной зоны».

Агенты и внедрение

В Сиолошной рассказывают, как Devin от Cognition вводит «Productivity Guarantee» для энтерпрайз-клиентов. Модель честно оценивает, сколько часов сэкономил агент относительно человека, и если клиент потратил больше, чем пользы, разницу возвращают кредитами вплоть до 10 миллионов долларов. Такой подход снимает главную боль — страх слить бюджет на бесполезные токены.

e/acc делится тяжелым воркфлоу, который тратит около трети недельного бюджета токенов и за полтора часа выдаёт полноценный data-driven анализ рынка. Claude сам написал и запустил длинный js-файл с валидацией, заменив десятки дорогих запусков Deep Research.

Продолжение

Ещё выпуски