AI Vibe Digest за 6 июня 2026
Кратко главное
- Claude пишет 80% кода в Anthropic — компания приближается к рекурсивному самоулучшению ИИ.
- Claude без подготовки сравнялся с профильным софтом в химии — модель точно предсказывает спектры ЯМР и молекулы.
- Фэй-Фэй Ли разделила модели мира на три функции — рендерер, симулятор и планировщик.
Подробности по блокам
Индустрия: курс на самоулучшение
Machinelearning сообщает, что Claude пишет уже более 80% кода в кодовой базе самой Anthropic, а типичный инженер вносит в 8 раз больше строк в день, чем в 2024 году. Время, которое модели способны автономно отрабатывать без ошибок, удваивается каждые четыре месяца и уже достигает 12 часов.
Аналитики Data Secrets добавляют интриги — в рамках эксперимента по AI-safety агенты за неделю улучшили решение на 97%, тогда как люди лишь на 23%. По сути, Claude уже автоматизирует большую часть работы, из которой состоит создание следующего, более сильного Claude.
Наука и AI
Новый бенчмарк Anthropic показывает неожиданную силу Claude в химии — в задаче «предсказать спектр ЯМР по структуре» Opus 4.7 оказался точнее специализированного софта вроде ChemDraw, а форму пиков угадывает в несколько раз лучше. В обратной задаче, где по спектру нужно восстановить молекулу, модель правильно собрала 8 из 8 простых соединений и половину сложных, используя лишь список пиков и масс-спектр, без необходимости покупать дорогой софт.
Концепции и архитектуры
Фэй-Фэй Ли и команда World Labs опубликовали эссе, где предложили разложить перегруженный термин «модель мира» на три части. Рендерер создаёт картинку, симулятор честно считает геометрию и физику, а планировщик отвечает за действия. Мостом между генеративным ИИ и робототехникой она называет именно симулятор — как несущий каркас, из которого выводятся и внешний вид, и последствия действий.
Инструменты для практиков
Для тех, кто путается в скиллах Claude Code и MCP-серверах Cursor, Tips AI нашёл минималистичное приложение Skills. Вместо копирования файлов туда-сюда оно показывает всё установленное по категориям и разрешает менять скилл сразу для нескольких сред. Из минусов — работает только на macOS и не детектит настройки внутри проектов.
Команда Data Blog выкатила Plot Your Metric — лёгкое веб-приложение, где можно построить 3D-ландшафт любой лосс-функции или сравнить Hinge, Logistic и Squared на одной оси. Когда голова ломается от граничных случаев, такая визуализация сразу показывает логику градиента и форму «зелёной зоны».
Агенты и внедрение
В Сиолошной рассказывают, как Devin от Cognition вводит «Productivity Guarantee» для энтерпрайз-клиентов. Модель честно оценивает, сколько часов сэкономил агент относительно человека, и если клиент потратил больше, чем пользы, разницу возвращают кредитами вплоть до 10 миллионов долларов. Такой подход снимает главную боль — страх слить бюджет на бесполезные токены.
e/acc делится тяжелым воркфлоу, который тратит около трети недельного бюджета токенов и за полтора часа выдаёт полноценный data-driven анализ рынка. Claude сам написал и запустил длинный js-файл с валидацией, заменив десятки дорогих запусков Deep Research.