Что в выпуске?

☕️ Привет, это твой дневной ИИ-дайджест за 22 декабря.

Вот что я тебе сегодня приготовил и зачем тебе тратить 5 минут чтобы это прочитать

🔮 Стэнфорд разложил 2026: где будет эффект, а где придётся оправдывать бюджеты.
⚡️ ⚡️ ⚡️ Google поставил скорость в дефолт: Gemini и поиск начинают жить в ежедневной работе.
🤖 Учёные прогнали “рой агентов” по задачам: в одном месте даёт буст, в другом сжигает всё к чертям.

И ещё +9 новостей - быстрых, как ИИ:

Wan2.6 делает 15 секунд HD-видео с диалогами, Сандерс хочет паузу на AI дата-центры, Amazon собирает модели+чипы+квант в один блок, Grok Voice Agent API, SAM Audio вырезает звуки по тексту/клику, FrontierScience бенчмарк для науки, Google Labs CC шлёт утренние сводки из Gmail/календаря, FLUX.2 [max] прокачал редактирование и веб-контекст, Molmo 2 понимает видео с таймкодами и трекингом.

⚠️ ДИСКЛЕЙМЕР

ПРОЧТЕНИЕ ЭТОГО ДАЙДЖЕСТА РЕЗКО ПОВЫШАЕТ УРОВЕНЬ FOMO, ИДЕАЛЬНО ДОПОЛНЯЕТ УТРЕННИЙ КОФЕ И КАТЕГОРИЧЕСКИ ПРОТИВОПОКАЗАНО ПЕРЕД МЕДИТАЦИЕЙ И СНОМ — ВОЗМОЖНЫ ПРИСТУПЫ ВНЕЗАПНЫХ ИНСАЙТОВ И НЕУДЕРЖИМОЕ ЖЕЛАНИЕ СРОЧНО ЗАПИЛИТЬ СВОЙ СТАРТАП.

ПОГНАЛИ!

AI Исследования

🏥 2026 будет годом, когда ИИ начнут душить метриками

Chat GPT

Декабрь 2025, планёрка по бюджету на 2026. CFO смотрит на строку “AI” и спрашивает одну вещь: “Где эффект в часах и деньгах по задачам, а не по презентациям?”. Head of AI начинает рассказывать про “агентов” и “стратегию”. CFO перебивает: “Сколько минут в день экономим юристам, врачам, саппорту? Где рост ошибок? Где риск по данным?”. И вот тут внезапно выясняется, что половина “внедрений” живёт на ощущениях, а не на измерениях.

Что случилось: Stanford HAI (Institute for Human-Centered Artificial Intelligence) 15 декабря 2025 выкатил подборку прогнозов на 2026 от своей команды. Общая тема простая - рынок уходит в режим “докажи, что работает, и покажи риск”.

Фактура: кто и что конкретно говорит

Джеймс Лэндай (James Landay), ко-директор Stanford HAI, профессор CS: его ставка на 2026 - “суверенитет ИИ” и инфраструктура. Варианты, которые он описывает: страны строят свои LLM или запускают чужие модели на своих GPU, чтобы данные физически оставались внутри страны. Параллельно он ждёт продолжения гонки дата-центров и тура крупных игроков по странам, плюс волну честных признаний от компаний: прирост продуктивности заметен в узких зонах (программирование, колл-центры), в остальном много провалов и пересборка подходов.

Эрик Бриньолфссон (Erik Brynjolfsson), директор Stanford Digital Economy Lab, экономист: он прогнозирует “AI economic dashboards” - панели, которые на уровне задач и профессий покажут, где ИИ реально поднимает продуктивность, где вытесняет людей, где создаёт новые роли. Источники данных, которые он прямо называет: payroll, platform, usage data. Частота - ежемесячно (и даже ежедневный просмотр метрик руководителями), чтобы эффект ловить сейчас, а не спустя пару лет в отчётах.

Кёртис Лэнглотц (Curtis Langlotz), профессор радиологии/медицины/biomedical data science: “ChatGPT moment” для медицины он завязывает на две вещи. Первое - самообучение (self-supervised) резко снижает стоимость обучения медмоделей, потому что не требуется армия врачей для разметки каждого снимка. Второе - нужны “massive high-quality healthcare data” при сохранении приватности; пока медицине тяжело собирать датасеты такого масштаба, но даже меньшие уже показывают результат в ряде направлений. Итог, который он описывает: биомед foundation models дадут более точные системы и подтянут диагностику редких заболеваний, где данных мало.

Джулиан Ньярко (Julian Nyarko), профессор права, Associate Director Stanford HAI: в юрсекторе он ждёт смену вопроса с “пишет ли текст” на “насколько хорошо, на каких задачах и с каким риском”. Он прямо перечисляет, что станет “минимальным стандартом” оценок: точность, целостность цитирования, риск privilege exposure, время обработки. Плюс фокус на реальных рабочих системах (document management, billing, knowledge systems) и рост “сложной работы” - multi-document reasoning: синтез фактов, карта аргументов, поиск контраргументов с provenance. Для масштабной оценки он называет подходы типа LLM-as-judge и pairwise preference ranking и упоминает бенчмарки вроде GDPval.

Контекст рынка: 2025 накачал ожидания и бюджеты. 2026, по версии Stanford HAI, станет годом, когда закупки и руководители будут требовать “метрики по задачам + риск-профиль + внедрение в процесс” как базовый входной билет.

И что?

Для бизнеса: перестрой “внедрение ИИ” в продукт с метриками. По каждой роли и задаче: baseline, экономия времени, ошибки, эскалации, риск данных, стоимость на задачу. Ежемесячные апдейты, как у финансовых дашбордов.

Для инвесторов: смотреть на компании, которые продают измеримый эффект и контроль риска (особенно в медицине и праве), а не “фичу про текст”. Важны доказательства в workflow и то, как они меряют качество и ответственность.

Для людей: медицина и право получат больше реально полезных инструментов, но рядом вырастут требования к прозрачности, логированию и проверяемости, потому что иначе это не купят и не допустят.

Вывод:

2026 - год, когда ИИ перестаёт быть “технологией” и становится управляемой производственной мощностью, как облако и финконтроль. Компании начнут мерить ИИ на уровне задач: сколько минут, сколько ошибок, сколько денег, какой риск. И если метрики не растут - бюджеты режут, процессы пересобирают, людей увольняют или переучивают, регуляторы лезут в логи. В здравоохранении и праве это ускорится сильнее всего, потому что там цена ошибки - суд, лицензия, пациент. Главный сдвиг - от “модель умеет” к “система даёт эффект и выдерживает аудит”.

🚨 Нам 3.14здец:

Всем компаниям, которые живут на пилотах и презентациях - 9/10 - в 2026 закупки будут требовать task-level ROI и риск-профиль как входной билет - что делать: ставить дашборды, baseline, регулярные замеры, владельца метрик и ответственность за результат.

Белым воротничкам в “рутинной экспертизе” (юристы-джуны, аналитики, координаторы, мед-админка) - 8/10 - работа распадается на измеримые микрозадачи и автоматизируется точечно - что делать: уходить в роль владельца процесса, качества и риска, плюс доменная экспертиза + инструменты + контроль.

AI Исследования

🤖 Учёные прогнали “рой агентов” по задачам: результаты не очень

Runway

Пятница, 18:40. Финансовая команда закрывает квартал и должна за 30 минут собрать короткий разбор отчёта конкурента: что случилось с маржой, где просели регионы, что ждать в Q1. Внутри компании уже стоит “мульти-агентный конвейер”: один агент тянет 10-K, второй считает метрики, третий пишет выводы, четвертый делает слайды. Через 7 минут приходит “готово” - цифры в двух местах разъезжаются, в выводах взаимоисключающие причины, а токен-бюджет сожран почти весь, потому что агенты обсуждали план и спорили о терминах. В итоге аналитик руками перепроверяет таблицы и снова делает один нормальный прогон одним агентом с чёткой структурой шагов и проверками по источнику.

Что случилось: Google Research / Google DeepMind и MIT выкатили исследование “Towards a Science of Scaling Agent Systems” (arXiv, 9 декабря 2025).

Они сделали 180 контролируемых прогонов: 5 архитектур (single + 4 мульти-агентных), 3 семейства моделей (OpenAI, Google, Anthropic), одинаковые промпты, инструменты и токен-бюджеты.

На параллелящихся задачах мульти-агенты дают жирный плюс: на Finance-Agent централизованная координация дала +80.9%.

На последовательных задачах, где каждый шаг меняет состояние (PlanCraft по Minecraft), все мульти-агентные варианты уронили качество на 39-70%.

Ключевой триггер: когда одиночный агент уже держит примерно 45% точности, добавление агентов чаще уводит в минус из-за “координационного налога” и расхода контекста.

Контекст рынка: хайп на “агентных конвейерах” толкает всех в оркестраторы, роли, чаты между агентами и “команды специалистов”. Эта работа бьёт по базовой привычке “добавь агентов - станет лучше”. Вывод простой: сначала смотри на структуру задачи (параллель vs последовательность) и на baseline одного агента, потом строй систему.

И что?

Для бизнеса: перед тем как плодить агентные микросервисы, делай A/B: single-agent baseline и мульти-агент под тем же токен-бюджетом. Если задача последовательная или tool-heavy - вкладывайся в один сильный агент, состояние, проверку шагов и ограничение инструментов.

Для инвесторов: “агенты” как фича сами по себе перестают быть сигналом. Смотри на unit economics (токены на задачу, latency, % успешных прогонов) и на то, умеет ли команда выбирать топологию под тип задач.

Для людей: в продуктах станет меньше “болтовни нескольких ботов” и больше тихой оптимизации под конкретные сценарии - где-то будет один агент, где-то команда, но по расчёту, а не по моде.

🚨 Нам 3.14здец:

Командам, продающим “мульти-агентную магию” как универсальный рецепт - 7/10 - заказчики начнут требовать бенч и токен-экономику - что делать: упаковать методологию выбора архитектуры и метрики эффективности, продавать результат и ответственность.

Продуктам с длинными пошаговыми флоу (планирование, тулчейны, “сделай 20 шагов в системе”) - 6/10 - координация ломает состояние и съедает бюджет - что делать: один агент с жёстким state-machine, checkpoints и автопроверками.

Google

⚡️⚡️⚡️ Google поставил “быстрый фронтир” в дефолт поиска и Gemini, и это меняет привычки

Genemi

Утро понедельника. Ты открываешь Google Search AI Mode, вбиваешь “сравни 3 поставщика ERP для 200 человек в ЕС, сроки внедрения, риски, примерный бюджет”. Раньше это превращалось в минутный “думаю”, потом ещё минуту ты ловишь ссылки, а дальше руками сводишь всё в заметку для созвона. Сейчас оно отвечает почти сразу, с веб-результатами и структурой, и ты реально успеваешь принять решение до первого митинга.

Что случилось: Google выкатил Gemini 3 Flash - “быстрый” вариант своей флагманской линейки Gemini 3 и сделал его моделью по умолчанию в Gemini app и в Google Search AI Mode.

По бенчмаркам, которыми они машут: Humanity’s Last Exam - 33.7% (без tool use), у Gemini 2.5 Flash было 11%, у Gemini 3 Pro 37.5%, у GPT-5.2 34.5%.

Скорость: Google заявляет “3x быстрее, чем 2.5 Pro” (с отсылкой на Artificial Analysis) плюс в среднем на аналитических задачах уходит на 30% меньше токенов, чем у 2.5 Pro.

Цена в API: gemini-3-flash-preview $0.50 / $3 за 1M input/output токенов. Для сравнения gemini-3-pro-preview стартует с $2 / $12 (то есть примерно 4x дороже по прайсу).

AI Mode в Search поверх этого подтягивает real-time ссылки/локальную инфу из веба и отдаёт “сводку + действие” в одном ответе.

Контекст рынка: “умная” модель уже мало кого удивляет. Драка идёт за дефолт: кто стоит в поиске, в ассистенте, в привычном поле ввода. Когда дефолт быстрый и близок к фронтиру по качеству, пользователи меньше переключаются на “самый мощный режим”, а бизнесы меньше платят за каждый чих.

И что?

Для бизнеса: если у тебя поток задач “поиск + сводка + решение” (закупки, комплаенс, конкурентка, саппорт) - можно резать latency и стоимость без провала в качество: Flash как рабочая лошадь, Pro включать точечно под математику/код.

Для инвесторов: Google давит ценой и дефолтом дистрибуции (Search + Gemini). Это про захват ежедневных запросов, а значит про долгий хвост выручки, даже когда “самая умная модель” у конкурента.

Для людей: AI Mode станет “быстрее и полезнее” в бытовых сценариях (планирование, покупки, ремонт, учеба) просто потому, что модель по умолчанию теперь реально шустрая.

🚨 Нам 3.14здец:

Сервисам “мы делаем резюме веба за деньги” - 7/10 - дефолт в поиске съедает базовую ценность - что делать: продавать доступ к данным клиента, интеграции, ответственность, SLA.

Командам, которые держат Pro/тяжёлые модели как постоянный дефолт - 6/10 - экономика запросов станет больнее на фоне Flash-прайса - что делать: ввести policy routing и считать стоимость на задачу, а не “на модель”

БЫСТРЫЕ КАК ИИ НОВОСТИ

Что еще случилось за прошлые 24 часа

🏗️ Берни Сандерс (Sen. Bernie Sanders) публично продвигает идею паузы на строительство AI дата-центров в США из-за “социальных последствий” и вытеснения рабочих мест. И что? Это сигнал про политический риск для инфраструктурных планов: лицензии, сроки, энергия, общественные слушания станут медленнее и дороже.

Как применить: если строите или зависите от GPU-ёмкости в США - закладывать задержки, диверсифицировать регионы, заранее готовить аргументацию по занятости и энергии.

👔 Amazon меняет верхушку ИИ: Питер ДеСантис (Peter DeSantis) возглавляет новую структуру, которая объединяет модели (включая Nova/AGI), чипы (Trainium/Graviton) и квант, а архитектор Alexa/Nova Рохит Прасад (Rohit Prasad) уходит. И что? Amazon собирает “модель+железо+инфра” в одну вертикаль, значит ускорят собственный стек и жёстче привяжут клиентов к AWS.

Как применить: если вы на AWS - смотреть дорожную карту Trainium/Nova и планировать, где можно срезать cost на inference, пока это стало стандартом.

🎬 Alibaba показала Wan2.6 - мультимодальную линейку для генерации до 15 секунд 1080p видео с синхронизацией аудио/диалогов, сторибордингом и reference-to-video для персонажей. И что? Генвидео уезжает от “красивых клипов” к продакшен-механике: консистентность персонажа, сцены, голос, несколько шотов.

Как применить: если делаете маркетинг/креативы - тестировать reference-to-video для серийного контента, где важна стабильность героя.

📩 Google Labs выкатили CC - ассистента на Gemini, который подключается к Gmail/Calendar/Drive и шлёт утренний дайджест “Your Day Ahead”, плюс может помогать черновиками и действиями через email. И что? “Почта как интерфейс” возвращается: ассистенты начинают жить там, где у людей реально проходит день.

Как применить: для команд - пробовать как корпоративный “утренний брифинг” и оценить экономию времени на триаже входящих.

🧪 OpenAI выпустили FrontierScience - бенчмарк под научные задачи (olympiad + research), где GPT-5.2 сейчас лидер: 77% на Olympiad и 25% на Research. И что? “ИИ делает науку” пока упирается в research-часть: прогресс есть, но до автономной исследовательской работы далеко.

Как применить: в R&D продуктах использовать модели как ускоритель рутины (литобзор, проверка гипотез, расчёты), а критические выводы держать на человеке и экспериментах.

🗣️ xAI запустили Grok Voice Agent API - голосовой speech-to-speech для разработчиков через xAI API/доки. И что? Голосовые ассистенты снова становятся “фичей за выходные”, и конкуренция переезжает в данные, интеграции и качество сценариев.

Как применить: если у вас саппорт/продажи - пилотировать voice-agent на узком сценарии с чёткими tool-вызовами и логированием.

🖼️ Black Forest Labs выпустили FLUX.2 [max] - топовый режим FLUX.2 с более сильным редактированием и “grounded generation” на контексте из веба в некоторых API-интеграциях. И что? Генерация картинок постепенно превращается в “дизайн с привязкой к фактам/товарам/контексту”, а не просто стиль.

Как применить: для ecom/маркетинга - тестировать как движок для итеративного редактирования ассетов и быстрых вариаций под кампании.

🎧 Meta выпустили SAM Audio - модель, которая вырезает нужный звук из аудио/видео по тексту, клику по объекту в кадре или выбранному таймспану. И что? Монтаж аудио становится “по смыслу”, а не по волнам, и это ускорит производство контента и постпрод.

Как применить: если делаете подкасты/видео - строить пайплайн “черновой монтаж голосом” и чистить шум/фоны одним запросом.

🎥 AI2 (Allen Institute for AI) выпустили Molmo 2 - открытые модели для видео-понимания: трекинг объектов, подсчёт событий, точные таймкоды “где и когда произошло”. И что? Open-weight видеоаналитика становится практичной, значит будет больше “умных камер/логистики/инспекции” без закрытых API.

Как применить: в CV-проектах пробовать Molmo 2 как базу для событийной аналитики, где важны координаты и таймкоды, а не только подписи.

🚨 Нам 3.14здец (сводка по рискам):

Инфраструктурным планам под США - 8/10 - политическая повестка про энергетику и рабочие места начнёт тормозить дата-центры - что делать: диверсифицировать регионы, готовить публичный кейс “энергия+занятость”, иметь план Б по мощностям.

Всем офисным процессам без измерений эффекта - 7/10 - ассистенты лезут прямо в почту/календарь и начнут выдавливать “ручной триаж” - что делать: описать задачи, поставить метрики по времени/ошибкам, и автоматизировать первыми то, что болит каждый день.

BIPI AI - СООБЩЕСТВО!

Вступить в сообщество BIPI AI

Если ты дочитал до этого места, значит ты уже чувствуешь, куда катится ИИ и насколько быстро всё меняется, а в такой момент важнее всего оказаться в правильной компании людей.

Поэтому я запустил BIPIAI — сообщество фаундеров и топ-специалистов, которые хотят пройти эпоху ИИ на полной скорости в роли пилота, а не пассажира: внутри практика, разборы реальных бизнес-кейсов, рабочие пайплайны, созвоны, где участники показывают, как они вшивают модели в продажи, маркетинг и продукт, и клуб единомышленников, с которыми можно одновременно понимать картину целиком и собирать свои решения под новую реальность. Нас уже 80 + участников внутри из 15 стран.

УЗНАТЬ УСЛОВИЯ УЧАСТИЯ И ВСТУПИТЬ В СООБЩЕСТВО

На сегодня это все

Это был очень насыщенные и интересные 24 часа из мира AI и роботов, которые меняют нашу с вами жизнь.

До завтра.

Дмитрий Грин

P.S.

Чтобы помочь мне понять как вам этот дайджест. Пожалуйста нажмите на максимально релевантную кнопку.

🔮 Стэнфорд разложил 2026

Что в выпуске?

☕️ Привет, это твой дневной ИИ-дайджест за 22 декабря.

AI Исследования

🏥 2026 будет годом, когда ИИ начнут душить метриками

AI Исследования

🤖 Учёные прогнали “рой агентов” по задачам: результаты не очень

Google

⚡️⚡️⚡️ Google поставил “быстрый фронтир” в дефолт поиска и Gemini, и это меняет привычки

БЫСТРЫЕ КАК ИИ НОВОСТИ

Что еще случилось за прошлые 24 часа

BIPI AI - СООБЩЕСТВО!

Вступить в сообщество BIPI AI

На сегодня это все

До завтра.

Дмитрий Грин

Keep Reading

Big Pictrure AI

Home