Что в выпуске?

🌇 Привет, это твой вечерний ИИ-дайджест за 3 августа.

Вот что я тебе сегодня приготовил и зачем тебе тратить 5 минут чтобы это прочитать

🧠 Copilot получает голос <1 с за 60 с речи и новый текст на своих моделях — быстрее ответы, ниже чек за запрос
🦅 Голосовой агент видит экран и закрывает платёж в одном звонке — без «скиньте скрин»
🎓 Инженер уходит с $7M и ловит иск за вынос секретов — разберём, что это делает с карьерой и наймом
🏥 Стетоскоп с ИИ ловит heart failure ×2 и ФП ×3.5 прямо на приёме — профилактика за минуты

И ещё +11 новостей — быстрых, как ИИ:

xAI Grok Code Fast 1 — дешёвый агентный кодинг, OpenAI Codex — IDE/код-ревью/умный CLI, Anthropic — отчёт о вымогателях через Claude Code, Krea — Realtime Video вейтлист, Tencent — HunyuanVideo-Foley опенсорс звук к видео, TIME — список TIME100 AI 2025, Meta — зовёт модели Google/OpenAI и одновременно ловит скандал с лицами звёзд, ByteDance — USO для кастом-изображений (стиль+объект), UCLA — оптические генеративки без чипов, Higgsfield Speak 2.0 — аватары с точным лип-синком и движением, исследование — квизы по AI ↑ возвращаемость к надёжным медиа.

⚠️ ДИСКЛЕЙМЕР

ПРОЧТЕНИЕ ЭТОГО ДАЙДЖЕСТА РЕЗКО ПОВЫШАЕТ УРОВЕНЬ FOMO, ИДЕАЛЬНО ДОПОЛНЯЕТ УТРЕННИЙ КОФЕ И КАТЕГОРИЧЕСКИ ПРОТИВОПОКАЗАНО ПЕРЕД МЕДИТАЦИЕЙ И СНОМ — ВОЗМОЖНЫ ПРИСТУПЫ ВНЕЗАПНЫХ ИНСАЙТОВ И НЕУДЕРЖИМОЕ ЖЕЛАНИЕ СРОЧНО ЗАПИЛИТЬ СВОЙ СТАРТАП.

ПОГНАЛИ!

AI медицина

🫀 Обычный стетоскоп получил ИИ: ранние диагнозы за минуты

Chat GPT

Наверное каждый из нас задавался вопросом: как мы до сих пор доверяем уху из XIX века такую задачу, как диагностика сердца XXI. В Лондоне показали, как это делается по-современному: карманный стетоскоп с ИИ и одновременной записью ЭКГ прогнали в 200 кабинетах на 12 000+ пациентах. Он снимает фонокардиограмму и одноотведённую ЭКГ синхронно, в облаке модель разбирает форму волн, интервалы S1–S2, шумы, турбулентность потока и вариабельность ритма, а ЭКГ даёт «якорь» по времени. На выход — флаг риска за секунды. По результатам: харт-фейл ловят в 2 раза чаще, фибрилляцию предсердий — в 3,5 раза чаще, клапанные пороки — почти вдвое чаще против обычного осмотра. Это не «пилот в одной больнице»: тот же пятиминутный приём у терапевта, только прибор лежит на груди 20–30 секунд, данные улетают в облако, ответ приходит сразу и подшивается к карте, а дальше — быстрый маршрут к кардиологу/эхо.

Матчасть для внедрения простая: край-девайс собирает PCG+ECG, по защищённому каналу уходит в облачный инференс, возвращается бинарный флаг/скоринг (например, «HF/AF/valve риск»), триаж протоколом: зелёный — наблюдение, жёлтый — ЭКГ/NT-proBNP, красный — эхо/кардио. Нужны два кусочка интеграции — Wi-Fi/4G для синка и кнопка «отправить на эхо» в EHR. Ограничения понятны: это скрининг, подтверждает специалист, но главный выигрыш — время и ранняя стадия.

И что?

Для бизнеса: переносим триаж в кабинет GP, снижаем стоимость найденного случая и нагрузку на эхо, ускоряем маршрут пациента.

Для инвесторов: валидированный аплифт (×2, ×3,5) на рынке первички; модель «устройство + подписка на аналитику» с страновым масштабом.

Для людей: не «послушали — приходите через месяц», а ответ за минуты и шанс поймать проблему до госпитализаций.

🚨 Нам 3.14здец

Производителям «немых» стетоскопов — 7/10 — новая базовая планка: добавляем модуль анализа или гасим линейку.

Очередям на эхо — 6/10 — часть направлений отсекается на входе: пересобираем маршрутизацию, отдаём приоритет по красному флагу.

Microsoft

🧠 Microsoft показала свои ИИ-модели: MAI-Voice-1 и MAI-1-preview.

Chat GPT

Наверное каждый из нас задавался вопросом, как так вышло что у триллионной скомпании нет своей модели, хотя даже у apple есть. Ответ: теперь есть. Под управлением Мустафы Сулеймана в Microsoft AI сделали и сразу включили в продукты две модели: MAI-Voice-1 и MAI-1-preview. Первая — про голос: выдаёт 60 секунд речи меньше чем за секунду и уже работает в Copilot Daily и Podcasts. Вторая — про текст: обучена заметно меньшим парком GPU, чем у конкурентов, затачивается под инструкции и бытовые вопросы, сейчас гоняется на LM Arena и через API; в ближайшие недели её добавят в конкретные текстовые сценарии. Сулейман говорит, что уровень «на уровне лучших», публичных бенчмарков пока не показали — ориентируемся на то, что уже живёт в проде.

Сколько делали и почему вышли только сейчас. Отсчёт — с марта 2024, когда Сулейман пришёл и собрал отдельную потребительскую AI-организацию. Им потребовался примерно год с хвостиком, чтобы нанять команду, поднять инфраструктуру, натренировать текстовую основу и довести связку скорость/качество до уровня, пригодного для массовых интеграций. Раньше выпускать было бессмысленно: у Microsoft уже шёл большой цикл Copilot на моделях OpenAI, а внутри компании не было отдельного контура «консюмерского» AI с собственным продуктовым фокусом. Теперь контур есть — и модели поехали.

Зачем и почему именно сейчас, и для кого. Для пользователей экосистемы Copilot — быстрый голос и понятные текстовые ответы в повседневных задачах. Для разработчиков Microsoft — собственный управляемый двигатель внутри продуктов: можно маршрутизировать трафик между MAI и партнёрскими моделями по трём цифрам (качество, задержка, цена выполнения) и держать приватные контуры под правила enterprise. Для рынка — понятный сигнал: партнёрство с OpenAI остаётся (Microsoft — крупнейший инвестор и облачный партнёр), но продуктовый контроль и скорость релизов компания берёт на себя.

И что?

Для бизнеса: появляется второй рабочий маршрут в проде — часть сценариев можно везти через MAI ради скорости и стоимости, не ломая сложные кейсы на партнёрских моделях.

Для команды: ставим dual-provider, пускаем shadow-трафик в MAI, меряем три метрики на своих промптах ( $/запрос, p95, точность ) и включаем авто-маршрутизацию там, где выгодно.

🚨 Нам 3.14здец

Single-provider стекам — 8/10 — Microsoft прокатила мульти-модель в прод, монозависимость стала токсичной — добавляем второго провайдера, авто-маршрутизацию по цене/latency/качеству, свои eval’ы, считаем TCO на боевых.

Голосовым SaaS — 6/10 — 60 c речи за <1 c прямо в Copilot давит на маржу сторонних TTS — уходим в ниши: диалоги, эмоции, бренд-голоса, on-prem для enterprise, сертифицируем голоса и логи доступа.

OpenAI

🦅 ИИ-агенты теперь читают твой экран: OpenAI Realtime вышел из беты.

Chat GPT

Голосовые боты до сих пор путали паузы, перебивали и «падали» на акценте. OpenAI вывел Realtime API из беты в прод и добавил gpt-realtime — речь-в-речь, которая считывает невербальные сигналы, переключает язык на лету и ведёт естественный диалог. Появилась работа с изображениями прямо в разговоре и подключение к данным/инструментам через Model Context Protocol. По метрикам — 82,8% на аудио-reasoning против 65,6% у прошлой версии.

Кейс. Клиент: «платёж не прошёл» и показывает скрин ошибки. Агент читает код на картинке, через MCP идёт в биллинг, проверяет статус и перезапускает транзакцию — всё в одном звонке. В e-commerce по фото брака сразу оформляется RMA и ярлык возврата; в корп-IT скрин «Access denied» превращается в заявку с нужной ролью и сроком включения.

Почему сейчас: бета обкатала задержки, barge-in и устойчивость; стек дозрел для прод-нагрузок. Архитектура для девов — двунаправленный аудио-стрим, короткие «тики» размышлений и вызовы MCP к сервисам; при необходимости — image input в том же сеансе.

И что?

Для бизнеса: ниже стоимость обращения и время до решения, больше закрытий «с первого касания».

Для инвесторов: монетизируемые сценарии в саппорте/операциях, давление на COGS голосовых платформ вниз.

Для людей: нормальная беседа без пересылок, корректная работа с паузами, акцентами и картинками.

🚨 Нам 3.14здец

IVR/скриптовым колл-центрам — 8/10 — набор Realtime+MCP+image снимает рутину: ставим голосового агента, выносим FAQ/триаж, меряем NPS/ASA и экономию.

Текстовым ботам без речи — 6/10 — аудитория уходит в голос: добавляем speech-to-speech, визуал и доступ к внутренним сервисам через MCP.

AI кадры

⚖️ Инженер xAI попался на воровстве технологий Grok — $7M и иск.

В интернете нашел

Начало как в кино. Июль: инженер xAI Сюэчэнь Ли, один из первых двадцати в команде Grok, принимает оффер в OpenAI со стартом к середине августа. За дни до ухода он продаёт около $7 млн в акциях xAI и пишет заявление. Дальше версия xAI: перед увольнением Ли переносит на личные устройства конфиденциальные материалы Grok, потом пытается скрыть следы — удаляет логи, переименовывает файлы. 14 августа на очной встрече, по словам компании, он это признаёт. Итог — иск в федеральный суд: xAI требует деньги и временный запрет Ли работать в OpenAI или у любого конкурента, пока идёт разбирательство.

Что это значит лично для Ли. Высока вероятность временной блокировки на смежные задачи (инъюнкция), экспертизы ноутбуков и телефонов, раскрытия переписок и логов, расходов на защиту и возможных компенсаций. Даже без финального решения любой новый работодатель будет держать его подальше от чувствительных проектов, онбординг превратится в юридическую процедуру. Репутационный шлейф — надолго.

Кому на руку. xAI выигрывает паузу и удерживает экспертизу от немедленного перетока к конкуренту, плюс посылает сигнал рынку: IP охраняется в суде. OpenAI формально вне иска, но вынужден строить чистый контур вокруг кандидата: жёсткие границы задач, журналы доступа, внутренние проверки. Всем остальным — бесплатный учебник по защите чекпоинтов, датасетов и офбордингу.

И что?

Для бизнеса: ужесточаем офбординг днём-в-день, включаем DLP и аудит скачиваний, делим доступы по ролям, подписываем итоговые сертификаты с реальной проверкой.

Для инвесторов: юридическая турбулентность для xAI и задержка по людям, но однозначный сигнал о ценности IP и дисциплине.

Для людей: перенос рабочих данных на личные устройства и «чистка логов» — это не мелочь, это повод для иска и минус к карьере.

🚨 Нам 3.14здец

AI-стартапам — 8/10 — перегретый рынок + концентрированный IP: шифруем чекпоинты и датасеты, вводим непрерывный аудит выгрузок, clawback и for-cause в опционах. И все еще никаких гарантий.

Рекрутерам топ-инженеров — 6/10 — риск «заражения» стека: делаем clean-room онбординг, изоляцию задач на 60–90 дней и внешние проверки артефактов. И все еще никаких гарантий

БЫСТРЫЕ КАК ИИ НОВОСТИ

Что еще случилось за прошлые 24 часа

🧩 xAI выпустила Grok Code Fast 1 (ex-sonic) для агентного кодинга с очень низкой ценой за задачи. И что? Можно гнать длинные цепочки «собери-проверь-исправь» без взрывов бюджета — разгружаем рутину и техдолг.

🛡️ Anthropic: в отчёте показано, как злоумышленники автоматизировали вымогательство через Claude Code. И что? Ставим ограждения: запрет опасных действий, логи команд, переключение на человека в критичных шагах.

🛠️ OpenAI обновил Codex: расширение в IDE, код-ревью, апгрейд CLI-агента. И что? Меньше переключений и ручной рутины — задачи закрываются быстрее, багов до продакшена долетает меньше.

🎥 Krea открыла вейтлист Realtime Video: создаёшь/правишь видео кистью, текстом или с вебки с сохранением консистентности. И что? Прототипы и рекламные варианты делаются за часы — тестируем больше идей без студии.

🔊 Tencent выложила HunyuanVideo-Foley в опенсорс: проф-звук и эффекты с точной синхронизацией к картинке. И что? Постпрод дешевеет — инди-команды получают звук уровня «большого кино».

🏆 TIME опубликовал TIME100 AI 2025. И что? Готовый шорт-лист лидеров для партнёрств, найма и интро — ускоряем поиск сильных людей.

🎭 Meta: обсуждает подключение моделей Google/OpenAI к Meta AI, параллельно ловит шквал из-за использования образов звёзд без разрешения. И что? Качество ассистента можно ускорить «внешними мозгами», но нужен строгий реестр прав и белые списки лиц.

🎨 ByteDance представила USO — open-модель «стиль + объект», сохраняет персонажа и меняет стили. И что? Массовая персонализация брендов и UGC: один исходник → сотни качественных вариаций под аудитории.

🔬 UCLA показала оптические генеративные модели: картинки создаются светом, быстрее и энергоэффективнее, чем на процессорах. И что? Появляется путь к сверхбыстрым и экономным генерациям на периферии (AR/устройства).

🗣️ Higgsfield AI выпустила Speak 2.0: более реалистичные аватары, точный лип-синк, тонкий контроль видео. И что? Часть съёмок заменяется аватарами — дешевле уроки, саппорт-ролики и презентации.

📰 Исследование: квизы на определение AI-контента повышают визиты на доверенные медиа. И что? Паблишерам — простая «игровая» воронка для удержания и роста подписок, брендам — меньше рисков рядом с мусорным контентом.

Будь на связи

Один дайджест вместо сотни каналов

Подписывайся на мой AI-дайджест — я лично отсматриваю потоки новостей, фильтрую шум и оставляю только суть. Всё, что реально важно для бизнеса, инвестиций и жизни с ИИ — за 5 минут в день.

ПОДПИШИСЬ! ЭТО БЕСПЛАТНО

На сегодня это все

Это был очень насыщенные и интересные 24 часа из мира AI и роботов, которые меняют нашу с вами жизнь.

До завтра.

Дмитрий Грин

P.S.

Чтобы помочь мне понять как вам этот дайджест. Пожалуйста нажмите на максимально релевантную кнопку.

AI агенты занялись вымогательством

Что в выпуске?

🌇 Привет, это твой вечерний ИИ-дайджест за 3 августа.

AI медицина

🫀 Обычный стетоскоп получил ИИ: ранние диагнозы за минуты

Microsoft

🧠 Microsoft показала свои ИИ-модели: MAI-Voice-1 и MAI-1-preview.

OpenAI

🦅 ИИ-агенты теперь читают твой экран: OpenAI Realtime вышел из беты.

AI кадры

⚖️ Инженер xAI попался на воровстве технологий Grok — $7M и иск.

БЫСТРЫЕ КАК ИИ НОВОСТИ

Что еще случилось за прошлые 24 часа

Будь на связи

Один дайджест вместо сотни каналов

На сегодня это все

До завтра.

Дмитрий Грин

Keep Reading

Big Pictrure AI

Home