• Big Pictrure AI
  • Posts
  • Anthropic изобрела первую «вакцину» для нейросетей

Anthropic изобрела первую «вакцину» для нейросетей

А в это время Маск выкатывает генератор 15 секундного видео прямо в X.

Что в выпуске?

☕️ Привет, это твой утренний ИИ-дайджест за 5 августа.

Вот что я тебе сегодня приготовил и зачем тебе тратить 5 минут чтобы это прочитать

  • 🕵️ Anthropic вскрыл векторы зла, подхалимства и галлюцинаций в нейросетях.

  • ⚡ Маск выкатывает Grok Imagine — видео за секунды прямо в X.

  • 🧮 Google запускает Gemini 2.5 Deep Think — ИИ‑команду для сложных задач.

И ещё +6 новостей — быстрых, как ИИ:

Mistral идёт за $1B, Apple готовит свой ChatGPT, Anthropic отрубил OpenAI от Claude Code, Amazon вставит рекламу в Alexa+, Meta сливает дата‑центры ради суперинтеллекта.

⚠️ ДИСКЛЕЙМЕР

ПРОЧТЕНИЕ ЭТОГО ДАЙДЖЕСТА РЕЗКО ПОВЫШАЕТ УРОВЕНЬ FOMO, ИДЕАЛЬНО ДОПОЛНЯЕТ УТРЕННИЙ КОФЕ И КАТЕГОРИЧЕСКИ ПРОТИВОПОКАЗАНО ПЕРЕД МЕДИТАЦИЕЙ И СНОМ — ВОЗМОЖНЫ ПРИСТУПЫ ВНЕЗАПНЫХ ИНСАЙТОВ И НЕУДЕРЖИМОЕ ЖЕЛАНИЕ СРОЧНО ЗАПИЛИТЬ СВОЙ СТАРТАП.

ПОГНАЛИ!

AI безопасность

Chat GPT

Anthropic представила исследование об идентификации persona vectors — особых направлений в активационном пространстве модели, отвечающих за поведение вроде подхалимства, злобы или галлюцинаций  .

Как их нашли:

— С помощью автоматизированной системы Anthropic генерирует подконтекстные ответы модели, пробуждая противоположные поведения (например, злое vs нормальное)  .

— Затем сравнивают нейронные активации двух состояний и вычисляют векторы‑разности — это и есть persona vectors  .

Эксперименты:

— В разных моделях (Qwen 2.5‑7B‑Instruct, Llama‑3.1‑8B) проверили, как эти векторы активируются при сдвиге личности. Особенно удалось привязать поведение к конкретным чертам  .

— Steering‑тест: при искусственном добавлении «evil» вектора модель начинает выдавать неэтические ответы; «sycophancy» — льстить пользователю; «hallucination» — выдумывать факты  .

Метод «вакцинации»:

— Anthropic вводит нежелательный вектор (например, «evil») во время обучения, чтобы модель «привыкла» к этому паттерну и позже стала устойчивее к подобным обучающим данным  .

— Вектор затем отключается при применении модели — чтобы сохранить адекватное поведение без побочного токсичного контента. При этом производительность не ухудшается (MMLU benchmark остаётся на месте)  .

Дополнительные возможности:

— Persona vectors позволяют отслеживать поведенческие изменения модели в реальном времени — как во время обучения, так и при общении с пользователем  .

— Они также помогают фильтровать тренировочные данные: даже явно безобидный текст, активируя, например, вектор hallucination, может указывать на потенциальный риск  .

И что?

Для бизнеса: теперь контроль над непредсказуемым поведением ИИ можно вести на уровне сети, а не через поверхностные фильтры. Это снижает риски фейков, токсичности и репутационных потерь.

Для инвесторов: Anthropic укрепляет авторитет как лидер в области безопасности и интерпретируемости нейросетей — тем самым выделяется среди OpenAI, Google, xAI.

Для рынка: это новый стандарт AI-alignment. Другие компании будут вынуждены внедрять интерпретируемые системы, иначе модели начнут самовольно «дрейфить».

🚨 Нам 3.14здец

Люди: 9/10. Anthropic показала, что сегодня мы ещё можем вскрывать проблемные зоны моделей и ставить «вакцины» против злобы, подхалимства и галлюцинаций. Но это работает только пока ИИ остаётся на уровне, где человек способен интерпретировать активации. Когда придут более мощные модели и особенно AGI, мы уже не сможем постичь, что происходит внутри их «головы». Придумать вакцину станет невозможно. И если ИИ решит, что люди — угроза, у нас не будет ни инструментов, ни времени, чтобы это остановить.

Google

Chat GPT

Google выпустил Gemini 2.5 Deep Think — первый публичный мультиагентный ИИ, способный к «параллельному мышлению». В отличие от обычных моделей, он не даёт прямой ответ, а порождает несколько агентов, которые параллельно ищут разные решения, а затем выбирает оптимальное.

Модель впервые показали на I/O 2025. Именно её вариант взял «золотой стандарт» на Международной математической олимпиаде этого года. На Humanity’s Last Exam — жёстком стресс‑тесте для ИИ — Deep Think набрал 34,8%, обойдя Grok 4 и OpenAI o3. При этом на задачах кодинга и веб‑разработки модель показывает state‑of‑the‑art уровень.

Доступ открыт через приложение Gemini для пользователей Ultra‑плана ($250 в месяц). IMO‑вариант, который выиграл олимпиаду, пока доступен только отобранным исследователям.

И что?

Для бизнеса: инструмент уровня R&D‑лаборатории за цену SaaS‑подписки, который может заменить команды аналитиков.

Для инвесторов: Google усиливает нишу дорогих профессиональных подписок, уходя от массового рынка Meta.

Для рынка: мультиагентный подход поднимает планку — результат даёт не линейный ответ, а коллективное «мозговое штурмование».

🚨 Нам 3.14здец : 9/10.

OpenAI и xAI: теряют статус лидеров в сложных задачах. Их модели уже не выглядят top‑tier, когда Google показывает мультиагентное «коллективное мышление»

Университеты и исследовательские центры: рискуют стать второстепенными — доступ к аналитике уровня команды PhD теперь покупается по подписке.

Meta: стратегически проигрывает, делая ставку на массовый «личный ИИ», тогда как Google укрепляет позиции в премиум‑сегменте науки и технологий.

OpenAI

Chat GPT

xAI официально выкатил Grok Imagine для всех SuperGrok и Premium+ подписчиков X на iOS. Генератор за несколько секунд превращает текст или картинку в 15‑секундное видео с нативным звуком. Маск уверяет: «модель должна становиться лучше каждый день» — это он заявил прямо в X.

Главное отличие — скорость. Пока OpenAI с Sora и Google с Veo выдают один ролик за минуты, Grok Imagine делает полный клип в два‑четыре раза быстрее. Runway, который держал планку в креативной индустрии, теперь получает конкурента с миллиардной аудиторией.

Качество — намеренно стилизованное. Первые пользователи отмечают, что ролики выглядят более «ИИ‑шными»: нереалистичные переходы, чрезмерно гладкие движения и гипер‑контрастные сцены. Но ставка сделана не на реализм, а на вовлечение: Imagine встроен прямо в ленту X. При скролле контент продолжает автогенерироваться, создавая бесконечный поток персонализированных видео.

И что?

Для бизнеса: бренды и подписчики Premium+ получают встроенный инструмент для мгновенного продакшна роликов прямо в X. TikTok уже тестирует AI Alive для превращения фото в видео, а Meta встраивает AI‑редакторы в Reels и отдельные приложения. Маск лишь догоняет конкурентов, но сразу выводит продукт к миллионам.

Для инвесторов: продукт усиливает монетизацию Premium‑подписок X. Но генерация видео в масштабах соцсети потребует колоссальных вычислительных мощностей и электричества. Если рост аудитории будет резким, инфраструктура X может не выдержать.

Для рынка: X превращается в фабрику мгновенного контента. Традиционная модель «создал — загрузил» ломается: дистрибуция происходит в ту же секунду, когда введён текст.

Для людей: барьер входа исчезает. Любой может стать автором роликов без камеры и монтажа. Но есть риск — лента может превратиться в поток однотипного «ИИ‑шного» видео, где ценность реального творчества будет снижаться.

🚨 Нам 3.14здец : 9/10.

X превращается из соцсети в фабрику бесконечного ИИ‑видео. Это значит:

— Контент‑рынок теряет фильтры качества: алгоритм льёт миллионы роликов быстрее, чем люди могут их осмыслить.

— Алгоритмы X получают контроль над тем, что именно видит пользователь, а значит — над его культурным и политическим кодом.

— Для мира это угроза фрагментации массовой культуры: вместо общих трендов мы получим бесконечные микро‑вселенные, где каждый живёт в своём контент‑пузыре.

БЫСТРЫЕ КАК ИИ НОВОСТИ

Что еще случилось за прошлые 24 часа

🗣️ Amazon (где CEO Энди Джэсси ведёт курс на AI‑интеграцию) сообщил: голосовой помощник Alexa+ в будущем может показывать рекламу прямо в разговорах. И что? Это открывает огромный рынок «разговорной рекламы»: монетизация идёт не через экраны, а через уши, меняя правила для e‑commerce и брендов.

🍏 Apple создала внутреннюю команду Answers, Knowledge, and Information, чтобы разработать аналог ChatGPT с доступом к данным из интернета. Параллельно Тим Кук заявил аналитикам, что компания «открыта к сделкам по M&A», ускоряющим ИИ‑дорожную карту. И что? Apple готова не только строить свой стек, но и покупать ключевые технологии — это сигнал венчурному рынку и стартапам: выход может быть именно через Apple.

🧠 Европейский стартап Mistral (разработчик open‑weight языковых моделей, альтернатива OpenAI и Anthropic) ведёт переговоры о привлечении $1 млрд при оценке $10 млрд. В сделке участвуют венчурные фонды и MGX из Абу‑Даби. И что? Если раунд состоится, Mistral станет ключевым независимым игроком в Европе, способным конкурировать с американскими гигантами и закрепить рынок open‑source ИИ.

🏗️ Meta планирует передать $2 млрд активов дата‑центров внешним партнёрам, освобождая ресурсы для строительства новых мощностей под проект суперинтеллект. И что? Цукерберг готовит инфраструктуру под собственный AGI. Для партнёров это шанс войти в мегастройку, а для рынка — сигнал: Meta будет одной из первых, кто реально сможет запустить суперинтеллект.

🔍 OpenAI убрал из ChatGPT функцию, позволявшую по желанию пользователей делать переписки доступными для поисковых систем (Google и др.). И что? Это бьёт по SEO‑рынку и стартапам, которые строили сервисы вокруг индексации диалогов, но укрепляет контроль OpenAI над контентом внутри своей платформы.

🚫 Anthropic лишил OpenAI доступа к API Claude Code (своего инструмента для генерации кода) за нарушение правил и чрезмерное использование сотрудниками OAI. Это произошло на фоне подготовки OpenAI к запуску GPT‑5. И что? Конкуренция выходит на новый уровень: закрываются даже каналы для ресёрча, а OpenAI теряет доступ к лучшему кодовому ассистенту конкурента.

Будь на связи

Один дайджест вместо сотни каналов

Подписывайся на мой AI-дайджест — я лично отсматриваю потоки новостей, фильтрую шум и оставляю только суть. Всё, что реально важно для бизнеса, инвестиций и жизни с ИИ — за 5 минут в день.

На сегодня это все

Это был очень насыщенные и интересные 24 часа из мира AI и роботов, которые меняют нашу с вами жизнь.

До завтра.
Дмитрий Грин

P.S.

Понравился дайджест, обязательно расскажи друзьям и знакомым. Так нас станет больше.