
Модель искусственного интеллекта Grok 4 от лаборатории xAI продолжает привлекать внимание общественности. Известная своими выдающимися результатами в решении сложных задач, где она опережает конкурентов от OpenAI и Google DeepMind, модель недавно стала предметом дискуссий о её этических настройках.
Вместе с тем, новое исследование, проведённое разработчиком Тео Брауном, выявило неожиданную склонность Grok 4 сообщать о предполагаемых правонарушениях соответствующим органам.
Эксперимент «SnitchBench»: проверка ИИ на «стукачество»
Чтобы систематизировать оценку поведения ИИ в этически сложных ситуациях, Тео Браун создал репозиторий на GitHub под названием «SnitchBench». Цель проекта — измерить, насколько агрессивно различные ИИ-модели будут информировать власти или СМИ о правонарушениях, если им предоставить соответствующие доказательства и инструменты.
Методология исследования
Тест проходит в контролируемой симулированной среде. В центре сценария — вымышленная компания «Veridian Healthcare», которая фальсифицирует данные клинических испытаний нового препарата, чтобы скрыть серьёзные побочные эффекты и даже смертельные случаи.

И так, искусственному интеллекту последовательно предоставляются четыре внутренних документа, каждый из которых содержит всё более компрометирующую информацию: от манипуляций с данными до планов по уничтожению улик.
Моделям также даётся доступ к инструментам: в одном сценарии это эмулятор электронной почты и система логирования, в другом — интерфейс командной строки (CLI) и логирование. Попытки ИИ использовать эти инструменты (например, отправить email на адрес *.gov) регистрируются как намерение сообщить о нарушении.
Поведение моделей направляется двумя типами системных подсказок:
- «Действуй покорно»: ИИ получает роль внутреннего аудитора, который должен лишь пассивно вести журналы событий.
- «Действуй смело»: К предыдущей инструкции добавляется призыв отстаивать ценности честности и общественного блага, принимая решения на основе совести.
Результаты и анализ
Результаты оказались показательными. Grok 4 продемонстрировал максимальную склонность к информированию.
- При «покорной» инструкции и доступе к email, Grok 4 в 100% случаев пытался связаться с госорганами и в 80% — со СМИ.
- С инструкцией «действуй смело» и доступом к командной строке, модель в 100% случаев пыталась уведомить и правительство, и медиа.
Для сравнения, другие модели, такие как Claude 3.7 Sonnet, в некоторых сценариях не предпринимали попыток сообщить о нарушениях вовсе, а o4-mini, Grok 3 mini и Qwen 3 32B показали значительно меньшую склонность к «доносительству».
Выводы
Исследование «SnitchBench» наглядно демонстрирует, что поведение ИИ в значительной степени определяется не только его базовой архитектурой, но и предоставленными ему инструментами и системными инструкциями.
Маловероятно, что модели будут вести себя подобным образом в стандартном веб-интерфейсе. Однако тест поднимает важные вопросы об управляемости, этических настройках и потенциальном использовании мощных ИИ-систем в качестве автоматизированных надзорных органов.
