Google исследовали модели OpenAI o1, DeepSeek-R1, QwQ-32B, которые показывают лучшие результаты на сложных задачах.
Они пришли к выводу, что дело не просто в более длинных размышлениях, а в том, что такие модели внутренне симулируют «общество мысли».
В процессе цепочки мыслей возникают разные «роли» и перспективы: один «голос» задаёт вопросы, другой меняет точку зрения, третий предлагает контраргументы или выявляет противоречия, четвёртый синтезирует решение. Это похоже на групповую дискуссию, а не на монолог.
ы подтверждают это тут подробнее.
Такие «социальные» паттерны возникают даже при RL с наградой только за правильный ответ — модель сама учится дискуссии, потому что это помогает лучше решать задачи.
Вывод — улучшение рассуждений частично объясняется внутренним моделированием коллективного интеллекта, похожего на человеческий.