Google выяснили, почему модели рассуждений показывают лучшие результаты на сложных задачах

Google исследовали модели OpenAI o1, DeepSeek-R1, QwQ-32B, которые показывают лучшие результаты на сложных задачах.

Они пришли к выводу, что дело не просто в более длинных размышлениях, а в том, что такие модели внутренне симулируют «общество мысли».

В процессе цепочки мыслей возникают разные «роли» и перспективы: один «голос» задаёт вопросы, другой меняет точку зрения, третий предлагает контраргументы или выявляет противоречия, четвёртый синтезирует решение. Это похоже на групповую дискуссию, а не на монолог.

ы подтверждают это тут подробнее.

Такие «социальные» паттерны возникают даже при RL с наградой только за правильный ответ — модель сама учится дискуссии, потому что это помогает лучше решать задачи.

Вывод — улучшение рассуждений частично объясняется внутренним моделированием коллективного интеллекта, похожего на человеческий.

Источник

Средний рейтинг

0 из 5 звезд. 0 голосов.