Интересные результаты. Получается, что разница между моделями в результатах не так велика, там отличается стиль рассуждений и формулировки ответов. Получается, что выбор по сути стоит делать именно на свой вкус. Но меньше всего лупов выдает Fuse, если вам важно количество токенов. Когда-то выходило исследование, какие промпты повышают точность ответов лучше всех. И одним из лучших промптов был самый простой «Think step by step». В данном случае мы видим, что имея под собой одну базовую модель (Qwen2.5-32b), и принадлежа к одному классу моделей (reasoning), качество выкручивается на условный «максимум», и какого-то качественного скачка R1-distill не дает, все уже заложено в самой технологии.