همانطور که میدانیم روند پیشرفت مدلهای زبانی به سمت مقیاس کردن در فاز آموزش بوده است: استفاده از دادههای بیشتر و آموزش مدلهای بزرگتر برای بهدست آوردن نتایج بهتر. مدل o1 مسیر دیگری را پیموده است: برای بهبود نتایج، به مدل اجازه داده میشود که در هنگام تولید خروجی (فاز استنتاج)، فرصت تولید خروجی بیشتر یا حتی تولید خروجیهای مختلف و انتخاب از بین آنها داشته باشد.
بهدلیل این ویژگی، مدل o1 برای مسائلی که بین تولید پاسخ و بررسی صحت پاسخ، فاصله وجود دارد (generation-verification gap) مناسب است. منظور، مسائلی است که تولید پاسخ، مشکلتر از بررسی صحت پاسخ است. بهعنوان مثال، برای اثبات یک قضیه، تولید اثبات، مشکلتر از بررسی صحت یک اثبات است. ویژگی مقیاس کردن در زمان استنتاج این امکان را برای o1 فراهم میکند که با تولید اثباتهای مختلف و بررسی صحت آنها به سمت اثبات درست حرکت کند.