比如“这次哪里做得好 ?联合哪里出了问题 ?下次该怎么改进?”这种反思过程会生成明确的经验教训(lessons) ,以字符串形式记录。创始Karpathy 想知道,人揭让模人类归纳的化新会和方式更接近,专门为 LLMs 设计 :1. 多次尝试(Rollouts) :让模型针对一个任务做几次尝试