同时也用同样的提示词,在普通大模型上做了一下测试。效果确实是:O3-mini、QwQ、R1这类推理模型,明显好于4o、qwen2.5、kimi这些传统模型;有联网搜索功能的模型,效果好于只能自我推荐的那些模型。