如何通过主观体验了解大模型的性能？

选取一个很难的文章，比如物理、数学的科普类文章，让大模型型总结，并问相关的问题，如果在大模型的帮助下，你理解了整个文章，那么就说明大模型的性能不错。

用这种主观的方式，发现国内模型相比国内模型还是差不少的。这里做个初略的比较。

国内的模型的回答让你感觉有点形式化，像是鹦鹉学舌一样，给你一个模糊的、不求甚解的答复，有时候可能太面面俱到了，反而会扰乱你的思维；国外的模型好像懂得你的疑惑点，针对这个疑惑的地方，几句话给你讲明白了，经常给你一种豁然开朗的感觉。简单概括下就是国外的模型的推理能力好一些。

为什么会有这个差异，是模型架构导致的，还是训练数据导致的？如果是英文语料和中文语料所体现的思维模式差异造成的，那就太悲哀了。

国外模型，在IT技术方面，有时候openai好些，有时候Claude好些；当我问到深度学习算法时，Claude会更好，因为有几次它能答到关键点，而且举得例子也很形象；Notebook在一些哲学、物理方面材料的总结和问答上，让我很满意。