AI泡沫恐3年内爆破？研究对两项目前景提质疑...

东网电视

自OpenAI于2022年底推出ChatGPT之后，人工智能（AI）就在一夜间成为科技界、投资界最受关注的技术。不过，科技龙头苹果公司（Apple Inc.）的研究部门却在最近发布了一篇论文，直指如今的AI大语言模型（LLM）的推理能力“脆弱”，似乎不具备真正的逻辑推理能力。随着市场对AI实际应用潜力开始产生质疑，甚至担心科技企业过度投资AI未能带来回报。摩根大通资产及财富管理市场及投资策略部主席岑博智（Michael Cembalest）亦指出，未来两年内AI的应用趋势要进一步提高，才可以避免泡沫爆破。

Apple的研究科学家Mehrdad Farajtabar等人发表了一篇论文，对LLM的推理能力提出了尖锐的质疑，甚至称LLM“可能只是复杂的模式匹配（sophisticated pattern matching），而不是真正的逻辑推理（logical reasoning）”。此番结论基本上是否定了LLM的发展方向。尽管该论文未有完全否认LLM作为一款AI模型种类的作用，但点明了包括ChatGPT在内所有以LLM为基础的AI，可能都会在某个阶段陷入发展瓶颈，无法更进一步。

导入数据　死记硬背

要理解为何Apple的研究员会得出如此观点，就要从LLM的特质开始解释。在过去AI的研究方向主要集中在演算法的改进，试图利用更高明、更先进的演算法，令AI变得更加“聪明”，用逻辑推理的方法去处理问题。而LLM则采用了另一条道路，透过大量的数据导入，当AI模型所吸收的资料愈多，就能够“记住”更多的事实，最终“由量变引起质变”，使AI极备回答大多数问题的能力。

不过，这种类似于“死记硬背”的方式，导致LLM在特定情景下效率奇低，尤其在处理简单数学问题时，经常会计错数。几乎所有用过ChatGPT的用户都不难留意到这一点。而Farajtabar最新的论文便是基于此进行的深度分析，研究团队把用于测试AI数学能力的GSM8K题目，在不影响题目逻辑的前设之下，对题目中的人名、地名、个别数值进行了随机改变，得出了GSM-Symbolic工具，并以此测试各AI的能力。

随机改问题后频计错

GSM8K是“Grade School Math 8K”的缩写，是用来评估数学问题解决能力的资料集。这个资料集主要包含小学等级的数学题目（大约8,000道题目），由于只涉及简单运算，一般人类中学生能够完全做对所有题目。

然而，针对AI模型的研究结果却发现，包括Llama、Phi、Gemma、Mistral等开源模型，以及GPT-4o和o1系列等闭源模型，一旦用上了GSM-Symbolic的问题，答题的正确率会大幅下滑。简单来说，就好像把数学题中的“小明”名字换成“小强”，把“苹果”换成“香蕉”，或者在问题中加入一些无关紧要的句子，这类LLM就会突然“想不通”答案，开始频频计错数。论文的作者认为，这正正反映出LLM仍然不具备逻辑推理能力，才会导致这样的结果。毕竟如果LLM能够推理，不会因为题目人名不懂作答。

即使未来这类LLM使用了更多扩展资料、参数和计算量，或者为下一代Phi-4、Llama-4、GPT-5使用更好的训练资料，最终得出可能只会升级成为更好的“匹配工具”，而不是一个真正具推理能力的工具。

或步元宇宙炒作后尘

另边厢，市场最近亦开始对于AI投资产生了更多的质疑，特别是LLM的训练及运作需要用到大量的算力，导致许多科企都要斥巨资建设AI伺服器数据中心。这些投入到底能否带来合理的回报，目前仍然是未知之数。一直关注AI发展的岑博智认为，目前担心AI泡沫爆破可能为时尚早，但“审判日”可能会在未来两至3年内来临，届时如果AI未能够展现其价值，可能会步上此前“元宇宙”炒作的后尘。

on.cc东网