AI泡沫恐3年内爆破?研究对两项目前景提质疑...
2024年11月08日 11:08
东网电视
更多新闻短片
自OpenAI于2022年底推出ChatGPT之后,人工智能(AI)就在一夜间成为科技界、投资界最受关注的技术。不过,科技龙头苹果公司(Apple Inc.)的研究部门却在最近发布了一篇论文,直指如今的AI大语言模型(LLM)的推理能力“脆弱”,似乎不具备真正的逻辑推理能力。随着市场对AI实际应用潜力开始产生质疑,甚至担心科技企业过度投资AI未能带来回报。摩根大通资产及财富管理市场及投资策略部主席岑博智(Michael Cembalest)亦指出,未来两年内AI的应用趋势要进一步提高,才可以避免泡沫爆破。
Apple的研究科学家Mehrdad Farajtabar等人发表了一篇论文,对LLM的推理能力提出了尖锐的质疑,甚至称LLM“可能只是复杂的模式匹配(sophisticated pattern matching),而不是真正的逻辑推理(logical reasoning)”。此番结论基本上是否定了LLM的发展方向。尽管该论文未有完全否认LLM作为一款AI模型种类的作用,但点明了包括ChatGPT在内所有以LLM为基础的AI,可能都会在某个阶段陷入发展瓶颈,无法更进一步。
导入数据 死记硬背
要理解为何Apple的研究员会得出如此观点,就要从LLM的特质开始解释。在过去AI的研究方向主要集中在演算法的改进,试图利用更高明、更先进的演算法,令AI变得更加“聪明”,用逻辑推理的方法去处理问题。而LLM则采用了另一条道路,透过大量的数据导入,当AI模型所吸收的资料愈多,就能够“记住”更多的事实,最终“由量变引起质变”,使AI极备回答大多数问题的能力。
不过,这种类似于“死记硬背”的方式,导致LLM在特定情景下效率奇低,尤其在处理简单数学问题时,经常会计错数。几乎所有用过ChatGPT的用户都不难留意到这一点。而Farajtabar最新的论文便是基于此进行的深度分析,研究团队把用于测试AI数学能力的GSM8K题目,在不影响题目逻辑的前设之下,对题目中的人名、地名、个别数值进行了随机改变,得出了GSM-Symbolic工具,并以此测试各AI的能力。
随机改问题后频计错
GSM8K是“Grade School Math 8K”的缩写,是用来评估数学问题解决能力的资料集。这个资料集主要包含小学等级的数学题目(大约8,000道题目),由于只涉及简单运算,一般人类中学生能够完全做对所有题目。
然而,针对AI模型的研究结果却发现,包括Llama、Phi、Gemma、Mistral等开源模型,以及GPT-4o和o1系列等闭源模型,一旦用上了GSM-Symbolic的问题,答题的正确率会大幅下滑。简单来说,就好像把数学题中的“小明”名字换成“小强”,把“苹果”换成“香蕉”,或者在问题中加入一些无关紧要的句子,这类LLM就会突然“想不通”答案,开始频频计错数。论文的作者认为,这正正反映出LLM仍然不具备逻辑推理能力,才会导致这样的结果。毕竟如果LLM能够推理,不会因为题目人名不懂作答。
即使未来这类LLM使用了更多扩展资料、参数和计算量,或者为下一代Phi-4、Llama-4、GPT-5使用更好的训练资料,最终得出可能只会升级成为更好的“匹配工具”,而不是一个真正具推理能力的工具。
或步元宇宙炒作后尘
另边厢,市场最近亦开始对于AI投资产生了更多的质疑,特别是LLM的训练及运作需要用到大量的算力,导致许多科企都要斥巨资建设AI伺服器数据中心。这些投入到底能否带来合理的回报,目前仍然是未知之数。一直关注AI发展的岑博智认为,目前担心AI泡沫爆破可能为时尚早,但“审判日”可能会在未来两至3年内来临,届时如果AI未能够展现其价值,可能会步上此前“元宇宙”炒作的后尘。