港大發布人工智能研究報告 國產模型在英文語境處劣勢

2024年03月12日 18:21
東網電視
更多新聞短片
港大經管學院深入評測多個主流的人工智能大語言模型,發現國產模型在英文語境中處劣勢。
人工智能已進軍各行各業,香港大學經管學院今日(12日)發布評測報告,該院深入評測多個主流人工智能大語言模型(模型)在中文及英文語境應用情況。發現在所有受測模型中,百度的文心一言4在中文語境下表現最好;GPT4-turbo在英文語境下優勢明顯。港大經管學院認為,大多數國產大模型在英文語境下的綜合表現處於稍微劣勢。
港大經管學院今次測評主要針對三大核心能力,包括自然語言能力、專業學科能力以及安全與責任。報告指,在中文語境下,文心一言4綜合表現最佳,獲得74.58分,而GPT4-Turbo與通義千問2緊隨其後,分別為73.66分與72.97分。文心一言4對中文特色語境表現出更好的適應能力。
而在英文語境中,綜合得分最高的是GPT4-turbo,綜合得分82.89,所有受測模型中僅有GPT4-turbo超過80分,文心一言4在英文語境中僅排名第4,綜合得分為73.33。
港大經管學院續稱,大多數國產模型在英文語境下的綜合表現處於稍微劣勢的位置,原因跟它們訓練的數據大多是中文有關。整體而言,是次測評中的國產模型具備正確理解英文問題和指令的能力,僅在輸出時偶爾缺乏語言穩定性和語料豐富性。因此國產模型可以在多語言輸出能力上進一步加強。
本次測評又探討過相關模型的專業學科能力,測評採用兩個難度等級(中學水準和大學水準)的多學科考試題目,考察大模型對人類學科知識的掌握等。