商湯大模型多個評測表現超ChatGPT

發布時間：2023-06-26 11:06 原文鏈接：商湯大模型多個評測表現超ChatGPT

本報訊（記者沈湫莎）商湯科技近日公布了自研中文語言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個權威大語言模型評測基準的成績。評測顯示，“商量”在這三個測試集中的表現均領先ChatGPT，實現了我國語言大模型研究的突破。全球三大權威語言模型測評基準分別為由美國加州大學伯克利分校等高校構建的多任務考試評測集MMLU、由微軟研究院推出的學科考試評測集AGIEval（含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等），以及由上海交通大學、清華大學和英國愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval。截至6月，全球范圍內正式發布的大語言模型已超過40款，其中由中國廠商、高校、科研院所等發布的大語言模型近20款。在MMLU測評中，“商量2.0”綜合得分為68.6，超ChatGPT（67.3分），僅落后于GPT-4（86.4分）位居第二；在AGIEval測評中，“商量2.0”得分49.9分，超ChatGPT（42.9分），僅次于GPT-4的56.4分。在C-Eval測評中，“商量2.0”得分66.1分，在參評的18個大模型中，僅次于GPT-4（68.7分）。 4月，商湯發布“日日新”大模型體系以及中文語言大模型“商量”。目前，“商量”已在眾多行業和場景中落地應用，已有近千家企業客戶通過申請，應用和體驗“商量2.0”的長文本理解、邏輯推理、多輪對話、情感分析、內容創作、代碼生成等綜合能力。在服務客戶過程中，“商量2.0”持續迭代和提升，并實現知識的實時更新。

更多與商湯大模型多個評測表現超ChatGPT 相關的新聞

商湯大模型多個評測表現超ChatGPT

其他網友還關注過

OpenAI再出王炸，視頻生成大模型Sora備受關注

哈佛校長辭職引發學界“抄襲”爭議，人工智能將抄襲檢測規則？

新進展！開發出尋找新型磁性材料的新方法

百度CTO王海峰：通用人工智能曙光已現

商湯大模型多個評測表現超ChatGPT

商湯大模型多個評測表現超ChatGPT

商湯大模型多個評測表現超ChatGPT

港科大（廣州）面向全校上線GPT服務

BrainX：3D打印全尺寸人腦模型及臨床應用前景

北大教授劉宏：GPT技術正處在從“玩具”向工具快速發展