“過去一段時間,以大語言模型為代表的人工智能技術取得了令人震撼的成績,而這些已經讓我們看到了通用人工智能的曙光。”
近日,在由深度學習技術及應用國家工程研究中心主辦的WAVE SUMMIT深度學習開發者大會上,百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰首次發表他對于通用人工智能的理解。他還表示,希望與所有開發者共建開源開放的社區,共赴通用人工智能的星辰大海。
體現人工智能核心能力的四個關鍵詞
在一眾與人工智能相關的詞匯中,王海峰選出了四個詞:理解、生成、邏輯和記憶。在他看來,這四個詞所代表的含義,既是人工智能最核心的能力,也是通用人工智能系統應具備的最基本的能力。
“比如大語言模型要創作一篇內容,它需要‘理解’創作主題,理清創作‘邏輯’,在‘記憶’中搜尋素材,并將對素材的理解融會貫通,最后‘生成’一篇合格的文稿。”王海峰舉例說,編程、解題、做規劃等也同樣如此,“如果一個人工智能系統具備了很強的理解、生成、邏輯和記憶能力,它就可以完成許多不同的任務。”
顯然,理解、生成、邏輯、記憶這四個關鍵詞代表的含義,也正是貫穿于人類思考過程中的能力。王海峰認為,如今,大語言模型已經初步具備了這幾個方面的能力,而隨著這些能力越來越強,“就會讓我們更快地走向通用人工智能”。
大模型的代碼能力,或許能讓人更真切地看到它沿著邁向通用人工智能之路前進的態勢。
王海峰說,語言是人類溝通交流的工具,同時也是思維的載體。但計算機編程語言不同于含義豐富的自然語言,它們有著嚴格的語法、行文格式,而且每一行代碼都只能唯一被解釋、被執行。因此,人類程序員們編寫代碼的過程,其實是一個將人的思維表達為編程語言的過程,進而就可以執行,也可以交互了。
當大語言模型也能又快又好地“寫”代碼的時候,事情就開始變得不簡單了。
“我上學的時候,一位外語老師曾經跟我說,如果你能用外語進行思考了,那就說明你已經把這門外語學通了。”王海峰說,所以,當大語言模型能夠“寫”代碼了,也意味著它能夠將人類自然語言表達的需求用代碼寫出來。
王海峰說出了他的看法:“這不僅是為人們的軟件開發提供幫助,更是架起了機器‘思考’和‘執行’之間的橋梁——這對通用人工智能的發展有著非常重要的意義。”
“知識就是力量”對AI也適用
而當人們看到一些大語言模型產品“時而神時而鬼”的發揮后,便可知曉,人工智能對“理解、生成、邏輯、記憶”這些能力的修煉還不到家。
人工智能如何不斷地獲得并增強它在這些方面的能力?王海峰的答案是“知識增強大語言模型”。
今年3月,百度發布了知識增強大語言模型“文心一言”。 5個月以來,文心一言的能力有了長足進步。今年6月在公開測試集上進行的基礎模型少樣本(Few-Shot)評測顯示,最新版本的文心大模型3.5在多個測試集的得分超過ChatGPT。
文心一言的進步速度超出預期。這背后,有許多值得提及的要素,比如龐大數量的優質數據、多種策略的優化、對基礎模型進行“長文建模”、多任務自適應的有監督精調、多層次多粒度獎勵模型的強化學習、文心和飛槳的聯合優化……等等,不一而足。但在王海峰看來,重要的是,文心一言不止從海量數據中學習,也從龐大的知識圖譜中汲取養分。
顧名思義,作為“知識增強”大語言模型,文心一言離不開“知識”的學習和強化。“知識就是力量”這句話,對人工智能也適用。
王海峰介紹說,百度擁有花費10余年時間構建的、超過5500億知識的知識圖譜。
在訓練過程中,文心大模型如何用好這個知識圖譜?王海峰回答說,有兩種方式:知識內化和知識外用。知識內化即在訓練過程中,通過基于語義單元的學習以及用知識圖譜構造訓練數據,將這些知識內化到大語言模型中;知識外用則是在知識推理、提示構建等環節直接使用知識圖譜。
經過了龐大知識圖譜和海量數據的“洗禮”,大模型在推理部署階段只要少量的精調、少量的場景適配,就可以對接給千行百業,這將幫助其大大降低應用門檻。
“文心加飛槳,翩然赴星河”
在WAVE SUMMIT這個面向深度學習開發者的盛會上,王海峰對通用人工智能的憧憬,更是向數以萬計開發者尋求的一種共鳴。
王海峰說,在百度開發的飛槳產業級深度學習開源開放平臺上,已累計聚集了800萬開發者,有22萬家企業使用飛槳平臺,構建了80萬個模型。
早期,開發者們青睞TensorFlow、Pytorch等國際知名的深度學習框架,但隨著飛槳這一國產平臺的逐步完善,開發套件、工具組件、基礎模型庫等逐步完備,特別是過去幾年里,基于飛槳百度著力打造了文心大模型家族,越來越多的開發者轉而擁抱飛槳。2019年,飛槳平臺只有190萬開發者,4年的時間里,這一數字連續翻番。
“800萬開發者、22萬家企業、80萬個模型,這些數字不止見證了成長,我相信更為未來打下了堅實的基礎。”王海峰說,百度希望繼續與所有開發者和企業伙伴共建、共創,共同推動人工智能賦能千行百業,惠及千家萬戶。
“飛槳”一詞,取自宋代文豪朱熹《即事有懷寄彥輔仲宗二兄》中的“聞說雙飛槳,翩然下廣津”。寓意在“飛槳”助力下,中國人工智能事業走得更快、更遠。
飛槳開發者共同聚集的人工智能學習實訓社區,原名為AI Studio,現在百度給它取了一個中文名“星河社區”。數百萬開發者在星河社區學習、實訓、提升AI能力并著力將其落地。
在WAVE SUMMIT深度學習開發者大會上,王海峰把“聞說雙飛槳,翩然下廣津”這聯詩改為“文心加飛槳,翩然赴星河”,“希望我們和所有的開發者一起。在飛槳和文心的加持下,共建星河社區,共赴通用人工智能的星辰大海”。
時隔5年,醫械產業結構再調整,大批醫療器械迎重磅利好!3月10日,中國政府網公布了《產業結構調整指導目錄(2024年本)》。新版目錄已于2023年12月1日第6次委務會議審議通過,自2024年2月1日......
近些年來,人工智能(AI)一直是全國兩會上的熱門話題,今年也不例外。“深化大數據、人工智能等研發應用,開展‘人工智能+’行動”被寫入了今年的政府工作報告。大模型是當下最大的焦點,也代表著人工智能的未來......
3月7日,中國人工智能學會網站發布2023年度吳文俊人工智能科學技術獎獎勵公告,70項成果(人)獲2023年度“吳文俊人工智能科學技術獎”。中國工程院院士、鵬城實驗室主任高文獲得“吳文俊人工智能最高成......
近些年來,人工智能(AI)一直是全國兩會上的熱門話題,今年也不例外。“深化大數據、人工智能等研發應用,開展‘人工智能+’行動”被寫入了今年的政府工作報告。大模型是當下最大的焦點,也代表著人工智能的未來......
依據《吳文俊人工智能科學技術獎勵條例》和《吳文俊人工智能科學技術獎勵實施細則》相關規定,中國人工智能學會對提名2023年度吳文俊人工智能科學技術獎的成果,通過形式審查、初評函評、初評會評和終評會評等環......
山西省太原市將加快推動安全生產監管模式向事前預防數字化、信息化轉型,推進人工智能、大數據、物聯網等技術與安全生產融合發展。日前,太原市印發《太原市安全生產治本攻堅三年行動實施方案(2024-2026年......
近兩年,關于生成式人工智能發展的各種消息接踵而來,引發了相關的各種討論。其中,有言論擔心相關科技的發展會在全球范圍內導致“馬太效應”加劇,因為在新技術的開發與應用上,越發達的國家與地區往往越占據優勢,......
近日,清華大學舉行2024年全校教職工大會暨全校黨員集中培訓,向全校師生員工、全體黨員通報學校當前改革發展形勢及2024年重點工作,并就推進落實《清華大學全面貫徹落實黨的二十大精神行動方案》、以高質量......
2023年,中國新能源汽車產銷量分別達958.7萬輛和949.5萬輛,連續9年位居全球第一。與此同時,被稱為“新三樣”的中國電動汽車、鋰電池、太陽能電池出口總額達1.06萬億元,首次突破萬億大關。2月......
2月28日,香港特區政府公布2024-2025年度《財政預算案》。香港生產力促進局(生產力局)主席陳祖恒表示,生產力局歡迎《財政預算案》提出的愿景和全方位發展支援政策,引領香港建設成為國際創新科技中心......