·基于ChatGPT或GPT-4o,未來人類獲得信息的方式很可能會改變,GPT-4o或為OpenAI開啟了一個超級入口,這可能會對谷歌帶來影響。接下來,OpenAI需要判斷的是在產品上的極致體驗是否是剛需。
“GPT-4o在交互模式上是一個巨大進步。”5月14日,螞蟻集團副總裁、NextEvo負責人徐鵬對澎湃科技表示。2024年5月14日凌晨, OpenAI向人們展示了其最新多模態大模型產品——GPT-4o,o代表omini,意為全能。
與現有模型相比,GPT-4o展現出了其在視覺和音頻理解方面的出色技能。伴隨著GPT-4o的到來,外界紛紛猜測,美國科幻電影《她》所描寫的時代正一步步向我們靠近。2013年,電影《她》(《Her)》)中講述了一個男人愛上了一個語音助手的故事。
與谷歌競爭原生多模態?
根據OpenAI首席技術官米拉·穆拉蒂(Mira Murati)的介紹,GPT-4o可以在音頻、視覺和文本中進行實時推理,接受文本、音頻和圖像的任何組合作為輸入,并生成文本、音頻和圖像的任何組合進行輸出。它可以最短在232毫秒內響應音頻輸入,平均為320毫秒,這與人類在對話中的響應時間相似。
徐鵬在接受澎湃科技采訪時表示,雖然OpenAI沒有推出大眾期待的GPT-5,但GPT-4o在交互模式上是一個巨大進步。和GPT-4相比,GPT-4o的最大區別在于,所有模態都集成在一個模型中,多模態整合更精細,延遲僅300毫秒左右,同時能夠感知情緒、語氣、表情,實現更自然的交互,這需要數據組織能力、聚焦突破能力、工程優化能力,也擴大了人們對于交互的想象空間。
徐鵬認為,自去年12月谷歌推出原生多模態Gemini模型之后,OpenAI就在為原生多模態領域的競爭做準備了。他所在的螞蟻集團在今年年初判斷原生多模態技術方向后堅定投入,目前也正在研發全模態數字人和全模態智能體的產品。
所謂“原生多模態”,即從一開始就使用多種模態(例如音頻、視頻和圖像)訓練模型,而不是“拼湊多模態”模型。
徐鵬表示,OpenAI的目標是實現多模態深度結合,早在GPT-3時代,其推出的自動語音識別系統Whisper就是一個前期研究。“把語音、圖像、視頻、文字等各種模態的數據放在統一表征框架下,對于實現他們眼中的API(應用程序編程接口)是一個非常自然的方式,因為人也是多模態理解和交互的智能體。”
獵豹移動董事長兼CEO傅盛表示,雖然GPT-4o讓人工智能從業者“比較失望”,但他也指出,“GPT-4o相當于把一系列引擎結合在一起,比如圖片、文字、聲音,這樣用戶就不需要來回切換了。最重要的是這次發布的語音助手,由于使用了端到端的大模型技術,它能夠實時感知情感變化,在該插話的時候插話,其實這才是大模型的未來。”
GPT-5可能還要難產一段時間?
徐鵬介紹,原生多模態有三個特點:一是端到端做訓練,二是實現了多模態的統一訓練,能讀、能聽、能說,三是實現復雜推理。“把圖像、文字、語音、視頻編碼編到一個模型里,在模型里它們有統一的表征,這些數據一起送給模型訓練,模型就會學到各個模態,只要它們的信息是相關的,內部的表征實際上是非常接近的,這樣在生成時也會比較靈活。”徐鵬表示,內部表征已經融合,所以GPT-4o可以最快的速度輸出生成的語音,實現低延時的絲滑交互。“OpenAI的工程能力確實令人贊嘆,模態這么多,輸入Token數非常多,還能夠以兩三百毫秒的延遲輸出,這在工程上是難得的進展。”
對于此次GPT-4o模型,目前,OpenAI高管并未透露訓練GPT-4o模型時使用了什么樣的數據,也未透露OpenAI能否利用較少的算力訓練該模型。
科技投資人、華創資本創始合伙人熊偉銘告訴澎湃科技,盡管OpenAI在此次發布會上并未透露太多關于GPT-4o模型訓練的技術細節,但可以猜測出,這類端到端的大模型技術的實現,背后依賴了強大的算力支持。“肯定是大力出奇跡,這一點美國的算力市場確實成熟很多,資本市場也支持大規模的算力投入。”熊偉銘說。
傅盛認為,如果不計成本地疊加參數,提高所謂的大模型能力,這條路肯定會遇到困難。他預計,GPT-5可能還要難產一段時間。
超級入口已經開啟?
OpenAI官網顯示,目前,GPT-4o的文本和圖像功能開始在ChatGPT中免費推出,Plus用戶可以享受到5倍的調用額度。新版語音模式將在未來幾周向Plus用戶推出,同時也將會在API(應用接口)中向小范圍推出對GPT-4o的新音頻和視頻功能的支持。
在熊偉銘看來,OpenAI的產品策略一方面能夠吸引免費的用戶使用,可以收集用戶大量的數據投喂給模型訓練,有助于進一步改進產品,“這樣交互的大模型用戶數據將會非常豐富。”另一方面,能夠培養用戶的付費意愿,也是商業化的一種嘗試。
“我覺得OpenAI的這種嘗試,可能會改變國內一些用戶使用軟件的習慣。大家可能會愿意付費在AI平臺的使用上。”熊偉銘說。
徐鵬認為,OpenAI免費為用戶開放服務看中的是基于GPT-4o原生多模態的能力,未來更多企業可以在GPT-4o的基礎上開發出更自然的垂類交互產品。
過去一周,外媒不斷有消息傳出OpenAI將推出AI搜索產品,雖然OpenAI沒有推出搜索引擎,但是徐鵬認為基于ChatGPT或GPT-4o,未來人類獲得信息的方式很可能會改變,GPT-4o或為OpenAI開啟了一個超級入口,這可能會對谷歌帶來影響。接下來,OpenAI需要判斷的是在產品上的極致體驗是否是剛需。
信也科技副總裁、大數據及AI負責人陳磊告訴澎湃科技,從技術上看,GPT-4o的發布具有跨時代意義,真正實現了多模態交互,更需要關注的是后續商業化中究竟如何持續落地。 “語音識別、語音生成不是最難的,最難的是推理歸納。GPT-4o做題比以前做題難度更高了。把算法調到一定程度是能實現交互流暢性的,但像人一樣思考、推理、歸納、總結,這是更高智能的體現。”
陳磊同時表示,國內還在對標GPT-4時,OpenAI推出了GPT-4o。行業需要思考的是在持續追趕中如何差異化競爭。“我們始終在追,追到一定程度發現推出了新一代產品,我們始終感覺在落后,所以要調整心態,尋找另外一條路。”陳磊說。
傅盛認為,OpenAI發布GPT-4o模型應用,正說明了大模型在應用層面大有可為,大模型的能力會不斷迭代,但最終能把大模型用好的,還是應用。
賽默飛世爾科技公司(TMO),全球領先的科學服務提供商,宣布與英偉達公司建立戰略合作伙伴關系,以大規模推動基于人工智能(AI)的解決方案和實驗室自動化。該合作將利用英偉達人工智能(AI)平臺和賽默飛世......
中國工信部、中央網信辦、國家發改委等八部門7日對外發布《“人工智能+制造”專項行動實施意見》,明確到2027年,中國人工智能關鍵核心技術實現安全可靠供給,產業規模和賦能水平穩居世界前列,建成全球領先的......
興都庫什—喀喇昆侖—喜馬拉雅(HKH)地區的冰湖變化,是氣候變化的重要指示器。由于該地區地形極為復雜,加之常年受到云層遮擋、地形陰影以及季節性積雪覆蓋的影響,這些因素顯著制約了冰湖自動制圖的精度,使得......
一項近日發表于《科學》的研究指出,像ChatGPT 這樣的人工智能(AI)寫作工具正在大幅提升科研生產力。研究人員借助AI工具使論文發表數量最多增加了50%。但這也有不利的一面,AI生成的文......
由美國特朗普政府主導“創世紀計劃”(GenesisMission)近日新增24家人工智能領域企業為合作方,包括英偉達、AMD、OpenAI、微軟、亞馬遜AWS及谷歌母公司Alphabet等。目前“創世......
教育部辦公廳關于公布第二批中小學人工智能教育基地名單的通知教基廳函〔2025〕32號各省、自治區、直轄市教育廳(教委),新疆生產建設兵團教育局:根據《教育部辦公廳關于開展第二批中小學人工智能教育基地推......
中央廣播電視總臺12月24日發布2025年度國內、國際十大科技新聞。2025年度國內十大科技新聞是:1.我國建設三大世界級科技創新中心;2.國務院印發《關于深入實施“人工智能+”行動的意見》;3.天問......
近日,山東沂訊信息科技有限公司成立,法定代表人為柳升華,注冊資本5000萬元,經營范圍包括人工智能公共服務平臺技術咨詢服務、集成電路設計、人工智能基礎軟件開發等。企查查股權穿透顯示,該公司由科大訊飛全......
國家知識產權局辦公室關于發布“人工智能+”知識產權公共服務應用場景建設名單的通知國知辦函服字〔2025〕1040號各省、自治區、直轄市和新疆生產建設兵團知識產權局:為貫徹落實《國務院關于深入實施“人工......
北京市發展和改革委員會發布關于北京市“人工智能+”能源高價值應用場景評審結果公示。根據《國家能源局綜合司關于組織開展“人工智能+”能源試點工作的通知》(國能綜通科技〔2025〕168號)相關要求,我委......