日本打造自己的“ChatGPT”

發布時間：2023-09-14 19:04 原文鏈接：日本打造自己的“ChatGPT”

原文地址：http://news.sciencenet.cn/htmlnews/2023/9/508482.shtm

日本正在打造自己的聊天機器人ChatGPT。日本政府和NEC、富士通、軟銀等大型科技公司正在投入數億美元，開發基于相同底層技術的人工智能系統——大型語言模型(LLMs)，使用語言為日語。

日本的超級計算機Fugaku已經開始消化日語文本，以開發日本版的ChatGPT。圖片來源：Kyodo News via Getty

據《自然》消息，專門研究自然語言處理的日本東北大學研究員Keisuke Sakaguchi認為，目前的大型語言模型智能系統在英語方面表現出色，但在日語方面往往表現不佳。

LLMs通常使用來自公開資源的大量數據來學習自然語音和散文的模式。它們被訓練根據一段文本中的前一個單詞預測下一個單詞。ChatGPT之前的模型GPT-3所訓練的絕大多數文本都是英語。

在日本，有人擔心用其他語言的數據集訓練的人工智能系統無法掌握日本語言和文化的復雜性。日語的句子結構與英語完全不同。因此，ChatGPT必須將日語查詢翻譯成英語，找到答案，然后將響應翻譯回日語。

英語只有26個字母，而書面日語由兩組48個基本字符和2136個常用漢字組成。大多數漢字都有兩種或兩種以上的發音，還有大約5萬個很少使用的漢字。考慮到日語的復雜性，ChatGPT在使用這種語言時遇到困難并不奇怪。使用日語時，ChatGPT有時會生成大多數人從未見過的極其罕見的字符，以及奇怪的未知單詞。

對于一個有用的，甚至商業上可行的LLM，它需要準確地反映文化習俗以及語言。為了衡量LLMs對日本文化的敏感程度，研究人員推出了Rakuda，這是一個衡量LLMs回答有關日本主題的開放式問題能力的排名。通過對論文審稿意見的流動性和文化適應性進行比較，結果發現，日本最好的LLM在Rakuda上排名第四，GPT-4排名第一。GPT-4在87%的情況下與人類審稿人一致。

研究日語模型的東京大學物理學家Passaglia表示，LLMs遠遠落后于GPT-4，但原則上沒有理由說將來的LLM不能達到或超過GPT-4。“這不是技術上無法克服的問題，只是資源的問題。”

創建LLM的一項重大努力是使用日本超級計算機Fugaku，主要訓練日語輸入。與GPT-4和其他專有模式不同，它將與其他開源LLMs一起向所有用戶提供其代碼。

然而，Fugaku LLM可能會被一個更大的LLM接替。日本文部科學省正在資助創建一個針對科學需求的日本人工智能項目，該項目將通過從已發表的研究中學習來產生科學假設，加快確定調查目標。該模型可以從1000億個參數開始，這比GPT-3的一半多一點，并將隨著時間的推移而擴大。該LLM的開發成本至少為300億日元(2.04億美元)，預計將于2031年公開發布。

其他日本公司已經將自己的LLM技術商業化或計劃商業化。超級計算機制造商NEC在5月份開始使用基于日語的生成式人工智能，并聲稱它將創建內部報告所需的時間縮短了50%，將內部軟件源代碼縮短了80%。

日本電氣數據科學實驗室高級首席研究員Masafumi yamada表示，該技術可用于廣泛的行業，如金融、運輸和物流、分銷和制造業。他補充說，研究人員可以把它用于編寫代碼、幫助編寫和編輯論文、調查現有發表的論文等任務。

與此同時，日本電信公司軟銀正在投資約200億日元，開發基于日語文本的生成式人工智能，并計劃明年推出自己的LLM。軟銀擁有4000萬客戶，并與OpenAI的投資者微軟建立了合作關系。軟銀表示，它的目標是幫助企業實現業務數字化，提高生產率。。

日本研究人員希望一個精確、有效、日本制造的人工智能聊天機器人可以幫助加速其科學發展，彌合日本與世界其他地區之間的差距。

東京慶應義塾大學醫學院醫學技術研究員Shotaro Kinoshita表示，如果日文版ChatGPT能夠做到準確，有望為那些想學習日語或進行日本研究的人帶來更好的結果，從而可能會對國際聯合研究產生積極影響。

更多與日本打造自己的“ChatGPT” 相關的新聞

天平管理器,工業分析在線計算器氣象站熱變形維卡軟化點檢測儀靜液壓試驗機杭州匯爾 SW-CJ-1D 微生物實驗室設備清單建筑門窗綜合物理性能試驗機單人單面超凈工作臺SW-CJ-1FD垂直流全自動一體化蒸餾電子粉質儀腫瘤個體化化療用藥基因檢測

實驗室

國家環境保護大氣復合污染來源與控制重點實驗室國家生物醫學分析中心

日本打造自己的“ChatGPT”

其他網友還關注過

研究揭示抹香鯨的神秘語言系統

CNAS2023年度獲認可檢驗檢測機構投訴舉報處理情況通報

關于CNASSV01:202X《民航溫室氣體聲明核查機構認可方案》網上征求意見的通知

他們在“無人問津”的小島培育出舉世矚目的克隆猴

關于公開征求國家生態環境標準《環境影響評價技術導則放射性固體廢物近地表處置環境影響報告書的格式與內容（征求意見稿）》意見的通知

關于修訂發布CNASEC057：2019《落實IAF強制文件要求對代表管理體系認證機構開展業務的實體進行控制的說明》（2024第一次修訂版）的通知

直播預告|南科大、密歇根州立大學等三位專家報告

關于舉辦產品、過程和服務認證機構認可宣貫培訓的通知

許國志與管理科學杰出人才培養論壇舉辦

關于舉辦實驗室認可技術（青島）培訓的通知