有一天你去銀行取錢,驚喜地發現:由于系統故障,你的賬戶顯示著馬云的數據……
這種事不可能發生,因為數據庫管理系統非常可靠。網上買火車票,或者將照片上傳云端,你都離不開它。
而商用數據庫管理系統的豐厚利潤,一直被甲骨文為首的幾家美國公司瓜分,中國產品望洋興嘆。
速度和可靠,兼顧是難題
查詢銀行賬戶時,我們不知道數字來自哪臺計算機,哪塊硬盤。有數據庫管理系統(DBMS)替我們干活。
DBMS就像圖書管理員:找到書架,存書,取書……說起來容易,但當圖書館特別大,而且書會拆開來放入相隔遙遠的架子時,管理起來就很麻煩了。
在數據庫開發與實施方面有豐富經驗的IBM分析領域架構師羅曦光舉了一個例子——用戶修改數據時,相關存儲區域會被鎖住,其他用戶只能排隊等,如果DBMS存儲位置不合理,就會耽誤許多時間。數據操作的理想狀況,如同幾十只手彈奏一架鋼琴,各彈各的,互不影響。
“數據庫管理系統,尤其是關系型數據庫管理系統(RDBMS)的方法論,教科書上寫得很明白;其功能和常見的圖書管理系統沒什么差別。但當數據量非常大,到了TB和PB級別,DBMS性能不下降就是一大挑戰。”羅曦光說。
比如一個普通的大型網站,每秒鐘要處理十萬個查詢請求,數據庫得同時執行幾十個查詢任務,而且響應時間極短。
“網絡用戶發送請求,期望一眨眼就得到結果。如果DBMS做得不好,響應時間長到10秒或20秒,用戶會喪失耐心,數據庫還可能經常掛掉。”羅曦光說,要永遠不出故障,達到高可用性,需要很多專門技術。
目前全世界最流行的兩種DBMS是Oracle和MySQL,都是甲骨文公司旗下的產品。競爭者還有IBM公司的DB2、Informix,微軟公司的SQLserver以及開源的MariaDB等等。甲骨文、IBM、微軟和Teradata幾家美國公司,占了大部分市場份額。
國產替代難,輸在穩定性
DBMS國貨也有市場份額,但只是個零頭。銀行、電信、電力等要求極端穩妥的企業,不會考慮國貨。20年前就有人呼吁國貨替代,但一線技術人員并不情愿。
“先發優勢、完善的售后技術支持和高額的遷移成本,是企業難以遷移到新系統的原因。”羅曦光說,國內一家電商平臺為了從Oracle遷徙到別的系統,最多曾用上百人的團隊花了十幾個月,成本不菲。
羅曦光認為,如今的開源DBMS做得很好而且免費,但銀行和傳統龍頭企業出于謹慎,對于將核心系統遷移到開源系統仍會持謹慎態度。
穩定壓倒一切。DBMS行業觀察家曉軍在《國產數據庫發展現狀分析》一文中指出,國內DBMS企業大多源自1990年代的高校,期望實現國產替代。但多年來,“產品的穩定性一直上不去,也不敢做有挑戰性的性能測試。所以,穩定性、性能都無法讓市場信服。結果就是:稍微重要一點的系統根本沒人敢用。”
另外,曉軍說,當年國貨往往模仿Oracle,追求大而全,而技術創新不足、沒有特點。相比之下,1990年代的美國小廠商極富創新力,開辟了一些全新的技術方向,在與甲骨文等巨頭的競爭中成功活了下來。
“這個年代,開源DBMS的源代碼可以隨便下載,國內應該不會有新的入場者再去做傳統的DBMS了。”羅曦光說。
浩瀚代碼的背后,是浩瀚人才
“Oracle的數據庫軟件……代碼量堪稱浩瀚。”曉軍說,“Oracle最有特色的地方就是功能非常繁多,語句極端豐富,即便大部分都不常用。”
曉軍說,小公司在這一點上試圖比肩甲骨文,猶如“乞丐與龍王爺比富”。
曉軍舉例說:“Informix的主要模塊的源代碼就有2000多萬行,Informix當年在美國的核心研發隊伍就有超過200人,加上測試和周邊團隊,不下500人。”
而國內付費使用IBM公司的Informix源代碼的幾家企業,相關隊伍都不超過40人,曉軍說,要快速追趕世界先進水平,閱讀代碼的團隊規模應該超過寫代碼的團隊。因此國內“面對十年前的巨量代碼一籌莫展,要弄通又得花很多年。”
而羅曦光認為,盡管國內公司沒有可以比肩甲骨文的,但“在參與開源軟件的意義上,中國不是沒有入場的資格。這是一個技術充分交流與共享的時代。”
羅曦光說,目前開源的RDBMS(如MariaDB)就有國內軟件開發人員大力支持,與大數據平臺緊密關聯的NoSQL數據庫(如HBase)的開發社區里也活躍著中國開發人員的身影。以阿里云為代表的國內云服務的底層,也包含借鑒開源系統打造的數據庫管理系統。
“今時今日,一個全新的公司來做項目,可能不會選擇國外廠商付費的DBMS。比如互聯網的初創企業,大概率會選擇國內廠商的基于云服務的包含DBMS的整體方案。”羅曦光說。
說起PubMed,很多小伙伴都非常熟悉,這應該算是國內最常用的生物醫學相關SCI文獻檢索數據庫,實驗室的小白們一開始用的基本都是它。最近,Nature的一篇報道文章稱,就是這樣一個廣受好評的文獻檢索集......
谷歌DeepMind今日宣布,其發布的免費數據庫對科學界已知的幾乎所有蛋白質的結構進行了預測。DeepMind在2020年憑借其AlphaFoldAI軟件轟動了科學界,該軟件可以對蛋白質結構進行高度準......
油菜產業集觀賞、蜜源、生態、經濟作物等多種功能于一身,是新興的“全能選手”。圍繞油菜,我國科學家近年來實現了從理論、技術、產品到轉化的鏈式創新,推動了我國油菜基礎研究與應用步入世界第一方陣。然而,如何......
中科院植物研究所研究員黃振英團隊與合作者建立了全球土壤種子庫數據庫,研究了土壤種子庫的全球格局和主要環境驅動因子。相關研究成果近日發表于《自然—通訊》。土壤種子庫是未來地上植被多樣性的重要載體,決定著......
隨著高通量測序技術的發展,轉錄組測序(RNA-seq)已成為系統研究基因轉錄及轉錄后水平調控狀態的常規方法,并在多個物種中得到廣泛應用。海量轉錄組數據以前所未有的速度產生,以數據驅動為導向的大規模數據......
近期,中國中醫科學院中藥研究所團隊建立了全球藥典基因組數據庫(GPGD)。該數據庫是全球首個針對藥典收載草藥物種的大型基因組學數據庫。相關研究成果發表在《ScienceChina-LifeScienc......
俄羅斯聯邦消費者權益保護和公益監督局網站消息,該局流行病中央研究所根據政府關于創建統一疫情信息分析中心的指示,開發出了新冠病毒變異國家數據庫。消息說,該數據庫將加快抗擊新冠病毒的進程,因為到目前為止,......
腫瘤微環境中免疫細胞的組成和豐度是影響腫瘤進展和免疫治療效果的重要因素。由于直接測量方法的局限性,計算算法通常用于從腫瘤轉錄組圖譜推斷免疫細胞組成。這些估計的腫瘤免疫浸潤人群與腫瘤的基因組和轉錄組學變......
近日,武漢市園林科學研究院和中科院武漢植物園攜手研發出破譯荷花遺傳密碼的蓮基因組數據庫。日前,該數據庫在國際知名學術期刊公布,供各國荷花研究人員免費共享。據介紹,水生植物蓮是地球上最早出現的開花植物之......
11月2日,華中農業大學信息學院生物信息團隊在《核酸研究》發表研究成果,通過收集包括水稻,玉米、小麥、油菜和棉花等12個重要農作物的遺傳變異信息,構建了植物中首個多物種的高質量遺傳參考變異庫,為植物遺......