除了“物聯網”和“云計算”,IT業又出現了一個新名詞——大數據。如今,大數據甚至引起了工商界和金融界的高度關注,人們認為大數據將為數據應用和決策支持提供有效幫助,成為物聯網和云計算內在的靈魂和必然的發展趨勢。
大數據目前尚沒有統一的定義,通常被認為是一種數據量很大、數據形式多樣化的非結構化數據。
這里我們先弄清楚幾個概念,結構化數據、半結構化數據和非結構化數據。結構化數據可以在關系數據庫中找到,多年來一直主導著IT應用;半結構化數據包括電子郵件、文字處理文件以及大量發布在網絡上的新聞等,以內容為基礎,這也是谷歌和百度存在的理由;而非結構化數據廣泛存在于社交網絡、物聯網、電子商務之中。伴隨著社交網絡、移動計算和傳感器等新技術不斷產生,有報告稱,超過85%的數據屬于非結構化數據。
很多人相信這些龐大的異構數據中蘊含著巨大財富——企業如果能在這些非結構化數據中挖掘知識并與業務融合,決策的依據將會更加全面和準確;在科學、體育、廣告和公共衛生等其他領域中,也有著向數據驅動型的發現和決策方式轉變的趨勢。
大數據的推動因素主要來自于一些大型IT公司,如谷歌、亞馬遜、中國移動、阿里巴巴等,他們需要以更加優化的方式存儲和分析數據。此外,還有一些來自健康醫療、地理空間遙感和數字媒體等行業的大數據需求。據市場研究公司統計,未來10年里預計數字信息總量將在2009年到2020年增長44倍,全球數據使用量將達到大約35.2ZB(1ZB=10億TB)。
大數據呈現出“4V+1C”的特點:(1)Variety,大數據種類繁多,在編碼方式、數據格式、應用特征等多個方面存在差異性,多信息源并發形成大量的異構數據;(2)Volume,通過各種設備產生的海量數據,其數據規模極為龐大,遠大于目前互聯網上的信息流量,PB級別將是常態;(3)Velocity,涉及到感知、傳輸、決策、控制開放式循環的大數據,對數據實時處理有著極高的要求,通過傳統數據庫查詢方式得到的“當前結果”很可能已經沒有價值;(4)Vitality,數據持續到達,并且只有在特定時間和空間中才有意義;(5)Complexity,通過數據庫處理持久存儲的數據不再適用于大數據處理,需要有新的方法來滿足異構數據統一接入和實時數據處理的需求。
Apache的Hadoop已成為大數據行業發展背后的技術推動力,Hive和Pig等技術也經常被提到。同時,旨在從非結構化數據的龐大寶藏中獲得知識和洞察力的計算機工具也正在迅速發展中。這些工具的發展依賴于不斷進步的人工智能技術,比如自然語言處理、模式識別和機器學習等。
可以預見,未來一兩年內,將會涌現大量能夠處理大型非結構化數據的工具和平臺。除了Hadoop的批量化處理方式之外,基于流數據處理的方式也將在實時數據分析應用中發揮作用。此外,大數據熱潮還將對可視化的理解和需求提出新的挑戰。可視化在數據工作流中將同時起到解釋和探索的作用,數據科學家會將可視化作為尋求問題以及探索數據集新特性的一種方式。
由于大數據的技術門檻較高,因此目前在該領域展開競爭的大都是在數據存儲、分析等領域有著傳統優勢的廠商。2012年1月,Oracle正式發布Oracle大數據機。IBM在大數據領域的優勢則在于全面,而機器人“沃森”在人機大戰中獲勝,更成為IBM為其大數據分析解決方案加分的例證。
中國市場在這個新興領域非常重要。中國有龐大的人口基數,IT基礎設施也比較成熟,數據量是不可想象的。樂觀的人已經看到了其中的機會,不論是出于應對海量數據的需要進行系統升級,還是試圖從數據中挖掘價值的沖動,都有可能迎來一個充滿智慧的“數據創新”時代。
結構化數據。結構化數據可以在關系數據庫中找到,多年來一直主導著IT應用;半結構化數據包括電子郵件、文字處理文件以及大量發布在網絡上的新聞等,以內容為基礎,這也是谷歌和百度存在的理由;而非結構化數據廣泛存在于社交網絡、物聯網、電子商務之中。伴隨著社交網絡、移動計算和傳感器等新技術不斷產生,有報告稱,超過85%的數據屬于非結構化數據。
很多人相信這些龐大的異構數據中蘊含著巨大財富——企業如果能在這些非結構化數據中挖掘知識并與業務融合,決策的依據將會更加全面和準確;在科學、體育、廣告和公共衛生等其他領域中,也有著向數據驅動型的發現和決策方式轉變的趨勢。
大數據的推動因素主要來自于一些大型IT公司,如谷歌、亞馬遜、中國移動、阿里巴巴等,他們需要以更加優化的方式存儲和分析數據。此外,還有一些來自健康醫療、地理空間遙感和數字媒體等行業的大數據需求。據市場研究公司統計,未來10年里預計數字信息總量將在2009年到2020年增長44倍,全球數據使用量將達到大約35.2ZB(1ZB=10億TB)。
大數據呈現出“4V+1C”的特點:(1)Variety,大數據種類繁多,在編碼方式、數據格式、應用特征等多個方面存在差異性,多信息源并發形成大量的異構數據;(2)Volume,通過各種設備產生的海量數據,其數據規模極為龐大,遠大于目前互聯網上的信息流量,PB級別將是常態;(3)Velocity,涉及到感知、傳輸、決策、控制開放式循環的大數據,對數據實時處理有著極高的要求,通過傳統數據庫查詢方式得到的“當前結果”很可能已經沒有價值;(4)Vitality,數據持續到達,并且只有在特定時間和空間中才有意義;(5)Complexity,通過數據庫處理持久存儲的數據不再適用于大數據處理,需要有新的方法來滿足異構數據統一接入和實時數據處理的需求。
Apache的Hadoop已成為大數據行業發展背后的技術推動力,Hive和Pig等技術也經常被提到。同時,旨在從非結構化數據的龐大寶藏中獲得知識和洞察力的計算機工具也正在迅速發展中。這些工具的發展依賴于不斷進步的人工智能技術,比如自然語言處理、模式識別和機器學習等。
可以預見,未來一兩年內,將會涌現大量能夠處理大型非結構化數據的工具和平臺。除了Hadoop的批量化處理方式之外,基于流數據處理的方式也將在實時數據分析應用中發揮作用。此外,大數據熱潮還將對可視化的理解和需求提出新的挑戰。可視化在數據工作流中將同時起到解釋和探索的作用,數據科學家會將可視化作為尋求問題以及探索數據集新特性的一種方式。
由于大數據的技術門檻較高,因此目前在該領域展開競爭的大都是在數據存儲、分析等領域有著傳統優勢的廠商。2012年1月,Oracle正式發布Oracle大數據機。IBM在大數據領域的優勢則在于全面,而機器人“沃森”在人機大戰中獲勝,更成為IBM為其大數據分析解決方案加分的例證。
中國市場在這個新興領域非常重要。中國有龐大的人口基數,IT基礎設施也比較成熟,數據量是不可想象的。樂觀的人已經看到了其中的機會,不論是出于應對海量數據的需要進行系統升級,還是試圖從數據中挖掘價值的沖動,都有可能迎來一個充滿智慧的“數據創新”時代。
為推動地方數據集團創新發展,服務全國一體化數據市場培育建設,7月23日,國家數據局組織召開座談會。國家數據局黨組書記、局長劉烈宏出席會議并講話,局黨組成員、副局長沈竹林、夏冰、余英出席會議。局黨組成員......
植物性狀是表征環境適應策略與資源分配模式的關鍵指標,為理解物種分布、群落構建及生態系統功能提供了重要基礎。近年來,全球及區域尺度的植物性狀數據庫不斷完善,推動了宏觀生態學、功能生態學及生物多樣性保護等......
隨著人工智能(AI)、自動化等技術的持續突破,利用傳感器進行數據采集與高速傳輸,并通過物聯網存儲海量數據,正持續推進智能化養殖業發展,逐漸成為推動豬育種向精準化、高效化、智能化轉型的核心驅動力。從整個......
2025年4月13日,“中國尿計劃”第二次學術研究會在中國醫學科學院基礎醫學研究所召開,會議采用線上線下結合的方式,吸引了北京、上海、深圳等多地近200位業界學者參與。值此之際,分析測試百科網專訪了項......
國家知識產權局辦公室關于印發《知識產權數據使用手冊及開放目錄》的通知國知辦函服字〔2025〕153號各省、自治區、直轄市和新疆生產建設兵團知識產權局,各地方有關中心:為促進知識產權數據開發利用,提高知......
本周發表的熱門文章包括一段關于近紅外(NIR)光譜在食品和生物分析中作用的視頻采訪、對2025年匹茲堡分析化學和光譜應用會議上華萊士?H?庫爾特主題演講的回顧,以及一篇關于物聯網(IoT)傳感器的文章......
2月23日,記者從海南醫科大學獲悉,該校熱帶醫學院楊國靜教授團隊近日在國際醫學期刊《英國醫學雜志》在線發表論文《中國被忽視熱帶病負擔估計的差異:真實世界數據與GBD2021的比較研究(2004—202......
來自愛爾蘭、法國和意大利的科學家攜手,成功構建了全球最大的數字微生物庫——“阿波羅”(APOLLO)。“阿波羅”囊括了247092個計算模型,其中包含迄今為止最全面的人體微生物組計算模型,有望增進科學......
人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿......
12月28日,由人民數據開發的“數融平臺”正式上線試運營。平臺整體依托區塊鏈、人工智能和企業經營相關數據要素,實現鏈上信息全透明、全上鏈,實現數據資產情況全穿透,實時追蹤一手風控數據,對潛......