劉禹：大數據有大智慧

發布時間：2012-04-17 10:34 原文鏈接：劉禹：大數據有大智慧

　　除了“物聯網”和“云計算”，IT業又出現了一個新名詞——大數據。如今，大數據甚至引起了工商界和金融界的高度關注，人們認為大數據將為數據應用和決策支持提供有效幫助，成為物聯網和云計算內在的靈魂和必然的發展趨勢。

　　大數據目前尚沒有統一的定義，通常被認為是一種數據量很大、數據形式多樣化的非結構化數據。

　　這里我們先弄清楚幾個概念，結構化數據、半結構化數據和非結構化數據。結構化數據可以在關系數據庫中找到，多年來一直主導著IT應用；半結構化數據包括電子郵件、文字處理文件以及大量發布在網絡上的新聞等，以內容為基礎，這也是谷歌和百度存在的理由；而非結構化數據廣泛存在于社交網絡、物聯網、電子商務之中。伴隨著社交網絡、移動計算和傳感器等新技術不斷產生，有報告稱，超過85%的數據屬于非結構化數據。

　　很多人相信這些龐大的異構數據中蘊含著巨大財富——企業如果能在這些非結構化數據中挖掘知識并與業務融合，決策的依據將會更加全面和準確；在科學、體育、廣告和公共衛生等其他領域中，也有著向數據驅動型的發現和決策方式轉變的趨勢。

　　大數據的推動因素主要來自于一些大型IT公司，如谷歌、亞馬遜、中國移動、阿里巴巴等，他們需要以更加優化的方式存儲和分析數據。此外，還有一些來自健康醫療、地理空間遙感和數字媒體等行業的大數據需求。據市場研究公司統計，未來10年里預計數字信息總量將在2009年到2020年增長44倍，全球數據使用量將達到大約35.2ZB（1ZB=10億TB）。

　　大數據呈現出“4V+1C”的特點：（1）Variety，大數據種類繁多，在編碼方式、數據格式、應用特征等多個方面存在差異性，多信息源并發形成大量的異構數據；（2）Volume，通過各種設備產生的海量數據，其數據規模極為龐大，遠大于目前互聯網上的信息流量，PB級別將是常態；（3）Velocity，涉及到感知、傳輸、決策、控制開放式循環的大數據，對數據實時處理有著極高的要求，通過傳統數據庫查詢方式得到的“當前結果”很可能已經沒有價值；（4）Vitality，數據持續到達，并且只有在特定時間和空間中才有意義；（5）Complexity，通過數據庫處理持久存儲的數據不再適用于大數據處理，需要有新的方法來滿足異構數據統一接入和實時數據處理的需求。

　　Apache的Hadoop已成為大數據行業發展背后的技術推動力，Hive和Pig等技術也經常被提到。同時，旨在從非結構化數據的龐大寶藏中獲得知識和洞察力的計算機工具也正在迅速發展中。這些工具的發展依賴于不斷進步的人工智能技術，比如自然語言處理、模式識別和機器學習等。

　　可以預見，未來一兩年內，將會涌現大量能夠處理大型非結構化數據的工具和平臺。除了Hadoop的批量化處理方式之外，基于流數據處理的方式也將在實時數據分析應用中發揮作用。此外，大數據熱潮還將對可視化的理解和需求提出新的挑戰。可視化在數據工作流中將同時起到解釋和探索的作用，數據科學家會將可視化作為尋求問題以及探索數據集新特性的一種方式。

　　由于大數據的技術門檻較高，因此目前在該領域展開競爭的大都是在數據存儲、分析等領域有著傳統優勢的廠商。2012年1月，Oracle正式發布Oracle大數據機。IBM在大數據領域的優勢則在于全面，而機器人“沃森”在人機大戰中獲勝，更成為IBM為其大數據分析解決方案加分的例證。

　　中國市場在這個新興領域非常重要。中國有龐大的人口基數，IT基礎設施也比較成熟，數據量是不可想象的。樂觀的人已經看到了其中的機會，不論是出于應對海量數據的需要進行系統升級，還是試圖從數據中挖掘價值的沖動，都有可能迎來一個充滿智慧的“數據創新”時代。

　　結構化數據。結構化數據可以在關系數據庫中找到，多年來一直主導著IT應用；半結構化數據包括電子郵件、文字處理文件以及大量發布在網絡上的新聞等，以內容為基礎，這也是谷歌和百度存在的理由；而非結構化數據廣泛存在于社交網絡、物聯網、電子商務之中。伴隨著社交網絡、移動計算和傳感器等新技術不斷產生，有報告稱，超過85%的數據屬于非結構化數據。

更多與劉禹：大數據有大智慧相關的新聞

CR1600智能手持式有毒有害物質識別儀真菌毒素殘留快速檢測儀 PRM系列通道式放射性自動監測系統

劉禹：大數據有大智慧

其他網友還關注過

國家數據局召開推動地方數據集團創新發展專題座談會

科學家構建出中國種子性狀數據庫

智能化養豬助力育種領域全新探索

中國醫學科學院楊嘯林：“中國尿計劃”推動生物醫學數據生態建設

國知辦印發《知識產權數據使用手冊及開放目錄》

本周精選：2025Pittcon匹茲堡分析化學和光譜應用會議、物聯網傳感器

研究揭示地方真實數據在全球疾病負擔研究中的重要性

全球最大數字微生物數據庫建成

合成數據能否讓AI模型精確可靠？

“人民數據數融平臺”上線試運行