定義的大數據大數據的確切定義如下: 種類更多樣化 (variety)、數量不斷增加 (volume) 且產生速度越來越快 (velocity) 的數據。以上三個特徵又稱為「三個 V」。 簡而言之,「大數據」是指更龐大且更複雜的資料集,尤其是源自於新資料來源的資料集。這些資料集過於龐大,因此傳統的資料處理軟體已無力招架。但靠著這些巨量資料,您先前無法一直解決的業務問題或許有機會迎刃而解。 大數據的三個 V
巨量資料的價值與事實過去幾年來,更多的 V 出現了:value (價值) 與 veracity (實際情況)。天生資料必有用,但是要先發掘這些價值才會有用。同樣重要:您的資料真實無誤,您能依靠多少? 如今,大數據已成為企業重要資產。以全球規模最大的幾家科技公司為例,他們提供的價值有很大部分來自其資料,因為他們不斷對資料進行分析,而提高了效率並開發新產品。 而近年來的技術突破,已大幅降低資料的儲存及運算成本,使得儲存巨量資料不再如以往那般複雜且昂貴。隨著大數據的數量與日俱增,加上成本降低及更易於存取,利用大數據做出更精確的業務決策已不再是夢想。 從大數據中挖掘出價值,與單純進行資料分析可說是兩回事。後者可帶來其他截然不同的好處,在這個完整的發掘流程中,需要有洞析能力的分析師、業務使用者和管理階層提出正確的問題、找出資料模式、做出明智的假設,並能預測行為。 然而,大數據是如何發展至今天的局面的? 大數據的歷史雖然大數據本身相對而言是比較新的概念,但起源可以追溯到 1960 到 70 年代,當時世上的資料才剛剛興起,成立第一個資料中心和關聯式資料庫。 約莫 2005 年時,人們才開始意識到使用者透過 Facebook、YouTube 和其他線上服務產生了多麼巨量的資料。Hadoop (為了儲存及分析巨量資料集而特別建構的開放原始碼架構) 於同年開發完成。值此同時,NoSQL 也開始變得炙手可熱。 Hadoop (以及更近期的 Spark) 等開放原始碼架構的開發,對於大數據的發展至關重要,因為它們讓大數據變得更容易處理,且儲存成本更低。自那時起的數年之內,大數據的資料量便急劇增加。使用者仍持續產生巨量資料,但不僅是由人類產生。 隨著物聯網 (IoT) 誕生,連上網際網路的物件與裝置也越來越多,並紛紛收集有關客戶使用模式及產品效能的資料。機器學習的問世催生了更大量的資料。 大數據已發展這麼多年,但它的實用性才剛要開始嶄露頭角。雲端運算進一步拓展了大數據的可能性。雲端提供真正的彈性及可擴充性,讓開發人員可以輕鬆啟動臨時叢集,以針對資料子集進行測試。值此同時,圖形資料庫 (graph database) 的重要性也與日俱增,因為它具有顯示大量資料的能力,有助於快速進行全面分析。 巨量資料優點:
大數據的使用案例大數據可幫助您處理從客戶體驗到分析的一系列業務活動。以下列舉幾個例子。
大數據的挑戰儘管大數據前景如此看好,卻也有諸多挑戰伴隨而來。 首先,大數據的資料量無比龐大。儘管各種新的資料儲存技術接連問世,但資料量仍大約每兩年便成長一倍。組織仍在努力跟上資料增加的速度,並物色有效的資料儲存方法。 然而,只將資料儲存起來是不夠的。資料必須要能派上用場才具有價值,而這有賴於事前規劃。想要取得「乾淨的資料」(意指與客戶相關,且經過整理後能產生重要分析結果的資料),必須要花很大的工夫。資料科學家必須投入 50% 到 80% 的時間整理並準備資料,這樣資料才能真正派上用場。 最後,大數據技術的演化可說是瞬息萬變。幾年前,Apache Hadoop 還是用來處理大數據的熱門技術。接著 Apache Spark 於 2014 年推出。現在,將兩個框架結合似乎是上乘的方法。想要跟上大數據技術,就必須勇於面對接踵而來的挑戰。 探索更多大數據相關資源: 大數據的運作方式大數據可帶給您全新的洞察力和契機,並協助您建立新的業務模式。想要踏入大數據的世界,首先必須採取以下三項關鍵行動: 1. 整合 在整合過程中,您必須導入並處理資料,同時確保資料格式正確,以利業務分析師展開相關工作。 2. 管理 3.
分析 大數據的最佳實務做法為協助您順利踏入大數據領域,以下匯總一些重要的最佳實務做法,請您務必謹記在心。以下準則有助您奠定穩固的大數據基礎。
|