何者不是巨量資料分析的核心資訊知識

什麼是大數據?

定義的大數據

大數據的確切定義如下:

種類更多樣化 (variety)、數量不斷增加 (volume) 且產生速度越來越快 (velocity) 的數據。以上三個特徵又稱為「三個 V」。

簡而言之,「大數據」是指更龐大且更複雜的資料集,尤其是源自於新資料來源的資料集。這些資料集過於龐大,因此傳統的資料處理軟體已無力招架。但靠著這些巨量資料,您先前無法一直解決的業務問題或許有機會迎刃而解。

大數據的三個 V

數量 (Volume) 大數據的資料數量是個「大」問題,因為您將不得不處理大量低密度且結構鬆散的資料。有些資料的價值可能還不明朗,例如 Twitter 資料饋送、網頁或行動應用程式獲得的點擊流,或是裝有感測器的設備傳回的資料。有些組織需要處理的大數據高達數十 TB,有些組織甚至會達到數百 PB。
速度 (Velocity) 「速度」是指接收資料的速率 (有時也含括處理資料的速率)。一般來說,速度最快的做法是將資料流直接存入記憶體,其次才是寫入磁碟機。有些智慧連網產品會即時 (或近乎即時地) 運作,因而需要即時評估及回應。
種類 (Variety) 「種類」是指大數據多樣化的資料類型。傳統的資料類型結構嚴謹,並井然有序地存放在關聯式資料庫中。隨著大數據興起,新的非結構化資料類型也隨之應運而生。非結構化和半結構化的資料類型 (例如文字、音訊和視訊) 需要另外經過預先處理,才能產生意涵並支援中繼資料。

巨量資料的價值與事實

過去幾年來,更多的 V 出現了:value (價值) 與 veracity (實際情況)。天生資料必有用,但是要先發掘這些價值才會有用。同樣重要:您的資料真實無誤,您能依靠多少?

如今,大數據已成為企業重要資產。以全球規模最大的幾家科技公司為例,他們提供的價值有很大部分來自其資料,因為他們不斷對資料進行分析,而提高了效率並開發新產品。

而近年來的技術突破,已大幅降低資料的儲存及運算成本,使得儲存巨量資料不再如以往那般複雜且昂貴。隨著大數據的數量與日俱增,加上成本降低及更易於存取,利用大數據做出更精確的業務決策已不再是夢想。

從大數據中挖掘出價值,與單純進行資料分析可說是兩回事。後者可帶來其他截然不同的好處,在這個完整的發掘流程中,需要有洞析能力的分析師、業務使用者和管理階層提出正確的問題、找出資料模式、做出明智的假設,並能預測行為。

然而,大數據是如何發展至今天的局面的?

大數據的歷史

雖然大數據本身相對而言是比較新的概念,但起源可以追溯到 1960 到 70 年代,當時世上的資料才剛剛興起,成立第一個資料中心和關聯式資料庫。

約莫 2005 年時,人們才開始意識到使用者透過 Facebook、YouTube 和其他線上服務產生了多麼巨量的資料。Hadoop (為了儲存及分析巨量資料集而特別建構的開放原始碼架構) 於同年開發完成。值此同時,NoSQL 也開始變得炙手可熱。

Hadoop (以及更近期的 Spark) 等開放原始碼架構的開發,對於大數據的發展至關重要,因為它們讓大數據變得更容易處理,且儲存成本更低。自那時起的數年之內,大數據的資料量便急劇增加。使用者仍持續產生巨量資料,但不僅是由人類產生。

隨著物聯網 (IoT) 誕生,連上網際網路的物件與裝置也越來越多,並紛紛收集有關客戶使用模式及產品效能的資料。機器學習的問世催生了更大量的資料。

大數據已發展這麼多年,但它的實用性才剛要開始嶄露頭角。雲端運算進一步拓展了大數據的可能性。雲端提供真正的彈性及可擴充性,讓開發人員可以輕鬆啟動臨時叢集,以針對資料子集進行測試。值此同時,圖形資料庫 (graph database) 的重要性也與日俱增,因為它具有顯示大量資料的能力,有助於快速進行全面分析。

巨量資料優點:

  • 大數據能讓您擁有更充足的資訊,進而獲得更完整的答案。
  • 更完整的答案代表資料更為有用,因為可以採用完全不同的方法來解決問題。

大數據的使用案例

大數據可幫助您處理從客戶體驗到分析的一系列業務活動。以下列舉幾個例子。

產品開發 Netflix 與 Procter & Gamble 等公司都使用巨量資料來預測客戶需求。他們先將過往及目前產品/服務的關鍵屬性分類,再將這些屬性與熱銷產品/服務之間的關係建為模型,進而建立新產品/服務的預測模型。此外,P&G 使用聚焦群組、社群媒體、測試市場及早期商店轉售的資料和分析來規劃、生產及啟動新產品。
預測性維護 可以預測機械故障的因素可能深受結構化資料 (例如設備的年度、製造及模型) 的影響,以及涵蓋數百萬筆日誌項目、感測器資料、錯誤訊息以及引擎溫度的非結構化資料。在發生問題前及早分析這類潛在的故障跡象,組織就能制定更符合成本效益的維護策略,並盡量延長零件和設備的正常運作時間。
客戶體驗 客戶們的競爭已經開始。如今,我們已能比以往更加清楚地洞察客戶體驗。有了大數據,您就能進一步透過社群媒體、網站訪客、來電記錄及其他來源收集資料,進而改善客戶互動體驗,並大幅提升您帶給客戶的價值。如此一來,您就能開始提供個人化優惠方案、減少客戶流失,甚至主動替客戶解決問題。
詐欺與合規 涉及到安全問題時,您的對手不僅僅是幾個流氓駭客,而是整個專家團隊。還必須隨時因應持續演變的安全態勢與合規要求。大數據可幫助您識別帶有詐欺跡象的資料模式,並彙總大量資訊,進而大幅加快合規回報速度。
機器學習 機器學習是現今的熱門主題。資料,尤其是大數據是讓機器學習變得熱門的原因之一。現在,機器已經具備主動學習的能力,而非只能按照我們編寫好的程式運作。運用現成的大數據來訓練機器學習模型,是實現此願景的最大功臣。
營運效率 營運效率不一定上得了新聞,但卻是巨量資料影響最多的區域。藉助大數據,您可以分析並評估產能、客戶意見及退貨等因素,進而減少故障並預測未來需求。此外,大數據還可以幫助您根據目前市場需求制訂更明智的決策。
推動創新 巨量資料藉由研究人力、機構、實體和流程之間的相依性,以及判斷使用這些深入解析的新方法,協助您進行創新。使用資料分析見解,改善有關財務及規劃考量的決策。查看最新趨勢,以及客戶希望獲得哪些新產品和服務。採用動態定價。大數據有著無窮的可能性。


大數據的挑戰

儘管大數據前景如此看好,卻也有諸多挑戰伴隨而來。

首先,大數據的資料量無比龐大。儘管各種新的資料儲存技術接連問世,但資料量仍大約每兩年便成長一倍。組織仍在努力跟上資料增加的速度,並物色有效的資料儲存方法。

然而,只將資料儲存起來是不夠的。資料必須要能派上用場才具有價值,而這有賴於事前規劃。想要取得「乾淨的資料」(意指與客戶相關,且經過整理後能產生重要分析結果的資料),必須要花很大的工夫。資料科學家必須投入 50% 到 80% 的時間整理並準備資料,這樣資料才能真正派上用場。

最後,大數據技術的演化可說是瞬息萬變。幾年前,Apache Hadoop 還是用來處理大數據的熱門技術。接著 Apache Spark 於 2014 年推出。現在,將兩個框架結合似乎是上乘的方法。想要跟上大數據技術,就必須勇於面對接踵而來的挑戰。

探索更多大數據相關資源:

大數據的運作方式

大數據可帶給您全新的洞察力和契機,並協助您建立新的業務模式。想要踏入大數據的世界,首先必須採取以下三項關鍵行動:

1.  整合
巨量資料會從多個不同的來源與應用程式匯集資料。傳統的資料整合機制,例如提取、轉換和載入 (ETL),多半無法勝任大數據的相關任務。您需要運用新的策略和技術,才能分析 TB 甚至 PB 規模的巨量資料集。

在整合過程中,您必須導入並處理資料,同時確保資料格式正確,以利業務分析師展開相關工作。

2.  管理
巨量資料需要儲存。您可以將儲存解決方案部署在雲端或公司內部,或兩邊同時部署。您可根據自己的需求選擇合適的資料儲存形式,並為這些資料集選用必要的處理規範和引擎。人們多半根據資料目前的所在位置來選擇合適的儲存解決方案。雲端之所以日漸普及,正是因為它能支援您目前的運算要求,並能讓您隨需啟用必要的資源。

3.  分析
當您在分析及處理資料時,您的巨量資料投資將會得到回報。對各種不同的資料集進行視覺化分析,可幫助您獲得前所未有的深入洞見。進一步探索資料,以揭示全新洞見。與其他人分享您的洞見。運用機器學習和人工智慧技術建置資料模型。根據資料採取實際行動。

大數據的最佳實務做法

為協助您順利踏入大數據領域,以下匯總一些重要的最佳實務做法,請您務必謹記在心。以下準則有助您奠定穩固的大數據基礎。

確保大數據符合您特定的業務目標 您擁有的資料集越廣泛,就越有助於揭示新的洞見。因此,針對技能、組織或基礎架構進行任何新的投資時,背後都必須要有明確的業務目標,以確保進行中的專案能夠獲得源源不絕的資金挹注。如要確認您的投資方向是否正確,不妨問問自己:大數據支援您實現業務和 IT 優先事項的成效如何。舉例來說,您可透過篩選網頁記錄來了解客戶的電子商務行為、透過社群媒體和客服互動推斷客戶情緒,並嘗試了解各種不同的統計關聯方法,以及它們與客戶、產品與製造/工程資料之間的關聯性。
確立標準並完善治理,以緩解技能短缺的問題 技能短缺是導致您的大數據投資付諸流水的主要障礙之一。為減輕這項風險,請務必將與大數據有關的技術、考量要點及決策納入您的 IT 治理計畫中。確立一致的標準,將有助您控管成本並善用資源。採用大數據解決方案和策略的組織應及早並經常評估其技能需求,以主動找出任何潛在的技能缺口。解決方法包括訓練/交叉訓練現有人力資源、僱用新的人力資源、與顧問公司合作等。
運用卓越中心 (center of excellence) 方法促進知識移轉 卓越中心方法可幫助您促進知識共享、掌控監督機制並管理專案交流。無論大數據是您的全新投資或原有投資項目的延伸,相關的軟硬體成本均可由企業內部所有部門共同分攤。卓越中心方法可幫助您以更有條理且系統化的方式,提高大數據的功效以及整體的資訊架構成熟度。
想要享受到最大好處,就必須統合結構化與非結構化資料

單獨分析大數據固然可以讓您獲益匪淺,但若能連結並整合低密度大數據以及您既有的結構化資料,您還能獲得更深入的業務洞察力。

無論您正在收集與客戶、產品、設備或環境有關的大數據,都應以在核心主摘要和分析摘要中加入更多相關資料點為目標,這樣才能做出更好的結論。舉例來說,推斷所有客戶的情緒以及僅推斷優質客戶的情緒,兩者是有區別的。因此,許多人將大數據視為其現有商業智慧功能、資料倉儲平台及資訊架構的整體延伸。

請記住,大數據分析程序和模型可根據真人資料建立,也可根據機器資料建立。大數據的分析功能包括統計、空間分析、語意、互動探索和視覺化。分析模型可幫助您找出不同資料類型和來源之間的關聯,進而揭示重要洞見。

做好事前規劃,以提升探索實驗室的成效

想要在資料中找出意義,有時並非易事。有時我們甚至不知道自己在找什麼。這都是意料中的事。管理和 IT 部門必須協助解決這類「欠缺方向感」或「要求不明」的問題,

值此同時,企業也必須與分析師和資料科學家密切合作,找出關鍵的商業知識缺口和需求。為因應最新的人機聯作勘探 (interactive exploration) 技術和統計演算法實驗,您需要高效能的工作區。請確認沙盒環境可獲得一切所需支援,並受到妥善治理。

與雲端運作模型保持一致 大數據流程及使用者需要存取一系列廣泛的資源,才能進行迭代實驗並執行生產作業。大數據解決方案必須涵蓋所有資料領域,包括交易、主資料、參考資料和匯總資料,並應隨需建構分析沙盒。資源管理 (包括前期處理和後期處理、整合、資料庫內部摘要及分析建模) 是妥善控管整個資料流的關鍵所在。想要支援上述不斷變動的需求,就必須仰賴精心規劃的私有和公共雲端供應及安全性策略。