大數據應用到日常生活、學習和工作中,往往不是以“大數據產品”自居的,普通人能夠使用到的大數據,已經是大數據加上業務場景的產品化應用和服務了。比如,百度搜索引擎、高德地圖其實就是基于大數據和業務場景產生的大數據產品化應用。
大數據盤點:產生因素 關注人群 應用探索
一、為什么會產生大數據?
為什么會產生大數據呢?大數據之前難道我們都處于“暗黑時代”?
如果你去搜索“為什么會產生大數據?”這個問題,專家、學者都會給出不同的答案。面對大量的答案,大眾該如何去理解?所以我用最簡單的方式進行了一個歸納,我認為,產生大數據最大的三個因素是“計算”,“存儲”和“智慧”,下面逐一來講解。
產生大數據的第一個因素:存儲成本的下降
在云計算出現之前,數據存儲的成本是非常高的。比如說,我之前供職的是客戶端網絡游戲公司,那時候游戲每次要開新服,都需要去購置和部署新的服務器,還需要安排幾個人去維護服務器的安全,保證數據存儲的安全性和數據傳輸的暢通性。而且,機房還會定期進行數據清理,把部分歷史數據清理出去,以便存儲新的數據。在那個時代里,互聯網公司各自為政,機房部署的人力和管理都是非常高的。
云計算出現后,數據存儲服務衍生出了新的商業模式,集中建設數據中心大大的降低了單位計算和存儲成本,比如說36大數據,我們要建設網站,現在根本不用去買服務器硬件,也不需要在雇傭人員來管理,使用阿里云的全套服務就解決了我們的問題。而且存儲成本的下降,也改變了大家對數據的看法,因為存儲成本不高,所以我們愿意把3個月、6個月甚至更久遠的歷史數據保存下來,有了歷史數據的沉淀,才會想著如何把這些數據利用起來,通過不同時間的對比,來發現數據之間的關聯和價值。
存儲成本的下降,為大數據搭建好了最好的基礎設施。
產生大數據的第二個因素:運行、計算速度越來越快
這一點可能從98年開始上網的朋友就能明顯的感覺到。隨著互聯網的普及及網絡技術的發展,加上硬件性價比的提高以及軟件技術的進步,數據的運行、計算速度越來越快。98年你要傳個10MB的文件給我,可能需要一天,放到現在,可能也就是幾分鐘的事情。分布式系統基礎架構Hadoop的出現,為大數據帶來了新的曙光。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了并行計算,從而大大提高了計算效率。現在還有在計算方面比Hadoop更快的框架Spark、Storm等等。
海量數據從原始數據源到產生價值,期間會經過存儲、清洗、挖掘、分析等多個環節,如果計算速度不夠快,那么很多事情是無法實現的。所以,在大數據的發展過程中,計算速度是非常關鍵的因素。
產生大數據的第三個因素:智慧,我們渴望解放腦勞動力
18世紀-19世紀,第一次工業革命開創了以機器代替手工勞動的時代,從而解放了部分勞動力。
19世紀七十年代,電力的發明和廣泛應用,從而進入第二次工業革命,推動人類進入了電氣時代。電氣時代的最大影響就是增強了人們的生產能力,使交通更加便利快捷,進而改變了人們的生活方式。
那么在21世紀,我們最渴望的是什么?我們渴望解放腦勞動力,實現信息對等,讓機器擁有人的智慧。
大數據帶來的最大價值就是“智慧”。今天我們能看到的AlphaGo圍棋人工智能程序戰勝李世石,阿里云小Ai成功預測出《我是歌手》總決賽歌王,iPhone上智能化語音機器人Siri、微博上大家常年調戲的微軟小冰等等,背后都是由海量數據來進行支撐的。換句話說,大數據讓機器變得有智慧,大數據為機器灌輸了人類的潛意識,大數據是變形金剛的Matrix和Cube。
所以,存儲成本的下降,計算速度的提高和我們對智慧的渴望,是產生大數據的三個重要因素。
二、誰在關注大數據?
大數據的其中功能之一就是可以進行用戶畫像,我們完全可以用用戶畫像來畫出大數據的關注人群圖譜。
下面是根據百度指數、微博微指數、36大數據3年來沉淀的用戶做得一個簡單畫像。
事實上,在關注大數據的人群中,有62%的人群為年齡30-49歲、本科以上學歷的傳統行業人員,他們來自房產、生活服務、建材家居、商務服務、金融財經、旅游酒店、餐飲美食、教育培訓、醫療健康、大眾消費、航天、政府公共服務等多個領域;
關注大數據的人群中,25%的用戶為年齡20-29、大專以上學歷、IT科技、互聯網相關從業者;
9%的用戶為垂直數據行業從業人員,這群人最大的標簽是高文憑、高技術、高收入、宅、技術控、少社交、不愛傳播,理性、理工男。
剩下還有4%是19歲以下,50歲以上這一部分人群。他們絕大部分是通過新聞宣傳后,懷著對大數據的好奇心才來關注的。
所以,基于大數據關注人群的畫像,可以更好的指導大數據未來的發展方向。我認為大數據未來要實現爆發式的增長,擁抱傳統行業,滲透人們生活是必經之路。
三、大數據如何惠及大眾?
大數據近年來是被炒得有些過頭了,但不代表它是一個“炒作詞”。大數據的背后,的確有著實實在在的數據,實實在在的技術和是實實在在的應用。大數據確實能夠產生商業價值。
下面基于我個人對大數據的理解畫出的一個示意圖。
對于大數據企業來說,大數據涵蓋了公司內部數據和外部數據兩大方面。
公司內部數據包括:
1、公司使用BI、CRM系統、ERP系統、郵件系統等產生的數據;
2、財務數據。其中包括公司的支出、采購、收入等多項與公司日常運作有關的數據;
3、注冊用戶數據。無論是網站、APP還是游戲,用戶注冊都會填寫郵箱、電話、身份證號碼等數據,這些數據其實非常有價值,此外還要加上用戶使用公司產品留下的行為數據。
4、歷史數據。公司沉淀下來的其他各種數據,這些數據一定要整合起來。
外部數據包括:
1、社交網站數據。包括微信、微博、人人網、Twitter、Facebook、LinkedIn等社交媒體上的數據。社交數據部分是可以爬取的,另外一部分是需要運營方授權的。
2、線下采集數據。這一塊目前做的公司比較少,但同時也比較有價值,比如說Wifi熱點數據、地圖數據等;
3、政府開放數據。目前在中國,已有多個省市不同程度的開放了部分數據,如果你想要找的話,可到相關政府網站下載。
4、智能設備、傳感器數據。最典型的案例就是智能手機了,我們使用手機留下的行為數據,傳感器數據,都可以整合到外部數據中來。你知道嗎?一部智能手機,至少擁有8個傳感設備。
5、網絡可爬回的數據。除了文字之外,視頻和圖片也是可以爬回來的。視頻和圖片其實也是數據,而且是非結構化數據。
6、交易數據。這一塊就比較難的,比如說商家流水數據、支付寶交易數據、信用卡消費數據等等,目前這一部分數據是最難獲取的。
7、數據接口API數據。這個就不做細說了,據我所知,微博開放了商業數據API,騰訊開放了騰訊云分析SDK上報的應用數據,高德地圖開放了LBS數據等等。如果你想找更多的數據API,我推薦你去數據堂、聚合數據這兩家網站上看一下,上面有大量的API接口。
8、其他。其他范圍就更大了,天氣數據、交通數據、人口流動數據、位置數據等等。我們可以整合的外部數據種類很多很多。
整合完公司內部外部數據進行大數據存儲,然后通過清洗,標注、去重、去噪、關聯等過程可以將數據進行結構化,也可以進行大數據挖掘和數據分析,再以數據可視化呈現結果,打通數據孤島形成數據閉環,將數據轉換成“石油”和“生產資料”,最后應用到我們日常的生活、學習和工作中去。
當然,大數據應用到日常生活、學習和工作中,往往不是以“大數據產品”自居的,普通人能夠使用到的大數據,已經是大數據加上業務場景的產品化應用和服務了。比如,百度搜索引擎、高德地圖其實就是基于大數據和業務場景產生的大數據產品化應用。
(審核編輯: 智慧羽毛)
分享