專欄:趨勢瞭望台

勢不可當的大數據

黃乃寬(台灣證交所前副總經理兼資訊長、著有《精準與放任之間》)


大數據是當代生活的產物

大數據(Big Data)是手機和網路普遍化興起的風潮。我們不斷地藉手機或其他智慧型行動裝置透露所在位置、停留時間、從事活動、和前前後後移動的軌跡。又迫不及待地選用某些網路服務(如免費WiFi)、裝置某些電腦應用程式(如臉書FB)時,沒看明白同意書的內容,就先同意所有條件,包括同意對方蒐集運用我們的使用紀錄,如搜尋的關鍵字、瀏覽的內容、下載哪些資訊、購買哪些產品、和哪些人連絡、以及通訊錄裡有哪些名字和電話號碼、電郵地址等等。

這些數據雖然零碎、時有時無,粗看形同麵包屑,卻都讓有心人分門別類地收拾起來,串出相互關聯,經過語義分析、交叉比對和全自動化的推論,以致有一天,我們突然發現:臉書比我更清楚我哪天去過哪個社交聚會,而且給我一張我也沒見過,卻被註記上的合照,是其他FB參加人上傳公開的;亞馬遜能猜到我想買還沒買的產品,精準又不過度騷擾地把相關類型的產品資訊寄來參考,附帶宣傳他們可提供的折扣;谷歌從我的搜尋模式就能判斷我的年齡、性別、教育程度和政治傾向等口味偏好,適時根據我所在的位置,推薦附近有哪家值得去嘗試的餐廳;其他像叫車、訂旅館、機票等等,就不一一細說了。

這些網路應用廠商提供的服務雖然多半免費,或至少看不出能賺甚麼錢,他們累積下來的互動資料卻近乎無價,奇貨可居。

大數據的特質

隨著資訊科技的進展與處理設備的普及,大數據,不只數據的量大,使用者還可以把大量資料放進超大的隨機存取記憶體,利用大量平行運算,來彈性應用資料、掌控處理時效。

大數據的另一特色是處理動態資料的能力。當新到的數據快速地、大量地而且以結構及非結構化多種的型態增加,所幸我們已經發展出來有效的遞迴演算法來處理這類問題。三十年來機器學習和神經網路等人工智慧的進展,使我們有辦法把歷史濃縮在模型的參數裡,每次修正時不必把從古到今的數據全部包起來重頭計算,只要處理新到的部分就可以了。

第三、電腦速度和辨識運算法的進步,使許多從前日以繼夜才能處理完的工作,在瞬間就完成了。諸如面孔、情緒、風格的辨識、文章內容相似度、相關性的測量等技術趨於成熟,都使本來難以用電腦處理的非結構化資料轉化為珍貴的大數據成分。

大數據的商業應用

網路應用及行動裝置普及,顛覆了傳統的商業模式。從來不創造任何內容與評論的臉書,竟成為影響最大的媒體;從未擁有一間客房的Airbnb,已為旅客安排了比任何連鎖旅館更多的住宿;未擁有任何車輛,甚至沒有計程車業執照的優步(Uber),卻能比任何車行更快更多地動員車輛與司機,以接送叫車的客人。這不禁讓我們懷疑,在一家沒有任何存貨的阿里巴巴能賣掉比任何商家更多貨品的年代,誰還會新開一家實體商店?然而,實體店面與店員服務的訴求仍然無可取代。

但是如何決定在哪裡開店呢?大數據可以幫忙。譬如,電信公司用基地台和每一個移近的手機握手的紀錄,已經掌握了該地區各時點的人流資訊;利用手機中的GPS定位系統,更可蒐集到每個人每天去過哪些地點、停留多少時間。商業應用的大數據雖然因為個人資料保護必須去識別化,卻仍可從年齡、性別、職業等基本屬性區分出目標客群。觀察目標客群的移動軌跡,分析出哪個區塊的目標客群人數最多、停留時間最長,就是開店最佳的地點。

另外一個十分普遍的大數據應用是評量信用貸款申請人的償債能力,核定可貸放的金額。大數據的信用評等,是根據申請人過往的網路交易紀錄和其他活動資料來推論申請人的可信度及財務能力。總的來說,這一套方法行得通、成本低、效果不比傳統做法差。

谷歌於過去五年,數度公布他們從關鍵字搜尋的紀錄判斷流行性感冒爆發的時間地點,預測模型幾經修正、改進,愈來愈比疾病管制中心更快、更準。疾病管制中心不得不開始關注運用大數據來提早預測流感疫區,幫助調配醫療資源,藥廠也可以依據區域人口分布來調節疫苗與印品的產量、存貨、倉儲等,降低防治疾病的成本。

傳統的統計方法,遇到大量的母體,就採用抽樣調查,但是要求樣本具有代表性,而且計算量可以掌控。但今天計算能力跳升,可以直接把母體當作樣本,不用再抽調。應用在查稅查帳上固然是全新思維,難以遁形,也讓我們想起《聖經》馬太福音十二章36節:「凡人所說的閒話,當審判的日子,必要句句供出來。」的確,「因為人所做的事,連一切隱藏的事,無論是善是惡,神都必審問。」(傳道書十二章14節)

 

(本文蒙允節錄自《曠野雜誌》第197期,20159/10月)

 

我要分享: