《The Decision Maker’s Handbook to Data Science - A Guide for Non-Technical Executives, Managers, and Founders》- Stylianos Kampakis

iShot_2024-12-18_23.01.51.png

這本書是由 Dr. Stylianos (Stelios) Kampakis 所著作,他是一位資料科學家,擁有倫敦大學電腦科學的博士學位,專精於統計建模、機器學習、人工智慧、資料科學領域,並有多年的學術與業界經驗。

作者以簡單易懂的方式,專門寫給非資料與技術背景的管理者、創業者、決策者,幫助他們理解什麼是資料科學,以及如何在工作領域中應用這個領域來進行思維與決策。而我認為對於從事資料科學的技術人員來說,也有很多啟發。

我在 2019 年時組建了公司第一個資料團隊,雖然我是資訊工程所畢業,但對於資料科學並不深入理解。在五年的時間裡,我們應用了機器學習、強化學習、資料探勘等技術,開發了一個基於大數據的旅店營運策略系統。然而很可惜的是,多數人只關注到系統中的旅店自動出價功能,卻忽略了整體的營運策略系統。

這很像「買櫝還珠」的故事,真正有價值的是盒子裡的珍珠,那個精美的木盒只是用來包裝襯托那顆珍珠,但不識貨的人花了大錢拿走了木盒,卻退回了珍珠。在這個到處喊著 AI 技術的時代,真正擁有底層的技術與落地應用方向的人,卻執著在表層的資料理解上,浪費了累積的時間障礙與關鍵突破,對於公司來說真的非常可惜。而會有這個問題的最終原因,其實就是這本書所努力的,讓沒有技術背景的人理解資料科學如何應用在業務銷售與決策,提升企業的競爭力,同時理解基礎知識好知道技術的能與不能。在當下的階段,AI 還有很多不能與不足的地方,我們不可能全部仰賴系統,因此我們需要學習如何使用綜多的 AI 工具,而最重要的是讓自己擁有資料科學的思維。

這本書可以從天瓏網路書店或 Amazon 購買實體書,或是從 PChome 購買 Kobo 電子書,目前只有英文版,最新的版本應該是第三版,我閱讀的是黃色封面的第二版。書的內容從第一章的資料科學相關術語開始說起,然後介紹機器學習、深度學習、統計學、計算智能、知識庫的一些概念。當然也提到了人工智慧演進的歷史,包含遇到了寒冬。在提到機器學習時,書中提到經典(老派)的人工智慧是基於規則由上往下的方式來進行。其實目前的資訊系統開發也都還是如此,不理解技術的人都以為開發系統可以搞定一切,但實際上系統是 IF/THEN 的方式來作業,要讓系統模擬人的各種操作判斷,那邏輯就要做好做滿,而真實的世界也不是非黑即白。簡單的系統當然沒問題,但越複雜的項目,就越需要人機協作,這個意思是指系統做好一部分,然後由操作者依他的能力與經驗來完成複雜的判斷區塊。我認為工作者與系統一樣重要,不應該所有的作業都仰賴系統來開發,而系統的存在是為了讓工作者更有效能的作業。而系統能不能成功,非常仰賴需求確認與功能規劃的人。

在第二、三章主要介紹資料的蒐集跟管理,其中提到了資料量不足或是資料延遲問題。以我自己在開發旅宿營運策略系統的經驗,我確實遇到了資料延遲與適用性的挑戰。我們的系統簡單來說,就是把原本收益經理人日常在作業的工作,從資料蒐集開始一直到資料解析跟判讀,凡是能夠自動化的部分,我們都將其自動化。內部資料其實只要有紀錄,都算是相對容易取得,但是外部市場資料的取得就相當複雜。政府從 2019 年開始大規模地開放政府資料,並透過資料開發平台提供( https://data.gov.tw/ ),我認為這是資料治理與資料加值應用很好的推動模式。

然而像旅宿業的資訊就存在明顯的延遲性問題,旅店需在營運後通報資料給觀光署,例如「觀光旅館營運統計」資料可能會有兩到六個月的落差。這類資訊可以用來訓練一個時序的演算模型,但無法作為即時資料輸入來協助預測。另外我們的營運策略系統從 2020 年開始開發,正好歷經了防疫時期,這段期間的住宿資訊與疫前、疫後都截然不同,這表示這三個階段都需要有各自足夠的資料才能訓練出好的模型。因此系統實際開發歷經了四年,但中間遭遇的最大挑戰是資料適用性的問題。第三章簡單地介紹了六個產業應用資料管理的簡易案例,我認為這些案例很值得不同產業用來延伸思考 AI 技術落地的應用方向。

在第四章提到了資料整潔的議題,原則上我完全同意作者所提到的觀點。資料本身若是缺乏一致性、結構性、完整性,的確會產生很大的問題。這裡提到的「資料整潔」(Data Tidiness)和「資料正規化」(Data Normalization)是互補的作用,資料整潔可以確保資料結構適合分析,而資料正規化則在儲存上進行邏輯優化設計,這可以提升系統效能。