跳到主要內容
 
:::

文章專欄

 
主題:資料科學-從基礎開始

2022/02/25

2



引言



2012年10月,哈佛商業評論 (Harvard Business Review, HBR) 在人工智慧尚未成為顯學的年代,很好地扮演了先知的角色,以一篇《資料科學家 – 21世紀最性感的職業 (Data Scientist: The Sexiest Job of the 21st Century) 》,初次讓大眾認識了這個以往在幕後用資料運籌帷幄的工作。接著,在2016年,Google 在這個過往乏人問津的技術領域,做了一個世界級的大型廣告:其旗下DeepMind團隊開發的圍棋人工智慧 AlphaGo 以 4:1 擊敗世界冠軍李世乭,也為人工智慧時代的來臨揭開序幕。自此,資料科學家成為了人力銀行最熱門的關鍵字之一,也成為工程師最想幫自己加上的鍍金標籤。但回歸自身競爭力養成,當職缺以幾何級數增長的同時,三句不離有關時髦術語 (Buzzwords),自稱專家者比比皆是,如何在新技術浪潮中不隨波逐流,逐步在這個最好的時機加強真才實學,不當海水退潮後沒穿褲子的人,或許是大家共同需要努力的目標。

重視基礎



作為一個現役的資料科學領域從業者,我個人的看法是,在取得知識門檻甚低的網際網路時代,要成為一個優秀的資料科學家,並不存在有任何絕對的標準路徑。但當然,不可諱言的,擁有特定的學經歷背景,確實在起跑點上會有一定的優勢。由於近年來資料科學的應用場景不斷被開拓,除了傳統自於電機資訊、數學、統計或經濟等直接相關的工程或社會科學學門外,也有不少帶著本領域的專業,融合資料科學開拓創新的非典型資料科學家,對其應用領域展開和社群推廣,帶來了重大貢獻。


但不論如何,資料科學的本質仍是一門科學,其知識體系是有系統性的。一般而言,從基本的科學思維模式開始,如觀察、量度、分類、推論、預測、假設、分析等技能與思考框架,其實資料科學並未不同於任何一個其他的科學學門,僅僅是在研究的標的與使用的方法論上各有專精。如果僅僅關注資料科學的表面,而忽略其目標導向性,非常容易陷入工具與資料的泥沼中無法自拔。不論何時,必須讓問題找到在當下主客觀情形下的最佳解,永遠是最高指導原則。而資料科學僅僅只是解決方案之一,而且並不一定總是最好的解決方法。如果盲目地相信資料科學治百病,那從根本上就已經不是科學了,而是某種信仰了。


講完了心法,讓我們來聊聊在應用場景中,一個普通的資料科學家,和一個優秀的資料科學家的關鍵差異是什麼。事實上,資料科學只是一個從資料中發現價值的過程,但價值判斷和分析意義的賦予,是無法跳脫人類的需求的。人類之間存在難以量化的差異,與期待高度正規化的計算機科學是衝突的。資料科學家工作的其中一個重要任務,就是作為兩者之間的橋樑,能夠用同理心傾聽來自於不同文化背景的真實世界問題,轉化為資料方法論。一個好的資料科學家,必須擅長預期管理並兼顧科技倫理,在解釋分析結果時,敘事溝通的能力也極為重要。

專業技能



關於作為一個資料科學家所需要的專業技術能力,網路上已有相當多的專文介紹與資源分享,並非本文的重點。但基於我個人的學習經驗,分享一些關鍵字以及重要的學習資源,相信對於大家仍然有一定的參考價值。以下是幾個我認為應該要具備的能力:

  • A. 數學:機率與統計 (及其預修數學基礎)
  • B. 計算機程式:Python與R至少兩者之一 (推薦學習 Python)
  • C. 機器學習 (與其分支如深度學習與強化學習) 及其開發環境工具與套件
  • D. 其他:視覺化工具、資料庫 (如 SQL 與 NoSQL)、GitHub、Stack Overflow、演算法與資料結構等基本素養

在有關研究領域獲得長足發展的當下,上述的專業技能僅僅能說是基礎中的基礎,尚有許多重要且體系完整的領域,包含資料探勘與其他應用領域 (如自然語言處理、電腦視覺、推薦系統、風控模型與知識圖譜等) 都有大量日新月異的研究成果。當代資料科學家的競爭力,亦取決於是否能溫故知新,時時掌握頂尖學術論文的最新趨勢,並與既有的核心能耐做整合。 YouTube 網路課程 (https://www.youtube.com/c/HungyiLeeNTU)。(輪替)熱門時事、產品知識、生活常識、網友分享、新聞、影片張貼、病毒式行銷、事件或過程。


在有關研究領域獲得長足發展的當下,上述的專業技能僅僅能說是基礎中的基礎,尚有許多重要且體系完整的領域,包含資料探勘與其他應用領域 (如自然語言處理、電腦視覺、推薦系統、風控模型與知識圖譜等) 都有大量日新月異的研究成果。當代資料科學家的競爭力,亦取決於是否能溫故知新,時時掌握頂尖學術論文的最新趨勢,並與既有的核心能耐做整合。


趙式隆 圖像
BravoAI洽吧智能創辦人
趙式隆