最後編輯:2020/06/06
Industry Name | 電腦軟體服務業 |
---|---|
Interviewee | 黃建勳學長 |
Jobtitle | Microsoft:資料科學家 |
Content | 【前言】 在美國微軟Office of the Chief Economist擔任資料科學家的工管系黃建勳學長,除了透過使用者的網路搜索及使用瀏覽器的行為建立內部的交易策略外,亦為當今微軟著重發展的Azure雲端服務,建構深度學習模型預測微軟各資料中心的顧客使用需求與內部的資源供給,以此為數十項雲端服務做動態定價。然而擔當如此重任的學長,升大學那年卻對程式語言一竅不通,甚至因為不會寫程式,而排除電機、資工、資管等熱門科系。他一路走來,如何變成一位稱職的資料科學家? 【慢慢找尋自己的方向】 正如多數高中生,黃建勳學長當初面對各式各樣的科系也感到選擇困難,但學長認為既然一開始沒有明確的方向,就不要馬上急著找方向。管院豐富的基礎課程,讓學生們得以接觸各個領域的內容,真的感到興趣了,再往下鑽研,不必像電機、資工等科系大多數的人很早就已經決定自己的方向。而幸運地,隨著課程的累積,學長升上大二接觸「統計」後便深感興趣,再研究統計領域出路後,才聚焦在「資料挖礦(data mining)」相關方面。 【透過學校的資源,耐心建構自己的基礎能力】 然而當時學校的課程並沒有很明確的說明「資料挖礦」需要哪些方面的能力,那時產業對於大數據的前景,也尚未明朗。學長只大概知道除了統計,還需要機率、線性代數等數學知識,以及一定程度的程式能力。於是學長以工管系的線性代數、統計、微積分為基礎,往外修習經濟系、資工系的相關課程,而在數學方面甚至輔修了數學系。「程式能力出社會後也許還可以再學習加強,但數學知識真的就只能趁在學校加強了,尤其某些比較抽象的內容,除了圖書館的資源以外,有人指導與討論可以事半功倍。」黃建勳學長說。 【找到方向,持續加強並與業界接軌】 有了明確的目標後,黃建勳學長便秉持「哪裡有統計課程就去哪裡修」的學習策略,使各個課程相連,建構完整的統計相關知識。且在大學主修工管輔系數學後,不是像多數學生直接邁入職場,而是一路進修清大工工所碩士及美國哥倫比亞大學統計所博士。「出國對我們來說是種憧憬,臺灣當時業界、學界關聯性不高,在學校中學到的東西常常無法有效應用在實務上,而國外作業與專案雖然很重,但每周分析相關的實務資料,尤其在紐約跟金融業的關聯性很高,很多作業都是實際的金融數據做建模與分析,因此便使自己的資料分析方面的能力進步很多。」 【真誠的友誼,未來是你的人脈】 學霸一般的黃建勳學長,也有一般大學生的一面。「夜唱、翹經濟課、通宵騎車去看流星雨,我們那時一群系上宿舍幫感情很好,都會去做些很大學生的事。」「不過可惜的是,都與同一群人聚在一塊,對於系上其他人便沒有辦法認識得很深入。系上的每個人都有各自的才華,有些人很會辦活動、有些人想法很多、有些人電腦很強,現在大家出路也都差異很大,有在藥廠做研發的、也有在做避險基金的、甚至還有跑去念醫工所的,各行各業都有很多工管系的人才」學長感慨如果有機會當時應該花些時間更深入認識其他系上同儕,多向大家學習。 【資料科學家在企業中的角色】 黃建勳學長在博士畢業後,先後任職於美國運通、Pine River資產管理公司(避險基金)等美國知名企業,現職則為微軟資料科學家。現在這個年代數據很龐大,例如瀏覽器的使用資料一天就好幾百Terabyte,因此要獲得有用的資訊有如大海撈針。所以在開始分析資料前,要從建立假說開始再思考如何去做驗證。中間透過逐步篩選資料、建立統計與機器學習模型或撰寫演算法等進行資料分析。「建立假說篩選資料、分析並推論出因果關係跟結論,其實我們做的事情蠻像管理顧問的,只是更多是從資料面切入。」 工作流程看似單一,但工作內容命題卻相當廣泛,其中涵蓋但不限於需求預測、商品定價、交易策略。例如:微軟有相當龐大的資金,財政部門需要找標的物做投資,而上述的資料分析流程便是尋找標的物的方法。文章開頭提到的資料中心的需求預測以及Azure雲端服務費率定價,也都是資料分析的實際案例。「我們做的跟產品設備雖無直接關聯,然而執行model的結果卻會增加公司的營收、強化客戶的使用經驗、亦可幫忙節省公司的成本。」 【面對大數據,問對問題:建立假說(Hypothesis),不可或缺的步驟】 面對巨量資料,建立假說來解決問題從而達到預期目標,除了經驗以外也需要嘗試從獨特的角度切入。例如:尋找標的物做投資的時候,會需要評估獲利情況或是公司成長幅度。這方面就可以從搜索引擎搜尋該公司工作機會的人數或公司長時間以來網頁上列出的工作機會的變化,算出增長率,來推估未來公司成長。另外我們也曾經透過衛星圖觀看大賣場的停車場密度的變化,來預測賣場的銷售成長。 又像準備購車的消費者,搜尋汽車相關資料時,起先可能會廣泛搜尋五到十個品牌,而隨著時間流動,消費者逐漸聚焦在車貸、保險等財務相關的字眼,交易成立後就不會再搜索汽車相關資料。透過搜尋字眼以及搜尋時間的變化,建立汽車銷售的預測模型、演算法,以得出買賣的交易策略。這樣的方法在學長的實作下,最後得出來的結果甚至能與美國政府日後公布的銷售額度呈現高度相關性。「假說的建立很重要,有時候跟經驗有關,多閱讀並增加相關經歷,或參加相關的研討會,邊做邊學,時間一久就可以累積出來足夠的data insight,這些都可以加強自己做假設與看問題的能力。」 因此,對於這樣的資料分析流程,最耗費時間精力的,其實在於如何去建立對的假說與篩選資料。「做model很快,尤其是像我們操作的這麼熟悉的,只要有了資料與方向,該用什麼工具什麼方法,其實都很清楚。因此,大部分的時間其實都花在建立假說與篩選資料上,有時可能會花上好幾個月,而真正在建構model的時間大概只有20%。」 【軟實力,各行各業通用的能力】 作為資料科學家,除了統計知識、機器學習、程式能力等硬實力以外,也像一般管院職位一樣需要具備一定程度的溝通、簡報、story telling等軟實力。像是你有了一個假設,需要拿來驗證的資料在很多不同的部門,這時候與對方溝通就需要換位思考,因為跟你溝通的人背景可能與你南轅北轍,包裝自己的想法,清楚說明需求,以尋求對方協助。又或者需要跟高層做個簡報、以及要進行新計畫需要請求上層給予更多資源時,怎麼把一個故事講好、把你的想法賣出去給聽眾,呈現一個亮眼的pitch就很重要。「有時候即使大家都很樂意幫忙、高層也願意支持你,但若無法有效地溝通並清楚地傳達需求,這樣會為雙方增加很多時間成本,軟實力在此便顯得更加重要,加強這方面的能力可以透過上台簡報或與同學合作做報告討論中培養。」 【資料科學與量化領域要走深,數學很重要】 最後,對於資料挖礦、資料分析等領域有興趣的工管系學弟妹,黃建勳學長再次強調數學的重要性:「如果希望工作不被取代,那麼數學底子要好,基礎知識要紮實。線代、微積分、統計,能懂深入一點會更好,我當初花了兩年在數學系補齊基本知識,比較艱深的理論真的只有在大學才有人能問能指導。」對於技術方面,學長則抱持相對從容的態度:「學校現在資料科學相關課程很多,適合新手入門的Python、偏向統計的R語言、時下熱門的機器學習,技術方面都可以慢慢學,只要畢業前至少能專精一個程式語言,其他需要用到的編程,出社會都還能在職場上學習,而且通常有基本的程式語言知識就可以學得很快。但是光有編程技術卻沒有數學思維,相對來說,可能無法在這個領域擔任重要的角色。會寫程式的人很多,可是如果需要做研究與創新,最重要的還是要透過數學思維把你的演算法與想法實踐出來。我過去在業界的工作,都有搭配一些軟體工程師幫忙把我們的模型產品化,重點與賣點還是背後的演算法,如此才可以讓你的產品有競爭力。」而對於還在摸索、職涯願景不明確的學弟妹,學長則最後提到:「就像開頭說的,如果還沒有明確的想法,就先不要急著找方向,真的發現感興趣的領域後,進一步加強該領域的核心能力,再慢慢灌溉讓專業的樹茁壯,開枝散葉,觸類旁通,你的道路自然就在其中。」 |
Author | 李鎮宇 |