[實習心得]如何在資料中創造價值
2020 summer @ 東方線上數據創新應用商機研究中心
目錄
- 公司環境、文化簡介
- 我為何選這家公司
- 我在這裡做了什麼
- 我在這裡學到了甚麼
- 我的一些反思
- 感謝
公司環境、文化簡介
公司介紹
東方線上其實是新東方的某一家子公司,但實際上全部都在同一層樓,也感覺不出有公司與公司的隔閡(執行長好像也只有一個),反倒比較像公司裡的幾個部門。雖然這家公司不像有些超級大公司有一整棟的建築物,但跟信義區的公司比,已經算非常大的公司了。這家公司的大老闆好像是pchome,但實際上沒發現有甚麼太大的關聯性、買東西也沒有額外的優惠。
在物價方面,由於位於信義區,所以吃飯也不會太便宜,但附近吃得遠比我想得來的多很多。此外,公司也離捷運站頗近,上班滿方便的。再者,這家公司的上班時間算是很彈性,雖然表定是9點上班,但實際上9:30分以前到就可以,因此公司的制度很人性化。
文化介紹
這家公司的文化我蠻喜歡的,相對台灣銀行來講非常自由,有點像外商公司的感覺,並不會非常的嚴肅。此外,公司的組織扁平,因此和主管或執行長比較不會有距離,講起話還比較不會太辛苦。在這樣的環境下,公司人與人之間比較不會有距離感,工作之餘也會聊天,跟我原本想像的工作有很大的差別。
東方線上也很強調自主研究這方面的能力,雖然公司是做市場調查,但實際上很多專案比較像是員工自主發起,像我的部門有一個「類神經網路房地產估價系統」,就比較像是員工們基於興趣發起的專案。
由於這家公司是研究型的公司,因此定位位於傳統商業公司和大學研究室之間,雖然進行的研究並不會像學校一樣非常的嚴謹,但就企業來講算非常的扎實。
最後是這家公司零食的部分,雖然沒有像蝦皮的零食數量如此驚人,但基本上也是永遠都吃不完,且公司樓下有頂好,所以補貨很快。
我為何選擇這家公司
more about me (personal website) : https://reurl.cc/Kjp54g
想做甚麼
其實我自己並沒有特別想從事哪方面的工作,我唯一的要求是希望可以將工管、資工、數學所學到的知識應用在同一份工作上面。我認為這樣可以更讓我了解自己在學校學了甚麼、哪些東西是重要的以及還欠缺哪些知識,因此最直接能符合上述條件的無非是資料分析和財務分析。但由於財務方面的實習(非打雜)基本上都限制大三升大四的暑假才能參加,因此我將目標鎖定在資料分析方面的工作。
此外,由於我在台大修不少資料分析相關的課程(也修很多財務課程),因此在找實習方面有一些加分作用。
為何實習
其實在我原先的大學規畫中並沒有二升三的暑假去實習這個選項,因為我認為我在學校學得還不夠踏實,去實習基本上也是浪費一個暑假的時間學習如何打雜。但後來基於各式各樣的原因意外地拿到這個機會,剛好符合我所想要的職缺、也可以做為體驗研究助理以外的工作,因此就改掉原先暑假的計畫,前來實習。
為何東方線上
選擇東方線上有兩個原因
- 這家公司是做市場調查,因此有大量的資料可以做研究,這對於做數據分析的人而言是非常大的誘惑(雖然我的電腦太慢,太大的資料也只能抽出部分來分析,但就是爽)。
- 常常聽到學校老師提及這家公司,因此猜測對台大學生並不會不友善,可以少做一點雜事,因此才比較放心選擇此公司(事後證明真的沒做到什麼雜事)
我在這裡做了甚麼
總論
由於我在數據部門,因此主要的工作內容就是寫程式,但除此之外也寫了幾篇市場分析報告。其中我認為最難的部分是寫市場分析報告,因為做分析並不像寫程式寫完後就能發現程式碼邏輯上有沒有瑕疵。做分析時需要一步一步按邏輯推導,確認所有的情況都有所考慮,也必須在資料不足時用估計的方法做判斷,因此我認為這對沒有相關經驗的我來說非常的困難。
數據分析
第一份正式專案
我主要的工作內容是做產品自動化分類。簡單來說就是建一個模型用來分類各商品類別,例如今天看到「御茶園」就要把它分到飲料類之中,雖然這用眼睛看一下就能完成,但今天有好幾萬個品項時就必須利用機器學習(統計模型)去進行預測。
這份工作剛開始看起來很簡單(我原本以為2周就能完成),但實際上我到實習結束時都沒有想到很好的方法來處理這個問題。
以下簡單說明這份專案的步驟。
- 爬蟲(很多很多的資料)
- 清理資料
- 選擇統計模型
- 測試預測能力
- 強化預測模型
- 在其他類似資料庫中測試 (效果不佳的話前面步驟要再重跑一次)
我認為其中最難的部分在最後一個步驟「在其他類似資料庫中測試」,就統計理論而言,沒辦法預測到沒出現過的資料(就像肺炎的發生無法被預測),學校也完全不會教要如何解決這些問題。但在現實生活中卻很容易遇到此種情況,因此到了實習結束前,我已經把預測模型的預測率用到90%左右,但在其他資料庫測試也大約60%上下。
第二份專案
做這份專案主要是因為我的第一份專案完全卡關,不知如何下手,因此就決定玩玩其他的資料,看看是否會有其他想法。於是拿某賣場的年消費資料去做客戶價值分析和分群,主要計算的指標有MLE, WMLE, CRI, ARFM和貝氏平均(大一時在「大數據行銷」這門課學的),以及做了很多的資料視覺化和分配調整。
在這份專案中最困難的問題在於如何處理巨量資料。(這邊不詳細提及)
在數據分析中我學到了甚麼
- 不能去期待有人會給你整理好的資料庫,自己的資料庫要自己整理
- 統計不能解決資料分析中所有問題,但統計可以處理大部分分析有效性的問題
- 大多數用到的工具並不是來自同一堂課,而是很多很多堂課的累積,因此在修課非常的重要,因為很多知識是書中找不到的
市場分析報告
雖然名稱叫「市場分析報告」,但實際上內容頗為量化。我的報告內容主要是分析若要進入某種App市場,需要從哪個平台、具備哪些功能和需要找哪些人來完成此App。簡單來講就是從消費者市場到生產App都需要了解,因此這份報告被拆成以下三個部份來完成。
- App 平台分析 (App Store, Google Play)
- 同類型App功能分析
- 寫App需具備的能力
其中第三點應該算是最簡單的,基本上把1111人力銀行上App工程師需要的工作能力整理完和開發App的步驟搞清楚基本上就沒太大問題。最大的問題是卡在一和二,當時看到這個問題連要如何下手都沒想法。
App 平台分析
人永遠不會多學任何知識,因為有天會意外地用到它
在收到這份工作的當下,我第一個想法是「這不是叫我算命嗎?我哪會知道要從哪個平台進入」,但翻了很多篇相關的論文發現到這個問題其實可以利用賽局(我剛好在大二上時有修過一學期的賽局)來分析。最後就利用論文中所提供的數據和一些會影響到賽局均衡解的因素順利完成這份報告。
這個故事告訴我在很多課堂上學的知識雖然非常嚴謹,實務上根本用不到,但也就是因為學的很嚴謹,所以很了解那些參數可以做調整、那些因素可以被忽略。
同類型App功能分析
在新App進入市場的分析中,除了要知道要從哪個市場進入之外,更重要的一點是做競爭者分析。但問題點就在於學校所教的競爭者分析多半處在打嘴砲的層次上,縱使有把所有的因素找出來,也沒有量化的數據可以證明影響因素的影響力,因此這是我遇到最難解的問題。
後來我採用計數統計和建立指標的方法進行分析,雖然在分析上若資料量不足(很明顯資料不足,該類型的App數量較少),效果會有偏差,但這是我認為在當時最好的處理方法。
這個經驗讓我了解到多數情況下並不會和理論中的假設一樣如此的完美,因此必須忽略掉一些假設,不能執著於要滿足所有條件。
在市場分析報告中我學到了甚麼
- 實務上不可能和理論中的論述一樣,滿足很多非常好的條件
- 學校學習的知識可能無法解決問題,但若把很多知識加在一起就有機會解決問題
- 在開始分析前最重要的事是找找看有沒有前輩已做過類似的東西
我在這裡學到了甚麼
硬實力
- 提升programming 的能力(machine learning, natural language programming)
- 提升數值分析的能力
- 學會做比較專業的簡報(在學校簡報都是別人幫我做的,第一次做簡報)
軟實力
- 學會寫我以外的人看得懂的報告(在學校寫報告時多半不會解釋太清楚,因此導致我以外的人常常看不太懂)
- 練習在有人的地方工作(在研究室工作的時候基本上都是我獨自在研究室裏面,就算老師在研究室也有自己的隔間,因此習慣工作的時候旁邊全沒其他聲音)
- 觀察人與人之間、同事與同事之間的相處方式(我待的部門基本上只有我還是學生,因此可以很明顯的感受到學校與公司的差別)
我的一些反思
想像與實際落差
我覺得工作有很多地方跟我想的差很多,也跟在研究室工作有很大的差異,由以下幾點可以看出來
- 工作比讀書累,需要一直做事 -> 讀書比工作還累,因為在學校學的東西比工作還要難很多
- 會有人教你遇到甚麼情況要怎麼處理 -> 遇到問題要自己翻書、查網路解決,大家都很忙
還欠缺些能力
在做專案時常常會後悔有些分析方法可以解決這些問題,但卻還沒在學校學到(或是當初沒有好好學)。在這份實習中我了解到若之後要往資料分析發展之後還必須要完成下列課程。
- 資料結構
- 多變量統計分析
- 迴歸分析
- 高等統計推論
- 時序分析
- 演算法
- 機器學習
- 資料庫系統
相信完成上述課程絕對不輕鬆,也必須花非常多的時間在課業方面。除此之外,還需要有良好的管院基礎,否則在分析商業問題時根本不知有哪些參數可以去分析這些問題,因此雖說管院的課程相對不扎實,但這些過程是必經之路。
反思
在做這份實習的過程中,我了解到公司請暑期實習生基本上是在做企業形象,而非真的要從學生手中獲得東西,因為縱使公司不給實習生薪水,公司可能都在虧錢。主要原因在於實習生也需要一個空位、需要有人指導,而這些資源都不是免費的,多一個空位可以多請一位長期員工(或長期工讀生)、指導別人的時間也需要發薪水,因此這也不是免費的。由此可推論若公司給暑期實習生(非打雜)基本時薪或沒薪水並不過分,甚至還會虧錢。
感謝
這篇實習心得是在我實習的倒數第二天(2020/9/9)完成的,在這短短的兩個月當中真的看見很多很多的東西,也了解到真實工作和學校的差別。
因此我非常感謝介紹給我這份工作的老師,雖然在台大的四年裡可能沒有榮幸可以修到這位老師的課程。
第二位要感謝的人是這家公司的總監,很感謝當初是被分到量化分析部門,而不是質化分析的部門(因為我在研究室做偏向質化分析的研究,因此常常會被推薦做質化分析的工作),才有機會嘗試不同的工作內容。
第三位要感謝的人是我的mentor,常常在我做專案卡關時給我一些意見,省去我摸索和解決問題的時間。
最後要感謝和我同部門的人,帶我認識公司環境,雖然到了實習最後還是對周遭很不熟,常常會迷路,但跟第一次來公司時找不到公司比起來好非常多。
若您喜歡我的文章,歡迎按下「拍手」給我支持並轉發給你的朋友們(可以多拍幾下手喔),或是「Follow」我,讓我提供更多優質文章給您。