1. 數據工程師 職位描述:處理大量數據的公司,并管理數據通道。這意味著,當需要時,你要能確保有效地從數據源收集和檢索數據,并進行清理和預處理。 為什么它很重要:如果你只處理過相對小的(<5Gb)保存為.csv或.txt文件的數據集,那么你可能很難理解為什么會有一些人的全職工作是構建和維護數據管道。 這里有幾個原因:
要求:你將使用的技術包括Apache Spark、Hadoop和/或Hive,以及Kafka。你很可能還需要有一個扎實的SQL基礎。 你要處理的問題聽起來像: “我如何構建一個能夠每分鐘處理10000個請求的數據管道?” “如何清理數據集而不用將其全部加載到RAM中?” 2. 數據分析員 職位描述:將數據轉換成可指導業務發展的商業洞察力。你會是技術團隊和商業戰略、銷售或營銷團隊的橋梁。數據可視化將成為你日常工作的重要組成部分。 為什么它很重要:純技術人員通常很難理解為什么數據分析員如此重要,但事實是他們就是很重要。 這些人需要將經過訓練和測試的模型和大量用戶數據轉換為讓人易于理解的形式,以便根據數據分析結論設計業務策略。數據分析員幫助確保數據科學團隊不會浪費時間在不能提供業務價值的問題上面。 要求:你將使用的技術包括Python、SQL、Tableau和Excel。你還需要成為一個好的溝通者。 你要處理的問題聽起來像: “什么驅動了用戶的增長?” “我們如何向管理層解釋,最近用戶費用的增加會減少客戶?” 3. 數據科學家 職位描述:清理和探索數據集,并做出有商業價值的預測。日常工作包括訓練和優化模型,并將它們部署到生產中。 為什么它很重要:當你有一大堆數據,以至于人類無法解析,同時這些數據也很珍貴以至于不能忽略它們時,你需要通過一些辦法從中提取一些可被接受的見解。這是數據科學家的基本工作:將數據轉換成可被理解的結論。 要求:你將使用的技術包括Python、scikit-learn、Pandas、SQL,可能還有Flask、Spark和/或TensorFlow/PyTorch。一些數據科學職位純粹是技術性的,但是大多數職位還需要你具有商業頭腦,這樣你就不會老想著去解決沒有人需要解決的問題。 你要處理的問題聽起來像: “我們到底有多少種不同類型的用戶?” “我們能建立一個模型來預測哪些產品能賣給哪些用戶嗎?” |