A. 美國大數據工程師面試攻略
項目數據分析師分享:美國大數據工程師面試攻略
方法/步驟
先做一個自我介紹,本科南開後,加入了一個創業公司kuxun,做實時信息檢索,後來進入網路基礎架構組,搭建了Bai App Engine的早期版本,隨後去Duke大學留學,在攻讀碩士期間,做跟Hadoop大數據相關的研究項目Starfish,之後在Amazon EC2部門實習,了解它們的內部架構,畢業後加入Linkedin,做廣告組的架構,涉及Hadoop調優,Data Pipeline, Offline/Online, 實時系統。最新是在Coursera從事數據工程師工作。在多年工作中,除了對技術的不懈追求,也積累了大量的面試經驗,從國內的一線互聯網網路,阿里巴巴,奇虎,人人,到美國一線公司Facebook,Google,Linkedin,Twitter,Amazon,到熱門Startup,Uber,Pinterest,Airbnb,Box,Dropbox,Snapchat,Houzz,拿到10+ offer,並且在Linkedin期間也面試過100+候選人,參與面試題制定,樂於分享並幫助很多人成功求職,實現目標。
我們看一下這張矽谷地圖,它坐落於美國加州,從聖何塞到舊金山的狹長地帶,中間是San francisco bay,簡稱灣區。它的由來是這邊有計算機核心處理器中離不開的硅,30年來,矽谷就發展成為無數技術性創業公司的搖籃。在20多年前,就有很多硬體公司的輝煌Intel,Oracle,Apple,Cisco成功上市,10年前,互聯網的興起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶搖直上,成為美股高科技股的領頭羊。這些公司的市值從幾十billion到幾百billion,PE從負數到上千。瘋狂的估值背後也改變了世界。
如果說矽谷成功是有原因的,我覺得有兩點。地理位置是得天獨厚吸引大量人才,這里有Stanford和加州州立高校提供智力庫的支持,在矽谷可以看到來自全世界的最聰明的人,中國人,印度人,猶太人構成這些Engineer的主力。雖然國內做技術自嘲為碼農,但在矽谷成為一個優秀工程師還是收獲頗豐。另一方面創業是一個永恆的話題,在Stanford有個說法空氣中都飄揚中創業的味道,一些早期員工通過上市套現又積累經驗成了天使投資,Y Combinator,各種技術forum,meetup,創業導師,都很活躍。資本的力量功不可沒,早年VC通過投資,收購,上市放大形成一個雪球效應。大家總喜歡問什麼是next big thing,哪一個是下一個facebook,下一個musk,根據統計10年能成就一個千億以上的公司,目前這個進程正在縮短。
我就拿Linkedin作為例子,介紹高科技公司(FLG)是什麼樣子。它是成立2003年的職業社交網站。在10年的發展中,也不是一下子爆發的,目前有3億的全球用戶,雖然跟Facebook,Google 10億+用戶沒法比,但是它有很好的護城河,用戶定位高端精準,單位價值高。這張照片中左邊這位是創始人Reid Hoffman,是Paypal黑幫成員,在矽谷也是呼風喚雨的大佬,目前是董事和投資人。中間這位是CEO Jeff,2013年被Glassdoor評為最佳CEO,作為職業經理人,成功幫助linkedin高速成長,他最喜歡提到transformation,希望我們每個員工能挑戰自我,在各自崗位上進化。Linkedin提供了員工很好的福利,有號稱灣區最佳的免費食堂,每個月一次的in day,hack day, 幫助員工內部創業的incumbator計劃。它特點是數據驅動的開發產品,比如 People you may know, Job you may be interested, 我做過Sponroed Ads 都是需要很強數據背景和data scientist的支持。它的Biz model也很獨特,有3個line,面向公司的招聘服務,面向廣告商的市場服務,面向個人的訂閱服務,還有最新Sales Solution,因為這么多可能性,成為華爾街的寵兒。
說矽谷,除了那些已經成功的大公司,不得不說現在最新的創業動向,這些代表了未來下一個FLG。我總結了一些領域和代表公司:雲計算(box, dropbox),大數據(cloudera),消費互聯網(pinterest),健康(fitbit),通訊(snapchat),支付(square),生活(uber)。 這里是華爾街網站更新的最新融資規模,比如Uber就達到18Billion的估值,我當時拿到offer沒去,還是覺得很瘋狂,如果細看這張表,大家可以看到矽谷(藍色)尤其是舊金山它們的融資規模遠遠大於其他地區,還是地理決定論。而在國內的兩家xiaomi,jingdong都是在北京,而最近大家看到一些泡沫論,說什麼阿里巴巴上市是否美股到頂,經緯VC創始人也提醒我們泡沫的風險,我無法判斷。如果能參與到下一波浪潮裡面去是很過癮的。我推薦大家去看看 <浪潮之巔>,<奇點臨近>,我還是很期待未來20年的技術革命。
我個人熱愛大數據,在矽谷這也是大家津津樂道的,有個笑話,big data is like teenage talking about sex, nobody know how to do it. 其實大家還是興趣驅動就好,不要那麼功利,大數據技術涉及太多,平常工作中也是慢慢積累,有無數的坑和技術細節需要克服。並不是說那個技術最熱就要用哪個,如果你用不好,你的壓力很大的,舉個例子,你用某個開源資料庫,發現它偶爾有數據丟失怎麼辦,如果這是線上服務,你不斷收到報警,這時候你當時選用它的優點 scalable,容錯性都沒意義了。接著說大數據,這裡面Hadoop作為行業標准,我面過的除了Google,微軟不用,幾乎所有的公司都在用,建議大家利用這個機會。這裡面有三巨頭,cloudera是老牌Hadoop咨詢公司,Hadoop的創始人做CTO,Hortonworks也是很多Hadoop的committee,MapR是提出hdfs的erasure 編碼方式高效而著名,它們都是融了巨資,模式也很像,先推出社區免費版,但有個商業版提供更好的管理。 而今年出現一匹黑馬,Spark,簡單說就是內存級別的計算,比Hadoop框架里能節約IO,利用緩存,能適應批處理,迭代,流式計算。
這里看一下它的生態系統,如何學Hadoop是個循序漸進過程,先要理解學習它的core系統,HDFS, MapRece, Common,在外圍有無數的系統工具方便開發,我個人用過的是 Avro作為數據格式,Zookeeper作為選主的高可靠性的組件,Solr作為搜索介面,Pig搭建工作流,Hive 數據倉庫查詢,Oozie管理工作流,HBase 作為KV 分布式存儲,mahout數據挖掘的庫,Cassandra nosql 資料庫。我建議初學的考慮Chinahadoop的課程。
而Hadoop本身也是個進化過程,幾年前0.19版本,到0.20, 0.23分流成Yarn架構最後進化成Hadoop2.0, Hadoop1.0 和 2.0 它們的介面和組件是完全不同的,但總體上Hadoop 2.0 是趨勢,因為它有Yarn這樣分離的資源管理平台,可以以插件的方式開發上面的Application,解放了生產力,而像Spark,Storm這些新型處理器也是支持Hadoop 2.0的。這里是Hortonworks它們提出來的社區版本架構,可以說標準的制定者,一流的公司制定標准,其他的公司一般用只能用它們提供的穩定版,沒有多少話語權。但從事大數據,並不見得是要去這些制定標準的公司,大量的應用也是非常考驗架構的靈活性。並且能看到實際的產品,很有成就感。
說到今年火的,還是要看Spark。從去年至今,已經開了2屆Spark大會,上千人的規模,無數人對比Hadoop 100倍的性能提升而興奮。這里說它的背景是誕生於Berkeley的Amplab,它們有個很有名的BDAS(Berkeley Data Analytics Stack),目前Spark已經成為Apache的頂級項目。去年這個實驗室的教授跟學生出去成立Databricks公司,拉到兩輪上千萬的風投,有人成Spark是Hadoop的終結者嗎?我看今年Spark大會上,所有的Hadoop大佬公司都是鼎力支持,像Cloudrea甚至放棄impala的一線支持而轉變成Spark。如果這么發展下去,星星之火可以燎原啊。它裡面用到Scala是一種函數式語言。裡面的組件也很多,有Shark支持SQL類似Hive,有Spark Streaming,MLlib,Graphx,SparkR,BlinkDB。它的核心數據結構是RDD,可以跑在各種分布式系統上。總體上是個包容性+侵略性的系統。我個人也很看好它們的發展。
B. 王健林也要進軍區塊鏈了嗎
「土豪」王健林也來區塊鏈湊熱鬧了,確切地說,是重返區塊鏈賽道。
3月12日晚間,紐西蘭一家區塊鏈公司Centrality NZ官網宣布,其與中國萬達集團旗下萬達網路科技集團達成一項戰略技術合作。
王健林曾在公開表示,萬達網路科技集團在區塊鏈方面的主要目標是利用分布式賬本技術重塑現在的互聯網服務模式,打造下一代價值互聯網基礎設施。萬達區塊鏈將結合物聯網和大數據,讓商業在高度透明的分布式共享環境中展開。
C. 以大數據時代為題寫一篇年終總結
可參考下文
9個關鍵字 寫寫大數據行業2015年年終總結
2015年,大數據市場的發展迅猛,放眼國際,總體市場規模持續增加,隨著人工智慧、物聯網的發展,幾乎所有人將目光瞄準了「數據」產生的價值。行業廠商 Cloudera、DataStax 以及 DataGravity 等大數據公司已經投入大量資金研發相關技術,Hadoop 供應商 Hortonworks 與數據分析公司 New Relic 甚至已經上市。而國內,國家也將大數據納入國策。
我們邀請數夢工場的專家妹子和你來聊聊 2015 年大數據行業九大關鍵詞,管窺這一年行業內的發展。
戰略:國家政策
今年中國政府對於大數據發展不斷發文並推進,這標志著大數據已被國家政府納入創新戰略層面,成為國家戰略計劃的核心任務之一:
2015年9月,國務院發布《促進大數據發展行動綱要》,大力促進中國數據技術的發展,數據將被作為戰略性資源加以重視;
2015年10月26日,在國家「十三五」規劃中具體提到實施國家大數據戰略。
挑戰:BI(商業智能)
2015年對於商業智能(BI)分析市場來說,正由傳統的商業智能分析快速進入到敏捷型商業智能時代。以 QlikView、Tableau和 SpotView 為代表的敏捷商業智能產品正在挑戰傳統的 IBM Cognos、SAP Business Objects 等以 IT 為中心的 BI 分析平台。敏捷商業智能產品也正在進一步細化功能以達到更敏捷、更方便、適用范圍更廣的目的。
崛起:深度學習/機器學習
人工智慧如今已變得異常火熱,作為機器學習中最接近 AI(人工智慧)的一個領域,深度學習在2015年不再高高在上,很多創新企業已經將其實用化:Facebook 開源深度學習工具「Torch」、PayPal 使用深度學習監測並對抗詐騙、亞馬遜啟動機器學習平台、蘋果收購機器學習公司 Perceptio ……同時在國內,網路、阿里,科大訊飛也在迅速布局和發展深度學習領域的技術。
共存:Spark/Hadoop
Spark 近幾年來越來越受人關注,2015年6月15日,IBM 宣布投入超過3500名研究和開發人員在全球十餘個實驗室開展與 Spark 相關的項目。
與 Hadoop 相比,Spark 具有速度方面的優勢,但是它本身沒有一個分布式存儲系統,因此越來越多的企業選擇 Hadoop 做大數據平台,而 Spark 是運行於 Hadoop 頂層的內存處理方案。Hadoop 最大的用戶(包括 eBay 和雅虎)都在 Hadoop 集群中運行著 Spark。Cloudera 和 Hortonworks 將 Spark 列為他們 Hadoop 發行的一部分。Spark 對於 Hadoop 來說不是挑戰和取代相反,Hadoop 是 Spark 成長發展的基礎。
火爆:DBaaS
隨著 Oracle 12c R2 的推出,甲骨文以全新的多租戶架構開啟了 DBaaS (資料庫即服務Database-as-a-Service)新時代,新的資料庫讓企業可以在單一實體機器中部署多個資料庫。在2015年,除了趨勢火爆,12c 多租戶也在運營商、電信等行業投入生產應用。
據分析機構 Gartner 預測,2012年至2016年公有資料庫雲的年復合增長率將高達86%,而到2019年資料庫雲市場規模將達到140億美元。與傳統資料庫相比,DBaaS 能提供低成本、高敏捷性和高可擴展性等雲計算特有的優點。