1. 美國大數據工程師面試攻略
項目數據分析師分享:美國大數據工程師面試攻略
方法/步驟
先做一個自我介紹,本科南開後,加入了一個創業公司kuxun,做實時信息檢索,後來進入網路基礎架構組,搭建了Bai App Engine的早期版本,隨後去Duke大學留學,在攻讀碩士期間,做跟Hadoop大數據相關的研究項目Starfish,之後在Amazon EC2部門實習,了解它們的內部架構,畢業後加入Linkedin,做廣告組的架構,涉及Hadoop調優,Data Pipeline, Offline/Online, 實時系統。最新是在Coursera從事數據工程師工作。在多年工作中,除了對技術的不懈追求,也積累了大量的面試經驗,從國內的一線互聯網網路,阿里巴巴,奇虎,人人,到美國一線公司Facebook,Google,Linkedin,Twitter,Amazon,到熱門Startup,Uber,Pinterest,Airbnb,Box,Dropbox,Snapchat,Houzz,拿到10+ offer,並且在Linkedin期間也面試過100+候選人,參與面試題制定,樂於分享並幫助很多人成功求職,實現目標。
我們看一下這張矽谷地圖,它坐落於美國加州,從聖何塞到舊金山的狹長地帶,中間是San francisco bay,簡稱灣區。它的由來是這邊有計算機核心處理器中離不開的硅,30年來,矽谷就發展成為無數技術性創業公司的搖籃。在20多年前,就有很多硬體公司的輝煌Intel,Oracle,Apple,Cisco成功上市,10年前,互聯網的興起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶搖直上,成為美股高科技股的領頭羊。這些公司的市值從幾十billion到幾百billion,PE從負數到上千。瘋狂的估值背後也改變了世界。
如果說矽谷成功是有原因的,我覺得有兩點。地理位置是得天獨厚吸引大量人才,這里有Stanford和加州州立高校提供智力庫的支持,在矽谷可以看到來自全世界的最聰明的人,中國人,印度人,猶太人構成這些Engineer的主力。雖然國內做技術自嘲為碼農,但在矽谷成為一個優秀工程師還是收獲頗豐。另一方面創業是一個永恆的話題,在Stanford有個說法空氣中都飄揚中創業的味道,一些早期員工通過上市套現又積累經驗成了天使投資,Y Combinator,各種技術forum,meetup,創業導師,都很活躍。資本的力量功不可沒,早年VC通過投資,收購,上市放大形成一個雪球效應。大家總喜歡問什麼是next big thing,哪一個是下一個facebook,下一個musk,根據統計10年能成就一個千億以上的公司,目前這個進程正在縮短。
我就拿Linkedin作為例子,介紹高科技公司(FLG)是什麼樣子。它是成立2003年的職業社交網站。在10年的發展中,也不是一下子爆發的,目前有3億的全球用戶,雖然跟Facebook,Google 10億+用戶沒法比,但是它有很好的護城河,用戶定位高端精準,單位價值高。這張照片中左邊這位是創始人Reid Hoffman,是Paypal黑幫成員,在矽谷也是呼風喚雨的大佬,目前是董事和投資人。中間這位是CEO Jeff,2013年被Glassdoor評為最佳CEO,作為職業經理人,成功幫助linkedin高速成長,他最喜歡提到transformation,希望我們每個員工能挑戰自我,在各自崗位上進化。Linkedin提供了員工很好的福利,有號稱灣區最佳的免費食堂,每個月一次的in day,hack day, 幫助員工內部創業的incumbator計劃。它特點是數據驅動的開發產品,比如 People you may know, Job you may be interested, 我做過Sponroed Ads 都是需要很強數據背景和data scientist的支持。它的Biz model也很獨特,有3個line,面向公司的招聘服務,面向廣告商的市場服務,面向個人的訂閱服務,還有最新Sales Solution,因為這么多可能性,成為華爾街的寵兒。
說矽谷,除了那些已經成功的大公司,不得不說現在最新的創業動向,這些代表了未來下一個FLG。我總結了一些領域和代表公司:雲計算(box, dropbox),大數據(cloudera),消費互聯網(pinterest),健康(fitbit),通訊(snapchat),支付(square),生活(uber)。 這里是華爾街網站更新的最新融資規模,比如Uber就達到18Billion的估值,我當時拿到offer沒去,還是覺得很瘋狂,如果細看這張表,大家可以看到矽谷(藍色)尤其是舊金山它們的融資規模遠遠大於其他地區,還是地理決定論。而在國內的兩家xiaomi,jingdong都是在北京,而最近大家看到一些泡沫論,說什麼阿里巴巴上市是否美股到頂,經緯VC創始人也提醒我們泡沫的風險,我無法判斷。如果能參與到下一波浪潮裡面去是很過癮的。我推薦大家去看看 <浪潮之巔>,<奇點臨近>,我還是很期待未來20年的技術革命。
我個人熱愛大數據,在矽谷這也是大家津津樂道的,有個笑話,big data is like teenage talking about sex, nobody know how to do it. 其實大家還是興趣驅動就好,不要那麼功利,大數據技術涉及太多,平常工作中也是慢慢積累,有無數的坑和技術細節需要克服。並不是說那個技術最熱就要用哪個,如果你用不好,你的壓力很大的,舉個例子,你用某個開源資料庫,發現它偶爾有數據丟失怎麼辦,如果這是線上服務,你不斷收到報警,這時候你當時選用它的優點 scalable,容錯性都沒意義了。接著說大數據,這裡面Hadoop作為行業標准,我面過的除了Google,微軟不用,幾乎所有的公司都在用,建議大家利用這個機會。這裡面有三巨頭,cloudera是老牌Hadoop咨詢公司,Hadoop的創始人做CTO,Hortonworks也是很多Hadoop的committee,MapR是提出hdfs的erasure 編碼方式高效而著名,它們都是融了巨資,模式也很像,先推出社區免費版,但有個商業版提供更好的管理。 而今年出現一匹黑馬,Spark,簡單說就是內存級別的計算,比Hadoop框架里能節約IO,利用緩存,能適應批處理,迭代,流式計算。
這里看一下它的生態系統,如何學Hadoop是個循序漸進過程,先要理解學習它的core系統,HDFS, MapRece, Common,在外圍有無數的系統工具方便開發,我個人用過的是 Avro作為數據格式,Zookeeper作為選主的高可靠性的組件,Solr作為搜索介面,Pig搭建工作流,Hive 數據倉庫查詢,Oozie管理工作流,HBase 作為KV 分布式存儲,mahout數據挖掘的庫,Cassandra nosql 資料庫。我建議初學的考慮Chinahadoop的課程。
而Hadoop本身也是個進化過程,幾年前0.19版本,到0.20, 0.23分流成Yarn架構最後進化成Hadoop2.0, Hadoop1.0 和 2.0 它們的介面和組件是完全不同的,但總體上Hadoop 2.0 是趨勢,因為它有Yarn這樣分離的資源管理平台,可以以插件的方式開發上面的Application,解放了生產力,而像Spark,Storm這些新型處理器也是支持Hadoop 2.0的。這里是Hortonworks它們提出來的社區版本架構,可以說標準的制定者,一流的公司制定標准,其他的公司一般用只能用它們提供的穩定版,沒有多少話語權。但從事大數據,並不見得是要去這些制定標準的公司,大量的應用也是非常考驗架構的靈活性。並且能看到實際的產品,很有成就感。
說到今年火的,還是要看Spark。從去年至今,已經開了2屆Spark大會,上千人的規模,無數人對比Hadoop 100倍的性能提升而興奮。這里說它的背景是誕生於Berkeley的Amplab,它們有個很有名的BDAS(Berkeley Data Analytics Stack),目前Spark已經成為Apache的頂級項目。去年這個實驗室的教授跟學生出去成立Databricks公司,拉到兩輪上千萬的風投,有人成Spark是Hadoop的終結者嗎?我看今年Spark大會上,所有的Hadoop大佬公司都是鼎力支持,像Cloudrea甚至放棄impala的一線支持而轉變成Spark。如果這么發展下去,星星之火可以燎原啊。它裡面用到Scala是一種函數式語言。裡面的組件也很多,有Shark支持SQL類似Hive,有Spark Streaming,MLlib,Graphx,SparkR,BlinkDB。它的核心數據結構是RDD,可以跑在各種分布式系統上。總體上是個包容性+侵略性的系統。我個人也很看好它們的發展。
2. 施凱文的介紹
施凱文,有「IT圈的金城武」之稱,現年27歲,但已經是個連續創業者。12005年開唱片公司,2008年創辦Koocu音樂網,2010年創辦Saylikes音樂網,2012年Jing.fm上線。前不久,他正式從Jing退出,又開始了全新的創業項目瞬時社交應用Blink。2之前有媒體發文章報道Blink《50天,1600萬美金A輪融資,1億美金估值,每天10萬張照片上傳量》。