『壹』 DC(DataCastle)的競賽獎金是真的么
肯定是真的啊,之前四川的一些新聞媒體也報道過。
好像已經舉辦過4次競賽了,獎金都是萬元起步~
似乎沒得到前3的隊伍有些也有相應的鼓勵,可惜我才學演算法沒多久,不然我就去了。
對自己有信心的,或者有實力的還是建議去試試~
『貳』 DataCastle和國外的kaggle有什麼區別
直觀的肯定是kaggle是一個已經成熟的數據競賽,而DC才在國內剛剛興起。但從一定角度來說,如果和國外的相比,DC也具有一定的條件了,那肯定是在DC上去做競賽好,畢竟首要的語言方面的問題就能夠克服。而且對於初次參加此類競賽,或者想練手的同學來說,DC可以是你開始做數據分析的第一步。
『叄』 DC(DataCastle)什麼時候開始正式上線的
2014年9月上線的,上線的第一個競賽是CCF的新聞瀏覽模式預測及個性化推薦~
『肆』 DataCastle這個比賽有什麼作用
通過大數據挖掘比賽能夠解決企業具體的演算法問題,通過開放數據舉辦創意比賽,採取眾籌方式徵集解決方案,對企業以及競賽者是雙贏的。
『伍』 阿里巴巴的天池大數據競賽和datacastle大數據競賽哪個好
直觀的肯定是kaggle是一個已經成熟的數據競賽,而DC才在國內剛剛興起。但從一定角度來說,如果和國外的相比,DC也具有一定的條件了,那肯定是在DC上去做競賽好,畢竟首要的語言方面的問題就能夠克服。而且對於初次參加此類競賽,或者想練手的同學來說,DC可以是你開始做數據分析的第一步。
-
『陸』 有哪些適合學生使用的論文數據收集方法
在這個用數據說話的時代,能夠打動人的往往是用數據說話的理性分析,無論是對於混跡職場的小年輕,還是需要數據進行分析和研究的同學,能夠找到合適的數據源都是非常重要的。特別是想要對一個新的領域進行研究和探索,擁有這個領域的數據那都是有十分重要的意義的。
快速找到論文數據的19個方法
來源 | DataCastle數據城堡
在這里給大家推薦一些能夠用上數據獲取方式,有了這些資源,不僅可以在數據收集的效率上能夠得到很大的提升,同時也可以學習更多思維方式。
公開的資料庫
1. 國家數據
http://data.stats.gov.cn/index.htm
數據來源於中國國家統計局,包含了我國經濟民生等多個方面的數據,並且在月度、季度、年度都有覆蓋,較為全面和權威,對於社會科學的研究不要太有幫助。最關鍵的是,網站簡潔美觀,還有專門的可視化讀物。
2.CEIC
http://www.ceicdata.com/zh-hans
最完整的一套超過128個國家的經濟數據,能夠精確查找GDP, CPI, 進口,出口,外資直接投資,零售,銷售,以及國際利率等深度數據。其中的「中國經濟資料庫」收編了300,000多條時間序列數據,數據內容涵蓋宏觀經濟數據、行業經濟數據和地區經濟數據。
3. wind(萬得)
http://www.wind.com.cn/
萬得被譽為中國的Bloomberg,在金融業有著全面的數據覆蓋,金融數據的類目更新非常快,據說很受國內的商業分析者和投資人的親睞。
4. 搜數網
http://www.soshoo.com/
已載入到搜數網站的統計資料達到7,874本,涵蓋1,761,009張統計表格和364,580,479個統計數據,匯集了中國資訊行自92年以來收集的所有統計和調查數據,並提供多樣化的搜索功能。
5.中國統計信息網
http://www.tjcn.org/
國家統計局的官方網站,匯集了海量的全國各級政府各年度的國民經濟和社會發展統計信息,建立了以統計公報為主,統計年鑒、階段發展數據、統計分析、經濟新聞、主要統計指標排行等。
6.亞馬遜aws
『柒』 如何快速成為數據分析師
接下來我們分別從每一個部分講講具體應該學什麼、怎麼學。
數據獲取:公開數據、Python爬蟲
如果接觸的只是企業資料庫里的數據,不需要要獲取外部數據的,這個部分可以忽略。
外部數據的獲取方式主要有以下兩種。
第一種是獲取外部的公開數據集,一些科研機構、企業、政府會開放一些數據,你需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。
另一種獲取外部數據費的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息,爬取租房網站上某城市的租房信息,爬取豆瓣評分評分最高的電影列表,獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據,你可以對某個行業、某種人群進行分析。
在爬蟲之前你需要先了解一些 Python 的基礎知識:元素(列表、字典、元組等)、變數、循環、函數(鏈接的菜鳥教程非常好)……以及如何用成熟的 Python 庫(urllib、BeautifulSoup、requests、scrapy)實現網頁爬蟲。如果是初學,建議從 urllib 和 BeautifulSoup 開始。(PS:後續的數據分析也需要 Python 的知識,以後遇到的問題也可以在這個教程查看)
網上的爬蟲教程不要太多,爬蟲上手推薦豆瓣的網頁爬取,一方面是網頁結構比較簡單,二是豆瓣對爬蟲相對比較友好。
掌握基礎的爬蟲之後,你還需要一些高級技巧,比如正則表達式、模擬用戶登錄、使用代理、設置爬取頻率、使用cookie信息等等,來應對不同網站的反爬蟲限制。
除此之外,常用的的電商網站、問答網站、點評網站、二手交易網站、婚戀網站、招聘網站的數據,都是很好的練手方式。這些網站可以獲得很有分析意義的數據,最關鍵的是,有很多成熟的代碼,可以參考。
數據存取:SQL語言
你可能有一個疑惑,為什麼沒有講到Excel。在應對萬以內的數據的時候,Excel對於一般的分析沒有問題,一旦數據量大,就會力不從心,資料庫就能夠很好地解決這個問題。而且大多數的企業,都會以SQL的形式來存儲數據,如果你是一個分析師,也需要懂得SQL的操作,能夠查詢、提取數據。
SQL作為最經典的資料庫工具,為海量數據的存儲與管理提供可能,並且使數據的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的數據:企業資料庫里的數據一定是大而繁復的,你需要提取你需要的那一部分。比如你可以根據你的需要提取2018年所有的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用戶的消費數據……,SQL可以通過簡單的命令幫你完成這些工作。
資料庫的增、刪、查、改:這些是資料庫最基本的操作,但只要用簡單的命令就能夠實現,所以你只需要記住命令就好。
數據的分組聚合、如何建立多個表之間的聯系:這個部分是SQL的進階操作,多個表之間的關聯,在你處理多維度、多個數據集的時候非常有用,這也讓你可以去處理更復雜的數據。
數據預處理:Python(pandas)
很多時候我們拿到的數據是不幹凈的,數據的重復、缺失、異常值等等,這時候就需要進行數據的清洗,把這些影響分析的數據處理好,才能獲得更加精確地分析結果。
比如空氣質量的數據,其中有很多天的數據由於設備的原因是沒有監測到的,有一些數據是記錄重復的,還有一些數據是設備故障時監測無效的。比如用戶行為數據,有很多無效的操作對分析沒有意義,就需要進行刪除。
那麼我們需要用相應的方法去處理,比如殘缺數據,我們是直接去掉這條數據,還是用臨近的值去補全,這些都是需要考慮的問題。
對於數據預處理,學會 pandas 的用法,應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下:
選擇:數據訪問(標簽、特定值、布爾索引等)
缺失值處理:對缺失數據行進行刪除或填充
重復值處理:重復值的判斷與刪除
空格和異常值處理:清楚不必要的空格和極端、異常數據
相關操作:描述性統計、Apply、直方圖等
合並:符合各種邏輯關系的合並操作
分組:數據劃分、分別執行函數、數據重組
Reshaping:快速生成數據透視表
概率論及統計學知識
數據整體分布是怎樣的?什麼是總體和樣本?中位數、眾數、均值、方差等基本的統計量如何應用?如果有時間維度的話隨著時間的變化是怎樣的?如何在不同的場景中做假設檢驗?數據分析方法大多源於統計學的概念,所以統計學的知識也是必不可少的。需要掌握的知識點如下:
基本統計量:均值、中位數、眾數、百分位數、極值等
其他描述性統計量:偏度、方差、標准差、顯著性等
其他統計知識:總體和樣本、參數和統計量、ErrorBar
概率分布與假設檢驗:各種分布、假設檢驗流程
其他概率論知識:條件概率、貝葉斯等
有了統計學的基本知識,你就可以用這些統計量做基本的分析了。通過可視化的方式來描述數據的指標,其實可以得出很多結論了,比如排名前100的是哪些,平均水平是怎樣的,近幾年的變化趨勢如何……
你可以使用python的包 Seaborn(python包)在做這些可視化的分析,你會輕松地畫出各種可視化圖形,並得出具有指導意義的結果。了解假設檢驗之後,可以對樣本指標與假設的總體指標之間是否存在差別作出判斷,已驗證結果是否在可接受的范圍。
python數據分析
如果你有一些了解的話,就知道目前市面上其實有很多 Python 數據分析的書籍,但每一本都很厚,學習阻力非常大。但其實真正最有用的那部分信息,只是這些書里很少的一部分。比如用 Python 實現不同案例的假設檢驗,其實你就可以對數據進行很好的驗證。
比如掌握回歸分析的方法,通過線性回歸和邏輯回歸,其實你就可以對大多數的數據進行回歸分析,並得出相對精確地結論。比如DataCastle的訓練競賽「房價預測」和「職位預測」,都可以通過回歸分析實現。這部分需要掌握的知識點如下:
回歸分析:線性回歸、邏輯回歸
基本的分類演算法:決策樹、隨機森林……
基本的聚類演算法:k-means……
特徵工程基礎:如何用特徵選擇優化模型
調參方法:如何調節參數優化模型
Python 數據分析包:scipy、numpy、scikit-learn等
在數據分析的這個階段,重點了解回歸分析的方法,大多數的問題可以得以解決,利用描述性的統計分析和回歸分析,你完全可以得到一個不錯的分析結論。
當然,隨著你實踐量的增多,可能會遇到一些復雜的問題,你就可能需要去了解一些更高級的演算法:分類、聚類,然後你會知道面對不同類型的問題的時候更適合用哪種演算法模型,對於模型的優化,你需要去學習如何通過特徵提取、參數調節來提升預測的精度。這就有點數據挖掘和機器學習的味道了,其實一個好的數據分析師,應該算是一個初級的數據挖掘工程師了。
系統實戰
這個時候,你就已經具備了數據分析的基本能力了。但是還要根據不同的案例、不同的業務場景進行實戰。能夠獨立完成分析任務,那麼你就已經打敗市面上大部分的數據分析師了。
如何進行實戰呢?
上面提到的公開數據集,可以找一些自己感興趣的方向的數據,嘗試從不同的角度來分析,看看能夠得到哪些有價值的結論。
另一個角度是,你可以從生活、工作中去發現一些可用於分析的問題,比如上面說到的電商、招聘、社交等平台等方向都有著很多可以挖掘的問題。
開始的時候,你可能考慮的問題不是很周全,但隨著你經驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度,比如top榜單、平均水平、區域分布、年齡分布、相關性分析、未來趨勢預測等等。隨著經驗的增加,你會有一些自己對於數據的感覺,這就是我們通常說的數據思維了。
你也可以看看行業的分析報告,看看優秀的分析師看待問題的角度和分析問題的維度,其實這並不是一件困難的事情。
在掌握了初級的分析方法之後,也可以嘗試做一些數據分析的競賽,比如 DataCastle 為數據分析師專門定製的三個競賽,提交答案即可獲取評分和排名:
員工離職預測訓練賽
美國King County房價預測訓練賽
北京PM2.5濃度分析訓練賽
種一棵樹最好的時間是十年前,其次是現在。現在就去,找一個數據集開始吧!!
『捌』 什麼是DataCastle
DataCastle(簡稱DC)是中國最大的數據科學競賽平台,致力於通過最優秀的數據科學家的力量解決復雜的大數據問題。
『玖』 天池大數據競賽和Kaggle,DataCastle的比較,哪個比較好
孤舟蓑笠翁,獨釣寒江雪。
『拾』 參加了國內的大數據,演算法競賽,可以得到什麼
不要抱著太功利的思想參加比賽。參加這種大型的比賽,獎勵或許很豐厚,也能夠讓自己的履歷好看點,但實際上我么你更應該看到,這場比賽給我們帶來怎樣的經歷,他能夠讓我們見識到更加開闊的世界,更多的新新聞,結識到更多有創意的人,這些寶貴的經歷才是帶給我最寶貴的財富。