❶ 国内做数据挖掘的有哪些公司
北京九辰科技有限公司就是做这行的。
❷ 如何系统地学习数据挖掘
首先,你要理解什么是数据挖掘:
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色)。
A:做科研(在高校、科研单位以及大型企业,主要研究算法、应用等)
B:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等)
C:数据分析师(在存在海量数据的企事业单位做咨询、分析等)
2.数据挖掘从业人员切入点,不同职业需要的学习课程不同:
根据上面的从业方向倒序并延伸来说说需要掌握的技能。
C,数据分析师:需要有深厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具。从这个方面切入数据挖掘领域的话你需要学习:
《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践》、《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》、《EXCEL 2007数据挖掘完全手册》、《中文版 数据挖掘原理》 。
B,程序设计开发:主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但需要熟悉至少一门编程语言如(C,C++,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了解,需要学习:
《数据挖掘概念与技术》(韩家炜著)、《人工智能及其应用》、《数据挖掘:实用机器学习技术及 Java实现》。
A.做科研:这里的科研相对来说比较概括,属于技术型的相对高级级别,也是B,C的归宿,那么相应的也就需要对B、C的必备基础知识了。学习:
《数据挖掘进阶》
这边大概说一下B和C的进一步要求:
B当前主要包括如下方向:企业数据挖掘、Web数据挖掘、空间数据挖掘、多媒体数据挖掘等等;
C当前主要应用于:电信CRM、金融、咨询业等等;
最后说一下大家有必要熟悉数据挖掘工具:Google ,或许你也可以搜索到这篇文章,当然也可以搜索到人才招聘的相关职位需求以及其他资料,一如你当初搜索到 DMResearch 一样。
❸ 如何系统地学习数据挖掘
磨刀不误砍柴工。在学习数据挖掘之前应该明白几点: 数据挖掘目前在中国的尚未流行开,犹如屠龙之技。 数据初期的准备通常占整个数据挖掘项目工作量的70%左右。 数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。 数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效) 数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。 数据挖掘项目通常需要重复一些毫无技术含量的工作。 如果你阅读了以上内容觉得可以接受,那么继续往下看。 学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技 术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合 行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想 要面面俱到,这样会失去你的核心竞争力。 一、目前国内的数据挖掘人员工作领域大致可分为三类。 1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。 2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。 3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。 二、说说各工作领域需要掌握的技能。 (1).数据分析师 需要有深厚的数理统计基础,但是对程序开发能力不做要求。 需要熟练使用主流的数据挖掘(或统计分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。 需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。 经 典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Proceres Companion》等。 (2).数据挖掘工程师 需要理解主流机器学习算法的原理和应用。 需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。 需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapRece的原理操作以及熟练使用Hadoop系列工具更好。 经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。 (3).科学研究方向 需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。 相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。 可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。 需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。 可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。 可以尝试为一些开源项目贡献自己的代码,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目)。 经 典图书推荐:《机器学习》 《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。 三、以下是通信行业数据挖掘工程师的工作感受。 真 正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的,有了爱好才可以愿意钻研,有了不错的沟通能力,才可以正确理解业务问题,才能正确把 业务问题转化成挖掘问题,才可以在相关不同专业人才之间清楚表达你的意图和想法,取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的 核心竞争力,是很难学到的;而其他的相关专业知识谁都可以学,算不上个人发展的核心竞争力。 说到这里可能很多数据仓库专家、程序员、统计 师等等都要扔砖头了,对不起,我没有别的意思,你们的专业对于数据挖掘都很重要,大家本来就是一个整体的,但是作为单独一个个体的人来说,精力有限,时间 有限,不可能这些领域都能掌握,在这种情况下,选择最重要的核心,我想应该是数据挖掘技能和相关业务能力吧(从另外的一个极端的例子,我们可以看, 比如一个迷你型的挖掘项目,一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库,但是简单的Excel就足以胜任高打6万个样本 的数据处理;他虽然不懂专业的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面说过,统计技能是应该掌握的,这对一个人的迷你项目 很重要;他虽然不懂编程,但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中,一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了,甚至 在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路,试问就是这个迷你项目,单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技 师、甚至单纯的一个挖掘技术专家,都是无法胜任的)。这从另一个方面也说明了为什么沟通能力的重要,这些个完全不同的专业领域,想要有效有机地整合在一起 进行数据挖掘项目实践,你说没有好的沟通能力行吗? 数据挖掘能力只能在项目实践的熔炉中提升、升华,所以跟着项目学挖掘是最有效的捷径。 国外学习挖掘的人都是一开始跟着老板做项目,刚开始不懂不要紧,越不懂越知道应该学什么,才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的, 但是从网上的一些论坛看,很多都是纸上谈兵,这样很浪费时间,很没有效率。 另外现在国内关于数据挖掘的概念都很混乱,很多BI只是局限在 报表的展示和简单的统计分析,却也号称是数据挖掘;另一方面,国内真正规模化实施数据挖掘的行业是屈指可数(银行、保险公司、移动通讯),其他行业的应用 就只能算是小规模的,比如很多大学都有些相关的挖掘课题、挖掘项目,但都比较分散,而且都是处于摸索阶段,但是我相信数据挖掘在中国一定是好的前景,因为 这是历史发展的必然。 讲到移动方面的实践案例,如果你是来自移动的话,你一定知道国内有家叫华院分析的公司(申明,我跟这家公司没有任何 关系,我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司,觉得华院还不错,比很多徒有虚名的大公司来得更实际),他们的业务现在已经覆 盖了绝大多数中国省级移动公司的分析挖掘项目,你上网搜索一下应该可以找到一些详细的资料吧。我对华院分析印象最深的一点就是2002年这个公司白手起 家,自己不懂不要紧,一边自学一边开始拓展客户,到现在在中国的移动通讯市场全面开花,的确佩服佩服呀。他们最开始都是用EXCEL处理数据,用肉眼比较 选择比较不同的模型,你可以想象这其中的艰难吧。 至于移动通讯的具体的数据挖掘的应用,那太多了,比如不同话费套餐的制订、客户流失模 型、不同服务交叉销售模型、不同客户对优惠的弹性分析、客户群体细分模型、不同客户生命周期模型、渠道选择模型、恶意欺诈预警模型,太多了,记住,从客户 的需求出发,从实践中的问题出发,移动中可以发现太多的挖掘项目。最后告诉你一个秘密,当你数据挖掘能力提升到一定程度时,你会发现无论什么行业,其实数 据挖掘的应用有大部分是重合的相似的,这样你会觉得更轻松。 四、成为一名数据科学家需要掌握的技能图。(原文:Data Science: How do I become a data scientist?)
❹ 如何系统地学习数据挖掘
磨刀不误砍柴工。在学习数据挖掘之前应该明白几点:
数据挖掘目前在中国的尚未流行开,犹如屠龙之技。
数据初期的准备通常占整个数据挖掘项目工作量的70%左右。
数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。
数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)
数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。
数据挖掘项目通常需要重复一些毫无技术含量的工作。
如果你阅读了以上内容觉得可以接受,那么继续往下看。
学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。
一、目前国内的数据挖掘人员工作领域大致可分为三类。
1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。
2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。
二、说说各工作领域需要掌握的技能。
(1).数据分析师
需要有深厚的数理统计基础,但是对程序开发能力不做要求。
需要熟练使用主流的数据挖掘(或统计分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。
经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Proceres Companion》等。
(2).数据挖掘工程师
需要理解主流机器学习算法的原理和应用。
需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。
需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapRece的原理操作以及熟练使用Hadoop系列工具更好。
经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。
(3).科学研究方向
需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。
相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。
可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。
需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
可以尝试为一些开源项目贡献自己的代码,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目)。
经典图书推荐:《机器学习》 《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
三、以下是通信行业数据挖掘工程师的工作感受。
真正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的,有了爱好才可以愿意钻研,有了不错的沟通能力,才可以正确理解业务问题,才能正确把业务问题转化成挖掘问题,才可以在相关不同专业人才之间清楚表达你的意图和想法,取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力,是很难学到的;而其他的相关专业知识谁都可以学,算不上个人发展的核心竞争力。
说到这里可能很多数据仓库专家、程序员、统计师等等都要扔砖头了,对不起,我没有别的意思,你们的专业对于数据挖掘都很重要,大家本来就是一个整体的,但是作为单独一个个体的人来说,精力有限,时间有限,不可能这些领域都能掌握,在这种情况下,选择最重要的核心,我想应该是数据挖掘技能和相关业务能力吧(从另外的一个极端的例子,我们可以看, 比如一个迷你型的挖掘项目,一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库,但是简单的Excel就足以胜任高打6万个样本的数据处理;他虽然不懂专业的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面说过,统计技能是应该掌握的,这对一个人的迷你项目很重要;他虽然不懂编程,但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中,一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了,甚至在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路,试问就是这个迷你项目,单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一个挖掘技术专家,都是无法胜任的)。这从另一个方面也说明了为什么沟通能力的重要,这些个完全不同的专业领域,想要有效有机地整合在一起进行数据挖掘项目实践,你说没有好的沟通能力行吗?
数据挖掘能力只能在项目实践的熔炉中提升、升华,所以跟着项目学挖掘是最有效的捷径。国外学习挖掘的人都是一开始跟着老板做项目,刚开始不懂不要紧,越不懂越知道应该学什么,才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的,但是从网上的一些论坛看,很多都是纸上谈兵,这样很浪费时间,很没有效率。
另外现在国内关于数据挖掘的概念都很混乱,很多BI只是局限在报表的展示和简单的统计分析,却也号称是数据挖掘;另一方面,国内真正规模化实施数据挖掘的行业是屈指可数(银行、保险公司、移动通讯),其他行业的应用就只能算是小规模的,比如很多大学都有些相关的挖掘课题、挖掘项目,但都比较分散,而且都是处于摸索阶段,但是我相信数据挖掘在中国一定是好的前景,因为这是历史发展的必然。
讲到移动方面的实践案例,如果你是来自移动的话,你一定知道国内有家叫华院分析的公司(申明,我跟这家公司没有任何关系,我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司,觉得华院还不错,比很多徒有虚名的大公司来得更实际),他们的业务现在已经覆盖了绝大多数中国省级移动公司的分析挖掘项目,你上网搜索一下应该可以找到一些详细的资料吧。我对华院分析印象最深的一点就是2002年这个公司白手起家,自己不懂不要紧,一边自学一边开始拓展客户,到现在在中国的移动通讯市场全面开花,的确佩服佩服呀。他们最开始都是用EXCEL处理数据,用肉眼比较选择比较不同的模型,你可以想象这其中的艰难吧。
至于移动通讯的具体的数据挖掘的应用,那太多了,比如不同话费套餐的制订、客户流失模型、不同服务交叉销售模型、不同客户对优惠的弹性分析、客户群体细分模型、不同客户生命周期模型、渠道选择模型、恶意欺诈预警模型,太多了,记住,从客户的需求出发,从实践中的问题出发,移动中可以发现太多的挖掘项目。最后告诉你一个秘密,当你数据挖掘能力提升到一定程度时,你会发现无论什么行业,其实数据挖掘的应用有大部分是重合的相似的,这样你会觉得更轻松。
❺ 聚商圈邀请一号店副总裁张高峰老师讲解传统企业如何互联网转型,课程主要讲了什么呢
互联网改变了人们的生活习惯,对很多传统行业形成明显冲击,企业家们都迫切地想知道,在新的经济形势下自己的企业到底该如何拥抱互联网,是互联网+应该还是+互联网?
9月3日—4日,聚商圈《互联网思维与传统企业转型》总裁班在北京隆重开幕,大咖级导师张高峰亲临授课指导,来自全国各地各行各业的百余名企业家相聚在此,共享互联网思维与企业转型盛宴。由于主题内容与时代的契合度极高,很多人都是早早的来到现场报道,全场座无虚席。
张高峰,聚商圈转型升级创业导师,现任1号店副总裁,曾在华院分析任研究总监,大数据技术与应用领域的资深专家,曾四年多领导阿里巴巴B2B的BI工作。
在互联网快速颠覆传统行业的年代里,绝大多数企业都深感升级、创新和转型的压力,他(她)们其实非常明白趋势----他们已经不想听理论,而是要实战、接地气、可验证的落地工具。张高峰老师说,互联网的到来其实并不可怕,因为商业的本质没有改变。经商的本质从来都是利他的。自利则生,利他则久。对他人有价值,然后自己顺便赚点钱;如果做生意刚开始就是准备自己挣钱,那么生意做不大。
张高峰老师说:想做互联网企业,想要做互联网+、或者是+互联网,你都必须要了解互联网企业是怎么做的,要了解互联网的历史,互联网的发展,你才能看的出互联网的本质。互联网的存在就是加深人与人之间的连接,只有把这个弄清楚了,才知道我们传统企业应该如何更好的拥抱互联网。“平等、开放、共享、联接”这就是互联网精神!
从人工智能之父图灵到乔布斯、比尔盖茨,从互联网1.0讲到互联网2.0,从谷歌、雅虎到1号店、雕爷牛腩,通过一个个鲜活的案例和故事将这些深奥、晦涩的术语讲得通俗易懂。随后,张高峰老师又用互联网企业韩都衣舍和传统企业成功转型互联网化的海尔集团为大家做深入的剖析,每个案例都做了全方位解读,切肤之痛,刀刀见血。在场所有人都听得得痛快淋漓,积极的做着笔记,跟着老师在互联网的发展史中,来回穿越着。
互联网的本质到底是什么?
什么是互联网+?什么是+互联网?
传统企业拥抱互联网有哪几种模式?
未来,互联网将会被物联网所替代?
所有的在转型过程中遇到的问题、难题都在课堂上找到了科学的答案。张高峰老师说,互联网的本质就是连接。所有传统企业拥抱互联网在PC时代不等于建网站,在移动互联网时代不等于开发APP,转型要理解连接的精髓。如果你的网站没有被连入别人的网站当中,那么网站就是死网站,如果APP不能连接到用户的手机当中,那么这个APP也是一个没有活力的APP,因为它不符合互联网生物进化的过程。
张高峰老师说,现在互联网已经从PC端进入了移动端,目前有9成的人已经进入了移动互联网的时代,移动互联网就是要有更多的链接,每天每人平均花在手机上的时间将近3小时,我们睁开眼的第一时间是找手机,睡觉前的时间是关手机。现在数据正在以光的速度,打破时间、空间的阻隔在移动端进行传播。移动互联网可以连接一切!传统企业如何转型,互联网思维我们需要去感受,去学习。
在场企业家纷纷表示,关于互联网转型,之前是一个非常模糊的概念,从来没有接受过如此高专业度的学习,但今天从互联网发展史上去了解互联网,对互联网本身有了一个前所未有的全新认识,在今后的转型道路上也会有更加清晰的指导意义。在场企业家听完课都醍醐灌顶、如沐春风。正如九月的北京,晴空万里,澄澈如洗。
现如今,很多企业虽然已经把转型升级上升到战略层面,但是对于互联网的本质、互联网思维如何让转型落地等问题依旧处于摸着石头过河的阶段,两天一夜的课程势必对今后的转型之路起到清晰、明确的指导意义。
❻ 华院分析怎么样
你参考下 .
华院分析技术(上海)有限公司
项目经理/数据分析师 | 8001-10000元/月 本科3年工作经验
专业服务(咨询/财会/法律等) | 民营 | 100-499人
❼ 支付宝为啥转款华院分析技术
支付宝与这个软件公司进行了技术合作,一定是购买了技术服务,才会有资金流动。
❽ 如何系统地学习数据挖掘
磨刀不误砍柴工。在学习数据挖掘之前应该明白几点:
数据挖掘目前在中国的尚未流行开,犹如屠龙之技。
数据初期的准备通常占整个数据挖掘项目工作量的70%左右。
数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。
数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)
数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。
数据挖掘项目通常需要重复一些毫无技术含量的工作。
如果你阅读了以上内容觉得可以接受,那么继续往下看。
学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技
术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合
行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想
要面面俱到,这样会失去你的核心竞争力。
一、目前国内的数据挖掘人员工作领域大致可分为三类。
1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。
2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。
二、说说各工作领域需要掌握的技能。
(1).数据分析师
需要有深厚的数理统计基础,但是对程序开发能力不做要求。
需要熟练使用主流的数据挖掘(或统计分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。
经
典图书推荐:《概率论与数理统计》、《统计学》推荐David
Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用
》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Proceres
Companion》等。
(2).数据挖掘工程师
需要理解主流机器学习算法的原理和应用。
需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。
需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapRece的原理操作以及熟练使用Hadoop系列工具更好。
经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。
(3).科学研究方向
需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。
相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。
可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。
需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
可以尝试为一些开源项目贡献自己的代码,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目)。
经
典图书推荐:《机器学习》
《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine
Learning: A Probabilistic Perspective》《Scaling up Machine Learning :
Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise
Miner : A Case Study Approach》《Python for Data Analysis》等。
三、以下是通信行业数据挖掘工程师的工作感受。
真
正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的,有了爱好才可以愿意钻研,有了不错的沟通能力,才可以正确理解业务问题,才能正确把
业务问题转化成挖掘问题,才可以在相关不同专业人才之间清楚表达你的意图和想法,取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的
核心竞争力,是很难学到的;而其他的相关专业知识谁都可以学,算不上个人发展的核心竞争力。
说到这里可能很多数据仓库专家、程序员、统计
师等等都要扔砖头了,对不起,我没有别的意思,你们的专业对于数据挖掘都很重要,大家本来就是一个整体的,但是作为单独一个个体的人来说,精力有限,时间
有限,不可能这些领域都能掌握,在这种情况下,选择最重要的核心,我想应该是数据挖掘技能和相关业务能力吧(从另外的一个极端的例子,我们可以看,
比如一个迷你型的挖掘项目,一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库,但是简单的Excel就足以胜任高打6万个样本
的数据处理;他虽然不懂专业的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面说过,统计技能是应该掌握的,这对一个人的迷你项目
很重要;他虽然不懂编程,但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中,一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了,甚至
在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路,试问就是这个迷你项目,单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技
师、甚至单纯的一个挖掘技术专家,都是无法胜任的)。这从另一个方面也说明了为什么沟通能力的重要,这些个完全不同的专业领域,想要有效有机地整合在一起
进行数据挖掘项目实践,你说没有好的沟通能力行吗?
数据挖掘能力只能在项目实践的熔炉中提升、升华,所以跟着项目学挖掘是最有效的捷径。
国外学习挖掘的人都是一开始跟着老板做项目,刚开始不懂不要紧,越不懂越知道应该学什么,才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的,
但是从网上的一些论坛看,很多都是纸上谈兵,这样很浪费时间,很没有效率。
另外现在国内关于数据挖掘的概念都很混乱,很多BI只是局限在
报表的展示和简单的统计分析,却也号称是数据挖掘;另一方面,国内真正规模化实施数据挖掘的行业是屈指可数(银行、保险公司、移动通讯),其他行业的应用
就只能算是小规模的,比如很多大学都有些相关的挖掘课题、挖掘项目,但都比较分散,而且都是处于摸索阶段,但是我相信数据挖掘在中国一定是好的前景,因为
这是历史发展的必然。
讲到移动方面的实践案例,如果你是来自移动的话,你一定知道国内有家叫华院分析的公司(申明,我跟这家公司没有任何
关系,我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司,觉得华院还不错,比很多徒有虚名的大公司来得更实际),他们的业务现在已经覆
盖了绝大多数中国省级移动公司的分析挖掘项目,你上网搜索一下应该可以找到一些详细的资料吧。我对华院分析印象最深的一点就是2002年这个公司白手起
家,自己不懂不要紧,一边自学一边开始拓展客户,到现在在中国的移动通讯市场全面开花,的确佩服佩服呀。他们最开始都是用EXCEL处理数据,用肉眼比较
选择比较不同的模型,你可以想象这其中的艰难吧。
至于移动通讯的具体的数据挖掘的应用,那太多了,比如不同话费套餐的制订、客户流失模
型、不同服务交叉销售模型、不同客户对优惠的弹性分析、客户群体细分模型、不同客户生命周期模型、渠道选择模型、恶意欺诈预警模型,太多了,记住,从客户
的需求出发,从实践中的问题出发,移动中可以发现太多的挖掘项目。最后告诉你一个秘密,当你数据挖掘能力提升到一定程度时,你会发现无论什么行业,其实数
据挖掘的应用有大部分是重合的相似的,这样你会觉得更轻松。
四、成为一名数据科学家需要掌握的技能图。(原文:Data Science: How do I become a data scientist?)
❾ 求数据分析、数据挖掘公司推荐,类似华院分析等
瑞尼尔,埃森哲,尼尔森,做数据分析都挺猛的~~
有好多咨询公司都会招一些数据分析的,你上网仔细看吧