




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘需要具备基础知识数据挖掘从业人员的愿景:数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色)。4:做科研:在高校、科研单位以及大型企业,主要研究算法、应用等)8:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等)C:数据分析师(在存在海量数据的企事业单位做咨询、分析等)数据挖掘从业人员切入点:根据上面的从业方向倒序并延伸来说说需要掌握的技能。C,数据分析师需要有深厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具。从这个方面切入数据挖掘领域的话你需要学习《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践》等,当然也少不了你使用的工具的对应说明书了,如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》、《EXCEL2007数据挖掘完全手册》等,如果多看一些如《中文版数据挖掘原理》等书籍那就更好了。8,程序设计开发主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但需要熟悉至少一门编程语言如(C,C++,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了解,读过《数据挖掘概念与技术》(韩家炜著)、《人工智能及其应用》。有一点了解以后,如果对程序比较熟悉的话并且时间允许,可以寻找一些开源的数据挖掘软件研究分析,也可以参考如《数据挖掘:实用机器学习技术及Java实现》等一些教程。4.做科研:这里的科研相对来说比较概括,属于技术型的相对高级级别,也是B,C的归宿,那么相应的也就需要对B、C的必备基础知识了。可能之后不会续写一篇《数据挖掘进阶》了,这边大概说一下B和C的进一步要求:B当前主要包括如下方向:企业数据挖掘、Web数据挖掘、空间数据挖掘、多媒体数据挖掘等等;C当前主要应用于:电信CRM、金融、咨询业等等;最后说一下大家有必要熟悉数据挖掘工具:Google,或许你也可以搜索到这篇文章,当然也可以搜索到人才招聘的相关职位需求以及其他资料,一如你当初搜索到DMResearch一样。磨刀不误砍柴工。在学习数据挖掘之前应该明白几点:•数据挖掘目前在中国的尚未流行开,犹如屠龙之技。•数据初期的准备通常占整个数据挖掘项目工作量的70%左右。•数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。•数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)•数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。•数据挖掘项目通常需要重复一些毫无技术含量的工作。如果你阅读了以上内容觉得可以接受,那么继续往下看。学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。一、目前国内的数据挖掘人员工作领域大致可分为三类。1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。二、说说各工作领域需要掌握的技能。⑴.数据分析师•需要有深厚的数理统计基础,但是对程序开发能力不做要求。•需要熟练使用主流的数据挖掘(或统计分析)工具如BusinessAnalyticsandBusinessIntelligenceSoftware(SAS)、SPSS、EXCEL等。•需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。•经典图书推荐:《概率论与数理统计》、《统计学》推荐DavidFreedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、«Clementine数据挖掘方法及应用》、《Excel2007VBA参考大全》、《IBMSPSSStatistics19StatisticalProceduresCompanion》等。(2).数据挖掘工程师•需要理解主流机器学习算法的原理和应用。•需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。•需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。•经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《Python标准库》、《thinkinginJava》、《ThinkinginC++》、《数据结构》等。(3).科学研究方向•需要深入学习数据挖掘的理论基础,包括关联规则挖掘(Apriori和FPTree)、分类算法(C4.5、KNN、LogisticRegression>SVM等)、聚类算法(Kmeans、SpectralClustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。相对SAS、SPSS来说R语言更适合科研人员TheRProjectforStatisticalComputing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。•可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web工程调用hadoop集群。•需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAIAssociationfortheAdvancementofArtificialIntelligence,ICDM等等;还有数据挖掘相关领域期刊:ACMTransactionsonKnowledgeDiscoveryfromData,IEEETransactionsonKnowledgeandDataEngineering,JournalofMachineLearningResearchHomepage,IEEEXplore:PatternAnalysisandMachineIntelligence,IEEETransactionson等。•可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如SigKDDKaggle:GofromBigDatatoBigAnalytics等。•可以尝试为一些开源项目贡献自己的代码,比如ApacheMahout:Scalablemachinelearninganddatamining,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目)。•经典图书推荐:《机器学习》《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《MachineLearning:AProbabilisticPerspective》《ScalingupMachineLearning:ParallelandDistributedApproaches》《DataMiningUsingSASEnterpriseMiner:ACaseStudyApproach》《PythonforDataAnalysis》等。三、以下是通信行业数据挖掘工程师的工作感受。真正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的,有了爱好才可以愿意钻研,有了不错的沟通能力,才可以正确理解业务问题,才能正确把业务问题转化成挖掘问题,才可以在相关不同专业人才之间清楚表达你的意图和想法,取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力,是很难学到的;而其他的相关专业知识谁都可以学,算不上个人发展的核心竞争力。说到这里可能很多数据仓库专家、程序员、统计师等等都要扔砖头了,对不起,我没有别的意思,你们的专业对于数据挖掘都很重要,大家本来就是一个整体的,但是作为单独一个个体的人来说,精力有限,时间有限,不可能这些领域都能掌握,在这种情况下,选择最重要的核心,我想应该是数据挖掘技能和相关业务能力吧(从另外的一个极端的例子,我们可以看,比如一个迷你型的挖掘项目,一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库,但是简单的Excel就足以胜任高打6万个样本的数据处理;他虽然不懂专业的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面说过,统计技能是应该掌握的,这对一个人的迷你项目很重要;他虽然不懂编程,但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中,一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了,甚至在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路,试问就是这个迷你项目,单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一个挖掘技术专家,都是无法胜任的)。这从另一个方面也说明了为什么沟通能力的重要,这些个完全不同的专业领域,想要有效有机地整合在一起进行数据挖掘项目实践,你说没有好的沟通能力行吗?数据挖掘能力只能在项目实践的熔炉中提升、升华,所以跟着项目学挖掘是最有效的捷径。国外学习挖掘的人都是一开始跟着老板做项目,刚开始不懂不要紧,越不懂越知道应该学什么,才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的,但是从网上的一些论坛看,很多都是纸上谈兵,这样很浪费时间,很没有效率。另外现在国内关于数据挖掘的概念都很混乱,很多BI只是局限在报表的展示和简单的统计分析,却也号称是数据挖掘;另一方面,国内真正规模化实施数据挖掘的行业是屈指可数(银行、保险公司、移动通讯),其他行业的应用就只能算是小规模的,比如很多大学都有些相关的挖掘课题、挖掘项目,但都比较分散,而且都是处于摸索阶段,但是我相信数据挖掘在中国一定是好的前景,因为这是历史发展的必然。讲到移动方面的实践案例,如果你是来自移动的话,你一定知道国内有家叫华院分析的公司(申明,我跟这家公司没有任何关系,我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司,觉得华院还不错,比很多徒有虚名的大公司来得更实际),他们的业务现在已经覆盖了绝大多数中国省级移动公司的分析挖掘项目,你上网搜索一下应该可以找到一些详细的资料吧。我对华院分析印象最深的一点就是2002年这个公司白手起家,自己不懂不要紧,一边自学一边开始拓展客户,到现在在中国的移动通讯市场全面开花,的确佩服佩服呀。他们最开始都是用EXCEL处理数据,用肉眼比较选择比较不同的模型,你可以想象这其中的艰难吧。至于移动通讯的具体的数据挖掘的应用,那太多了,比如不同话费
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年电子控制四轮驱动装置项目建议书
- 生物科技的伦理问题探讨试题及答案
- 配送中心与终端用户的优化试题及答案
- 2025年淘宝直播项目投资风险评估报告
- 《关于强化危险化学品“一件事”全链条安全管理的措施》学习解读
- CPMM考试分析及试题答案
- 2024年CPMM知识积累中的策略与方法试题及答案
- 统编版语文五年级下册习作《写读后感》精美课件
- 供应链项目管理的基本原则试题及答案
- 江苏如皋市江安镇中心中学2025届高三下学期第六次检测化学试卷含解析
- 4.家乡交通问题研究
- 教科版小学科学六年级下册《认识星座》教学设计
- 场地运营计划方案
- 2023中宣部直属单位公开招聘16人笔试参考题库(共500题)答案详解版
- 10以内加减法口算题(13套100道题直接打印)
- 高中数学培优讲义练习(必修二):综合测试卷:必修二全册(基础篇)(教师版)
- 作文纸(网格600字A4)
- 彩钢板施工工艺
- 《思想道德与法治》绪论
- 公司证照管理PPT
- 烟草公司烟草局招聘历年面试题集锦总结
评论
0/150
提交评论