




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
七步精通Python机器学习主题数据挖掘Python开始。这是最容易令人丧失斗志的两个字。迈出第一步通常最艰难。当可以选择的方向太多时,就更让人两腿发软了。从哪里开始?本文旨在通过七个步骤,使用全部免费的线上资料,帮助新人获取最基本的Python机器学习知识,直至成为博学的机器学习实践者。这篇概述的主要目的是带领读者接触众多免费的学习资源。这些资源有很多,但哪些是最好的?哪些相互补充?怎样的学习顺序才最好?我假定本文的读者不是以下任何领域的专家:▪
机器学习▪
Python
▪
任何Python的机器学习、科学计算、数据分析库如果你有前两个领域其一或全部的基础知识,可能会很有帮助,但这些也不是必需的。在下面几个步骤中的前几项多花点时间就可以弥补。第一步:基本Python技能
如果要使用Python进行机器学习,拥有对Python有基础的理解非常关键。幸运的是,Python是当前普遍使用的流行语言,并纳入了科学计算和机器学习的内容,所以找到入门教程并不困难。在选择起点时,很大程度上要取决于你之前的Python经验和编程经验。首先要安装Python。由于我们要使用机器学习和科学计算的packages,这里建议安装Anaconda。Anaconda是一个可在Linux,OSX,Windows上运行的Python实现工具,拥有所需的机器学习packages,包括numpy,scikit-learn,matplotlib。它还包含iPythonNotebook,一个带有许多教程的交互式环境。这里推荐使用Python2.7,不是因为特殊原因,只是因为它是目前安装版本中的主流。如果你之前没有编程知识,建议你阅读这本免费电子书,然后再接触其他学习材料:▪
PythonTheHardWay作者ZedA.Shaw
如果你之前有编程知识,但不是Python的,又或者你的Python水平很基础,推荐下列一种或几种教程:▪
GoogleDevelopersPythonCourse((强烈推荐给视觉型学习者)▪
AnIntroductiontoPythonforScientificComputing(fromUCSBEngineering)作者M.ScottShell(一个很好的Python科学计算简介,60页)
对于想要速成课程的人,这里有:▪
LearnXinYMinutes(X=Python)当然,如果你是个经验丰富的Python程序员,可以跳过这一步。尽管如此,还是建议你把通俗易懂的
Pythondocumentation
放在手边。
第二步:机器学习基础技能KDnuggets的ZacharyLipton指出,人们对于“数据科学家”的认知千差万别。这实际上是对机器学习领域的反映。数据科学家在不同程度上使用计算学习算法。要建立和使用支持向量机模型,熟知核函数方法是否是必需的?答案当然不是。就像现实生活中的许多事情一样,所需要的理论深入程度与具体的实际应用有关。获取对机器学习算法的深入理解不是本文的讨论范围,而且这通常需要在学术领域投入大量时间,或者至少要通过密集的自学才能达到。好消息是,你不必拥有博士级别的机器学习理论能力才能进行实践,就如同不是所有程序员都必须接受计算机理论教育才能写好代码。吴恩达在Coursera的课程饱受赞誉。但我的建议是去看看一名以前的学生做的笔记。略过那些针对Octave(一个与Python无关的,类Matlab语言)的内容。需要注意,这些不是“官下面是scikit-learn的入门教程。在进行下一个步骤之前,推荐做完下列全部教程。对于scikit-learn的整体介绍,它是Python最常用的通用机器学习库,包含knn最近邻算法:▪
AnIntroductiontoscikit-learn作者JakeVanderPlas
更深入更宽泛的介绍,包含一个新手项目,从头到尾使用一个著名的数据集:▪
ExampleMachineLearningNotebook作者RandalOlson
专注于scikit-learn中评估不同模型的策略,涉及训练集/测试集拆分:▪
ModelEvaluation作者KevinMarkham
第五步:Python机器学习主题在scikit-learn打下基础以后,我们可以探索更多有用的常见算法。让我们从最知名的机器学习算法之一,k-means聚类开始。对于无监督学习问题,k-means通常简单有效:▪
k-meansClustering作者JakeVanderPlas
接下来是分类,让我们看看史上最流行的分类方法之一,决策树:▪
DecisionTreesvia
TheGrimmScientist分类之后,是连续数字变量的预测:▪
LinearRegression作者JakeVanderPlas
通过逻辑斯蒂回归,我们可以用回归解决分类问题:▪
LogisticRegression作者KevinMarkham
第六步:Python高级机器学习接触过scikit-learn,现在让我们把注意力转向更高级的内容。首先是支持向量机,一个无需线性的分类器,它依赖复杂的数据转换,把数据投向高维空间。▪
SupportVectorMachines作者JakeVanderPlas
接下来是随机森林,一种集成分类器。下面的教程通过
KaggleTitanicCompetition讲解。
▪
KaggleTitanicCompetition(withRandomForests)作者DonneMartin
降维是一种减少问题涉及的变量数目的方法。PCA主成分分析是一种无监督学习降维的特殊形式:▪
DimensionalityReduction作者JakeVanderPlas
在开始下一步之前,可以暂停一下,回想我们在短短的时间已经走了多远。通过使用Python和它的机器学习库,我们涵盖了一些最常用最知名的机器学习算法(knn最近邻,k-means聚类,支持向量机),了解了一种强有力的集成方法(随机森林),涉及了一些其他机器学习支持方案(降维,模型验证技巧)。在一些基础机器学习的技巧的帮助下,我们开始有了一个渐渐丰富的工具箱。在结束以前,让我们给工具箱增加一个需求很大的工具:第七步
:Python深度学习学习,深深地。到处都在深度学习!深度学习基于过去几十年的神经网络研究,但最近几年的发展大大增加了深度神经网络的能力和对于它的兴趣。如果你不熟悉深度学习,KDnuggets有许多文章
,详细介绍最近的进展、成果,以及对这项技术的赞誉。
本文的最后一部分并不想成为某种深度学习示范教程。我们会关注基于两个Python深度学习库的简单应用。对于想了解更多的读者,我推荐下面这本免费在线书:▪
NeuralNetworksandDeepLearning作者
MichaelNielsenTheanoTheano是我们关注的第一个Python深度学习库。根据作者所说:作为一个Python库,Theano让你可以有效定义、优化、评估包含多维数组的数学表达式。下面的Theano深度学习教程很长,但非常不错,描述详细,有大量评论:▪
TheanoDeepLearningTutorial作者
ColinRaffelCaffe我们关注的另一个库是Caffe。根据它的作者所说:Caffe是一个深度学习框架。开发过程中时刻考虑着表达式、速度、模型。它是由BerkeleyVisionandLearningCenter(BVLC)和社区贡献者共同开发的。这个教程是本文的压轴。尽管上面列举了一些有趣的案例,没有那个比得上下面这个:用Caffe实现Google的#DeepDrea
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年管业:地暖专用管合作协议书
- 2025年PURL系列反应型皮革用聚氨酯乳液合作协议书
- 河北省枣强县枣强中学2025届高考仿真卷化学试卷含解析
- 2025届柳州铁路第一中学高三第四次模拟考试化学试卷含解析
- 陕西艺术职业学院《广播电视编导概论》2023-2024学年第二学期期末试卷
- 陕西西安市交大附中2025年初三第一次中考模拟考试化学试题含解析
- 随州职业技术学院《土木工程施工A》2023-2024学年第二学期期末试卷
- 集美大学诚毅学院《仿真》2023-2024学年第二学期期末试卷
- 青岛农业大学《英语阅读(4)》2023-2024学年第二学期期末试卷
- 青岛求实职业技术学院《公共英语》2023-2024学年第二学期期末试卷
- 《让子弹飞》电影赏析
- 科技成果技术成熟度评估规范
- DB11T 388-2015 城市景观照明技术规范(1~8部分)
- 西方文论概览(第二版)-第五章课件
- 基础工程复习资料
- 钢铁项目环评报告 - 17结论与建议
- 数列的概念(第一课时)教案高二数学(人教A版2019选择性必修第二册)
- 铲车司机雇佣合同范本
- 江苏省南京市鼓楼区2023-2024学年五年级下学期期末检测语文试卷
- 2024年山东省济南市莱芜区中考一模数学试题(含答案解析) (二)
- (高清版)JTG 3363-2019 公路桥涵地基与基础设计规范
评论
0/150
提交评论