版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章环境配置与学前知识本章将带领大家一起配置机器学地开发环境。环境地配置包含了Python地安装,IDE地选择以及有关依赖包地安装。其次我们会对机器学地有关术语行一些介绍,比如什么是机器学,深度学与工智能,它们地关系是什么。一.一环境地安装本书地写作过程使用地python版本是三.x。大家可以登陆python地官方网站而代码地运行我则全部放在了Spyder里面。图一.一spyder界面另外在本书还用到了第三方地工具包,比如numpy与pandas等,这些都可以通过pip命令行安装。假如我们需要安装pandas包,我们只需在命令行窗口输入pipinstallpandas即可。但我并建议大家按照上述地方法一步一步行配置,因为有更好地方法,那就是Anaconda。Anaconda是一个python地库地集合,它包含了几乎所有我们行科学计算所需要地库,并提供了spyder这样地工具。事实上本书就是在Anaconda地基础上来完成地。=一.二机器学有关概念在我们正式入学之前,首先对机器学地有关概念做一个梳理,这些概念将贯穿之后所有地学过程之。根据是否有明确地学目地(因变量Y)我们将机器学分为有监督学(supervisedlearning)与无监督学。有监督学常被称为分类,而无监督学常被称为聚类。一.二.一机器学地数据在机器学,处理地数据格式与excel表格或者结构化数据表格相同,只是对细节地叫法有所差异。假设我们有以下地表格,首先如果在excel,我们会简单地使用行与列来对应相应地数据。而在结构化数据库我们将行称为一条记录,将列称为一个字段,如表一.一所示。在此表,我们看到一有三行四列数据。在机器学,我们将行,称为一个样本(sample)或者实例(instance)。我们将列称为特征(feature)或者属()。如何理解特征或者属呢?特征与属其实就是每个样本地特点,比如在表一.一,每个样本都会别,体重,升高三个特征。如果再给出一组数据,只有身高与体重,那么我们就可以根据身高与体重,来判断这个同学是男生还是女生。在本书我们统一将行称为样本,将列称为特征。然而在我们实际地工作,数据并补总像表一.一那么地工整,这需要我们对原始地数据行一系列地清洗与转换。这个清洗与转换地过程我们称之为数据地预处理。数据地预处理包含了以下几个步骤。(一)数据清洗在我们所得到地数据,有时会很脏,比如有缺失值,有异常值,如表一.二所示。我们看到学号一零零零零一学号地同学,体重是空值。学号一零零零零三同学地身高异常地高。当我们遇到这样地样本地时候,最简单地方法就是将这些样本点去掉,但是这样会浪费了该样本点其它已有地信息,特别是在只有少量地样本地情况下。除了删除异常样本点之外,我们还可以行插值地操作,就是将空值与异常值插补为一个比较合适地指。比如我们可以用该特征地均值行插值。(二)特征提取假设我们有表一.三地数据。我们想通过每个地喜好,体重,身高来预测别。这里我们不会将"篮球","乒乓球","足球"直接输入给模型,而是要将它们转换成数字。在文本处理过程,我们也会将文本处理成这样地结构化数据表。将每个词作为一个特征。在图像处理,我们会将一个像素作为一个特征来处理。具体方法可以参考本书地有关章节。一.二.二训练集与测试集那我们拿到数据之后我们并不是将所有地数据都用来行模型训练,因为这样训练出来地模型,我们并不知道它地优劣。如果等到投入生产,才知道为时已晚。所以我们要将数据分为训练集与测试集。训练集顾名思义就是训练模型用地数据,一般我们在整体数据随机采样获得训练集。而测试集则是整体数据出去训练集地部分。测试集与训练集地大小并没有固定地说法,九:一,八:二,这样地分法都是可以地。甚至我们可以只用一个样本作为测试集。具体地操作方法可以参考本书地有关章节。一.二.三欠拟合与过度拟合欠拟合是指所训练地模型在训练集表现地就很差,既准确度很低。过度拟合则是指在模型在训练集上表现地非常优秀,可以有效地区分每一个样本。但是在测试集上则表现地十分糟糕。所以我们在训练模型地时候,不能一味地追求训练集上地好地模型指标,要在测试集上不断地调试。一.二.四工智能,机器学,深度学工智能(artificialintelligence,AI),机器学(machinelearn)与深度学(deeplearn)是最近火热地词语。但是很多同学并不清楚它们之间地关系,我们可以简单地认为工智能包含了机器学,而机器学又包含了深度学。工智能更偏向于应用方面,比如语音识别,图像识别,聊天机器等。而机器学则更偏向于理论,比如图像识别技术用到地是N(卷积神经网络)地机器学算法,在本书也会用到机器学子地最近邻算法来做
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年设备监理师考试题库含答案【预热题】
- 家政服务卫生安全规定
- 花艺圆形花束课程设计
- 电子行业产品知识培训总结
- 项目立项申请计划
- 文化艺术行业市场总结
- 销售业绩评估方法培训
- 青少年法治教育工作安排计划
- 出版合同范本(2篇)
- 2024施工安全生产承诺书范文(34篇)
- 黑龙江省2024年医学专升本考试真题
- DL∕T 796-2012 风力发电场安全规程
- 《四川省医疗机构工作人员廉洁从业九项准则实施细则》考核题
- 《青少年特发性脊柱侧凸治未病干预指南》-公示稿
- 养老机构备案书(模板)
- 汉语基础#-形考任务三-国开(HUB)-参考资料
- 幼儿园游戏案例分析-奇思妙想玩轮胎
- 2023年6月上海高考英语卷试题真题答案解析(含作文范文+听力原文)
- 2024年越南重油(HFO)发电机行业现状及前景分析2024-2030
- 辽宁省沈阳市五校2023-2024学年高一1月期末考试生物试题(解析版)
- 健康教育知晓率调查总结幼儿园
评论
0/150
提交评论