版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类问题和回归问题一、回归问题和分类问题的区别区别简单概括为上图,具体举例如下:机器学习的思想和教小孩一样,拿识物卡片给她,告诉她这是猫、这是狗、这是苹果...,下次遇到真猫真狗的时候你问她这是啥,如果她准确说出这是猫还是狗还是苹果,那么这个小孩训练成功了。那么机器学习就是把机器当小孩,给它一些历史数据,告诉机器,这些数据是什么,然后再给它一些新数据,让它告诉你新数据是什么。你给它数据并且教它的过程就是训练过程,它告诉你新数据是什么的过程是测试过程。好的机器学习模型要求测试集和训练集数据表征不同、本质相同,希望模型在没见过的数据上有良好的表现。分类问题:输入数据后输出为数据所代表的类别,例如水果分类器,输入一个苹果它能告诉你这是苹果(归到苹果这一类),输入一个香蕉它告诉你这是香蕉(归到苹果这一类),使用分类准确率来度量分类模型的好坏。(准确率=分类正确的样本数/测试集的样本数)回归问题:输入数据后输出为预测值,例如房价走势曲线拟合问题(房价随房子面积变化的曲线),输入一个房子面积,它能告诉你这个面积的房子价格,使用均方误差(MeanSquareError,MSE)来度量回归模型的好坏,。二、回归问题和分类问题相互转化有些问题只能是分类问题,例如类别标签具有平行属性的问题:水果分类(苹果、香蕉、石榴……),疾病诊断(心脏病、外伤、心理疾病、肺病……)有些问题只能是回归问题,例如没有明确的类别的问题:股票价格走势拟合(股票价格随时间变化的曲线)有些问题可以相互转化,例如类别标签具有连续属性、程度属性(即类别标签取值连续)的问题:酒店星级、产品等级、随面积增大逐渐增加的房价、情感由强到弱等问题(可以将类别范围表示成一个连续的数字范围)理论上到底如何将这两类问题转化呢?①回归问题转化为分类问题:以房价回归模型为例,假设分类精度为
,我们将某个范围内的面积作为输入[50,200]平方米,得到对应面积的房价[50w,500w],将[50,500]分成m份,每份的大小为
,此时,就将回归问题转为为了分类问题(在训练过程完成转化),在测试阶段,给定一个面积,预测出一个房价(本质还是预测),当这个价格位于第i份时,就说这个房子属于第i类①分类问题转化为回归问题:例如情感分类问题,情感的强弱不是离散值,而是连续的,因为大喜大悲的情况概率极小,所以我们可以将情感类别用数字区间表示,不同的区间代表不同的类,使用回归的方法完成情感分类,具体实现细节和上例类似不学了,睡觉,明早健身。分类与回归分类预测建模问题不同于回归预测建模问题。分类是预测离散类标签的任务。回归是预测连续数量的任务。分类和回归算法之间存在一些重叠;例如:分类算法可以预测一个连续值,但连续值的形式是类别标签的概率。回归算法可以预测一个离散值,但离散值以整数形式存在。一些算法经过小的修改即可用于分类和回归,例如决策树和人工神经网络。某些算法不能或不能轻松用于这两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。重要的是,我们评估分类和回归预测的方式各不相同并且不会重叠,例如:分类预测可以使用准确性进行评估,而回归预测则不能。回归预测可以使用均方根误差进行评估,而分类预测则不能。要弄清楚分类与回归的区别,先要了解分类和回归的关系。结合《白话机器学习的数学》,通过具体案例,和大家一起捋一下。首先,分类和回归同属于监督学习需要完成的任务。分类与回归最主要的区别是输出变量的类型:连续变量的预测叫回归,离散变量的预测是分类。回归的主要作用是了解两个或多个变量之间是否相关,相关的方向,相关的强度,并利用数学模型以便观察特定变量来预测研究者感兴趣的变量。分类模型是将回归模型输出离散化,分类和回归模型之间存在重要差异。根本上来说分类是关于预测标签,而回归是关于预测数量。我们通过案例来对比一下不同。➤「回归」案例:知乎盐值是怎么来的?知乎社区将所有用户在知乎产生的认真、专业的分享,看作知识海洋析出来的智慧之盐,盐值就是大家在知乎这片盐海里面的价值。盐值最终呈现的形式是分数,个人号0—1000分(机构号0-1200分),不同的分段有不同的权利和待遇,而且还会直接影响到内容推荐系统(答案排名和流通)和账号赋权系统(账号权重),分数越高代表账号权重越高。以知乎个人号举例,影响知乎个人号盐值的因素包括「基础信用」、「内容创作」、「友善互动」、「遵守规范」和「社区建设」这五个维度,如下所示。而盐值的发明过程就是监督学习的回归,具体步骤如下:构建问题选择模型首先找出盐值的影响因素——基础信用、内容创作指数等。基础信用分数是知乎根据用户站内的账号行为(个人信息完善程度、个人账户历史处罚情况)等进行数据归纳和赋权计算,从而评估出来的分数。内容创作指数是根据每个用户在站内发布的内容进行评估,再通过发布内容后获取的赞同反对、评论、收藏等行为进行赋权计算得到的综合评分。例如:在垂直领域持续创作内容,会对你的内容进行优先排序和推荐;内容中尽量使用客观描述,内容详实,避免存在煽动情绪等言论;内容严肃有深度、积极向上,能对其他知友产生知识沉淀和帮助;获得赞同、感谢、收藏,会提升内容创作指数;根据影响用户在平台价值的因素,平台就可以构建一个简单的模型。这个模型可以理解为一个特定的公式,这个公式可以将这些因素和每个账户的盐值相关联。收集已知数据为了找出这个公式,我们需要先收集大量的已知数据(包括「基础信用」、「内容创作」、「友善互动」、「遵守规范」和「社区建设」这五个维度)和他/她的知乎盐值(把知乎盐值转化为分数)。我们把数据分成几个部分,一部分用来训练,一部分用来测试和验证。训练出理想模型有了这些数据,我们通过机器学习,就能”猜测”出这五种数据和盐值分数的关系。这个关系就是我们想要找到的公式。然后我们再用验证数据和测试数据来验证一下这个公式是否OK。测试验证的具体方法是:将几种数据套入公式,计算出盐值分;用计算出来的盐值跟这个账号实际的盐值(预先准备好的)进行比较;评估公式的准确度,如果差别很大再进行调整优化。对新用户进行预测当我们想预测一个新用户的盐值分数时,只需要收集到他的这五种数据,套进公式计算一遍就知道结果了!➤「分类」案例:如何预测离婚美国心理学家戈特曼博士曾用大数据还原过婚姻关系的真相,他的方法就是分类的思路。戈特曼博士在观察和聆听一对夫妻5分钟的谈话后,便能预测他们是否会离婚,且预测准确率高达94%!我们一起来看一下步骤:构建问题,选择模型戈特曼提出,对话能反映出夫妻之间潜在的问题,他们在对话中的争吵、欢笑、调侃和情感表露创造了某种情感关联。通过这些对话中的情绪关联可以将夫妻分为不同的类型,代表不同的离婚概率。收集已知数据研究人员邀请了700对夫妻参与实验。他们单独在一间屋子里相对坐下,然后谈论一个有争论的话题,比如金钱和性,或是与姻亲的关系。默里和戈特曼让每一对夫妻持续谈论这个话题15分钟,并拍摄下这个过程。观察者看完这些视频之后,就根据丈夫和妻子之间的谈话给他们打分。训练出理想模型戈特曼的方法并不是用机器学习来得到结果,不过原理都是类似的。他得到的结论如下:首先,他们将夫妻双方的分数标绘在一个图表上,两条线的交叉点就可以说明婚姻能否长久稳定。如果丈夫或妻子持续得负分,两人很可能会走向离婚。重点在于定量谈话中正负作用的比率。理想中的比率是5∶1,如果低于这个比例,婚姻就遇到问题了。最后,将结果放在一个数学模型上,这个模型用差分方程式凸显出成功婚姻的潜在特点。戈特曼根据得分,将这些夫妻分成5组:幸福的夫妻:冷静、亲密、相互扶持、关系友好。他们更喜欢分享经验。无效的夫妻:他们尽最大努力避免冲突,只是通过积极回应对方的方式。多变的夫妻:他们浪漫而热情,可争论异常激烈。他们时而稳定时而不稳定,可总的来说不怎么幸福。敌对的夫妻:一方不想谈论某件事,另一方也同意,所以,两者之间没有交流。彼此无感的夫妻:一方兴致勃勃地想要争论一番,可另一方对讨论的话题根本不感兴趣。该数学模型呈现了稳定型夫妻和不稳定型夫妻(敌对夫妻和无感夫妻)之间的区别。而据预测,不稳定的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 购销合同违约金纠纷的仲裁程序
- 购销合同终止协议注意事项
- 赠品选购协议范本
- 车用润滑油销售协议
- 软装项目服务协议
- 进口设备购买合同范本
- 退学意向声明
- 避免暴力的承诺
- 配电箱联营合作采购合同
- 酒类订购协议样本
- 2024年新《民法典》知识考试题库(含答案)
- 建设新型能源体系提高能源资源安全保障能力
- GB/T 22082-2024预制混凝土衬砌管片
- 江苏省无锡市锡山区天一中学2025届高一物理第一学期期末质量检测试题含解析
- 《IC品质控制》课件
- 2024年事业单位招聘考试计算机基础知识复习题库及答案(共700题)
- 阿尔茨海默病的诊断
- 2024-2030年中国眼镜行业市场深度分析及竞争格局与投资研究报告
- 2024-2030年中国度假酒店行业未来发展趋势及投资经营策略分析报告
- 德勤-集团信息化顶层规划方案
- 写作与沟通智慧树知到期末考试答案章节答案2024年杭州师范大学
评论
0/150
提交评论