




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据产品必备技术知识:机器学习及常见算法, 看这一篇就够了大家都知道,产品经理需要懂技术,很多面试官都偏好有技术背景的同学,毕 竟产品经理经常要和开发同学相爱相杀。当然也不是一定要求能够精通,但是 至少不要让这块成为沟通的障碍,懂点技术,实际工作屮也能少被开发同学“忽 悠”,讲道理时不会畏手畏脚,更有底气。对于数据产品,不仅要懂技术,还要懂更多的技术。比如说产品都要懂:什么是程序?程序如何组装成功能?服务端客户端数据交 互是咋样的?数据库是啥?里面的表、关系结构、字段、字段类型是啥?常见 的技术名词如接口、同步异步、重构等等又是指啥?除了这些,数据产品还要懂数据相关的技术,比如说数据仓库,机器
2、学习数据 挖掘,大数据框架或者常用的数据开发工具hadoop、hive、spark等等这些。 所以,从某些角度而言,数据产品比其他产品门槛要更高点。数据仓库已经写了一篇(虽然还没写完),数据产品必备技术知识:数据仓库 入门,看这一篇就就够了,后面会写个进阶版。这一篇主要梳理机器学习及常见算法。一、什么是机器学习机器学习有下面儿种定义: 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是 如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进 的计算机算法的研究。机器学习是用数据或以往的经验,以此优化计算机程 序的性能标准。上述来自维基百科,有点晦涩。机器学习是一种
3、通过利用数据,训练出模型,然后使用模型预测的一种方法。其实这个过程,一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做 过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使 机器能够利用它们(解题方法)分析未知数据(高考的题目)?事实上,机器学习的一个主要目的,就是把人类思考归纳经验的过程,转化为 计算机通过对数据的处理计算得出模型的过程。二、机器学习术语训练:数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”。模型:处理的结果可以被我们用来对新的数据进行
4、预测,这个结果一般称之为“模 型”。预测:对新数据的预测过程在机器学习中叫做“预测”。特征:即数据的属性,通过数据的这些特征可以代表数据的特点。标签:对数据的预测结果。特征和标签,结合下面的内容更好了解。三、机器学习常见算法先说算法,其实算法是个很大的概念,除了机器学习算法,还有很多非机器学 习算法,如编程里解决排序的快排、堆排、冒泡,也是算法。只是机器学习太 火了,一提算法,多想到的是机器学习算法。1.决策树决策树,一种预测模型,代表的是对象属性与对象值z间的一种映射关系。一般来讲通过学习样本得到一个决策树,这个决策树能够对新的数据给出正确 的分类。这里举一个简单的例子:比如说,样本数据为用
5、户的行为信息,同时已知每个 用户的分类信息,假设分类为流失用户、非流失用户。然后我根据多个样本数据训练出的多种多样的模型,下面画了一个简单的决策 模型,其屮事件可以是:是否有过订单,被赞次数超过5次等等这种(事件不 是啥专有名词哈,我这里是为了偷懒不去举例,而用它代替)。a事件b事件符合不符色流失 非流失c事件d事件e符合不符合符合流失 非流失 流失此外,为了验证哪个模型更准,可以再用一组新的样本数据作为测试数据,套 入模型,看看模型跑岀的分类和实际分类误差多少,从此来衡量模型的准确性。这里引入一下训练样本和测试样本,很多训练过程都是这样处理的,样本数据 划分为训练样本和测试样本,训练样本用来
6、生成模型,测试样本用来验证准确 性。同时这里面的用户的行为事件就是“特征”,分类(是否为流失用户)就是“标签”。回顾一下:特征:即数据的屈性,通过数据的这些特征可以代表数据的特点。标签:对数据的预测结果。至于模型是怎么训练牛成的,具体算法啥样,就不介绍了(其实是我也写不清 楚)。决策树在实际工作中基本应用于给人群分类,最好的应用场景是要把人群分类, 并找到不同类别人群的不同特征,比如上面的例子,就可以做个流失模型,通 过用户的行为来提前找到哪些人有流失风险,并通过专门优惠等手段挽留。也 可以发现哪些关键节点导致了流失,在这些节点上加一些运营策略来减少流失。为了防止上图误导大家,找了其他的决策树
7、模型示例。可以偿还-无法偿还*蜷编硬挺硬滑稍蜷好瓜坏瓜好瓜青绿浅白好瓜触感二?好瓜坏丿好瓜稍糊 触感=?软粘2.归算法统计学来讲,利用统计方法来建立一个表示变量之间相互关系的方程,这样的统计方法被称为回归分析。回归算法就可以理解是研究不同变量相关关系的一个机器学习算法。多说一句, 其实很多机器学习算法都是来自统计学。回归算法有两个重要的了类:线性回归和逻辑回归。线性回归这里从简单线性回归入手介绍,也就是我举得例子只是研究两个样本变量之间 的线性关系。假设我们来研究考试成绩和复习时间的关系,数据如下:考试成绩1161,2s162172.96253153.442041605005175732615
8、74787167,668881s9.ss06917582510166.857211176,587812170.272813173598 j14170.567815162.6614我想找岀考试成绩和复习时间的规律,怎么找呢?这里就是拟合出一条直线,所以这条直线需要“穿过”所有的点,并且与各个点 的距离尽可能的小。解释一下,简单的线性回归一般是使用“最小二乘法”来求解,最小二乘法的思 想:假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差 的值。为了尽可能减小误差的影响,需要求解一条直线使所有误差的平方和最 小。假设拟合出的这条直线的函数如下:学习成绩=a*复习时间+ba、b都是直线
9、的参数。获得这些参数以后,我就可以计算出学生的成绩。这个结果可能和实际有些偏离,由于这条直线综合考虑了大部分的情况,因此 从“统计”意义上来说,这是一个最合理的预测。但是如果数据越多,模型就越 能够考虑到越多的情况,由此对于新情况的预测效果可能就越好。所以其实机 器学习准不准,很大程度看你喂的数据够不够多。逻辑回归逻辑回归是一种与线性回归菲常类似的算法,属于分类算法。逻辑回归只是对线性回归的计算结果加上了个函数进行处理,将数值结果转化 为了 0到1之间的概率,根据这个概率可以做预测,例如概率大于0.5,则肿 瘤是否是恶性的等等。从直观上来说,逻辑回归是画岀了一条分类线,见下图 (也有划出非线性
10、分类线的逻辑回归)。假设我们有一组肿瘤患者的数据,这些患者的肿瘤中有些是良性的(图中的蓝 色点),有些是恶性的(图中的红色点)。这里肿瘤的红蓝色可以被称作数据的 “标签”。同时每个数据包括两个“特征”:患者的年龄与肿瘤的大小。我们将这 两个特征与标签映射到这个二维空间上,形成了我上图的数据。4崭xxii标:预年龄v1输入:肿并o患者的年吿o ootl输出:心>体积当我有一个绿色的点时,该判断这个肿瘤是恶性的还是良性的呢?根据红蓝点 我们训练出了一个逻辑回归模型,也就是图中的分类线。这时,根据绿点出现 在分类线的左侧,因此我们判断它的标签应该是红色,也就是说属于恶性肿瘤。3.神经网络神经网
11、络算法是80年代机器学习界非常流行的算法,不过在90年代中途衰落。 现在,携着“深度学习”之势,神经网络垂装归来,重新成为最强人的机器学习 算法之一。神经网络的学习机理就是分解与整合。在这个网络中,分成输入层、隐藏层和输出层。输入层负责接收信号,隐藏层负责对数据的分解与处理,最后的结果被整合到 输岀层。比方说,一个止方形,分解为四个折线进入视觉处理的下一层中。四个神经元 分别处理一个折线(每个处理单元事实上就是一个逻辑回归模型,逻辑回归模 型接收上层的输入,把模型的预测结果作为输出传输到下一个层次)。每个折线再继续被分解为两条直线,然后处理,再将每条直线再被分解为黑白 两个面处理。整个过程就是
12、一个复杂的图像变成了大量的细节进入神经元,神经元处理以后 再进行整合,最后得出了看到的是正方形的结论。4. svm (支持向量机)从某种意义上来说是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优 化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。但是如果没有 某类函数技术,则支持向量机算法最多算是一种更好的线性分类技术。5. 聚类算法聚类算法的口的则是通过训练,推测出这些数据的标签。训练数据都是不含标 签的,算是典型的无监督算法,后续会介绍有无监督算法的区分。让我们还是拿一个二维的数据来说,某一个数据包含两个特征。我希望通过聚 类算法,给他们计算分类打上标签,我该怎么做呢?简单来说,
13、聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多 个族群。聚类算法中最典型的代表就是k-means算法k-means聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分 到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚 类,以之作为聚类的标准。6420-2-4-68* * * + * * oo ° 0ox xxxj°o。+ goo1 嫁xxx-ooo8ooxxxxilli1 1iri111_ 11-8-6-4 q 024k-means常用的场景是在不清楚用户有几类时,尝试性的将用户进行分类,并 根据每类用户的不同特征,决定下步动作。(决
14、策树也可以做这件事,但需要 先定义出特征,因此在探索特征未知的领域时,聚类可能更好用一些)6.降维算法也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。例如,房价包含房子的长、宽、面积与房间数量四个特征,也就是维度为4维 的数据。可以看出来,长与宽事实上与面积表示的信息重叠了,例如面积=长x 宽。通过降维算法我们就可以去除兀余信息,将特征减少为面积与房间数量两 个特征。7.推荐算法推荐系统中常用到的算法包括协同过滤算法(item_base, user_base) 用 户偏好算法、关联规则算法、聚类算法、内容相似性算法(content_base), 以及一些其它的补充算法。其中最有
15、名的算法就是协同过滤算法,核心思想是物以类聚,人以群分。具体 可以分为基于用户的协同过滤算法和基于物品的协同过滤算法。item_base是根据集体用户行为算出物品间的相似度,然后把与用户看过的物 品或者购买过的物品最相似的物品推荐给该用户。user_base是根据集体行为计算用户之间的相似度,比如a跟b计算幽来非常 相似,则可以把b喜欢的内容,但a还没有看过,推荐给a。用户偏好算法是根据用户偏好算出来用户感兴趣的内容/产品,然后推荐给用 户。关联规则算法是算出物品间的支持度和置信度。最常见的应用是组合购买,啤 酒和尿不湿是非常经典的例子了。聚类算法,可以对用户进行聚类,也可以对产品进行聚类。聚
16、类后可以针对大 类进行推荐,或者继续计算用户类和产品类之间的关系。content_base是根据物品本身的属性进行关联性运算,计算岀物品间的相似性, 最常见的应用是同类推荐。四、机器学习算法分类(监督和无监督区别)训练数据有标签,则为监督学习算法,没标签则为无监督学习算法,推荐算法 较为特殊,既不属于监督学习,也不属于非监督学习,是单独的一类。上述算法除了聚类、降维属于无监督学习算法,推荐是单独一类,其余都是监 督学习算法。其实还有半监督学习算法,也就是训练数据部分有标签,部分没标签。总体来讲,相对对于监督学习,无监督学习如聚类算法效果差了些。但是监督 学习需要标签,标签哪里来?在实际应用中,标签的获取常常需要极大的人 工工作量,有时甚至非常困难。现在很多做大数据的会招人工来打标签,制定 打标规则啥的。现在再看机器学习的概念,其实木质就是找到特征和标签间的关系。这样当有 特征而无标签的未知数据输入时,我们就可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康监测活动方案
- 健康素食专场活动方案
- 健身地产活动方案
- 健身房亲子活动方案
- 健身房试营业活动方案
- 健身活动拓展活动方案
- 健身魔镜活动策划方案
- 2025年河北省全科医生转岗理论试题
- 晋美林巴(1730-1798)生态文学作品研究
- 漂流佣兵测试题及答案
- 【MOOC】作物育种学-四川农业大学 中国大学慕课MOOC答案
- 2024年浙江绍兴诸暨市交通运输局下属事业单位招聘编外用工6人历年管理单位遴选500模拟题附带答案详解
- 学校保安保洁及宿管服务投标方案(技术方案)
- 临床成人失禁相关性皮炎的预防与护理团体标准解读
- 医疗器械公司组织机构图和部门设置说明
- 个人开车与单位免责协议书
- JGJT46-2024《建筑与市政工程施工现场临时用电安全技术标准》知识培训
- 动火作业施工方案5篇
- DB32T-县级(区域)医疗资源集中化运行规范 第1部分:集中审方中心
- 2024年代步车使用协议书模板范本
- 新高考数学题型全归纳之排列组合专题20定序问题(原卷版+解析)
评论
0/150
提交评论