第4章 电子商务数据处理_第1页
第4章 电子商务数据处理_第2页
第4章 电子商务数据处理_第3页
第4章 电子商务数据处理_第4页
第4章 电子商务数据处理_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章电子商务数据处理4.1数据处理与预处理4.2电子商务数据清理4.3电子商务数据集成4.4电子商务数据变换4.5电子商务数据规约【章节目标及学习难点】章节目标1.了解数据处理与预处理的主要内容2.了解数据清理、数据集成、数据变换和数据规约的主要内容4.掌握Excel进行缺失、重复数据、分类汇总的处理方法5.掌握PowerQuery进行数据处理的方法6.掌握决策树ID3算法的实际运用学习难点1.决策树ID3算法方法的实际应用【案例导入】数据预处理方法在网络社区数据分析中的应用据统计发现,数据预处理的工作量占据整个数据挖掘工作的60%,由此可见,数据预处理在数据挖掘中扮演着举足轻重的角色。例如,哈啰单车骑行数据在经过数据预处理前,用户编号、单车编号、单车类型是一些冗余的属性,对分析目标而言没有任何意义。骑行时长是对分析目标起关键作用的属性,但该列中有若干个空缺。用户编号城市单车编号单车类型骑行时长MU_00004北京MB_00001经典0.5MU_00234上海MB_00431轻骑1.1MU_00087深圳MB_00876经典1.0MU_00067广州MB_00078轻骑

MU_00065上海MB_00034轻骑1.5MU_09870北京MB_00021经典0.6MU_00864北京MB_00090经典

MU_00984广州MB_00045经典1.5MU_00043深圳MB_00064轻骑0.8MU_00821广州MB_00286轻骑

【案例导入】数据预处理方法在网络社区数据分析中的应用经过预处理后,城市和骑行时长列的数据比较完整,也根据城市名称进行了归类,方便用户快速地得出各城市用户的平均骑行时长。城市骑行时长(时)城市骑行时长(时)北京0.5深圳1.0北京0.6深圳0.8北京0.5广州0.5上海1.1广州1.5上海1.5广州0.5显而易见,若使用预处理前的哈啰单车骑行数据对各城市用户的平均骑行时长进行分析,会导致分析结果存在一些偏差,相反地,使用预处理后的哈啰单车数据进行分析,会得到一个较为准确的分析结果。拓展思考1.数据预处理的目的是什么?2.哈啰单车骑行数据还有哪些有价值的数据指标?第1节数据处理与预处理4.1.1数据处理4.1.2数据预处理数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理的过程大致分为数据的准备、处理和输出3个阶段。在数据准备阶段从各个渠道获取到数据,录入到某个数据处理软件中,这个阶段也可以称为数据的录入阶段。数据录入以后,就要由计算机对数据进行处理。最后输出的是各种文字和数字的表格和报表。4.1.1数据处理数据处理主要包括8个方面:4.1.1数据处理①数据采集:采集所需的信息。②数据转换:把信息转换成机器能够接收的形式。③数据分组:指定编码,按有关信息进行有效的分组。④数据组织:整理数据或用某些方法安排数据,以便进行处理。⑤数据计算:进行各种算术和逻辑运算,以便得到进一步的信息。⑥数据存储:将原始数据或计算的结果保存起来,供以后使用。⑦数据检索:按用户的要求找出有用的信息。⑧数据排序:把数据按一定要求排成次序。数据预处理指在主要的处理以前对数据进行的一些处理。数据预处理有数据清理、数据集成、数据变换、数据归约等方法。4.1.2数据预处理4.1.2数据预处理1、数据质量问题数据质量问题主要表现为非完整性、不一致性、有噪声和冗余性等方面。其中非完整性指数据属性值遗漏或不确定;不一致性指数据的来源和定义标准的不同,导致数据的内涵不一致,例如同一属性的命名、单位、字长却不相同;有噪声是数据中存在异常(偏离期望值;冗余性是数据记录或属性的重复。4.1.2数据预处理问题脏数据描述未经校正的数据输入错误身份证号=“41038119990927”身份证号用字符型来存储,正确的身份证号被错误地输入为“41038119990927”未经约束造成的数据错误出生日期=“1999-14-27”月份大于12,日期错误,可以通过约束来保证其正确性数据冗余不一致客户1为:身份证号姓名=张洁;客户2为:身份证号姓名=张洁客户1和客户2分别存储在不同的表格中,实际上是一个客户,却产生了不同的姓名特殊事件造成的有关信息不准确某一客户有两条交易记录:记录1,购买日期=2023-1-1.购买产品=“A”“B”、单价=1680、数量=2;记录2,购买日期=2023-1-6.购买产品=“A”“B”、单价=-1680、数量=2客户在购买A产品后,又退掉了,因此应该把这两条记录在要分析的数据表中删除,如果用这样的数据做产品关联分析就可能产生错误的结果4.1.2数据预处理2、数据预处理内容数据预处理指对收集的数据进行分类或分组前所做的审核、筛选和排序等必要的处理。4.1.2数据预处理(1)数据审核数据审核的内容主要包括以下四个方面:①准确性审核,主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。②适用性审核,主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否匹配。③及时性审核,主要是检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因。④一致性审核,主要是检查数据在不同地区、不同时间段是否一致。4.1.2数据预处理(2)数据筛选数据筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。4.1.2数据预处理(3)数据排序数据排序是按照一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,为重新归类或分组等提供依据。第2节电子商务数据清理4.2.1数据缺失值处理4.2.2重复值处理4.2.3错误值处理4.2电子商务数据清理数据清理是通过填写缺失的值、去除冗余数据、识别或删除离群点、光滑噪声数据和解决不一致数据等方法来清理数据,从而达到数据格式标准化、异常数据清除、错误纠正和重复数据清除的目的。4.2.1数据缺失值处理数据缺失值处理(1)删除对于缺失情况很严重的数据字段(缺失比例在80%以上)或缺失值的数据记录数量相对较少(缺失比例小于20%),一般采用直接删除该数据字段的方式进行处理。但当存在丢失重要数据风险时,不应该将数据丢失,而是通过创建一个新的、相关的,具有布尔值的属性进行替代,比如缺少值用True替代,正常用False替代。4.2.1数据缺失值处理(2)填充填充丢失的数据是最常见的方法。该方法主要用于定性属性,最有效的方式是估计一个值,可以使用以下几种方法:①如果缺失值为数值型数据,数据分布近似正态分布,可以使用均值进行填充。②如果缺失值为数值型数据,数据分布偏态分布时,可以使用中位数进行填充。比如某客户的年收入值缺失,就可以用所有客户的年平均收入来代替。③如果缺失值为字符型数据,则使用众数进行填充。④对于数据中的空值有特殊含义的,可以单独归为一类数据。⑤为模型填充,比如通过回归分析、决策树等方法,将缺失的数据作为目标进行预测,得到最为可能的填充值。4.2.1数据缺失值处理【案例分析】电商企业进货单缺失值处理某电商企业在2023年1月的进货单,其中包含商品名称、来源、类型、单价、数量、总计费用、上次进货量等字段数据,现进行数据分析时发现“上次进货量”字段数据存在缺失,现要求将缺失的数据全部填充为“0”。商品名称来源类型单价数量总计费用上次进货量销售情况无线鼠标中国电子产品251025041蓝牙耳机美国电子产品26751335

0电动牙刷德国电子产品112161792

6电热水壶中国生活用品230492082熨斗中国生活用品120224062垃圾桶中国生活用品158120142时尚T恤中国服装120101200202短裤美国服装569504

8发卡印度服装819152

1钢笔美国学习用品42625224写字本新加坡学习用品271027061修改液中国学习用品1210120234.2.1数据缺失值处理1.选定G列,选择【开始】-【查找和选择】-【定位条件】,打开定位条件功能;设置定位条件为“空值”,单击【确定】4.2.1数据缺失值处理2.直接输入“0”,CTRL+ENTER确定4.2.2重复值处理重复值处理在数据集成的过程中,由于数据输入错误、非标准的缩写、或者不同数据源记录的差异等原因导致数据中可能包含同一实体的重复记录。缺少值是数据的缺乏,而重复记录则是数据的过剩。重复数据删除技术是一种预处理技术,其目标是识别和删除数据集中重复的记录。4.2.2重复值处理【案例分析】电商企业多类型进货产品处理在某电商企业在2023年1月的进货单中,现需要统计进货的产品类型有多少种。下面使用“高级筛选”法和“函数法”分别对产品类型进行数量统计。商品名称来源类型单价数量总计费用上次进货量销售情况无线鼠标中国电子产品251025041蓝牙耳机美国电子产品2675133500电动牙刷德国电子产品11216179206电热水壶中国生活用品230492082熨斗中国生活用品120224062垃圾桶中国生活用品158120142时尚T恤中国服装120101200202短裤美国服装56950408发卡印度服装81915201钢笔美国学习用品42625224写字本新加坡学习用品271027061修改液中国学习用品1210120234.2.2重复值处理1.高级筛选法选择【数据】-【排序筛选】-【高级】功能,直接进入“高级筛选”设置界面。进行高级筛选设置,其中在进行列表区域选择时,一定要从该列的列标题,即第一行开始选择,如果未选择非列标题行,则显示的结果中第一行内容为选择区域的第一行内容,即对结果的准确性造成影响,设置完成后,单击【确定】4.2.2重复值处理2.函数法使用COUNTIF函数识别出重复项,并计算非重复项的数量。在J1单元格输入“类型出现次数”标题,在K1单元格输入“类型数量”标题。选择J2单元格,输入公式“=COUNTIF($C$2:C2,C2)”,单击ENTER。选择J2单元格,使用公式快速方式进行向下填充,得出所有商品类型出现的次数。选择K2单元格,输入公式“=COUNTIF(J2:J13,”1“)”,计算所有类型出现次数为1的数量。4.2.3错误值处理错误值处理错误值或异常值的存在会对分析结果(平均值与标准差)产生重要影响,异常值的检验与正确处理是保证原始数据可靠性的前提。异常值的检测可以有多种方法,如聚类方法、统计方法等。【案例分析】使用Excel能够控制和检查数据统计中存在的错误假设在源数据表中存在一列“销售情况”,0表示销售一般,1表示销售良好,2表示销售极好,其他所有数据均为错误数据。第一步:选中H列,选择数据-数据验证4.2.3错误值处理第二步:在弹出的对话框中进行设置第三步:选择数据验证-圈释无效数据4.2.3错误值处理第3节电子商务数据集成4.3.1数据集成概述4.3.2数据集成应用1、数据集成问题数据集成的过程中可能遇到命名冲突、属性类型冲突和属性值等问题。(1)命名冲突主要指同一个属性在不同的数据源中采用了不同的名字。比如有一个电子商务企业在北京和上海设两家公司,在北京分公司内部员工表中的身份信息用员工身份证号来表示,而在上海的分公司数据中,内部员工表中的身份信息用员工ID字段来表示,尽管这两个字段项都表示相同的含义,但命名却不相同,从而产生命名冲突。4.3.1数据集成概述(2)属性类型冲突以邮编字段项为例,虽然邮编是以数字形式来表示的,但不能用于任何计算,其可能会被定义为数值型,也可能会被定义为字符型,从而产生属性类型冲突。4.3.1数据集成概述(3)属性值冲突属性值冲突主要有两种形式。一种是字段名称相同,属性值的表示形式不同。比如以性别字段项为例,有的数据源中会用“男”表示男性,用“女”表示女性,而有的会用“M”表示男性,“F”表示女性。另一种是字段名称相同,属性值的表示形式也相同,但取值范围不同。比如两个数据源中都有消费金额这个字段项,但第一个数据源中的消费金额是客户一个月的消费金额,而第二个数据源中的消费金额是客户一个季度的消费金额,本质上这两个数据源的消费金额这个字段项的值所表示的含义就有很大差异。4.3.1数据集成概述4.3.1数据集成概述2、数据集成架构数据集成的主要过程有数据抽取(Extract)、数据转换(Transform)和数据加载(Load),这个过程是负责将分布的、异构数据源中的数据抽取到临时中间层进行转换、集成等处理,最后加载列数据仓库或数据集市中,成为联机分析处理和数据挖掘的基础。4.3.1数据集成概述根据转换发生的顺序和位置,数据集成可以分为ETL和ELT两种架构。ETL的过程为提取-转换-加载,在数据源抽取后首先进行转换,然后将转换的结果写入目的地。ELT的过程则是提取-加载-变换,在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架。4.3.2数据集成应用PowerQuery是一个数据转换和数据准备引擎,可以执行提取、转换和加载数据处理。PowerQuery中的转换引擎包括许多预生成的转换函数,这些函数可通过编辑器的图形界面使用。这些转换可以像删除列或筛选行一样简单,也可以像使用第一行作为表标题一样常见。还有高级转换选项,例如合并、追加、分组依据、透视和逆透视。通过选择菜单中的转换选项,然后应用该转换所需的选项,可以实现所有这些转换。4.3.2数据集成应用【案例分析】电商企业人员职务信息处理某电商企业,有三个部门人员信息表,分别是产品部、客服部和运营部的人员的职务信息,包含员工编号、姓名、性别和职务,现需要对三个部门的职务信息表合成一张表。员工编号姓名性别职务CP001小溪女主管CP002王曦女市场CP003李章男产品设计CP004张俊超男产品设计CP005李亮亮男产品设计CP006张朝新男市场员工编号姓名性别职务KF001李晓女主管KF002梁秋佳女客服KF003李佳琪女客服KF004张燕子女客服KF005张晓楠女客服KF006李贝女客服KF007赵倩女客服员工编号姓名性别职务YY001张黎刚男主管YY002林晓晓女运营YY003李军男运营YY004张颖女运营YY005赵丽华女运营助手4.3.2数据集成应用【案例分析】电商企业人员职务信息处理①新建工作表,打开PowerQuery编辑器,分别建立“运营部”、“产品部”和“客服部”三个查询,并分别导入相应的数据源。4.3.2数据集成应用②添加自定义列。在每个查询中添加自定义列,将列名修改为部门,内容填充为各自对应的部门名称。③新建追加查询。将“运营部”、“产品部”和“客服部”三个查询追加到新的查询中,并删除重复的项。④关闭PowerQuery编辑器,将数据上载至Excel表格中。第4节电子商务数据变换4.4.1数据变换方法4.4.2数据分类汇总4.4.1数据变换方法数据变换指根据要解决问题的具体要求进行数据的转换或格式的统一,将数据转换成适合于数据分析的形式。常见的数据变换有光滑、聚集、概化、规范化和属性构造等几种方法。4.4.1数据变换方法1、平滑数据光滑主要是通过分箱、聚类、回归等方法来去除数据中的噪声。在一定误差允许的情况下,通过一个数值来代表一个区域范围来减少噪声。其中,分箱方法主要是通过考察数据周围的值来平滑数据的值,以期去掉数据中的噪声,可以按箱平均值对数据进行平滑处理,也可以按箱边界值对数据进行平滑处理。4.4.1数据变换方法【案例分析】假如一组商品销售数量的数据如下(已按由小到大的顺序排列):4,5,9,14,15,18,22,25,26,28,29,33按等深的方法把数据分成等深(深度为4,即每个箱子里4个数据)的三个箱子,则采用各种分箱方法获得的结果如表所示:数据划分为等深箱按箱平均值平滑后的数据按箱边界平滑后的数据箱子1:4,5,9,14箱子2:15,18,22,25箱子3:26,28,29,33箱子1:8,8,8,8箱子2:20,20,20,20箱子3:29,29,29,29箱子1:4,4,4,14箱子2:15,15,25,25箱子3:26,26,26,334.4.1数据变换方法如果用箱的边界值平滑,就要确定两个边界,然后依次计算除边界值外的其他值与两个边界的距离,与之距离最小的边界确定为平滑边界值。具体如下计算:箱1:|5-4|=1;|14-5|=9;故选4为平滑边界值;|9-4|=5;|14-9|=5;故可选4,也可选14为平滑边界值,本处选择4。箱2:|18-15|=3;|25-18|=7;故选15作平滑边界值;|22-15|=7;|25-22|=3;故选25作平滑边界值。箱3:|28-26|=2;|33-28|=5;故选26作平滑边界值;|29-26|=3;|33-29|=4;故选26作平滑边界值。4.4.1数据变换方法2、聚集聚集一般是采用统计的方法对数据进行汇总或聚类。如将月销售数据聚集为季度销售数据等。3、概化用较高层次的概念来替代较低层次的概念,从而降低数据复杂度。如地理维度中的城市,可以概化为较高层次的概念,如省、国家等。4.4.1数据变换方法4、规范化将数据按比例缩放,使之落入一个小的特定区间,如0.0~1.0,称为规范化。数据规范化、标准化的目的是将数据转化为无量纲的纯数据,便于不同单位或量级的指标进行比较或加权。比较常用的数据规范化方法有以下两种。(1)最小-最大规范化该方法的主要思想是通过线性变换的方式把原始数据值转换成一定区间上的数值,但转换后的数据值仍保持原始数据值之间的关系。假定MinX、MaxX分別是属性X上的最小值和最大值,现要将属性X的值映射到区间[a,b]上,对于给定的属性X的某个值Y,就可以采用如下的方法来进行转换,设Y值被规范化后的值为NewY,则:

4.4.1数据变换方法(2)零-均值规范化该方法的主要思想是属性X规范化后的值取决于属性X取值的均值和标准差。若A是属性X上的一个取值,可用公式进行零-均值规范化,得到规范化后的值A′。

4.4.1数据变换方法4.4.1数据变换方法【案例分析】对一组商品销售数量的数据分别采用最小-最大规范化处理让其区间落在[0,1]上、零-均值规范化,其结果如表所示原始数据4,5,9,14,15,18,22,25,26,28,29,33最小值,最大值4,33平均值、标准差19,9.695最小-最大规范化0.000,0.034,0.172,0.345,0.379,0.483,0.621,0.724,0.759,0.828,0.862,1.000零-均值规范化-1.547,-1.444,-1.031,-0.516,-0.413,-0.103,0.309,0.619,0.722,0.928,1.031,1.4444.4.1数据变换方法5、属性构造人们可以通过已有属性构造数据分析需要的新属性。数据分析工作往往都是围绕特定主题进行的,所以有时需要构造一些原始数据库中没有的属性。如有的数据库中没有顾客某次购买的商品所带给企业利润的数据,但在相关数据库中可以找到该商品的进价和销售价格,这样就可以根据这两个属性构造一个新的利润属性,通过这个新属性了解顾客购买该商品带给企业的利润。这种属性构造特性对数据分析和知识发现是很有价值的。4.4.2数据分类汇总要创建分类汇总,首先要对数据进行排序,然后以排序的字段为汇总依据,进行求和、求平均值以及求最大值等各种汇总操作。【案例分析】电商企业坚果产品销售总额分类汇总某电商企业2023年1月份的坚果销售情况表,需要对产品的销量总额进行汇总,包含对“亚马逊”和“速卖通”的销量总额单独汇总。坚果销售情况销售人员销售日期产品易趣亚马逊速卖通合计销量评定客服-粉红猫1月1日核桃¥808.00¥484.85¥944.00¥2,236.85优客服-樱桃猫1月1日板栗¥690.32¥451.30¥543.00¥1,684.62良客服-樱桃猫1月1日松仁¥120.35¥125.30¥123.20¥368.85差客服-粉红猫1月1日腰果仁¥505.00¥303.03¥530.00¥1,338.03良客服-招财猫1月3日榛子¥603.30¥361.64¥703.00¥1,667.94良客服-招财猫1月3日杏仁¥230.00¥135.39¥3,140.00¥3,505.39优客服-粉红猫1月3日开心果¥563.58¥120.21¥653.00¥1,336.79良客服-古怪猫1月3日夏威夷果¥859.30¥540.60¥523.00¥1,922.90良客服-古怪猫1月9日葵花子¥300.00¥503.60¥351.00¥1,154.60良客服-樱桃猫1月9日花生¥500.00¥303.03¥590.00¥1,393.03良客服-樱桃猫1月9日巴旦木¥383.53¥200.30¥443.60¥1,027.43良客服-粉红猫1月9日核桃¥525.00¥310.18¥125.30¥960.48差客服-古怪猫1月9日板栗¥390.00¥243.82¥253.50¥887.32差客服-古怪猫1月9日松仁¥630.00¥383.82¥125.53¥1,139.35良客服-樱桃猫1月13日腰果仁¥240.00¥145.36¥173.50¥558.86差客服-樱桃猫1月13日榛子¥840.00¥501.09¥953.00¥2,294.09优客服-粉红猫1月13日杏仁¥521.00¥312.18¥125.36¥958.54差客服-古怪猫1月13日开心果¥125.00¥120.00¥122.30¥367.30差客服-古怪猫1月13日夏威夷果¥423.30¥202.00¥536.00¥1,161.30良客服-樱桃猫1月13日葵花子¥630.00¥220.00¥145.00¥995.00差客服-樱桃猫1月13日花生¥125.00¥692.00¥180.36¥997.36差客服-粉红猫1月13日巴旦木¥315.00¥196.91¥372.30¥884.21差4.4.2数据分类汇总1.选择“产品”列某数据,单击【开始】-【排序和筛选】-【降序】功能,则以“产品”列的产品,按照名称首字母降序排列。4.4.2数据分类汇总2.单击【数据】-【分级显示】-【分类汇总】功能,弹出“分类汇总”设置框,设置分类汇总参数,“分类字段”为“产品”、“亚马逊”和“速卖通”,“汇总方式”为“求和”,“选定汇总项”为“合计”,其分类汇总结果如下图所示。第5节电子商务数据规约4.5.1数据规约概述4.5.2数据规约ID3算法4.5.1数据规约概述数据规约是为了降低在海量数据上进行数据分析的难度和复杂度而进行的一项工作。它的核心思想是在不破坏数据原有完整性的基础上选取小样本数据进行数据分析,但要求从小样本数据进行分析得到的效果和从大样本数据进行分析得到的结果是相同的。4.5.1数据规约概述1.属性规约属性规约是通过属性合并或删除不相关的属性来降低数据的维度。属性规约的目标是找到最小的属性集,这样丢弃那些不相关的属性不会对数据的效用产生太大影响,并且可以降低数据分析的成本。例如,企业销售数据中的客户联系电话与客户的购买行为无关,因此该属性项就可以被删除。属性规约的方法很多,例如决策树、主成分分析等。2.数值规约数值规约指用较小的数据表示形式去替换原数据,包括有参数方法和无参数方法两类。有参数方法指使用一个模型去估计数据,这样就可以只存放模型参数代替存放实际数据,如回归模型和线性模型。对于无参数方法就需要存放实际数据,如直方图、聚类、抽样和数据立方体等。4.5.1数据规约概述3.数据压缩数据压缩指在不丢失信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术方法。数据压缩包括有损压缩和无损压缩。无损压缩指压缩后的数据经重构后与原来的数据完全相同。有损压缩指压缩后的数据经重构后与原来的数据有所不同,但不影响人对原始资料所表达信息的理解。4.概念分层概念分层是用高层次概念替换低层次概念,得出的数值可以大大降低数据分析的复杂度。4.5.2数据规约ID3算法ID3算法是由J.RossQuinlan在1986年提出一种基于决策树的分类算法。该算法建立的决策树具有规模比较小、查询速度快等优点。ID3算法用信息增益作为属性选择度量,信息增益值越大,不确定性越小。因此,ID3算法总是选择具有最高信息增益的属性作为当前节点的测试属性。根据“信息增益越大的属性对训练集的分类越有利”的原则来选取信息增益最大的属性作为“最佳”分裂点。以自顶向下递归的分而治之方式构造决策树。ID3算法描述ID3算法用信息增益(InformationGain)作为属性选择度量。信息增益值越大,不确定性越小。因此,ID3算法总是选择具有最高信息增益的属性作为当前节点的测试属性。根据“信息增益越大的属性对训练集的分类越有利”的原则来选取信息增益最大的属性作为“最佳”分裂点。以自顶向下递归的分而治之方式构造决策树。4.5.2数据规约ID3算法(1)划分前的熵信息熵(简称为熵Entropy)表示信源的不确定性,熵越大,把它搞清楚所需要的信息量也就越大。信息熵定义:假设训练样本集S包含n个样本,这些样本分别属于m个类,其中第i个类在S中出现的比例为pi,那么S的信息熵为:从信息熵的计算公式可以看出,训练集在样本类别方面越模糊越杂乱无序,它的熵值就越高;反之,则熵值越低。

4.5.2数据规约ID3算法(2)划分后的熵假设属性A把集合S划分成V个子集,所包含的样本数为ni,如果A作为测试属性,那么划分后的熵就是:ni/n充当第i个子集的权,它表示任意样本属于Si的概率。熵值越小,划分的纯度越高。用属性A把训练样本集分组后,样本集的熵将会降低,因为这是一个从无序向有序的转变过程。

4.5.2数据规约ID3算法(3)信息增益信息增益定义为分裂前的信息熵与分裂后的信息熵之间的差。简单的说,信息增益是针对属性而言的,没有这个属性时样本所具有的信息量与有这个属性时的信息量的差值就是这个属性给样本所带来的信息量。因此,应选择信息增益最大的属性作为结点并分支。

4.5.2数据规约ID3算法ID3算法步骤(每次选信息增益最大的属性)对当前例子集合,计算各属性的信息增益选择信息增益最大的属性Ai在Ai处取相同值的例子归于同一个子集,Ai取几个值就得几个子集依次对每种取值情况下的子集,递归调用建树算法,即返回步骤1中若子集的目标属性相同,则分支为叶子节点,并标上标签,然后返回调用处4.5.2数据规约ID3算法4.5.2数据规约ID3算法【案例分析】电商企业客户属性分类分析某电商企业某段时间内客户的购买记录如表所示,那么从客户的年龄范围、收入水平、会员性别和会员等级等四个方面的客户属性对客户是否购买产品进行判断,哪个属性最具有区分度?序号年龄范围收入水平会员性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论