版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电子商务数据分析与应用第5章数据导入与预处理本章提纲
数据的导入导出5.1
数据预处理方法5.2
数据的基本处理操作5.3本章提纲
实训一、数据的导入与导出
实训二、数据预处理方法
实训三、数据的基本处理操作本章思维导图思政园地案例1蜜雪冰城自救与救灾【思政教育元素:培养社会责任】2021年7月河南遭遇了罕见的极端强降雨天气,许多地区遭遇特大水灾,其中总部在受灾中心郑州的蜜雪冰城积极展开自救与救援行动。蜜雪冰城成立救灾指挥中心,以党员带头对旗下员工情况进行逐一排查,全力保障员工生命安全,同时成立捐款捐物小组向重灾区域运送物资,并捐款2200万元用于抗洪救灾和灾后重建。蜜雪冰城在深处灾区遭受打击的情况下,依然选择挺身而出保障员工安全,帮助灾区重建,凸显了企业的格局。面对重大灾情,我国的电子商务企业在发展壮大不断扩张的同时大力回报社会,彰显了强烈的企业社会责任。思政园地案例2“丑萌”马踏飞燕火出圈【思政教育元素:扎根传统文化,增强文化自信】铜奔马,或者更为大家熟知的“马踏飞燕”,为东汉青铜器,是甘肃省博物馆镇馆之宝。铜奔马造型矫健精美,显示一种勇往直前的豪情壮志,是中华民族伟大气质的象征。而正是这么一件拥有厚重历史的文物,最近在网络上以一种意想不到的方式火出圈了。2022年六月,甘肃省博物馆推出了一款以“铜奔马”为原型的文创玩偶,丑萌的绿马一边呲牙咧嘴一边踩着脚底下的燕子,被踩着的飞燕翻着白眼十分“魔性”。这个别出心裁轻松搞笑的玩偶一推出就受到网友们的喜爱与调侃,同时吸引了许多关注。这个玩偶让人们知道文创产品也可以很接地气,也可以让厚重的文物变得新潮有趣,活灵活现。案例导入
随着大数据和人工智能的快速发展,当今的消费者与世界高度相连,一个公司想要获得更好的商业成绩需要通过大数据为他的每个客户做出个性化的精准服务。为此2013年,拥有145年历史的大都会人寿保险公司建立了名为MetLiftWall的新系统,该系统从大都会人寿70多个不同的管理系统中收集大量的信息数据,这些数据之前有许多都是不联网的独立存在,存在着大量的数据冗余,建立系统后又经过多年的努力大都会人寿成功解决了该项问题。
上文所汇总的数据刚开始很难进行使用,在大数据分析之前我们需要确保这些分析数据满足分析模型的需求,因此数据预处理环节十分重要,它可以将缺失的数据补充,冗余的数据变得简洁,复杂混乱的数据格式统一。你听说过数据预处理吗?继续阅读本章你可以对数据预处理拥有更深刻的了解。5.1数据的导入导出数据的导入导出作用:起到备份、存档的作用;转换为需要的数据格式和文件类型。数据导入导出分类:数据库文件导出成文本文件;文本文件导入成数据库文件;数据库文件与数据库文件之间的导入导出。使用Excel从文本文件导入数据有两种方法:可以在Excel中打开它,也可以将其导入为外部数据区域。5.2数据预处理方法5.2.1数据清理的方法5.2.2数据融合的方法5.2.3数据变换的方法5.2.4数据规约的方法5.2.1数据清理的方法数据清理是数据准备过程中最花费时间、最乏味的,但也是最重要的一步。该步骤可以有效的减少学习过程中可能出现的相互矛盾的情况。初始获得的数据主要有以下几种情况需要处理。(1)含噪声数据
(2)错误数据
(3)缺失数据
(4)冗余数据5.2.1数据清理的方法1.含噪声数据目前处理此类数据最为广泛的技术是应用数据平滑方法。分箱技术通过检测周围相应属性值进行局部数据平滑。分箱的方法很多,主要有按箱平均值平滑、按箱中值平滑和按箱边界值平滑。对于含噪声数据,尤其对于孤立点或异常数据,是不可以随便以删除方式进行处理的。
2.错误数据对带有错误数据的数据元组,结合数据所反映的实际问题,进行分析、更改、删除或忽略。同时也可结合模糊数学的隶属函数寻找约束函数,或者根据前一段历史数据趋势对当前数据进行修正。5.2.1数据清理的方法3.缺失数据补充缺失数据的主要办法包括:(1)线性差值法,用其周围数据点的信息来代替(2)使用一个全局常量或属性的平均值填充空缺值(3)对数据的部分属性进行修复(4)忽略该数据元组5.2.1数据清理的方法4.冗余数据冗余数据包括属性冗余和属性数据冗余,若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策,可通过用相关数学方法找出具有最大影响属性因子的属性数据,其余属性则可删除。若某属性的部分数据足以反映该问题的信息,则其余的可删除。若经过分析,这部分冗余数据可能还有他用则先保留并进行备注说明。5.2.2数据融合的方法通过数据融合(信息融合)产生比单一信息源更准确、更完全、更可靠的数据进行估计和判断,然后存入数据仓库或数据挖掘模块中。常见的数据融合方法5.2.3数据变换的方法数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在时间、空间、属性及精度等特征表现方面的差异。这类方法虽然对原始数据都有一定的损害,但其结果往往具有更大的实用性。常见的数据变换方法5.2.4数据规约的方法数据经过去噪处理后,需根据相关要求对数据的属性进行相应处理。数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性,或得比原始数据小得多的数据,并将数据以合乎要求的方式表示。常见的数据规约方法实训一、数据的导入与导出(一)数据导入可以将收集到的数据直接填写在Excel的单元格中,也可以将多种格式的数据文件导入到Excel工作表中。单击导航栏“数据”,最左侧可以选择将不同格式的数据导入Excel。(1)将文本文件导入Excel表格(2)将CSV文件导入Excel工作表
实训一、数据的导入与导出1.将文本文件导入Excel表格(1)文本文件(2)打开并创建Excel文件,点击“数据”—“自文本”实训一、数据的导入与导出1.将文本文件导入Excel表格(3)在“导入文本文件”窗口中选择需要导入的文件,点击“导入”(4)在弹出的“文本导入向导”对话框中选择“分隔符号”,点击“下一步”实训一、数据的导入与导出1.将文本文件导入Excel表格(5)“文本导入向导”对话框中选择“Tab键”,点击“下一步”(6)“文本导入向导”对话框选择“常规”,点击“完成”实训一、数据的导入与导出1.将文本文件导入Excel表格(7)弹出对话框“导入数据”,选择“新工作表”,按“确定”按钮即可(8)返回Excel工作表,就可以看到数据的导入情况实训一、数据的导入与导出2.将CSV文件导入Excel工作表(1)CSV文件(2)导入前再次确认数据的格式、编码、分隔符、数据行数等,此处默认,点击“加载”(3)数据导入之后的Excel文件实训一、数据的导入与导出(二)数据导出将Excel数据导出到其他操作软件中,这里以将Excel中的数据导出到Word中为例(1)打开Word,点击“插入”“对象”(2)在弹出的“对象”对话框中,选择“由文件创建”,并点击“浏览”实训一、数据的导入与导出将Excel数据导出到其他操作软件中,这里以将Excel中的数据导出到Word中为例(3)选择需要导出的Excel数据源,点击插入(4)在“对象”对话框中点击“确定”(5)返回Word文件,就可以看到从Excel导出的数据实训二、数据预处理1.数据清理某price属性值排序后为2,4,6,6,9,12,12,14,19,则采用各种分箱方法进行处理的结果如下表所示。除采用分箱方法之外,还可以应用聚类技术检测异常数据,发现孤立点并进行修正,或者利用回归函数或时间序列分析的方法进行修正。另外,计算机和人工相结合的方式也非常有效。对于含噪声数据,尤其是孤立点数据,是不可以随便以删除的方式进行处理的。由于某些孤立点数据和离群数据代表了某些有特定意义的、重要的潜在知识,因此,对于孤立点数据应将其先放入数据库,而不进行任何处理。当然,如果结合专业知识分析,确定该数据无用,那么可进行删除处理。实训二、数据预处理2.数据规范化处理例如,某电商平台商家销售的产品“水杯”在过去半年内的月销售量(件)分别为12,14,6,5,23,10,借助这组数据作为数据规范化的样本数据,采用最小-最大标准化及z-score标准化分别进行处理。最小-最大标准化处理:在该组数据中,最大值为23,最小值为5,为使结果均落在[0,1]区间,在进行转化后,上述数值依次变为0.3889,0.5,0.0556,0,1,0.2778。z-score标准化:在该组数据中,μ为11.67,σ为6.53,则上述数值依次变为0.0505,0.3568,-0.8683,-1.0153,1.7351,-0.2557。实训三、数据的基本处理操作5.3.1重复数据处理5.3.2缺失数据处理5.3.3错误数据处理实训三、数据的基本处理操作(一)重复数据处理采集得到的原始数据通常存在重复情形,对于重复数据如何识别和去重,通过Excel介绍两种常用的方法。(1)高级筛选法
(2)条件格式法
实训三、数据的基本处理操作1.高级筛选法(1)如果只是需要将目标数据的非重复值筛选出来,可以选择“数据”选项卡下“排序筛选”组中的“高级”按钮(2)在弹出的对话框中进行设置(3)点击“确定”后,红框部分为“来源”数据非重复项的筛选结果。实训三、数据的基本处理操作2.条件格式法(1)选中需要标识重复值的区域,选择“开始”—“条件格式”—“突出显示单元格规则”—“重复值”(2)在弹出的对话框中把重复的数据标注为红色,点击确定(3)重复数据处理部分结果实训三、数据的基本处理操作
(二)缺失数据处理Excel表中如果出现缺失数据,一般表示为空值或者错误表示符,运用“定位条件”功能可以进行缺失数据的处理。(1)原始数据中G列“上次进货数量”有部分值缺失。现要求将其全部标记为0,便于后期数据分析。(2)选定G列,选择“开始”—“查找和选择”—“定位条件”(3)在“定位条件”对话框中,选择“空值”,点击“确定”(4)直接输入“0”,按“Ctrl+Enter”,空值单元格一次性全部输入“0”实训三、数据的基本处理操作(三)错误数据处理使用Excel能够控制和检查数据统计中存在的错误。(1)假设在源数据表中存在一列“销售情况”,0表示销售一般,1表示销售良好,2表示销售极好,其他所有数据均为错误数据(2)选中H列,选择“数据”—“数据验证”实训三、数据的基本处理操作(3)在弹出的对话框中进行设置(4)选择“数据验证”—“圈释无效数据”(5)错误数据处理结果本章知识小结本章主要学习运用Excel进行数据的导入导出操作,对重复、缺失、错误数据的基本处理操作。从数据的清理、数据的融合、数据的变换以及数据的规约四个方面,学习了数据的预处理操作。通过本章的学习,旨在掌握利用Excel处理数据的基本方法以及了解数据预处理的基本操作。课后提升案例1数据预处理在网络社区数据分析中的应用小红书是一个生活方式分享社区。小红书月活跃用户数已过亿,其中70%的新增用户是90
后。小红书通过大数据和人工智能技术将用户线上分享的消费体验内容精准匹配给对它感兴趣的其他用户,从而引发社区互动,再推动其他用户到线下消费,这些用户反过来又会进行更多的线上分享,最终形成一个正循环。小红书已成为用户线上相互交流发表意见的重要网络社区。如果希望通过收集主题的特征信息对评论主题进行关联规则挖掘,那么数据预处理会成为一个关键环节。1)评论主题两大因素的提取把每个评论主题的信息分为主题诱发的原因和主题影响力结果两大因素。主题诱发的原因包含评论主题发表用户、发生时间、IP地址、涉及人数、主题类型等因素;主题影响力结果指该评论主题的影响作用。课后提升2)评论主题的数据清理提取出评论主题诱发的原因和主题影响力结果后,接下来对评论主题的信息进行数据清理,具体步骤如下。(1)清理空缺值。对主题诱发的原因采用忽略元组法,即直接删除数据库中某个记录元组的属性值都为空或缺少大量数值的数据,因为这些数据没有太大的挖掘价值。对于评论的主题信息属性值空缺数目较少的记录,采用设置默认值的方式填补空值。(2)泛化处理。针对不统一的数据,必须对其进行规范化处理,以减少数据之间的差异。例如,评论的主题内容大多是商品的质量问题、耐久性问题和材质问题等,则对这三个主题进行泛化处理,全部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 白酒的品牌创新与创业机会考核试卷
- 新型印刷材料在印刷工艺中的应用考核试卷
- 油田动态监测安全监督及工作要求考核试卷
- 未来能源技术可再生能源与能源存储创新考核试卷
- 煤炭行业的投资与融资机制考核试卷
- 地质勘查设备生物质能源利用考核试卷
- DB11∕T 3015-2018 水产品冷链物流操作规程
- 美术入门课件教学课件
- 植物盆栽课件教学课件
- 课件不兼容教学课件
- 建筑幕墙施工方案
- 第二章 地图(考点串讲课件)七年级地理上学期期中考点大串讲(人教版2024)
- 2024年健身房管理制度(六篇)
- 期中测试卷(1-4单元)(试题)-2024-2025学年人教版数学六年级上册
- 车辆绿本抵押借款合同
- 意识形态分析研判制度
- GB/T 18029.6-2024轮椅车第6 部分:电动轮椅车最大速度的测定
- 2024至2030年中国学前教育(幼儿园)行业研究报告
- 统编版(2024新版)七年级上册《道德与法治》第1-13课全册教材“活动课”参考答案
- 2024年北京海淀区初三九年级上学期期末数学试题
- 结构力学仿真软件:OpenSees:OpenSees在桥梁工程中的应用
评论
0/150
提交评论