版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于电商网站商品数据的数据分析与挖掘1.电子商务和数据挖掘简介1.1
电子商务
电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据互换和开展商务业务活动。目前国内已经有网上商情广告、电子票据互换、网上订购,网上支付结算等多种类型的电子商务形式。电子商务正以其低廉、以便、快捷、安全、可靠、不受时间和空间的限制等突出长处而逐渐在全球流行。电子商务是指以Internet网络为载体、运用数字化电子方式开展的商务活动。伴随网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使企业内部搜集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为企业发明更多潜在的利润。运用数据挖掘技术可以有效地协助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销方略,给客户提供动态的个性化的高效率服务1.2
数据挖掘技术数据挖掘(Data
Mining),又称数据库中的知识(Knowledge
Discovery
in
Database,
KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不懂得的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不一样领域尤其是数据库、人工智能、数理记录、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简朴检索查询调用,并且,要对数据进行微观、中观乃至宏观的记录、分析、综合和推理,以指定实际问题的求解,企图发现事件间的互相关联,甚至运用已经有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检查、顾客聚类分析、消费者习惯分析等。而电子商务中的数据挖掘即Web挖掘,是运用数据挖掘技术从www的资源(即Web文档)和行为(即We服务)中自动发现并提取感爱好的、有用的模式和隐含的信息,它是一项综合技术波及到Internet技术学、人工智能、、信息学、学等多种领域。1.3.
数据挖掘过程挖掘数据过程可以分为3个环节:数据预处理、模式发现、模式分析。1.3.1
数据预处理
实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供精确、简洁的数据。预处理重要完毕如下工作:包括合并数据,将多种文献或多种数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除某些无关记录,将文献、图形、图像及多媒体等文献转换成可便于数据挖掘的格式等。
1.
3.
2
模式发现
模式发现阶段就是运用挖掘算法挖掘出有效的、新奇的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有途径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。
1.
3.
3
模式分析
模式分析是从模式发现阶段获得的模式、规则中过滤掉不感爱好的规则和模式。通过技术手段,对得到的模式进行数据分析,得出故意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。
电子商务是现代信息技术发展的必然成果,也是未来商业运作模式的必然选择。运用数据挖掘技术来分析大量的数据,可以挖掘出商品的消费规律与客户的访问模式,协助企业制定有效的营销方略,充足发挥企业的独特优势,增进管理创新和技术创新,提高企业竞争力。
伴随电子商务发展的势头越来越强劲,
面向电子商务的数据挖掘将是一种非常有前景的领域。它能自动预测客户的消费趋势、市场走向,指导企业建设个性化智能网站,带来巨大的商业利润,可认为企业创立新的商业增长点。不过在面向电子商务的数据挖掘中也存在诸多问题急需处理,例如怎样将服务器的日志数据转化成适合某种数据挖掘技术的数据格式,怎样处理分布性、异构性数据源的挖掘,怎样控制整个Web上知识发现过程等。伴随硬件环境、挖掘算法的深入研究及应用经验的积累,数据挖掘技术及在电子商务中的应用必将获得长足的进展。2.数据挖掘2.1数据挖掘重要内容对于10种品牌的卫生巾的属性、价格、包装等性能与其销量的关系。10种卫生巾分别为:555、ABC、高洁丝、护舒宝、洁婷、乐而雅、米娅、七度空间、苏菲、怡丽2.2数据来源天猫超市2.3数据挖掘工具1.八爪鱼采集器八爪鱼采集器是深圳视界信息技术有限企业研发的一款业界领先的网页采集软件,具有使用简朴,功能强大等诸多长处。八爪鱼数据采集系统以完全自主研发的分布式云计算平台为关键,可以在很短的时间内,轻松从多种不一样的网站或者网页获取大量的规范化数据,协助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,挣脱对人工搜索及搜集数据的依赖,从而减少获取信息的成本,提高效率。使用八爪鱼可以非常轻易的从任何网页精确采集你需要的数据,生成自定义的、规整的数据格式。八爪鱼数据采集系统能做的包括但并不局限于如下内容:1.金融数据,如季报,年报,财务汇报,包括每日最新净值自动采集;2.各大新闻门户网站实时监控,自动更新及上传最新公布的新闻;3.监控竞争对手最新信息,包括商品价格及库存;4.监控各大社交网站,博客,自动抓取企业产品的有关评论;5.搜集最新最全的职场招聘信息;6.监控各大地产有关网站,采集新居二手房最新行情;7.采集各大汽车网站详细的新车二手车信息;8.发现和搜集潜在客户信息;9.采集行业网站的产品目录及产品信息;10.在各大电商平台之间同步商品信息,做到在一种平台公布,其他平台自动更新。由于其强大的功能,因此我们小组选择使用八爪鱼采集器对卫生巾的有关属性进行采集。虽然其功能强大,不过八爪鱼采集器对于网速的规定较高,若网速太慢,采集数据的速度就会很慢,采集的时间就需要更多。RostRost是一款强大的文字分析软件,这款论文检测软件由武汉大学信息管理学院出版科学系教师沈阳副专家所研发,此软件可以对导入的文档进行分词、词频分析、流量、相似程度等的功能性分析,还可以对文本进行处理,包括字段抽取、基于文字特性的行抽取、文本替代与增补等,可以对聊天分析、全网分析、网站分析、浏览分析、微博分析、期刊分析等,此软件可以将分析完的成果直接以PDF、DOC、PPT、XLS、TXT等形式输出,其每检测400字需要6秒钟,因此假如需要检测字数较多的文本,就需要等一定期间。3.MicrosoftExcelMicrosoftExcel是微软企业的办公软件Microsoftoffice的组件之一,是由Microsoft为Windows和AppleMacintosh操作系统的电脑而编写和运行的一款试算表软件。其功能十分强大,可以对数据进行清洗、透视等2.4数据挖掘必要性和可行性1.数据挖掘必要性伴随二十一世纪的到来,越来越多的人倾向于网上购物,网上购物是当今的重要趋势,本次数据挖掘是基于京东超市对于卫生巾的其价格、各方面属性对其销售量的影响。本次数据挖掘是针对女性每月的必用品卫生巾的有关数据进行挖掘,这对于女性朋友来说一种很重要也很必要的一种挖掘,通过本次数据挖掘可认为女性朋友提供一种适合其自身的卫生巾组合套装。2.数据挖掘可行性挖掘技术上,我们通过一学期的学习对于有关的软件有所理解,网络上对于多种数据挖掘工具的详细操作的视频也是不胜枚举,学校图书馆对于有关软件操作的书也诸多,因此我们在技术上是完全可以实现数据挖掘的整个过程。在人员上,我们小组总共5个人,对于搜集数据来源为天猫超市这样一种不是尤其大的网站的数据信息来说,5个人是完全足够的,同步尚有老师的指导,因此在人员上也是可以实现基于天猫超市的排名前十的卫生巾品牌及其销量的数据挖掘的。2.5数据挖掘详细过程2.5.1过程描述首先是数据预处理,我们运用八爪鱼对网页上的有关属性进行采集,采集的属性包括:标题、价格、产地、包邮与否、规格、其功能、客户对商品的评价的指数(与否与商品相符)月销量、好评度、这些指标,由于对有关软件运用的不是尤其成熟,因此导致有部分数据缺失。但这对于我们的数据分析五影响,缺失的数据也正是我们需要将其进行清洗过滤的部分数据。另一方面是模式发现阶段,我们采用关联分析和分类规则对有关数据进行再处理,从而得出具有较高精确性和关联性的数据。最终模式分析阶段,我们运用Rost和Excel工具对有关数据进行处理,最终得出有关具有规律性和高价值的数据信息。2.5.1过程操作1.八爪鱼用八爪鱼对护舒宝有关数据进行采集过程,如图:首先,命名任务名、任务组,并输入网址:另一方面,对天猫超市的网页的第一种商品的有关属性进行抓取,并设置循环抓取,在本网页的所有商品与第一种商品同样的属性都会被抓取下来,抓取过程如图:在次,设置工作流程,并修改有关字段的字段名,如图:最终,进行数据抓取阶段,只需要等待几分钟数据就能抓取完毕,如图:上述即是对数据的抓取过程,10个品牌均是循环以上操作,最终以Excel表格的形式导出即可。导出的数据只是数据源,数据没有任何规律和价值,需要对有关数据进行深入的分析和提炼。2.ROST第二个是用rost对导出的excel表格中的文字部分进行分析,过程如下:首先是对将表格中的中文部分添加到记事本中,如图:第二步,由于我们同ROST的目的是对词频的记录,用来记录在商品售卖中售卖材质、长短、香味等特殊属性对消费者的吸引程度,因此必须将上述部分的标题进行分词处理,处理后如下图:最终,进行词频记录,将输出分词后的txt导入到ROST,进行词频记录,如图:由词频记录可以看出ABC品牌的卫生巾在日用、超薄、和纯棉的属性是被顾客高度重视的,超长、凉爽、迷你等属性顾客关注度不是尤其高,因此在后来的经营中,可以对ABC品牌的卫生巾具有日用、超薄、纯棉等属性的大量囤货,对于超长、凉爽、迷你等属性应考虑其销售热度。Excel最终是运用excel对导出的数据进行分析,比较每一种商品的自身属性与其销售量的关系。如图:高洁丝的价格(X)与收藏(Y)的关系由上图可以看出,当价格为25.9元28片时是销量最多的一种价格,往后的趋势基本就是价格越高,销售量月越低。尚有一种也许的影响原因是商品是以组合的形式销售,背面价格越贵,表达组合装越多,女性对于卫生巾的使用不必要囤货太多,由于卫生巾也是有保质期,一般女性没有囤大量卫生巾的习惯,因此组合中卫生巾量太大,虽然是进行促销,不过销售量不一定好。因此这给商家的的提议就是,不用搞促销时就采用大包装量多的组合装,这样并不能提高销售量,而是应当推出适合的少数量的组合装。如图:高洁丝的销量与收藏的关系由上图可以看出,高洁丝的月销售量与收藏的线基本重叠,成正有关的关系,收藏的越多,其销售量越高。这个数据对于消费者来说是购置商品的一种可信的信息,在购置商品的时候一般销售量与收藏量成正比,如是发现收藏量很少,不过销售量很高这很也许存在刷单现象,消费者应当具有一定的辨识能力。如图:高洁丝的销售与评价的关系如图:高洁丝价格和销量图由上图可以看出价格9.9的时候
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 砂石料行业可持续发展方案
- VR广告合作协议
- 商业综合体风机盘管设计方案
- VR虚拟现实在老年人康复中的应用方案
- 养老院建设零星土建施工方案
- 公共场所反恐怖警示与疏散方案
- 校园消防安全整治专项方案
- 仓储物流行业设备安全管理制度
- 餐饮行业数字化转型实施方案
- 医院临聘护理人员管理制度
- 建设工程报建流程表课件
- 院感病例(讲稿)
- 高考英语单词3500记忆短文40篇
- 北京市商业地产市场细分研究
- 2023-2024学年重庆市大足区八年级(上)期末数学试卷(含解析)
- 肺结节科普知识宣讲
- 网络直播营销
- 2024年节能减排培训资料
- 2024传染病预防ppt课件完整版
- 2024年华融实业投资管理有限公司招聘笔试参考题库含答案解析
- 2024年1月普通高等学校招生全国统一考试适应性测试(九省联考)历史试题(适用地区:贵州)含解析
评论
0/150
提交评论