




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘套件第9课,通过电子商务和数据挖掘、基于web日志的用户访问模式挖掘、电子商务和数据挖掘的完美结合,电子商务中成功的数据挖掘在电子商务中提供了大量数据。电子商务网站平均一小时销售5件商品,每月平均点击次数为160万次。丰富的记录信息丰富的网站设计将帮助您获得丰富的信息。干净的数据是在电子商务站点收集的所有电子数据。不需要手动输入,也不需要在历史系统中将集成的研究结果轻松转换为电子商务。许多知识发现可以方便地直接测量应用程序投资回报,电子商务为数据挖掘提供大量数据,而点击流为电子商务挖掘生成大量数据Yahoo!2000年,每天访问10亿页将生成大量web日志(访问历史页面),每小时生成1
2、0GB的web日志!即使是小型电子商务站点,也可以在短时间内生成执行数据挖掘所需的大量数据计算。如果站点一小时销售5个项目,则一个月访问多少页:5个24小时30天/%2(访问过程中表示买东西者百分比的转换率)9页(平均买一个项目9页)=1,600,000页,丰富的记录信息,如果电子商务站点设计良好,则各种业务或用户可以访问的信息也就是说,商品和商品的属性商品的分类信息(如果同时显示多种商品,对信息进行分类将非常有用)促销信息(例如访问次数)关于客户金额的信息(通过登录/注册可用)、干净的数据、信息直接网站无需从提取历史系统集成,通过许多防止错误的好站点设计用于分析、计算、预处理控制数据采样的良
3、好粒度控制是客户级别或会话级别,而不是页面级别,有趣的“生日现象”,一家银行通过客户数据统计发现,5%的客户在同一天出生(同一年同一月的同一天)! 怎么了?如何解释?研究结果很容易转换,有很多关于历史数据挖掘研究的知识发现,但这些知识发现在实际业务应用中影响不大,应用这些发现的知识可能意味着复杂的系统更改、过程更改或人们的工作习惯更改,这在现实中是很困难的。在电子商务中,直接应用站点设计更改(布局更改、个性化设计等)开始目标促销的大量知识发现。根据关于广告效果的统计数据更改广告策略,可以方便地提供捆绑销售,投资收益易于衡量,使用数据挖掘结果进行创新带来的收益如何衡量?Paco Underhil
4、l在购物的科学一本书中提到,在传统企业中,测量投资回报需要长期的测量和观察,一家超市一年用14000小时看录像带来测量他们的促销策略带来的投资回报。在电子商务中衡量创新性投资收益是很容易的销售变化。此报告可以在几天内自动生成,使客户对电子邮件和电子调查的反馈不需要等待几个月的电子商务,甚至整个internet成为传统业务的理想实验室。电子商务网站的web数据挖掘,通常在一个电子商务网站上使用的数据挖掘技术是web数据挖掘。在电子商务网站上能发掘什么?Web Content Mining(内容挖掘)结构挖掘(Web Structure Mining)使用挖掘(Web usage mining)、
5、Web内容管理、Web页面内容挖掘,以及从Web数据中检索信息。自动从众多网站和在线数据库中检索和获取信息和资料。可以直接在internet上编制索引,通过搜索服务获取资源,但是大量“隐藏”的信息只能通过内容挖掘自动挖掘。web structure mining和Web structure mining是对网页之间结构的挖掘。在整个web空间中有用的知识不仅包括页面的内容,还包括页面的结构。web结构挖掘主要针对页面的超链接结构,如果有更多超链接,则该页面很重要,会发现可用于改进搜索路径等的知识。与、Web Usage Mining、Web Content Mining和Web Structu
6、re Mining不同,Web Usage Mining中的挖掘对象是在用户和网络交互过程中提取的二手数据,该数据主要是用户访问Web时在Web日志中留下的信息和一些其他交互信息。日志信息包括访问日期、时间、用户IP地址、服务器IP地址、方法、请求的URL资源、服务器响应状态、用户代理和传输字节。Web Usage Mining是挖掘系统日志信息和用户的注册数据等,寻找有用的模式和知识。Web Usage Mining的作用,通过在电子商务网站上应用Web Usage Mining数据挖掘技术提高站点的质量,改善Web缓存,缓解网络流量,提高性能,捕获电子商务中许多采购流程的详细信息,提供更深
7、入分析的可能性,Web日志(1),典型的日志文件片段-01第一:远程主机的地址,即访问站点的人员。第二:浏览器的电子邮件地址或其它唯一标识符。今天,我们很少有机会在日志的第二个条目中查看电子邮件地址-,标志字段为空,web日志(2),典型日志文件片段-01/aug/19953360333300:338-0400 get/对于不需要用户身份验证的网站,此字段为空-;第四项:请求时间;项目5:告诉服务器收到了什么请求。此信息的一般格式是方法资源协议,即方法资源协议。这是web日志中最有用的信息,在上面的示例中,METHOD是GET RESOURCE向服务器请求的文档,或者URL协议通常为HTTP,
8、后跟版本号。web日志(3),典型日志文件片段-01/aug/1995:33:03:338-0400 get/shuttle/missions/STS-STS它告诉我们请求是否成功,或者发生了什么错误。在大多数情况下,此值为200,表示服务器已成功响应浏览器的请求,并且一切正常。项目7:传送至从属端的位元组总数。,Web Usage Mining的基本过程主要是删除与数据分析、挖掘无关的日志文件中的一些条目,以便通过分析、预处理、预处理系统日志信息的数据挖掘Web服务器日志错误代码Web Usage Mining的基本实现过程预处理模式搜索模式来使挖掘过程更有效、更容易地清除数据。例如:从用户
9、请求方法中删除非GET记录。用户标识日志文件只是主机或代理服务器的IP地址,需要cookie技术和一些灵感规则来标识用户。路径补充检查web日志中是否缺少重要的页面访问记录。事件标识事件标识是指与挖掘的知识相关,定义用户会话以满足挖掘活动的特定需求的事件。将多种数据挖掘的功能和算法应用于模式发现预处理的数据,从而挖掘有用的模式和规则的过程。Web Usage Mining中使用的Web日志分析和用户行为模式挖掘方法包括:关联分析分类和预测聚类分析序列模式统计分析、Web usage mining 关联分析(1),以及分析和汇总用户访问Web页面的潜在关联的规则。80%的用户访问web页/com
10、pany/product1时,/company/product 2也将访问。常用算法Apriori算法或相应的变形算法、常用模式树(FP-tree)算法等,在访问页中挖掘经常访问的页面集,a=b=c a=b=d,a=b,a=b=b=e=e 对于频繁项目集(页面集)A,B,当用户访问A时,将页面B导入到缓存中,以提高Web缓存、缓解网络流量、提高性能在线业务增强常用项目集A,B,如果两个产品的每个页面之间存在关联,则进行Web Usage Mining分类和预测,分类一般算法:应用程序决策,如归纳树、贝叶斯分类、k最近邻分类:可以根据用户的个人信息或特定访问模式分组到特定类别。根据用户对特定类型
11、产品的访问权限或如何处置购物车,您可以确定用户的分类(对e.g .电子产品感兴趣的用户),并使用适用于该分类的促销策略。Web Usage Mining群集分析(1);群集:将对象集合分组到构成类似对象的多个类中的过程。(与分类的区别?)公共群集算法:分割方法、分层方法、基于密度的方法等。Web Usage Mining应用程序包含两个群集:页面群集对于将与内容相关的页面分组到一组网页中,以及提供联机搜索引擎和internet帮助非常有用。用户群集可以对具有相似访问特性的用户进行分组,并在电子商务的市场细分和向用户提供个性化服务方面发挥巨大作用。通过Web Usage Mining群集分析(2
12、)、群集分析,您可以首选类似的用户,动态自定义用户正在查看的内容或提供有关导航的建议。例如:推荐系统或动态促销系统购买职责:1)促进用户查看和查看2)提高广告功能3)促进在线销售4)提高用户忠诚度,分析web使用情况mining 统计(1),统计分析发生率,查找平均值,查找平均值等,最常访问的网页,以及还提供了有限级别的错误分析功能,例如检测未授权的入口点和查找最常见的未更改的URL。客户访问一个页面的次数、停留时间、访问次数最多的页面(或产品、URL等)、Web Usage Mining统计分析(1)、常用电子商务网站用户访问数据统计(摘录)平均一个用户访问8-10页的次数5,Web Usage Mining序列模式-如果要查找按时间顺序显示页面的默认模式序列模式,可以使用该模式进行用户的导航趋势分析。也就是说,一组数据项后会出现另一组数据项,因此,您可以配置按时间顺序排列的会话集,以帮助为特定用户组保留特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年铍箔及铍合金箔项目发展计划
- 新药研发部临床应用计划
- 如何维护仓库的内外部关系计划
- 2025-2030中国闪存控制器行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国门帘市场深度调查研究报告
- 2025-2030中国锁模器行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国铰接式吊杆提升行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国铂催化剂行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国钻探车行业市场运行分析及发展前景与投资研究报告
- 2025-2030中国钢带分拣机行业市场发展趋势与前景展望战略研究报告
- 水利工程(水电站)全套安全生产操作规程
- 学生宿舍宿管人员查寝记录表
- 配电间巡检记录表
- ISO 31000-2018 风险管理标准-中文版
- 双人法成生命支持评分表
- DBJ61_T 179-2021 房屋建筑与市政基础设施工程专业人员配备标准
- 毕业设计三交河煤矿2煤层开采初步设计
- 预应力锚索施工全套表格模板
- 食品流通许可证食品经营操作流程图
- 风电场工作安全培训
- 压缩机课程设计(共28页)
评论
0/150
提交评论