电子商务与数据挖掘分析_第1页
电子商务与数据挖掘分析_第2页
电子商务与数据挖掘分析_第3页
电子商务与数据挖掘分析_第4页
电子商务与数据挖掘分析_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、电子商务和数据挖掘、基于WEB日志的用户访问模式挖掘以及电子商务和数据挖掘完美结合。电子商务中成功的数据挖掘得益于电子商务提供大量数据的事实。如果一个电子商务网站平均每小时销售五件商品,其平均月点击率为160万次。丰富的记录信息和良好的网站设计将有助于获得丰富的信息和干净的数据。所有从电子商务网站收集的都是电子数据,不需要人工输入或从历史系统中集成。研究成果可以很容易地转化为电子商务,许多知识发现可以直接应用。投资回报很容易衡量。电子商务为数据挖掘提供了海量数据,“点击流”将产生大量电子商务挖掘的数据。2000年,每天访问的页面数为10亿。如此大量的访问将产生巨大的网络日志(记录页面访问的情况

2、),每小时产生的网络日志量将达到10GB!即使是一个小的电子商务网站也会在一段时间内产生大量数据挖掘所需的数据。如果你的网站在一个小时内销售5个商品,一个月内会有多少页面被访问:5个商品,24小时30天/%2(转化率,表示访问者中买东西的人的比例)9个页面(平均9个页面购买一个商品)=1,600,000个页面,这是丰富的。如果你的电子商务网站设计良好,你将能够获得各种商业或用户访问信息:商品和商品属性, 商品分类信息(在同时显示多种商品时非常有用)、促销信息、访问信息(如访问次数)、客户数量信息(可通过登录/注册获得)、“干净数据”,信息直接从网站中提取,不需要与历史系统集成,避免了许多错误。

3、 与数据挖掘相关的数据可以通过良好的站点设计直接获得,而不是对要使用的数据进行分析、计算和预处理。直接采集的电子数据可靠,不需要人工输入数据,避免了许多错误。通过良好的站点设计,对数据采样粒度的良好控制粒度是在客户级别或会话级别控制的,而不是在页面级别控制的,这是一个有趣的“生日现象”。一家银行发现其5%的客户出生在同一天(同一年同一个月的同一天)!为什么?如何解释?研究成果易于转化,历史上在数据挖掘研究中有许多知识发现,但这些知识发现很少在实际商业应用中产生任何影响。应用这些发现的知识可能意味着进行复杂的系统改变、过程改变或改变人们的工作习惯,这在现实中是非常困难的。在电子商务中,许多知识发

4、现可以直接应用于改变网站的设计(改变布局,进行个性化设计等)。)并开始有针对性的促销。根据广告效果的统计数据,改变广告策略可以很容易地提供捆绑销售,而且投资收益也很容易衡量。如何使用数据挖掘结果来衡量创新带来的收入?在传统业务中,衡量投资收入需要长期的衡量和观察。帕科昂德希尔在购物的科学一书中提到,一家超市每年花14000小时观看视频,以衡量其促销策略带来的投资收益。在电子商务中,很容易衡量创新的投资收益,销售变化报告可以自动生成客户对电子邮件和电子调查的反馈,这些反馈可以在几天内获得,而不是等待几个月。电子商务甚至整个互联网都是传统商业的理想实验室。电子商务网站的Web数据挖掘。电子商务网站

5、上常用的数据挖掘技术是网络数据挖掘。我们能在电子商务网站上挖掘什么?网页内容挖掘(网页内容挖掘)网页结构挖掘使用网页使用挖掘和网页内容挖掘来挖掘网页内容并从网页数据中发现信息。从数百万个网站和在线数据库中自动搜索和获取信息和资料;虽然人们可以通过从互联网上直接抓取和索引并实现检索服务来获取资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。网页结构挖掘就是挖掘网页之间的结构。在整个网络空间中,有用的知识不仅包含在页面的内容中,也包含在页面的结构中。Web结构挖掘主要针对页面的超链接结构。如果有更多的超链接指向它,那么页面是重要的,并且发现的知识可以用来改进搜索路径。与网页内容挖掘和网页结构

6、挖掘不同,网页使用挖掘的挖掘对象是用户与网络交互过程中提取的二手数据,主要是用户访问网页时留在网页日志中的信息和其他交互信息。日志信息包括访问日期、时间、用户IP地址、服务器IP地址、方法、请求的URL资源、服务器响应状态、用户代理、发送字节等。网络使用挖掘是挖掘系统日志信息和用户注册数据,寻找有用的模式和知识。网站使用挖掘的作用,通过将网站使用挖掘数据挖掘技术应用于电子商务网站,可以提高网站质量,改善网站缓存,缓解网络流量,提高性能。在电子商务中,还可以获取采购过程的大量细节,这为更深入的分析提供了可能性。典型日志文件片段-01/Aug/19953:00:01336038-0400“获取/航

7、天飞机/任务/STS-71/图像/图像”第2项:查看者的电子邮件地址或其他唯一标识符。今天,我们很少有机会在日志记录的第二项中看到电子邮件地址,因此上面标有-的字段为空,而网络日志(2),典型日志文件片段-01/aug/1995 :00:01:38-0400“获取/穿梭/任务/STS-71/图像/图像”。第三项:记录查看者在验证期间提供的信息项目4:请求时间;第5项:告诉我们服务器收到了什么样的请求。该信息的典型格式是“方法资源协议”,即“方法资源协议”;这是网络日志中最有用的信息。在上面的例子中,方法是GET RESOURCE,它指的是浏览器从服务器请求的文档,或者URL协议通常是HTTP后

8、跟版本号。网络日志(3),典型日志文件片段-01/aug/19953:00:01336038-0400“获取/穿梭/任务/STS-71/图像/图像”。大多数情况下,该值为200,这意味着服务器已经成功响应了浏览器的请求,一切正常。第七项:发送到客户端的总字节数。网站使用挖掘的基本过程,网站使用挖掘主要是通过系统日志信息、错误日志cookies的基本实现过程进行网站使用挖掘、预处理、模式发现、预处理,这使得挖掘过程更有效、更容易清理数据。其目的是删除日志文件中一些与数据分析和挖掘无关的项目。例如,删除用户请求方法中未获得的记录;用户标识日志文件仅记录主机或代理服务器的IP地址。为了识别用户,需要

9、Cookie技术和一些启发式规则来帮助识别他们。路径补充确认网页日志中是否缺少重要的页面访问记录;事件识别事件识别与要挖掘什么样的知识有关,用户会话根据挖掘活动的特定需求被定义为事件。模式发现,通过将各种数据挖掘功能和算法应用于预处理数据来挖掘有用模式和规则的过程。网络使用挖掘中使用的网络日志分析和用户行为模式挖掘方法包括:关联分析分类和预测聚类分析序列模式统计分析,以及网络使用挖掘关联分析(1),它是通过分析访问网页的用户之间的潜在关系总结出来的规则;例如,当80%的用户访问网页/公司/产品2时,他们也会访问/公司/产品2;常用算法有Apriori算法或其变体算法、频繁模式树(FP- tre

10、e)算法等。可用于挖掘被访问页面中频繁访问的页面集,例如,通过,a=b=c a=b=d,a=b,a=b=e=f,网页使用挖掘关联分析(2),通过关联分析挖掘的频繁项集(页面集)可用于预取可能被请求的页面,从而减少等待时间。对于频繁项集(页面集)A,B,当用户访问A时,页面B被调用到缓存中,从而改善网络缓存,缓解网络流量,提高性能,促进在线商务。对于频繁项集A,B,如果它们分别代表两个产品的页面,这是可以解释的,我们可以利用这一点在电子商务实践中给出更有效的促销策略或广告策略。网络使用挖掘分类和预测功能可用于提取描述重要数据类别的模型,并使用模型预测来确定未知数据的类别标签,从而预测未来的数据趋

11、势。常用算法:决策归纳树、贝叶斯分类、k近邻分类等应用:用户可以根据其个人数据或其特定的访问模式分类到特定的类别。用户的分类(例如,对电子产品感兴趣的用户)可以根据他们对某些产品的访问、他们的购物或他们对购物车的放弃来确定,并且相应的促销策略可以用于相应的分类。网络使用挖掘聚类分析(1),聚类:将一组对象分组为由相似对象组成的多个类的过程。(与分类的区别?常用的聚类算法有:划分法、层次法、基于密度法等。在网站使用挖掘应用程序中有两种聚类。页面聚类将与内容相关的页面分类到一个网页组中,这对于在线搜索引擎和在互联网上提供帮助非常有用。用户聚类对具有相似访问特征的用户进行分类,在电子商务市场细分和为

12、用户提供个性化服务方面发挥着重要作用。网络使用挖掘聚类分析(2),聚类分析可以有利于相似的用户,从而动态地定制浏览内容或为用户提供浏览建议。例如,采购推荐系统或动态促销系统的功能有:1)方便用户查询和浏览;2)增强广告的作用;3)促进网上销售;4)提高用户忠诚度;(1)通过计算出现率、平均值和中位数,获得用户访问网站的基本信息。它还可以提供有限的低级错误分析,例如检测未授权的入口点和找出最常见和不变的网址。它可用于计算客户访问页面的次数、停留时间等。并获得访问量最大的页面(或产品、网址等。)。网站使用挖掘统计分析(1),常用的电子商务网站用户访问统计(摘录),平均用户访问8-10页,在网站上花费5分钟。每个页面平均花费35秒,购物用户访问50个页面,在网站上花费30分钟。网页使用挖掘序列模式试图找出网页按时间顺序出现的固有模式,可以用来分析用户的浏览趋势,即一组数据项出现在另一组数据项之后,从而形成一组按时间顺序排列的会话来预测未来的访问模式,这将有助于为特殊的用户组安排特定的内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论