下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、日志挖掘与电子商务 日志挖掘与电子商务是小柯论文网通过网络搜集,并由本站工作人员整理后发布的,日志挖掘与电子商务是篇质量较高的学术论文,供本站访问者学习和学术交流参考之用,不可用于其他商业目的,日志挖掘与电子商务的论文版权归原作者所有,因网络整理,有些文章作者不详,敬请谅解,如需转摘,请注明出处小柯论文网,如果此论文无法满足您的论文要求,您可以申请本站帮您代写论文,以下是正文。 摘要 在电子商务中,根据客户的访问数据挖掘出有价值的信息,进而划分客户群体和发现潜在的客户,从而提升业绩,对电子商务网站有重要的意义。web日志挖掘是数据挖掘在web页面上的应用,文章对web日志挖掘进行了介绍,给出了
2、web日志挖掘的步骤和方法,对web日子挖掘工具进行了分析,并介绍了其在电子商务网站中的应用。关键词 电子商务 数据挖掘 web日志挖掘一、引言随着计算机技术、通信技术和网络技术的飞速发展,电子商务的发展也有了越来越好的技术平台,许多公司都建立了自己的网站,这是公司的门户和电子商务进行的所在。web数据挖掘是当前最前沿的研究领域,是把internet和数据挖掘结合起来的一种新兴技术。web数据挖掘是知识发现的特定步骤,也是最核心的部分。web日志挖掘是web挖掘的重要内容,其技术和方法在电子商务中有着巨大的应用空间和应用价值。如发现有价值的信息、寻找潜在客户和提供个性化服务等。二、web挖掘及
3、web日志挖掘web挖掘是将数据挖掘的思想和方法应用到web页面内容、页面之间的结构、用户访问信息等各种web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。根据挖掘的对象不同,web挖掘可分为web内容挖掘、web结构挖掘和web日志挖掘。1.web内容挖掘web内容挖掘主要从web文档的内容中抽取出有用的知识。由于web文档的绝大部分内容是以文本的形式存在,所以web内容挖掘主要针对的是web文档的文本部分,文本挖掘主要包括对web文档文本的总结、分类、聚类、关联分析等。除了文本挖掘以外,web内容挖掘还包括web上的声音、图形、图像信息的挖掘、数据库中的数据挖掘和信息获取等。
4、2.web结构挖掘web结构挖掘主要通过web页的组织结构和超链接关系以及web文档自身的结构信息(如title, heading, anchor标记等)推导出web内容以外的知识,可分为超链挖掘、内部结构挖掘和url挖掘。3.web日志挖掘web日志挖掘即web使用记录挖掘,是从用户的访问记录中抽取具有意义的模式。其数据源有服务器的日志、用户注册数据、跟踪文件的数据记录、用户访问期间的事务、用户查询、书签数据和鼠标移动点击的信息。web日志记录挖掘应用的技术主要有路径分析、关联规则分析、序列模式分析、聚类分析、统计分析等。web使用记录挖掘可以发现潜在的用户、改进电子商务网站的建设、增加个性
5、化服务等。三、web日志挖掘的步骤web日志挖掘步骤主要分为源数据收集、数据预处理、模式发现、模式分析个阶段。1.源数据收集源数据收集主要是web日志文件的收集。对于一个电子商务网站来说,经过一段时间后,用户会在网站上积累大量有用的信息(如访问日志、注册信息、需求信息、定单信息、交流信息等),采用web 日志挖掘技术就可以充分利用这些有用信息,帮助电子商务网站的建设和发展。web日志文件主要包括以下3种类型:服务器日志文件、错误日志文件和cookies。2.数据预处理web日志挖掘首先要对日志中的原始数据进行预处理,因为从用户的访问日志中得到的原始日志记录并不适于挖掘,必须进行适当的处理。因此
6、,需要通过日志清理,去除无用的记录。预处理过程是保证web日志挖掘质量的关键步骤,下面我们来阐述数据预处理的过程。(1)数据净化。指删除 web服务器日志中与挖掘算法无关的数据。大多数情况,只有日志中 html文件与用户会话相关,所以通过检查url 的后缀删除认为不相关的数据。(2)识别用户。由于本地缓存、代理服务器和防火墙的存在,使得识别用户的任务变得很复杂,可以使用一些启发式规则帮助识别用户。(3)识别用户会话。用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面,我们可以获得他在网站中的访问行为和浏览兴趣。(4)识别片段。在识别用户会话过程中的另一个问题是确定访问日志中是否有重要
7、的请求没有被记录。如果当前请求页与用户上一次请求页之间没有超文本链接,那么用户很可能使用了浏览器上的“back”按钮调用缓存在本机中的页面。检查引用日志确定当前请求来自哪一页,如果在用户的历史访问记录上有多个页面都包含与当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。3.模式发现模式发现是运用各种算法和技术对预处理后的数据进行挖掘,生成模式。这些技术包括人工智能、数据挖掘、统计理论、信息论等多领域的成熟技术。可以运用数据挖掘中的常用技术如路径分析,关联规则、序列模式以及分类聚类等。(1)路径分析。它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息
8、通过路径分析可以得出。利用这些信息就可以改进站点的设计结构。(2)关联规则。使用关联规则发现方法,可以从web的访问事务中找到相关性。利用这些相关性,可以更好的组织站点的web空间。(3)序列模式。在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。发现序列模式,能够便于预测读者的访问模式,开展有针对性的服务。(4)分类和聚类。发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类的读者。聚类分析可以从web访问信息数据中聚类出具有相似特性的读者,在web事务日志中,聚类读者信息或数据项能够便于开发和设计未来的服务模式和服务群体。4.
9、模式分析该阶段实现对用户访问模式的分析,基本作用是排除模式发现中没有价值的规则模式,从而将有价值的模式提取出来。四、web日志挖掘在电子商务网站中的应用1.电子商务网站中web日志挖掘内容(1)网站的概要统计。网站的概要统计包括分析覆盖的时间、总的页面数、访问数、会话数、惟一访问者、以及平均访问、最高访问、上周访问、昨日访问等结果集。(2)内容访问分析。内容访问分析包括最多及最少被访问的页面、最多访问路径、最多访问的新闻、最高访问的时间等。(3)客户信息分析。客户信息分析包括访问者的来源省份统计、访问者使用的浏览器及操作系统分析、访问来自的页面或者网站、来自的ip地址以及访问者使用的搜索引擎。
10、(4)访问者活动周期行为分析。访问者活动周期行为分析包括一周7天的访问行为、一天24小时的访问行为、每周的最多的访问日、每天的最多访问时段等。(5)主要访问错误分析。主要访问错误分析包括服务端错误、页面找不到错误等。(6)网站栏目分析。网站栏目分析包括定制的频道和栏目设定,统计出各个栏目的访问情况,并进行分析。(7)商务网站扩展分析。商务网站扩展分析是专门针对专题或多媒体文件或下载等内容的访问分析。2.web日志挖掘工具已经有部分公司开发出了商用的网站用户访问分析系统,如webtrends公司的commercetrends 3.0,它能够让电子商务网站更好地理解其网站访问者的行为,帮助网站采取
11、一些行动来将这些访问者变为顾客。commercetrends主要由3部分组成:report generation server、campain analyzer和webhouse builder。还有accrue公司的accrue insight,它是一个综合性的web分析工具,它能够对网站的运行状况有个深入、细致和准确的分析,通过分析顾客的行为模式,帮助网站采取措施来提高顾客对于网站的忠诚度,从而建立长期的顾客关系。五、结束语电子商务在快速增长,有非常好的前景。web日志挖掘是数据挖掘中的前沿技术,应用web日志挖掘技术,能使电子商务网站资源的配置更合理化,能发现隐含的有价值的信息,改进网站
12、设计,找到潜在的客户、为已有客户提供更好的个性化服务。web日志挖掘技术和 web内容挖掘技术、web结构挖掘技术的结合使用可进一步完善和提高电子商务网站的功能,这是我们今后所要探讨的。本文中所涉及到的图表、注解、公式等内容请以pdf格式阅读原文。其他参考文献baker, sheridan. the practical stylist. 6th ed. new york: harper & row, 1985.flesch, rudolf. the art of plain talk. new york: harper & brothers, 1946.gowers, ernest. the
13、complete plain words. london: penguin books, 1987.snell-hornby, mary. translation studies: an integrated approach. amsterdam: john benjamins, 1987.hu, zhuanglin. 胡壮麟, 语言学教程 m. 北京: 北京大学出版社, 2006.jespersen, otto. the philosophy of grammar. london: routledge, 1951.leech, geoffrey, and jan svartvik. a c
14、ommunicative grammar of english. london: longman, 1974.li, qingxue, and peng jianwu. 李庆学、彭建武, 英汉翻译理论与技巧 m. 北京: 北京航空航天大学出版社, 2009.lian, shuneng. 连淑能, 英汉对比研究 m. 北京: 高等教育出版社, 1993.ma, huijuan, and miao ju. 马会娟、苗菊, 当代西方翻译理论选读 m. 北京: 外语教学与研究出版社, 2009.newmark, peter. approaches to translation. london: pergmon p, 1981.quirk, randolph, et al. a grammar of contemporary english. london: longman, 1973.wang, li. 王力, 中国语法理论 m. 济南: 山东教育出版社, 1984.xu, jianping. 许建平, 英汉互译实践与技巧 m. 北京: 清华
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度安全生产月宣传品采购与分发合同
- 2024年度建设施工合同工程质量与工程款支付规定
- 2024年企业环保设施建设和运营合同
- 04版离婚合同:三个孩子的监护权、财产分配及赡养费
- 2024聘用驾驶员合同书
- 2024年建筑基础土石方作业合同
- 安利心态课件教学课件
- 催收员试用期转正工作总结(6篇)
- 2024年度ABC电子科技有限公司手机代理销售合同
- 2024年大型物流中心建设与运营合同
- 劳动通论学习通超星期末考试答案章节答案2024年
- 解码国家安全智慧树知到期末考试答案2024年
- 浙教版六年级劳动项目三-任务二《创意班规巧设计》课件
- 可研勘察设计费计费标准
- 运动处方知识点
- 某企业员工违规处理登记表(doc 2页)
- 生物地理学热带生物群
- 小学数学科教师家长会优秀PPT完整版
- 脑出血大病历.doc
- 人教版小学语文一年级生字表(打印版)
- 煤矿联合试运转方案
评论
0/150
提交评论