




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Word-6-Web数据研究与应用论文关于大数据技术与应用的论文1知如何能够投其所好,为用户实现主动推举,供应共性化服务;
这些都是电子商务成败的关键问题。在这种新型的商务模式下,如何对网络上大量的信息进行有效组织利用,关心海量数据的拥有者们找出真正有价值的信息和学问,以指导他们的商业决策行为,成为电子商务经营者关注的问题。快速进展的基于Web的数据挖掘技术,为解决电子商务所面临的问题供应了有效途径。
2Web数据挖掘
2.1Web数据挖掘概述
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取人们事先不知道的、潜在有用的信息和学问的非平凡过程。
Web数据挖掘(WebMining)是从Web文档和Web活动中抽取感爱好的、潜在的有用模式和隐蔽的信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在肯定基础上应用数据挖掘的方法以发觉有用的学问来关心人们从中提取学问。Web数据挖掘可以分为Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)、Web使用记录挖掘(WebUsageMining)三类。Web内容挖掘是指从文档内容或其描述中抽取学问的过程,又可以分为基于文本的挖掘和基于多媒体的挖掘两种。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。Web结构挖掘是指从Web组织结构和链接关系中推导学问。通过对Web结构的挖掘,可以用来指导对页面进行分类和聚类,找到权威页面,从而提高检索的性能,同时还可以用来指导网页采集工作,提高采集效率。Web使用记录挖掘是指从服务器端记录的客户访问日志或从客户的扫瞄信息中抽取感爱好的模式。
基于Web的数据挖掘技术的消失不仅为商家做出正确的商业决策供应了强有力的工具,也为商家更加深化地了解客户需求信息和购物行为的特征供应了可能性。
2.2电子商务中Web数据挖掘的步骤
电子商务中Web数据挖掘的步骤如下:
①明确数据挖掘的对象—业务对象,确定商业应用主题,不能盲目地进行挖掘;
②将与业务对象的各类原始数据收集起来作为挖掘的数据源泉;
③对收集的数据进行预处理,一般包括数据净化、用户识别、会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘效率,剔除无用、无关信息并对信息进行必要的整理。
④依据需要解决的问题建立合适的数据挖掘模型,然后利用已知数据对模型进行训练和测试,并应用该模型得到挖掘结果;
⑤利用可视化技术,验证、解释挖掘的结果,并据此做出决策或丰富学问,即进行模式分析与应用。
在整个Web数据挖掘的过程中,被明确的业务对象是挖掘过程的基础,它驱动整个Web数据挖掘的全过程;
同时,也是检验挖掘结果和引导分析人员完成挖掘的依据。
2.3电子商务中Web数据挖掘的数据源
在电子商务中,可以用来作为数据挖掘分析的数据量比较大,而且类型众多,总结起来有以下几种类型的数据可用于Web数据挖掘技术产生各种学问模式。
①服务器数据。客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括serverslogs、errorlogs、cookieslogs等。
②查询数据。它是电子商务站点在服务器上产生的一种典型数据。例如,对于再现存储的客户或许会搜寻一些产品或某些广告信息,这些查询信息就是通过cookie或是登记信息连接到服务器的访问日志上。
③在线市场数据。这类数据主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。
④Web页面。主要是指HTML和XML页面的内容,包括文本、图片、语音、图像等。
⑤Web页面超级链接关系。主要是指页面之间存在的超级链接关系,这也是一种重要的资源。
⑥客户登记信息。客户登记信息是指客户通过Web页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的精确 度,使之能更进一步的了解客户。
2.4Web数据挖掘能够猎取的学问模式
运用Web数据挖掘技术能够对站点上的各种数据源进行挖掘,找到相关的一些学问模式,以指导站点人员更好地运作站点和向客户供应更好的服务。一般运用Web数据挖掘可以在站点上挖掘出来的学问模式有以下几个:
①路径分析。它可以被用于判定在一个Web站点中最频繁访问的路径。通过路径分析,可以得到重要的页面,可以改进页面及网站结构的设计。
②关联规章的发觉。在电子商务中关联规章的发觉可以找到客户对网站上各种文件之间访问的相互关系,可以找到用户访问的页面与页面之间的相关性和购买商品间的相关性。利用这些相关性,可以更好的组织站点的内容,实施有效的市场策略,增加交叉销售量,同时还可以削减用户过滤信息的负担。
③序列模式的发觉。序列模式的发觉就是在时间戳有序的事务集中,找到那些“一些项跟随另一项”的内部事务模式。它能够便于进行电子商务的组织猜测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发觉,能够在服务器方选择有针对性地页面,以满意访问者的特定要求。
④分类和猜测。分类发觉就是给出识别一个特别群体的公共属性的描述,这个描述可以用来分类新的项。分类的目的是通过构造分类模型或分类器,把数据库中的数据项映射到给定类别中的某一个,以便用于猜测;
也就是利用历史数据记录自动推导出对给定数据的推广描述,从而能对将来数据进行猜测,进行适合某一类客户的商务活动。
⑤聚类分析。聚类分析可以从Web访问信息数据中聚集出具有相像特性的那些客户。在Web事务日志中,聚类顾客信息或数据项能够便于开发和执行将来的市场策略。这种市场策略包括自动给一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推举特定的商品等。对电子商务来说,客户聚类可以对市场细分理论供应有力的支持。通过对聚类客户特征的提取,电子商务网站可以为客户供应共性化的服务。
⑥特别检测。特别检测是对分析对象的少数的、极端的特例的描述,以揭示内在的缘由,从而减小经营的风险。特别检测在电子商务中的应用可以体现在信用卡欺诈甄别、发觉特别客户和网络入侵检测等方面。
Web数据挖掘的各项功能不是独自存在的,而是在挖掘过程中相互联系,发挥作用。
3Web数据挖掘在电子商务中的应用
3.1数据抽取方法在电子商务中的应用
与传统商务活动相比,电子商务具有更多的虚拟和不确定的因素:如客户购买的心理、动机、力量、欲望等。Web数据挖掘要解决的问题就是如何从零散的无规章的网络数据中找到有用的和有规章的数据和学问,基本方法之一就是进行数据抽取,以期对数据进行浓缩,给出它的紧凑描述,如方差值等统计值或用直方图等图形方式表示,从数据泛化的角度争论数据总结,把最原始、基本的信息数据从低层次抽象到高层次,以便于企业决策。
3.2基于Web数据挖掘的智能化搜寻引擎
电子商务企业在活动过程中面临的问题之一是如何通过Internet全面、精确 、准时地收集到企业内、外部的环境信息,尤其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年建筑材料采购销售合同范本
- 2025年氟喹诺酮项目发展计划
- 2025新商业租赁合同专业版(合同版本)
- 2025年合同法重要条款「详细版」
- 工程项目合伙合同协议
- 农产品电商品牌塑造预案
- 2025光伏项目合同能源管理合作框架
- 股份制改革关键问题分析解决方案
- 电信行业智能化宽带网络与服务方案
- 2025咖啡店加盟合同
- 2024年中国电信集团有限公司招聘考试真题
- 《中医体重管理临床指南》
- 2025湖南新华书店集团校园招聘85人高频重点提升(共500题)附带答案详解
- 医院危化品知识培训课件
- 儿童营养及营养性疾病
- 专业设置可行性报告
- QC080000培训讲义课件
- 病历书写规范细则(2024年版)
- 华南理工大学《统计学》2022-2023学年第一学期期末试卷
- GB/T 29468-2024洁净室及相关受控环境围护结构夹芯板
- 炉衬材料与结构的改进
评论
0/150
提交评论