![[硕士论文精品]基于cf的个性化电子商务推荐系统研究_第1页](http://file.renrendoc.com/FileRoot1/2017-12/8/9d0313e5-788a-4554-afb1-d147bc357407/9d0313e5-788a-4554-afb1-d147bc3574071.gif)
![[硕士论文精品]基于cf的个性化电子商务推荐系统研究_第2页](http://file.renrendoc.com/FileRoot1/2017-12/8/9d0313e5-788a-4554-afb1-d147bc357407/9d0313e5-788a-4554-afb1-d147bc3574072.gif)
![[硕士论文精品]基于cf的个性化电子商务推荐系统研究_第3页](http://file.renrendoc.com/FileRoot1/2017-12/8/9d0313e5-788a-4554-afb1-d147bc357407/9d0313e5-788a-4554-afb1-d147bc3574073.gif)
![[硕士论文精品]基于cf的个性化电子商务推荐系统研究_第4页](http://file.renrendoc.com/FileRoot1/2017-12/8/9d0313e5-788a-4554-afb1-d147bc357407/9d0313e5-788a-4554-afb1-d147bc3574074.gif)
![[硕士论文精品]基于cf的个性化电子商务推荐系统研究_第5页](http://file.renrendoc.com/FileRoot1/2017-12/8/9d0313e5-788a-4554-afb1-d147bc357407/9d0313e5-788a-4554-afb1-d147bc3574075.gif)
已阅读5页,还剩49页未读, 继续免费阅读
[硕士论文精品]基于cf的个性化电子商务推荐系统研究.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究摘要随着互联网技术的发展,网络用户剧增。电子商务也越来越受到企业和消费者的青睐。电子商务推荐技术作为电子商务中的重要技术,模仿销售员向客户推荐客户偏好度较高的产品。如何提高电子商务推荐系统的推荐质量,目前已成为专家学者们研究的热点。本文将数据仓库技术应用到电子商务体系构建中,介绍了WEB环境下进行会话识别、客户识别、路径辨别、数据清理、数据集成、数据装载等技术,为电子商务数据挖掘提供规范的数据。同时本文在关联规则、协同过滤等技术的基础上设计了个性化的推荐系统。根据客户特点,将客户进行分类,并根据客户不同的分类,采取不同的模式挖掘算法。提出基于内容的跟踪树算法、基于关联规则的协同过滤,并引入分区的理念,为客户提供个性化的服务,从而提高电子商务推荐系统的推荐质量。最后,对算法进行了分析。关键字数据仓库、数据挖掘、电子商务推荐系统、协同过滤、面向客户兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究ABSTRACTINTEMETUSERSINCREASINGRAPIDLYBYTHEDEVELOPMENTOFINTERNETTECHNOLOGYECOMMERCEHASBEENGROWINGCONCERNBYBUSINESSESANDCONSUMERSECONLLNERCERECOMMENDERSYSTEMISAVERYIMPORTANTTECHNOLOGYOFECOLILNLERCETHATIMITATESELLERSRECOMMENDPRODUCTSTHATCUSTOMERPREFERENCESHOWTOIMPROVETHEQUALITYOFECOMMERCERECOMMENDATIONSYSTEM,HASBECOMEAHOTRESEARCHBYEXPERTSANDSCHOLARSINTHISARTICLE,DATAWAREHOUSETECHNOLOGYISUSEDINECOMMERCEWEGETNORMATIVEDATAFORECOMMERCEDATAMININGBYSESSIONIDENTIFICATION,CUSTOMERIDENTIFICATION,PATHIDENTIFICATION,DATACLEANING,DATAINTEGRATION,DATALOADINGETCPERSONALIZEDECOMMERCERECOMMENDERSYSTEMISPROPOSEDBASEDONCOLLABORATIVEFILTERING,WHICHCLASSIFYCUSTOMERS,ANDACCORDINGTOCUSTOMERCLASSIFICATION,ADOPTADIFFERENTPATTERNMININGALGORITHMSBASEDONCUSTOMERCHARACTERISTICSTHISARTICLEPROPOSEDCONTENTBASEDTRACKINGTREE,ARBAESDCOLLABORATIVEFILTERING,ANDPULLINZONINGCONCEPTTOPROVIDECUSTOMERSWITHPERSONALIZEDSERVICETOENHANCETHERECOMMENDATIONQUALITYOFECOMMERCERECOMMENDATIONSYSTEMFINALLY,WEANALYSISOFTHEAIGORITHMKEYWORDSDATAWAREHOUSE,DATAMINING,ECOMMERCERECOMMENDERSYSTEM,COLLABORATIVEFILTERING,CUSTOMERORIENTEDII原创性声明本人郑重声明本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名互童盟日期塑垡关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。保密论文在解密后应遵守此规定。论文储擗芈剔磴轹日期踟口T沙兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究第一章绪论11选题的背景和意义随着科学技术的发展,尤其是计算机技术和信息技术的迅猛发展,互联网的普及,电子商务也取得了快速的发展。电子商务为客户提供了丰富的商品,同时电子商务网站在运行时也产生了大量的数据。然而作为顾客在电子商务网站上购物时,因为没有传统销售模式下的营销员的引导,往往很难快速定位到自己需要的商品,这样容易造成客户对电子商务的兴趣度降低,从而导致客户的流失。如何解决这个制约电子商务发展的瓶颈问题如何将电子商务产生丰富的数据转化为知识如何让客户在丰富的商品中快乐的购物针对这些问题,在电子商务网站上使用数据仓库技术、进行数据挖掘和商品推荐势在必行。111电子商务的发展现状根据新华网公布的数据【11,2007年我国电子商务交易总额已经达到217万亿元,比2006年度增长了90跟据商务部的预计,未来的10年内,将会有70的贸易额通过电子交易来完成,电子商务将会成为主流的商业经济模式。国内的电子商务网站淘宝网由阿里巴巴于2003年7月建立,在不到3年的时间里,就成为了亚洲最大的电子商务网站。截止到2008年底,淘宝网注册会员达到了9800万人。如图11所示,导致电子商务迅猛发展的主要原因有以下几个方面1、网络用户的大幅增加,为电子商务提供了广泛的客户来源。根据第23次中国互联网络发展状况统计报告【2】截至2008年年底,我国网民已经达到298亿人,比2007年增长了419,互联网普及率也达到了226;其中网络购物用户人数已经达到7400万人,年增长率为60。2、客户在电子商务上购物,不出门,便可以享受网络购物带米的便捷和快乐。3、电子商务网站节省了传统经营模式下的经营店面、营业人员和仓储没施所必需成本投资。兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究4、电子商务的进入和退出成本降低,规避了投资风险,即使企业因经营不利而退出电子商务,损失也不会很大。5、传统的店面具有商品陈列的限制,而电子商务消除了这个界限,可以为客户提供一个无限大的商品陈列空间。图11电子商务迅猛发展原因剖析112数据仓库在电子商务应用的必要性电子商务的迅猛发展,引起了企业界的广泛关注,电子商务越来越受到企业的青睐。同时电子商务在运行过程中产生大量的数据,包括网络客户注册数据、电子商务提供的商品数据、网络客户的消费行为数据等。如何对这些数据进行处理,如何从这些数据中获取知识,了解顾客的消费行为,为企业的决策提供支持,对企业的发展来说至关重要。数据仓库技术与传统的数据库技术相比,具有以下优势1、传统的数据库技术,对电子商务过程中产生的数据应用仅仅局限于简单的数据处理与存储,无法有效的利用这些数据或信息为管理者制定决策提供重要参考和依据。2、传统数据库技术无法实现数据的分类、合成以及深层次处理等功能。3、电子商务围绕决策的主题组织数据,并利用历史数据做决策时,这些是2兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究传统数据库技术无法满足和实现的。4、数据仓库技术能够实现把决策者需要的主题信息从原始的操作型数据中提取出来;同时实现把难以访问的、分散的原始操作型数据经数据消噪、数据集成、数据转换等处理后转化成随时可访问的、主题集中的信息。数据仓库技术能够对数据信息实现全面、高效、合理的管理。因此,研究数据仓库技术并将其应用于电子商务系统中对电子商务的发展将起到至关重要的作用。113数据挖掘在电子商务应用的必要性电子商务网站为顾客提供了丰富的商品,但是电子商务网站又没有传统营销模式下的销售员进行个性化的导购。这样导致客户无法在短时间内迅速的定位到自己所需要的商品或自己感兴趣的商品,使客户面临严重的“信息超载”INFORMATIONOVERLOAD31现象。在这种状况下客户难免会浏览大量不相关的信息,从而导致使客户产生购物疲劳甚至失去购物兴趣而离丌,造成客户流失和企业的损失。因此,挖掘客户的购买行为,对客户进行分析,为客户推荐其感兴趣的商品势在必行。电子商务在运行当中会产生大量的数据,这些数据为电子商务进行数据挖掘提供了基础。在电子商务中进行数据挖掘具有以下便利条件1、收集信息的便利性,通过网上购物系统可以很方便的获取客户的注册信息并记录客户的交易行为;通过WEB使用日志可以获取客户的浏览行为。如客户浏览了哪些页面,浏览路径是什么,客户将哪些商品放进了购物车,又有哪些商品最终购买。2、电子商务系统收集信息的准确性和完整性,电子商务中大多数数据都是通过系统自动的收集,这样可以大大减少手工收集数据产生的错误。3、在电子商务系统的基础上实现数据挖掘相对较为容易。电子商务系统具有较高的自动化、网络化和信息化,这些特性使数据挖掘系统容易和电子商务系统进行结合。基于客户的需求、企业的需求以及电子商务本身进行数据挖掘的优势,我们认为基于电子商务的数据挖掘足必要的,而且是可行的。3兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究12电子商务推荐系统研究现状目前,很多大型的商务网站已经开始使用电子商务推荐系统,如新浪商城HTTPMALLSINACOM饥、网易商城HTTPMALL163EOM、EBAYHTTPWWWEBAYEOM等。随着电子商务推荐系统的广泛应用,电子商务推荐技术也成为目前研究的热点。目前,国内外的大量专家、学者对电子商务推荐技术已经开展了大量的研究。PENNOCK从社会选择理论SOCIALCHOICETHEORY14,YAGER从模糊集FUZZYSET【5】、LIJIMA等人多准则决策MULTICRITERIADECISIONMAKING【6】的角度对其进行了剖析;NASRAOUI等人通过对客户访问模式进行聚类的方法预测客户的未来访问行为【刀;SCHECHTER等人以客户的访问路径为研究对象,预测客户未来可能的请求,并让代理服务器执行预提取操作,将相关WEB页面放入到CACHE中,从而提升了客户的访问速度【81。另外电子商务推荐系统已经开发出来的还有SITEHELPER系统【91、FOOTPRINTS系统101、AVANTI系统【LL】、WEBWATCHER系统【12】等。协同过滤COLLABORATIVEFILTERING,CF被认为是电子商务推荐技术中应用最广泛的、效果最好的推荐算法。但是协同过滤算法也存在着诸如客户评分数据稀疏性SPARSITY、首次访问客户冷启动COLDSTART、算法的可扩展性SCALABILITY等问题F13】。13创新点及组织结构131主要创新点本文在大量的电子商务数据挖掘研究和电子商务推荐系统研究的基础上,结合电子商务目前研究的热点以及电子商务推荐系统中遇到的瓶颈问题,提出了基于数据仓库和数据挖掘的电子商务推荐系统,主要创新点为1、构建了电子商务数据仓库的事实星座模型,将数据仓库技术和数据挖掘技术结合起来应用到电子商务中,为电子商务推荐系统以及电子商务数据挖掘提供面向主题、规范的数据。2、本文基于协同过滤算法,提出了个性化的电子商务推荐系统,主要包括面向客户的模式挖掘和面向客户的协同过滤。针对不同的客户采取不同的模式挖4兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究掘方式,并根据客户的不同将协同过滤算法进行降维处理,为客户提供个性化很强的推荐服务,提高推荐质量。132论文组织结构本文以数据仓库在电子商务中的应用为基础,以数据挖掘技术为理论依托,以提供个性化服务的面向对象的电子商务推荐系统为研究重点,展开论述。第一章为绪论部分,主要介绍了本文选题的意义,目前研究现状。第二章重点介绍了数据仓库技术的特点、发展趋势、数据仓库在电子商务中的应用模型,介绍了电子商务环境下数据的清理、转换、集成、装载等技术,为数据挖掘提供数据支持。第三章对数据挖掘技术在电子商务中的应用进行了阐述,提出电子商务推荐系统的系统结构及关键技术,重点介绍了关联规则和协同过滤算法,为面向客户的电子商务推荐系统提供技术保障。第四章基于协同过滤算法提出个性化的电子商务推荐系统,针对不同的客户采取不同的推荐算法,并提出面向客户的协同过滤算法,并进行了论述和实验验证。第五章是总结与展望部分,总结了本文的主要工作,对未来工作进行展望。兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究第二章数据仓库技术21基于电子商务的数据仓库系统模型图24基于电子商务的数据仓库系统模型如图24,基于电子商务的数据仓库系统主要包括数据处理、数据集成与装载、提供分析处理服务三个部分。原始数据经过数据抽取、数据转换、数据清理、数据集成、数据装载等环节存入数据仓库,并为数据挖掘提供数据支持和保障。数据仓库在电子商务数据挖掘中起到承上启下的作用。2。2电子商务数据挖掘的数据源221数据来源电子商务的数据源主要存储在客户数据库、商业数据库以及WEB使用日志中,这些数据源主要包括以下几种1、客户注册信息,如客户的姓名、年龄、性别、所在地、职业、收入状况等信息。在数据挖掘中,客户注册信息要和访问日志、客户评分等信息进行集成,6兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究便于更进一步了解客户需求,以提高数据挖掘的准确度。2、存储在传统关系数据库里的有关电子商务的商品信息、商务站点信息、客户交易数据、购物篮数据、客户对商品的评分数据等。3、客户端的访问请求信息。4、电子商务网站服务器上存储的客户浏览日志。客户访问电子商务网站,便会在服务器上留下记录,这些客户浏览记录可分为查询数据和WEB同志文件【15】【16】【L7】,其中WEB日志文件包括ERRORLOGS、COOKIELOGS、SERVERLOGS。ERRORLOGSERRORLOGS为请求失败的数据,包括超时,授权失败,丢失连接等。COOKIELOGSCOOKIES记录客户访问服务器的信息。其中服务器上存储的COOKIE部分是COOKIELOGS,COOKIELOGS包含的内容有“NAME,PATHEXPIRY,DATE,DOMAIN,SECURITYLEVEL”。SERVERLOGSSERVERLOGS按照两种格式进行存储【181,普通日志文件格式CLFCOMMONLOGFORMAT格式或扩展同志文件格式ECLFEXTENDEDCOMMONLOGFORMAT。其中CLF包含“DATE,USERNAME,CLIENTIP,SERVER,BYTES,REQUEST,STATUS,SERVICENAME,PROTOCOLOFVERSION,TIME,USERAGENT,COOKIE,REFENER客户访问电子商务网站的信息内容。ECLF包括以下数据域IPADDRESS,也就是发出请求的客户的IP地址;TIMEDATE,为服务器端收到客户请求的时间METHODURLPROTOCOL,即客户请求的方法、请求的URL以及使用的协议。URL可以是一个静态文件,也可以是在应答时需要调用的可执行文件的名字,即URL地址。URL地址包括以下信息STATUS,即对客户请求的应答返回码;SIZE,即返回的字节数;REFERRER,即当前URL的引用页;AGENT,即客户端使用的操作系统或浏览器软件。5、查询数据查询数据是电了商务站点在服务器上产生的数据。如客户搜索某种商品或某些广告信息,这些信息通过COOKIE或者客户注册信息连接到服务器的访问日志卜。7兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究222数据源分类根据数据的来源形式,可以将数据源分为显式数据和隐式数据。显式数据指客户直接给出的自己的偏好信息,如典型的客户对商品进行等级评价的数据。显示数据的针对性较强,数据的可用性较大。但是显式数据比较难获取,因为大多数的客户可能因为隐私而不愿给出自己的偏好信息,另外对商品进行评分也会增加客户的负担。隐式数据指的是客户以一种隐蔽的方式表达自己的兴趣偏好,通常这种偏好反映在客户网上浏览或购物的过程中所表现出自己的兴趣偏好。如客户对某商品比较感兴趣,便会在在商品的页面上浏览时问较长。以隐式数据为研究对象的电子商务推荐系统能自动获取数据,一般不需要客户人为地给出自己的偏好信息。但是,这种方法对数据处理技术要求较高,要进行大量的处理才能转化为对决策者有用的信息。223原始数据处理1、数据抽取电子商务数据抽取是指在电子商务系统中,提取与电子商务决策相关数据的过程。由于电子商务的数据挖掘具有较强的动态性,所以电子商务数据仓库需要增量的从客户数据库、商业交易数据库和WEB使用日志中提取数据。客户数据库的信息主要记录客户的相关特征,如客户名、客户ID、年龄、性别、职业、收入、学历、电子邮件、联系方式和家庭住址等,这些数据可以从客户登记信息中或从电子商务网站的注册页面中获得。但是,对于未注册的客户很难获取该类信息;商业数据库用来记录客户进行商品交易的数据,包括客户ID、客户名、交易时间、交易商品名称、交易商品数量、交易商品价格、销售地点等信息;WEB使用R志数据记录客户对电子商务站点的浏览访问行为,通常以CLF、ECLF两种日志格式进行存储信息,与电子商务数据挖掘相关的信息主要包括客户IP地址、请求域、状态域、代理域、引用域、大小域和时问戳信息。2、数据转换与消噪经过数据抽取后的数据大多是含噪声的错误的或偏离期望的孤立点、不兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究完整的有些感兴趣的属性缺少属性值,或仅包含聚集数据或不一致的数据。这些数据很难直接应用于电子商务决策支持和电子商务推荐系统中,这就需要我们对这些数据进行转换和消噪处理,将其转变为适合电子商务数据挖掘和模式发现的数据形式。在电子商务数据仓库的数据处理中,客户数据文件、商业数据库的数据转换和数据清理工作较简单,可以采用分箱、聚类、计算机和人工相结合、回归等方法,已有的论述也比较多,本文不再进行介绍,本文介绍的重点是WEB使用日志中的数据转换与数据清洗【20】数据清洗。数据清洗是指消除数据中的冗余和噪声,清除与电子商务数据挖掘任务无关的客户访问日志记录。由于客户对电子商务WEB服务器进行请求,需要每个文件都形成一个连接,这样客户向电子商务网站请求的一个页面中包含多个文件,就需要进行多个连接,同时也在电子商务服务器同志上形成了多条记录。首先,我们需要进行相关识别工作。1通过状态域识别出的客户请求失败的访问记录;2通过检查ROBOTSTXT文件或检查代理域,识别出网络爬虫CRAWLEROI“SPID哪和搜索代理AGENT等对电子商务网站进行访问的记录【20】;3识别出文件后缀名为ZIP、JPG、JPEG、GIF,CGI、JS的访问记录。我们可将服务器日志文件中后缀为西F,JPG,JPEG和MAP的记录项删除;将请求失败的记录删除。以一个WEB日志数据为例,WEB日志数据包括以下几个部分21026513907MAY200900OOOO0000】FTGETLZUSDHNOTICEHTMLHTTP10200”304”HTTPWWWTUANWEI1ZUEDUCN”MOZILLA404”对以上WEB同志数据进行解读IP地址为210265139;访问时间为“07MAY20090000000000”;状念“GET”;请求网址为“LZUSDHNOTICEHTML”;协议为“HTTP10200”;状态为“304”;参考页面为“HTTPWWWTUANWEI1ZUEDUCN”;代理“MOZILLA404”。去掉对电子商务数据挖掘无关的信息,经过数据清洗、数据转换后,将数据存到如表21结构的数据表中。表21WEBLOG表序号字段名中文名数据类型备注9兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究1ITEMKEY索引CH缸20外键2USER_KEY客户IDCHAR50外键3SESSIONKO客户会话IDCHAR50外键4IP_ADDRESS客户口地址CHAR305VISITTIME访问时间CHAT606VISIT_UFL访问URLCHAR607REFERED参考页面CHAR300GI朗T垡垄篮皇亟15002I一一_3、客户识别客户识别主要有两种方式一种是通过客户的注册登记信息进行识别;一种是通过客户的IP地址进行识别。通过客户的注册登记信息进行识别比较容易,但对于未注册客户无法进行识别。通过客户的IP地址进行识别,受到代理服务器、防火墙和本地缓存的影响,可能使得具有相同的IP地址的访问对应着不同的客户。这样根据IP地址识别客户变得困难。我们可以通过以下方法进行识别1访问者的P地址不同,代表访问者为不同的客户;2IP地址相同但是代理域不同,代表不同客户;3IP地址相同,但客户当前请求的页面与历史访问的页面之间没有超链接关系,我们认为不同的客户;4IP地址相同,但是客户所使用操作系统或网络浏览器不同,代表着不同的客户。会话识别。会话表示客户在一次电子商务网站的浏览过程中连续访问的网页页面的序列集合。会话可以采用如下形式进行表示SESSIONUID,TIMEB,TIMEE“URLL,TIMEL,URL2,TIME2,URLN,TIMEN。其中UID是客户的标识符,用来确定具体的客户;URLI和TIMEI分别表示为会话第I次访问的页面和该页面被访问的时间;TIMEB和TIMEE分别表示会话的开始和结束时间。4、路径补充当客户向WEB服务器发出页面请求时,由于客户端页面缓存技术和代理服务器的使用,如果被请求的页面存在于代理服务器或者缓存当中,电子商务WEB服务器就不会接收到这个请求信息。这样就造成电子商务WEB服务器的访问日志文件没有记录本次请求,从而使得WEB服务器访问日志中所记录的路径与客户的实际访问路径不符,可能不是客户完整的访问路径。当我们利用不完整的访10兰州人学硕士学位论文基于CF的个性化电子商务推荐系统研究问日志进行电子商务数据挖掘时,挖掘出的模式很可能是片面的、不准确的。所以,我们认为对客户的访问路径进行有效的补充是有必要的。我们可以结合站点的拓扑结构对客户访问路径进行补充,我们将站点的拓扑结构用前缀树进行表示,如图25所示。D图25客户访问路径前缀树根据客户访问路径前缀树图,结合页面进行分析,便可以对客户访问路径进行补充。具体的补充办法如下1路径不完整判断客户被请求的WEB页面不是直接链接到当前客户已经请求的最后一个WEB页面上,我们认为就出现了路径不完整的情况,需要对客户访问路径进行补充。2路径补充首先对客户的访问日志进行检查,如果客户历史访问记录中有这个页面的参照页,我们认为客户使用了“后退”按钮。如果在客户的历史访问记录中,直接链接到该页面有多个页面,根据网站的网页拓扑结构,我们从请求时间上选定最接近当前请求页面的页面,作为本次请求的参照补充页面实现路径补充。文献2】取两个页面访问时间的中蒯点作为补充页面的访问时问。224数据集成、数据装载与多维数据模型构建电子商务数据仓库的数据集成阶段是基于多维的数据模型。我们将WEB使用日志、客户数据库、商业数据库中的数据进行合并,并集装载到格式一致的电子商务数据仓库中。因为电子商务数据的复杂性,我们采用事实星座模型的多维数据模型,也便于数据挖掘和联机分析处理,如图26所示。兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究客户行为事实表图26电子商务数据仓库事实星座模型由图26可以看出事实星座模型主要由事实表和维表两个部分构成。1事实表。我们根据事实表分析维之间的关系。本文提出的电子商务数据仓库的数据模型包括销售事实表和客户点击事实表两个主题事实表。如表22所示,销售事实表包含5个维表的关键字客户维表关键字USER_KEY、时间维表键字TIME_KEY、地点维表关键字LOCA_KEY、产品维表关键字PROD_KEY和活动维表关键字BEHA_KEY以及商品销售单价DOLLSOLD和商品销售数量UNIT_SOLD两个度量。表22销售事实表如表23所示,客户行为事实表包含6个维表的关键字,月J户维表关键字USER_KEY、时间维表键字TIME_KEY、地点表关键字LOCA_KEY、活动维表关键字BEHA蛊要一一一2J5I釜等一一一一一一一一一一一一一一一萋三兰留叼吖Q卵M一潮一一一一一一一一一一一一一一一一一一似一曲一一一一一焖一一一一一一一一EY一一PEDYKITA一一A一一日JHHHEEEBBB盯一一竺KYNT一仃一一一YCNOTOOR一1兰IJ曲吖一硼一阳一以一N一她KNTCS一旧一一一一一一一一一一珂DDDDD一一0一O000一D一一一一一一一兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究KEY、引用维表关键字RECO_KEY和IP地址维表关键字IP_KEY和以及页面浏览时间VISIT_TIME、传输字节数UNITS_SOLD和H”RP状态码HTTP_EODE3个度量,传输字节数和HTTP状态码从WEB使用日志大小域和状态域中提取。表23客户行为事实表2维表。本文设计电子商务数据仓库有七个维表如表24所示,时间维表分为年、月、周、日、小时、分、秒7各层次,并可以根据时间维表进行OLAP的上卷和下钻操作;地点维表包含国家、省份、城市三个概念抽象层次;商品维表记录商品的名称、型号、类型、颜色、材料等信息;活动维表记录会话开始、会话结束、登录、下载、点击、购买等活动;客户维表记录客户的性别、年龄等信息;IP地址维表记录电子商务网站访问客户的IP地址信息;引用维表记录客户引用或访问URL地址情况。7个维表由多个全序或偏序的概念分层属性组成,从而为电子商务的数据挖掘提供从不同角度观察数据的灵活性和查询约束。表24维表概况电子商务数据仓库的数据装载阶段利用数据库管理系统提供的后端管理,对事实表和维表进行汇总、建立索引、排序、计算视图与备份等操作,并将数据分级处理、增量地更新到数据仓库中。兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究225数据仓库的管理与维护根据电子商务的性质,大型的电子商务每天都会产生大量的数据,相关的数据管理也应该以天或更小的时间粒度开展。我们可以将电子商务数据仓库中数据的更新周期定为一天或者是更短的时间需要根据电子商务实际需要进行定。利用SQLSERVER2005INTEGRATIONSERVICES设计自动更新策略。自动更新步骤如下1、建立“电子商务数据仓库自动更新”解决方案EAUTOUPDATE,在该解决方案中建立包括三个任务的一个包,用于实现数据立方体、事实表和维表的更新。1因为客户的购买行为、浏览行为、注册行为,部分维表会产生变化。我们需要增量增添装载相应的内容。2因为主题的不同,电子商务数据仓库会产生不同的事实表。如销售事实表,有时则需要覆盖已前的信息,有时需要增量装载,要根据实际情况进行确定。3当维表和事实表更新完成后,需要使用SQL语句选择更新后的数据,以实现数据立方体的自动更新。2、完成包的创建以后,就可以通过生成项目,对包进行部署,根据不同的要求,可以把包部署到不同的位置SQLSERVER2005MANAGEMENTSTUDIO文件系统。3、最后创建一个作业,使用SQLSERVER代理自动执行SQLSERVER2005INTEGRATIONSERVICESSSIS包。确定每天进行一次数据更新,所以调度包的时间是一天,可以将作业的执行频率为一天。23本章小结本章简要的介绍了数据仓库技术的定义、发展趋势以及数据仓库技术的重要作用,勾画出基于电子商务数据仓库系统模型,分析其组成部分;同时本章分析了针对电子商务系统进行数据挖掘的数据源,详细的介绍了WEB环境下源数据的提取、转换、清理、集成与装载技术;本章提出数据仓库的管理与维护方案。本章的内容将为以下几章的数据挖掘内容提供数据支持和保障。14兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究第三章数据挖掘技术31数据挖掘概述图31知识发现流程图数据挖掘是近几年内国内迅速发展起来的一门新兴技术,如图31所示,数据挖掘是知识发现的一个步骤,它是用于开发信息资源的一种新的数据处理技术。包括机器学习、神经网络、模式识别、数理统计、数据库、粗糙集、模糊数学等相关技术【221。数据挖掘技术的研究和利用,极大的推动了相关行业的发展。目前,数据挖掘技术已经广泛的应用到了分子生物学、产品质量分析、基因工程研究、信息检索、访问模式发现、金融风险预测及分类发现多个领域【231。如图32所示,一个典型的数据挖掘系统主要包括【24】数据库、数据仓库、信息库;数据库或数据仓库服务器;数据挖掘引擎;模式评估模块;知识库;图形用户界面六个部分。数据库、数据仓库、信息库主要负责数据的收集、清理和集成工作;数据库或数据仓库服务器,根据挖掘主题负责提取与主题相关的数据;数据挖掘引擎用来进行模式挖掘;模式评估模块,度量用户的兴趣度,一般该模块使用兴趣度阈值的方法过滤发现的模式;知识库为某个主题领域的知识,用于指导搜索,指导数据挖掘,并为模式评估提供支持,这些知识【25】主要包括不同领域的兴趣度限制、闽值和元数据、用户确信的知识等;图形用户界面实现用户和系统的交互,并将挖掘的模式显式给顾客。兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究图32数据挖掘系统结构32数据挖掘在电子商务中的应用客户图33数据挖掘在电子商务中的作用如图33,数据挖掘在电子商务中的作用主要表现在以下几个方面1、数据挖掘技术在电子商务客户关系处理上的作用1挽留老客户。对电子商务企业来说,客户是企业发展的关键和命脉,对一个企业来说,利润的最大化不仅仅是简单的扩大市场份额,还存在着如何保留已有客户这一严重的问题。通过数据挖掘,可以对已经流失的客户进行针对性研究,分析其特征,再把分析结果与数据仓库中现有的客户资料进行对比,找出可16兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究能会流失的客户,然后根据分析模型设计预防客户流失的方案。2发掘潜在客户。根据数据仓库中的客户资料,分析忠诚客户的特征,发掘与忠诚客户具有相似行为的客户,并将营销模式客户兴趣结合起来。如通过对已有数据的分析,发现年龄在35岁左右收入在5000元左右的女性对某名牌包的购买兴趣比较大,当发现具有相同特征的新客户的时候,便可以向该客户推荐该品牌包。3客户分类。对现有客户进行聚类分析,并根据聚类结果对客户进行分类,根据不同分类人群的特点,采取不同的营销策略,以增加电子商务面向对象推荐的针对性和实效性。4挖掘客户的潜在购买力。分析现有客户的购买行为,通过预测模型对客户将来的消费行为进行预测,挖掘客户的潜在购买力,提前对客户进行商品推荐。5防范客户的欺诈行为。通过孤立点分析,找出与其他客户群体不同的客户,对该客户进行分析,预防欺诈行为。2、数据挖掘在企业决策中的作用1挖掘客户的购买行为,制定合理的营销策略。2产品生命周期策略。通过对商品购买时间上的挖掘,获得商品的生命周期,从而制定商品的优惠策略。3产品的市场定位。通过对客户的购买行为分析,建立分析模型,确定市场的定位和价格定位。33电子商务推荐系统概述331电子商务推荐系统的定义电子商务推荐系统ECOMMERCERECOMMENDERSYSTEMS是应用于电子商务的商品推荐软件系统,该系统模拟传统商务模式的营销员,作为电子商务网站的“虚拟店员”,向客户提供商品建议和信息【261。电子商务推荐系统是数据挖掘在电子商务应用中的重点,是电子商务网站客户关系管T里CUSTOMERRELATIONSHIPMANAGEMENT,CRM的重要组成部分【27】;电子商务推荐系统是实现电子商务网站“一对一营销”ONETOONEMARKETING的重要战17兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究略26】;电子商务推荐系统是电子商务解决客户信息超载问题的一种重要方案。332电子商务推荐系统的数据源电子商务的推荐系统的数据源主要来自客户数据库、销售数据库、服务器上记录的客户访问日志或经过数据清理、转换的数据仓库中的数据第二章已有介绍,具体的数据来自以下几个方面1、客户的在电子商务网站的浏览行为;2、客户注册信息;3、客户对某产品的等级评价或评分数据;4、客户输入的关键词或商品属性;5、客户购买历史数据;6、商品信息;7、企业活动信息;8、购物篮信息。333电子商务推荐系统的推荐表现形式电子商务管理者可以通过不同的形式应用电子商务推荐系统的推荐结果。电子商务推荐系统的推荐表现形式主要有以下几种L、电子邮件EMAIL,电子商务管理者可以将电子商务推荐系统推荐出来的客户感兴趣的商品信息发送给客户。2、相似项SIMILAMEM,根据客户购买信息分析客户的兴趣,通过购物篮等向客户推荐相似商品。3、排序列表SORTLIST,根据客户对商品特征查询,返回客户需求的商品排序列表。4、TOPN推荐系统根据客户的喜好向客户推荐最可能吸引他的N件产品,增加客户的购买兴趣,将客户由网站的浏览者转变为实际购买者。5、页面布局PAGELAYOUT,根据客户的兴趣,将客户感兴趣的商品显示在电子商务网站页面的显眼位置。兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究34电子商务推荐技术电子商务推荐技术是电子商务推荐系统的核心和主要部分,目前电子商务网站推荐技术主要包括信息检索INFORMATIONRETRIEVAL、贝叶斯网络BAYESIANNETWORK、聚类CLUSTERING、关联规则ASSOCIATIONRULES、和协同过滤COLLABORATIVEFILTERING等技术。本文重点介绍信息检索技术、关联规则和协同过滤三种技术。341信息检索L、信息检索描述信息检索技术主要满足客户单次查询请求。常见的信息检索系统有网络搜索引擎GOOGLE、BAIDU、SOHU等。信息检索技术在电子商务网站的主要应用是1商品浏览分类,一般的电子商务网站先把网站内所有的商品分成几个大类,然后在分成若干小类,依次逐层细分,方便客户的查询和浏览。如淘宝网,先将使所有商品分成虚拟、数码、美容、服装、配饰、家居、母婴、食品、文体、服务、保险十一个大类,然后在此技术上再进一步细分。数码又进一步分成手机、电脑等,手机又分成各种品牌,每种品牌有分成不同的型号,大体上将商品分成四个层次大类、小类、品牌、型号。2关键字查询,基本上所有电子商务网站都具有关键字查询功能,用来快速查找和定位到所选商品,关键字查询应该是电子商务中应用最早并且最简单的推荐系统【271。信息检索技术的实现比较简单,可以按照图34设计实现。服务器19等黼毒吴腑兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究图34信息检索系统结构2、信息检索评价信息检索技术的主要缺点在于以下几个方面1较难对商品进行分类,客户需要逐层寻找自己需要的商品,例如在淘宝网购买手机,需要先确定数码大类,然后进入手机小类,查找品牌,最后才能锁定型号。2关键字查询的查准率较低。当客户输入某个信息时,往往会返回数以百计的商品,而在这些返回的结果中,客户感兴趣的只是其中的很少一部分。3信息检索技术的个性化程度很低,信息检索技术向所有的客户的展示都是相同的页面或相同的查询结果。342关联规则1、关联规则描述关联规则数据挖掘是发现大量数据中项集之间有趣的联系。关联规则也是目前电子商务网站采用的主要推荐技术之一,主要用途在于实现交叉销售。购物篮分析是最经典的基于关联规则的电子商务推荐系统,管理员通过分析购物篮中商品的关系,发现客户频繁购买的商品,从而向客户进行推荐。基于关联规则的电子商务推荐系统结构如图35所示推荐一R么关联黝匿调用规则读取规I尘二二二;自嘲鼻、瑚I规则库推荐这同规则量一量睡TOPN引擎地芳瘩垌耻什选择商JZ一I品项I规则昏据亩巨图35基于关联规则的电子商务推荐系统结构图关联规则的描述如下设IIL,I2,IM是项的集合。设任务相关的数据D是事务的集合,其中每个事务T是项的集合,使得TI。设TID为交易T唯一的标识。设A是一个20专芡孵兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究项集,事物T包含A,ACT,称交易T包含A。关联规则是AJB的蕴涵式。其中ACI,BCI,并且ANBA。规则AJB在事务集D中成立,具有支持度S,其中S是D中同时包含A和B的交易数与所有交易数之比,记为SUPPORTAJB,用公示31进行表示SSUPP。RTAB尸彳UB竖三二兰铲31假设D中包含交易A同时也包含交易B的百分比为C,那么则称C为规则XJY在交易集D中的置信度CONFIDENCE。用公式32进行表示CCONFIDENCECAJB,PCBI彳,堕蕞;譬搿C32,我们对关联规则进行挖掘,实际就是挖掘同时满足支持度S大于给定的最小支持度阈值MIN_SUP,并且可信度C大于最小可信度阈值MIN_CONF的关联规则。项的集合称作项集ITEMSET,我们称包含K个项的集合成为K项集。若项目集I的支持度大于等于最小支持度,即SUPPORTI_MIN_SUP,我们就称I为频繁项集FREQUENTITEMSET,频繁K项集记作LK。2、关联规则的分类根据规则中处理的值的类型,可以分成以下两类1布尔关联规则BOOLEANASSOCIATION,这种规则中,只考虑项的在与不在,如规则33所示。COMPUTERMANAGEMENTSOFTWAVESUPPORT20,CONFIDENCE80】332量化关联规则QUANTITATIVEASSOCIATIONRULE,这种规则中,项的值被量化为区间,如规则34所示。AGEX,“2030”NINCOMEX,“30006000”BUYSX,“HDTV”343、关联规则的挖掘过程关联规则的挖掘是一个两步的过程1找出事务数据库T的所有频繁项集,也就是找出所有不小于指定最小支持度MIN_CONF的项目集。具有最小支持度的项目集称为最大项目集。2由频繁项集产生同时满足最小支持度和小置信度的强关联规则。2L兰州人学硕上学位论文基于CF的个性化电子商务推荐系统研究4、关联规则APRIORI算法APRIORI算法采用的方法是逐层搜索的迭代算法,根据K项集搜索频繁K1项集。APFIOFI算法,首先找出频繁1项集的集合LL,并用LL来搜索频繁2项集的集合,记为K,依此操作,直到找到频繁K项集LK。在APFIORI算法中,每个LK搜索都需要扫描一次数据库。APRIORI算法中的所有非空子集必须满足最小支持度阈值也就是项集I必须是频繁的。若项集I不满足最小支持度阈值,则I是不频繁的,假如将项A添加到I中,则IUA不可能比I更频繁出现。根据以上特性,一个候选K项集的K1项子集如果不在LKL中,那么我们认为该候选项集也不是频繁项集,就可以从CK中将其删除。5、关联规则评价关联规则本质上是一个IFTHEN语句,算法简单直接,关联规则主要缺点在以下几个方面1因为关联规则是通过已购商品之间的关系,建立商品项之间的关联,所以对于具体客户的个性化推荐程度不高;2关联规则只适用于TOPN推荐,当数据集高维而且稀疏的情况下会导致弱规贝JJWEAKRULEST13】出现;3较难把握规则的质量,动态更新实现较难。这样随着规则数量的增多,系统管理难度将会增大【28】。343协同过滤1、协同过滤的发展与分类GOLDBERG等人2卅首先提出协同过滤COLLABORATIVEFILTERING算法。协同过滤,也称作协作过、滤301、社会信息过滤SOCIALINFORMATIONFILTERING31】或社会过滤SOCIALFILTERING32】。因其不需要考虑被推荐项目的内容,具有很好的扩展性,同时又能实现新异发现,目前已经成为电子商务推荐系统中应用最广和最有效的推荐算法。协同过滤最早应用于20世纪90年代,最早的协同过滤系统TAPESTRY用来解决用户面对大量EMAIL文档,但是无法快速获取自己感兴趣资料的问题。TAPESTRY兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究通过用户对阅读过的文档给出的评价信息,帮助其他用户通过参考这些评价数据,来阅读其感兴趣的文档。1996年在美国加州大学伯克利分校召开协同过滤研究会议之后,美国计算机学会ACM出版的COMMUNICATIONOFTHEACM专门介绍了SITESE一331、GROUPLENS341、REFERRALWEB351、PHOAKS361等多个协同过,一、J,资源项客户A客户A客户B兴趣兴趣兴趣,、过滤处理过滤处理B图36基于内容的过滤与协同过滤的区别协同过滤算法不同于基于内容的过滤方式,如图36所示。基于内容的过滤为每个客户建立用户兴趣库,并记录每个客户所喜好的内容,然后与电子商务系统中提供的项目内容进行比对,将具有较高相似度的项目推荐给客户。协同过滤基于客户的兴趣偏好,将目标客户与其具有相似兴趣的客户结合起来。协同过滤用目标客户兴趣最近邻居对某信息的观点,判断该信息对目标客户是否有价值,进而决定是否将该信息推荐给EL标客户。协同过滤算法与项目的内容无关。协同过滤算法一般可以分成基于项目的算法和基于客户的算法两类。基于项目的算法主要的原理是计算项目的相似度,该算法依据客户评分模型将训练集中的客户进行分类,然后将目标客户纳入到已有的一个客户分类中,寻找目标项目评分的最近邻居,然后用最近邻居的评分作为目标客户的项目评分。基于客户的协同过滤算法主要是计算客户之I、目J的相似度,该类算法首先要需要找到与目标客户评分模型最相似的训练集,然后通过相似客户的评分来目标客户的评分,从而产生推荐。2、协同过滤流程23兰州大学硕士学位论文基于CF的个性化电子商务推荐系统研究U1112Q,目标用户。UN,。L目标项目用户项目评分表协同过滤算法F预测用户对目1【标项目的评分JTOPN推荐输出形式图37协同过滤流程协同过滤算法的主要依据是“物以类聚,人以群分”。协同过滤用其他客户的信息对目标客户进行推荐,通常采用最近邻技术,利用客户对项目的评价信息,计算客户之间的距离,然后利用目标客户的最近邻居对商品的评价信息分析他对特定项的兴趣程度,推荐系统根据兴趣信息对目标用户进行推荐。如图37所示,协同过滤一般具有以下三个步骤1构建用户项
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030航空航天工业涂料行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030脚踏阀市场发展现状分析及行业投资战略研究报告
- 2025年苓祺长轴链项目可行性研究报告
- 2025-2030精炼鸭油行业市场深度调研及前景趋势与投资研究报告
- 2025-2030童鞋行业市场发展分析及发展前景与投资机会研究报告
- 2025-2030离心泥浆泵行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030硅基集成无源器件行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030皮包产业政府战略管理与区域发展战略研究咨询报告
- 2025-2030男装产业政府战略管理与区域发展战略研究咨询报告
- 2025-2030电脑整机市场市场现状供需分析及投资评估规划分析研究报告
- 历届全国“挑战杯”课外学术科技作品竞赛获奖作品一览表 第一届到第十二届
- 商业银行资产负债管理课件
- 诗中的童年课件
- 施工班组考核表
- 仓库发货清单
- 法理学-(第五版)完整版ppt全套教学教程课件(最新)
- GB∕T 34876-2017 真空技术 真空计 与标准真空计直接比较校准结果的不确定度评定
- GB∕T 31568-2015 热喷涂热障ZrO2涂层晶粒尺寸的测定 谢乐公式法
- 陕西省黄河流域(陕西段)污水综合排放标准编制说明
- 2022年郑州信息科技职业学院职业适应性测试模拟试题及答案解析
- 后勤不“后”与“时”俱进——信息技术促幼儿园保育员专业化发展的研究
评论
0/150
提交评论