毕业设计(论文)电子商务推荐系统关键技术研究_第1页
毕业设计(论文)电子商务推荐系统关键技术研究_第2页
毕业设计(论文)电子商务推荐系统关键技术研究_第3页
毕业设计(论文)电子商务推荐系统关键技术研究_第4页
毕业设计(论文)电子商务推荐系统关键技术研究_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本科生毕业论文(设计) 题 目: 电子商务推荐系统关键技术研究 学 系: 信息科学系 专 业: 计算机科学与技术 学生姓名: 学 号: 06052030 指导教师: (职 称) 二一 年 四 月表一 本科毕业论文(设计)开题报告论文(设计)题目:电子商务推荐系统关键技术研究(简述选题的目的、思路、方法、相关支持条件及进度安排等)目的: 随着互联网的普及和电子商务的发展,电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己需要的商品。电子商务推荐系统(recommender system)直接与用户交互,模拟商店销售人员向用户提

2、供商品推荐,帮助用户找到他们真正所需购买的商品。近年来虽然电子商务推荐系统在理论和实践中都得到了很大的发展,然而电子商务推荐系统仍面临着一系列挑战。针对电子商务推荐系统目前所面临的主要问题,本文对电子商务推荐系统中推荐算法和推荐系统体系结构等关键技术进行探讨。思路: 首先,了解课题的研究背景、研究意思以及课题的国内外现状;其次,查找相关资料,以明确电子商务推荐系统的基本定义、推荐系统体系结构、推荐系统相关技术和其基础理论;最后,深入了解电子商务推荐系统中关键技术的推荐算法,如关联规则推荐算法和协同过滤推荐算法,并了解评价推荐系统两个重要要素。方法:通过阅读大量的与电子商务推荐系统或电子商务推荐

3、算法相关的论文、期刊、书籍,充实其实对这领域的了解和认识,最后通过自身对其的认识完成论文。相关支持条件: 在图书馆查询相关资料,同时利用校园网提供的各种网络数据库资源以及利用google学术搜索引擎等进行论文检索。进步安排:第一阶段(10月12月):收集大量资料,准备论文所需材料;第二阶段(1月2月):撰写论文,并完成论文体系结构;第三阶段(3月4月):归纳总结,修改并完善论文。学生签名:梁锐彪 2009 年 11 月 15 日指导教师意见: 1、同意开题( ) 2、修改后开题( ) 3、重新开题( ) 指导教师签名: 年 月 日表二 本科毕业论文(设计)过程检查情况记录表指导教师分阶段检查论

4、文的进展情况(要求过程检查记录不少于3次):第1次检查学生总结:开始撰写论文,整体思路大致已经完成。指导教师意见:第2次检查学生总结:论文体系结构重新调整,思路进一步完善。指导教师意见:第3次检查学生总结:论文内容进行部分调整,删除冗余章节,增强论文排版规范,并增加实际性较强的内容,使论文整体上得到了进一步的充实和规范。指导教师意见:第4次检查学生总结:指导教师意见: 学生签名: 年 月 日指导教师签名: 年 月 日总体完成情况指导教师意见:1、按计划完成,完成情况优( )2、按计划完成,完成情况良( )3、按计划完成,完成情况中等( )4、基本按计划完成,完成情况及格( )5、完成情况不及格

5、( )指导教师签名: 年 月 日表三 本科毕业论文(设计)成绩评定表(试行)学生姓名学号专业成绩优 秀 良 好 中 等 及 格 不 及 格 比例成绩分级(10090分)(8980分) (7970分)(6960分)(60分)选 题 有相当强的理论与实践意义。选题有比较强的理论与现实意义。选题有一定的理论或实践意义。选题意义不大但无不妥之处。选题不当,没有意义。20%创 新 与 论 证1.用新方法进行调查研究,采用的资料较新,研究结果有独创性。2.论证思路清楚,逻辑性强;专业知识比较扎实;遵守学术规范,研究所得结论可靠。1.研究方法及视角有一定新意。2.论证思路较清楚,有一定的逻辑性;结论比较可靠

6、。1.研究方法及视角均无创新,但尚能从他人的观点中发现问题。2.论证基本清楚,结论有一定可靠性。1.研究方法及视角均无创新之处,所得出的结论无明显价值。2.论证不够严密,超过20%的篇幅表述不清楚。1.研究方法及视角水平均一般,所得出的结论无价值。2.论证不严密,超过40%的篇幅表述不清楚。50%写 作 水 平条理清晰,文字流畅;有丰富的文献材料、充足的理论依据和数据。条理较为清楚,文字流畅;有文献材料、充足的理论依据和数据。文字流畅;有一些文献材料、理论依据和数据。文字尚算流畅;文献材料、理论依据和数据较少。基本概念不清、错别字多;文献材料、理论依据和数据少。20%格 式 规 范格式正确,完

7、全符合学术规范及学院的要求,打印规范清晰。格式正确,符合学院论文格式的要求,打印清晰。格式正确,基本符合格式要求,打印规范清楚,但个别地方有错漏。格式大部分符合论文格式的要求,并有少量错漏。格式不符合论文格式要求,打印不清晰,错漏较多。10%指导教师签名成绩(按百分制评分):表四 优秀本科毕业论文(设计)答辩情况表答辩人专 业论文(设计)题目答辩小组组长成 员答辩记录:记录人签名: 年 月 日表五 优秀本科毕业论文(设计)答辩成绩评定表(试行)学生姓名学号专业论文题目评分项评 优 条 件比例成绩论文选题有相当强的理论与实践意义。15%学术内容中心突出,逻辑严密,表述准确,有创新性且在实践中的指

8、导作用较强。40%写作水平条理清晰,论证有力,文字流畅;有丰富的文献材料、充足的理论依据和数据。15%格式规范格式正确,完全符合学术规范及学院要求,打印规范清晰。10%答辩情况答题正确,重点突出,论述全面,紧扣主题,表达流畅,具有很强的说服力。20%答辩小组成员签名答辩成绩(按百分制成绩评分)注:此表用于推荐的优秀毕业论文的答辩成绩评定。学术诚信声明本人所呈交的毕业论文,是在导师的指导下,独立进行研究工作所取得的成果,所有数据、图片资料均真实可靠。除文中已经注明引用的内容外,本论文不包含任何其他人或集体已经发表或撰写过的作品或成果。对本论文的研究作出重要贡献的个人和集体,均已在文中以明确的方式

9、标明。本毕业论文的知识产权归属于培养单位。本人完全意识到本声明的法律结果由本人承担。本人签名: 日期: 电子商务推荐系统关键技术研究 梁锐彪电子商务推荐系统关键技术研究论文摘要随着互联网的普及和电子商务的发展,人类已进入信息社会和网络经济时代,电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常迷失在大量的商品信息空间中,无法顺利找到自己需要的商品。电子商务推荐系统直接与用户交互,模拟商店销售人员向用户提供商品推荐,帮助用户找到他们真正需要购买的商品,从而顺利完成购买过程。在日趋激烈的竞争环境下,电子商务系统能有效保留用户、防止用户流失,提高电子商务系统的销售。近年来,电

10、子商务推荐系统在理论和实践中都得到了很大发展,但是随着电子商务系统规模的进一步扩大,电子商务推荐系统也面临一系列挑战。针对这一系列挑战,本文对电子商务推荐系统的关键技术进行有益的探讨和研究。本文主要的工作包括:首先,对推荐系统的研究背景、研究意思和当前推荐系统的国内外现状进行系统综述介绍。其次,对推荐系统的相关技术和系统结构进行了研究。推荐系统中主要的相关技术包括信息过滤、信息检索、数据挖掘技术和协同过滤技术。而对于系统架构主要分为输入、处理和输出三部分,各个部分都担任着推荐系统的重要角色,这方面的分析为后面的工作提供了理论基础。最后,对推荐算法中两个关键算法技术进行探讨分析,包括关联规则推荐

11、算法和协同过滤推荐算法。通过对目前电子商务推荐算法面临的主要挑战提出,希望通过这些研究为后续新方法的提出给予一些指导,并对改善关键技术的展望。 关键字电子商务;推荐系统;数据挖掘 abstractwith the popularization of internet and development of e-commerce, human being s have been into information society and the internet economy era, in the meanwhile e-commerce system offered more and more

12、 choices for the consumers, the structure of e-commerce web site became more and more complex. this situation made it hard for consumers to find the products they wanted. to solve this issue, recommendation systems were proposed to suggest products and to provide consumers with information to help t

13、hem decide which products to purchase. in the increasingly fierce competitive environment, recommendation systems can enhance e-commerce sales by converting browsers into buyers, increasing cross-sell and building loyalty to prevent user losing. in recent years, e-commerce recommendation system, bot

14、h in theory and practice has been great progress. but with the further expansion of the scale of e-commerce systems, e-commerce recommendation system also faced a series of challenges. challenge for this series, this recommendation system on a key e-commerce technologies useful to explore and study.

15、 in this paper, mainly include:firstly, this article will introduce on the recommendation system in the background, meaning and the current recommendation system systematic review status at home and abroad.secondly, this article will study the related technologies and system architecture on the reco

16、mmendation system. these related technologies, including information filtering, information retrieval, data mining and collaborative filtering technology. the system architecture consists of input, processing and output, all parts of the recommendation system play important role in recommendation sy

17、stem. and this analysis provides a theoretical basis for the work.finally, this article will study two key algorithm of recommendation algorithm, which are association rules and collaborative filtering recommendation algorithm. through on the current e-commerce recommendation algorithm presenting ma

18、jor challenges, hopes to provide some of the new method propose guidance to follow up research, and the prospect improving of key technologies.keywords e-commerce; recommendation systems; data mining目 录第1章 绪论11.1 课题研究背景11.2 课题研究意义21.3 课题研究的国内外现状21.4 本文结构3第2章 电子商务推荐系统相关技术32.1信息检索和信息过滤32.1.1 信息检索32.1.

19、2 信息过滤42.2 数据挖掘技术52.2.1 数据挖掘过程72.2.2 数据挖掘知识分类和数据挖掘方法82.2.3 数据挖掘与推荐系统92.3 协同过滤技术10第3章 电子商务推荐系统基础理论133.1 电子商务推荐系统133.2 电子商务推荐系统的输入和输出143.2.1 电子商务推荐系统的输入153.2.2 电子商务推荐系统的输出163.3电子商务推荐系统分类17第4章 电子商务推荐算法204.1 电子商务推荐系统算法概述204.2 关联规则推荐算法214.2.1 关联规则挖掘224.2.1 关联规则推荐算法244.3 协同过滤推荐算法254.3.1 user-based协同过滤推荐算法

20、254.3.2 item-based协同过滤推荐算法294.4 电子商务推荐算法面临的主要挑战32第5章 推荐系统评价要素335.1 平均绝对误差mae335.2 稀疏度33第6章 结论与展望34参考文献:35致 谢39第1章 绪论1.1 课题研究背景随着电子商务规模的进一步扩大,为用户提供越来越多选择的同时,其结构也变得更加复杂。一方面,用户面对大量的商品信息束手无策,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己需要的商品;另一方面,商家也失去了与消费者的联系。随着电子商务应用的领域越来越广,对电子商务研究越来越深入,人工智能、web技术与商业模型的集成研究逐步得到了重视。其中在b

21、2c方面,推荐系统(recommender system)成为研究和应用的一个重点。在海量的商品信息中,推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程,因此可以有效保留用户,提高电子商务系统的销售;商家也可以通过推荐系统保持与客户的联系,重建客户关键。一方面,电子商务系统需要推荐系统的大力支持帮助用户找到所需商品;另一方面,电子商务系统自身的特点也有利于推荐系统的顺利实施。主要原因包括1:1)丰富的数据:电子商务环境收集的各种数据比较丰富,如用户注册数据、用户交易数据、用户评分数据、用户购物篮信息、用户浏览数据等。丰富的数据为建立多种推荐模型,产生高质量

22、的推荐提供了可能。2)电子化的数据收集:电子商务环境中的各种数据通过电子化方式收集,减少了手工方式收集数据可能出现的人工误差,噪音数据大大减少,各种数据的可信度比较高,数据预处理比较简单。3)易于对推荐效果进行评估:在电子商务中实施推荐系统的投资回报率易于通过电子商务web站点访问量的增加、电子商务系统销售额的增加等指标直接进行评估。推荐系统具有良好的发展方向和应用前景。推荐系统在帮助了客户的同时也提高了顾客对商务活动的满意度,换来对商务网站的进一步支持。因此,近年来推荐系统在电子商务的应用越来越多,几乎所有大型的电子商务系统,如amazon、ebay、当当网等,都不同程度的使用了各种形式的推

23、荐系统。各种提供个性化服务的web站点也需要推荐系统的大力支持。在日趋激烈的竞争环境下,电子商务推荐系统能有效保留用户,提高电子商务系统的销售。成功的电子商务推荐系统会产生巨大的经济效益。电子商务推荐系统在理论和实践中都得到了很大发展。但是随着电子商务系统的进一步发展,电子商务推荐系统也面临一系列挑战。针对电子商务推荐系统面临的主要挑战,本文将对电子商务推荐系统中的核心技术进行了有益的探索和研究。1.2 课题研究意义推荐算法是推荐系统的核心,良好的推荐算法能够及时准确地计算出符合用户需求的商品,为客户提供良好的购物体验。本文对目前应用最广泛的协同过滤推荐算法进行研究,并尝试对其进行改进,使推荐

24、结果的实时性更好,推荐质量更高。灵活智能的推荐系统能够根据不同的推荐策略进行推荐,满足客户不同的需要。本文对目前电子商务推荐系统的体系结构进行了研究,提出的基于multi-agent的柔性电子商务推荐系统,使推荐系统更加智能、自动和灵活。论文研究具有重要的理论意义和广阔的应用前景。1.3 课题研究的国内外现状随着互联网的普及和电子商务的发展,推荐系统逐渐成为电子商务it技术的一个重要研究内容,得到了越来越多研究者的关注。美国计算机学会acm从1999年开始每年召开一次电子商务的研讨会,其中关于电子商务推荐系统的研究文章占据了很大比重。从1999年开始此协会的数据挖掘特别兴趣组sigkdd小组设

25、立webkdd讨论组,主题集中在电子商务中的web挖掘技术和推荐系统技术,而acm下面的信息检索特别兴趣组sigir在召开的第24届研究和发展会议上,开始专门把推荐系统作为一个讨论主题。第7届国际人工智能联合会议ijcai01则把e-business & the intelligent web作为一个独立的研讨小组。99年召开的人机界面会议chi99专门设立推荐系统特别兴趣组。同时,第十五届人工智能会议aaai-98、第一届知识管理应用会议pakm、96年协同工作会议cscw96等也纷纷开始将电子商务推荐系统作为研究主题。经过多年的努力,国内外在电子商务推荐技术和系统的研究方面已取得较多的理论

26、和应用成果。1.4 本文结构第一章探讨了电子商务推荐系统提出的背景及其研究意义,介绍了推荐系统的研究现状,给出本论文的整体组织结构。第二章介绍了电子商务推荐系统相关的技术,探讨信息检索、信息过滤、数据挖掘技术以及协同过滤等相关技术。第三章探讨了电子商务推荐系统的基础理论,包括其定义、系统的输入和输出、分类、目前采用的各种推荐策略和相关实例。第四章分析了电子商务推荐算法在整个推荐系统中的重要地位,给出了电子商务推荐算法的分类原则及其分类,然后对关联规则推荐算法和协同过滤推荐这两种关键的电子商务推荐算法进行了深入介绍。在协同过滤算法中,首先对协同过滤算法所使用的用户数据的收集做了简要的描述,然后详

27、细介绍了user-based协同过滤算法,item-based协同过滤算法。第五章阐述了评价推荐系统的两个重要因素,包括平均绝对值误差mae和稀疏度。第六章总结全文,并提出对电子商务推荐系统中关键技术的展望。第2章 电子商务推荐系统相关技术2.1信息检索和信息过滤推荐系统的关键技术主要包括信息检索(ir,information retrieval)技术和信息过滤(if,information filtering)技术。 信息检索是在静态信息源中搜索用户短期的信息需求的过程;而信息过滤是对动态信息进行筛选,着重排除不希望得到的信息,带有即时性。虽然实现技术及其相似,但两者所完成任务完全不同41。

28、2.1.1 信息检索信息检索技术一般是指根据用户需求,从大规模的相对静止的数据库中检索用户需要的信息,主要满足用户瞬时的信息需求。信息检索技术主要用于相对静止的信息存储领域。例如,当用户在数字图书馆中进行检索时,用户提交关键字反映了用户当前的信息需求,数字图书馆中的搜索引擎根据预先建立好的内容检索,检索出用户需要的信息。信息检索的研究内容主要包括索引技术和查询技术。索引技术是对资源内容进行分析,从而将资源内容表示为计算机可处理的数据结构的过程。查询技术根据用户需求,查询用户需要的资源信息。其研究内容主要包括查询语言设计研究、可视化查询接口研究、用户请求与资源信息的匹配研究等。在很多情况下,索引

29、技术与查询技术是重叠的,查询技术依赖资源信息所采用的索引结构。信息检索系统的界面主要包括两种形式。传统的信息检索系统主要使用关键字查询接口,用户根据自己的信息需求输入一到两个关键字,信息检索系统根据用户提交的关键字进行查询,然后向用户返回检索结果。目前,越来越多的信息检索系统提供动态查询接口。信息检索系统动态查询接口向用户提供一系列的信息主题供用户选择,然后根据用户的选择向用户提供下一层的信息主题,这样一直进行下去,直到用户检索到自己需要的信息为止。这种不断与用户进行交互的动态查询接口使得用户能更容易的检索到所需信息。信息检索技术是实现推荐系统的关键技术。推荐系统根据用户需求,搜索产品类别数据

30、库,然后返回用户需要的信息。其搜索过程可以实时进行,也可以定期周期执行。同时,推荐系统提供的推荐界面既可以基于传统的关键字查询,也可以基于动态查询接口。前者的例子如a中的关键字查询,后者的例子如中的advisor推荐。2.1.2 信息过滤信息过滤技术一般用户用户需求相对不变,但信息动态呢更新比较频繁的情况。信息过滤系统主要面对的是半结构化和非结构化的数据,它为用户的长期信息需求提供信息过滤服务1。用户的兴趣模型可用用户档案文件的形式表示。信息过滤系统将动态信息与用户档案文件进行匹配,根据匹配结果返回用户需要的信息。信息过滤与信息检索的区别主要包括:1)信息过滤面向用户长期的信息需求,而信息检索

31、技术面向的是用户短期的、实时的查询。2)信息过滤用档案文件表示用户的信息需求特征,而信息检索技术是用关键词表达用户的查询请求。3)信息过滤中用户需求相对不便,但用户访问的是动态数据流,是从动态数据流中选择数据;信息检索技术访问是相对静止的数据,但用户需求却具有瞬时性。表2-1 信息检索和信息过滤的区别信息检索信息过滤信息源相对静态的结构化数据动态的无结构或半结构数据需求表示检索词兴趣模板目标选择相关信息过滤掉不相关的信息用户特点大范围多用户的短期使用小范围少用户的长期使用邮件系统信息过滤和新闻组信息服务是信息过滤技术的典型应用。在新闻组信息服务中,用户输入自己感兴趣的一组关键词,新闻组信息服务

32、通过关键词建立用户档案。当新闻组中加入新信息时,信息过滤系统对新信息进行过滤,将满足用户需求的新信息反馈给用户。新闻组信息服务也可以分析用户订阅的信息自动抽取关键词,简历用户档案,然后通过信息过滤系统将用户感兴趣的新信息反馈给用户。信息过滤技术也是实现推荐系统的关键技术。例如,a提供的eyes推荐就是一个典型的基于关键词检索的信息过滤系统。用户输入基于作者、标题、主题、isbn和出版日期的关键词,eyes推荐根据用户输入的关键词,建立用户档案。当产品目录中加入新书时,eyes推荐根据用户输入的关键词和新书提供的相关信息,选择用户感兴趣的新书作为推荐结果,通过e-mail的方式推荐给用户。2.2

33、 数据挖掘技术数据挖掘(datamining),也叫数据库发现知识(kdd, knowledge discovery in database),就是从数据库中提取隐含的、先前未知的、潜在有用的知识或信息模式的决策支持方法。数据挖掘是20世纪90年代初针对“数据爆炸,知识贫乏”这一问题而出现的一种新技术,是处理海量信息的有效手段。同传统的统计分析技术相比,数据挖掘的主要特点是系统的主动性。传统的统计分析技术具有确切性,是正向思维,即首先由用户设定一个前提,然后证实或否定它,是用户发挥主动性;而数据挖掘技术具有探索性,是一种逆向思维,即由系统发现一合适的前提,再证实或否定,是系统在发挥主动性。自从

34、kdd一词首次出现在1989年8月举行的第11届国家联合人工智能学术会议上。1995年在加拿大蒙特利尔市召开的第一届kdd国际学术会议。随着研究的深入,数据挖掘技术研究组建成为计算机领域的一个热门课题,得到了越来越多研究者的关注。许多数据挖掘专题会议纷纷涌现,如pakdd,pkdd,dlsm-dataming等。目前,数据挖掘技术在理论和应用上都已经得到了巨大的发展。数据挖掘能够从关系数据、文本数据、多媒体数据、时间序列、空间数据、异质数据等多种数据源中挖掘知识。数据挖掘采用的技术包括数据库、数据仓库和olap、统计、机器学习、可视化、神经元网络等不同领域的技术,如图2.1所示。数据挖掘技术面

35、向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观、乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。图2.1 典型数据挖掘系统结构2.2.1 数据挖掘过程数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念(concepts)、规则(rules)规律(regularities)、

36、模式(patterns)等形式42。从更广泛的角度来说:数据挖掘意味着在一些事实或者观察数据的集合中寻找模式的决策支持过程。是利用各种工具在海量数据中发现模型和数据间关系即知识的过程,是提高决策科学性的有利工具。一般来说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但又潜在有用的信息和知识的过程。数据挖掘是一个过程的工程,一般有三个主要的阶段组成:数据准备、数据挖掘、结构表达和解释。也可以粗略分为:建立目标数据集、数据清理和预处理、选择特定的数据挖掘算法、结果的解释和评估以及知识验证及应用等几个过程。如图2.2所示。图2.2 数据

37、挖掘基本过程(1)建立目标数据集确定数据对象,清晰地定义出业务问题,一方面明确实际工作对数据挖掘的要求,另一方面通过对各种学习算法的对比而确定可用的学习算法。(2)数据清理和预处理数据的质量影响着挖掘的结果,因为要进行数据清理和预处理。一般包括消除噪声和无关数据、推导计算缺值数据、消除重复记录、考虑时间顺序,完成数据类型转换等。(3)选择特定的数据挖掘算法并执行算法首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则现或序列模式发现等。确定挖掘任务后,进行算法的选择。选择实现算法要考虑两个因素:一是数据特点各异,需要用与之相关的算法来挖掘;二是考虑用户或实际运行系统的要求,有的用户

38、希望获取描述型的容易理解的知识,而有的用户只是获取预测准确度尽可能高的预测型知识。(4)结果解释和评估数据挖掘阶段发现出来的模式,可能存在冗余或无关的模式,需要将其剔除。也可能模式不满足用户要求,需要整个发现过程回退到前一个阶段。另外,数据挖掘是面向最终用户的,需要对发现的模式进行可视化,或者将结果转换为用户易懂的表示方式。(5)知识验证及应用将以上步骤挖掘出的知识与运行系统结合,发挥知识的作用或证明知识,用预先可信的知识检查和解决知识中可能存在的矛盾。2.2.2 数据挖掘知识分类和数据挖掘方法数据中隐藏的知识有各种各样的形式,这些知识实际上是大量数据之间的某种关系。大致说来,数据挖掘中的知识

39、可以分为如下几类43:1)分类(classification):将数据划分到事先定义好的类别中去。2)回归(regression):将数据项映射到若干预定义的变量上。3)聚类(clustering):将数据划分到几个聚类之中去。4)概括(summarization):为数据的一个子集给出一个简洁的描述。5)依赖性模型(dependency modeling):描述变量之间的相互依赖性。6)链接分析(link analysis):判断数据库或数据仓库中字段之间存在的关系。如关联规则。7)序列分析(sequence analysis):构造顺序模型,发现数据之间在时间上的相关性。数据挖掘是一个多学

40、科领域,其采用的技术来自各个不同的领域,主要的数据挖掘方法包括:1)统计分析方法:利用统计学和概率论对关系中各个属性进行统计分析,找出它们之间存在的关联。2)人工神经网络:模仿生物神经网络,通过训练进行学习的非线性预测模型,可以完成分类,聚类等多种数据挖掘任务。3)决策树:用树型结构表示决策集合,决策集合通过对数据集分析产生。典型的决策数方法如分类回归树,主要用于分类挖掘。4)遗传算法:一种新的优化技术,基于生物进化的概念设计了一系列过程来达到优化的目的,包括基因组合,交又,变异和自然选择。5)粗糙集:粗糙集是一种处理模糊和不确定性问题的新型数学工具,粗糙集可以用于数据挖掘中的数据简化、关联规

41、则挖掘等。6)模糊逻辑:模糊逻辑融合了模糊集合二值逻辑概念。在数据挖掘中,模糊逻辑可以用来进行证据合成、置信度计算等。7)最近邻技术:这种技术通过k个最相似的历史纪录的组合来辨别新的纪录。可以用于聚类分析、偏差分析等。8)规则归纳:通过统计方法归纳,提取有价值的if-then规则,可用于关联规则挖掘等。9)可视化:采用直观的图形方式将信息模式、数据关联或趋势呈现给决策者,决策者可以通过可视化技术交互式分析数据关系。2.2.3 数据挖掘与推荐系统电子商务推荐系统(recommendation systems for e-commerce)的正式定义由resnick和varian在1997年给出的

42、,“电子商务个性化推荐系统是利用电子商务网站向用户提供产品信息和相关建议,帮助用户决定购买什么产品,通过模拟销售人员帮助用户完成购物过程的系统”。这个定义现在已经被厂泛的引用。推荐系统的使用者是用户,推荐的对象是项目。项目是推荐系统提供给用户的产品或服务,也即最终的推荐内容。电子商务推荐系统是将数据挖掘技术应用于电子商务领域的范例44随着电子商务的应用,数据库中可以收集到大量的用户数据,如用户交易数据,用户注册数据、用户评分评价数据、用户投票数据等;同时,web服务器中也保存着用户访问电子商务系统的日志数据、用户购物篮信息等,这些数据中蕴含着丰富的知识,基于数据挖掘的推荐系统通过数据挖掘技术对

43、用户行为和用户属性进行学习,从中获取有价值的知识,根据得到的知识产生推荐45。基于数据挖掘的推荐系统根据数据挖掘技术建立用户档案44。用户档案的建立可以基于对用户长期行为的分析,如用户的浏览记录、购买历史、性别、职业、收入、年龄等。也可以基于用户的当前行为,如用户当前的会话行为、当前购物篮信息、当前浏览商品等。电子商务推荐系统中的数据挖掘主要包括关联规则挖掘和分类挖掘两类46。关联规则挖掘是数据挖掘中的一个重要研究内容4647。在电子商务领域,关联规则挖掘根据销售数据发现不同商品在销售过程中的相关性。关联规则挖掘在电子商务推荐系统中的应用主要包括定点广告投放和商品推荐。所谓定点广告投放,就是通

44、过关联规则挖掘,将特定广告投放给可能感兴趣的用户。基于关联规则的商品推荐根据生成的关联规则模型和用户的购买行为产生推荐结果。分类挖掘模型根据用户的输入信息将之划分为相应类别,基于分类挖掘的推荐系统根据用户输入信息和项的特征信息,预测是否向用户推荐该项。分类挖掘通过对训练集进行学习,训练出对应的分类器,然后利用该分类器对新用户进行分类。当训练集发生变化时,需要重新进行训练以得到新的分类器。分类挖掘模型可以通过多种机器学习方法实现,如聚类4849、bayesian网络50、神经网络等51。2.3 协同过滤技术基于内容的过滤(content-based filtering)根据信息的内容特性进行过滤

45、,将信息流和用户档案文件进行匹配,基于匹配程序确定该信息流对用户是否有价值。例如infoscope利用基于规则的agent分析用户的使用风格、监测信息的内容特征、判断其是否是用户感兴趣的,并向用户提供建议。基于内容的推荐技术可以用图2.3更形象化的描述。资 源用户a 的兴趣概貌 用户a图2.3 基于内容的过滤示意图基于内容的过滤方法主要存在如下不足52:1)特征提取的能力有限:通常只能对资源进行比较简单的特征提取,在一些特定领域如图形、图像、视频、音乐等媒体,目前还没有有效的特征提取方法。即使文本资源,其特征提取方法也只能反映资源的内容,但是难以提取资源的质量、风格等信息。2)推荐的资源过于狭

46、窄:系统尽可能向用户推荐最符合用户档案的信息,因此,推荐将局限于跟用户以前浏览的资料类似的信息。协同过滤(cf,collaborative filtering)可以有效解决基于内容的过滤存在的问题53。在协同过滤中,用户通过相互协作来选择信息,它依据其他用户对信息作出的评价来挑选信息。协作方常常是用户所信任的朋友、同事等,依据他们的判断向用户推荐信息。协同过滤方法对用户的行为进行分析,并不关心信息的实际内容。自动化协同过滤系统通过收集用户对信息的评价,搜索具有相同兴趣喜好的用户,然后根据具有相同兴趣喜好的用户对信息的评价产生推荐结果。协同推荐技术可以用图2.4形象化的表示。用户a 的兴趣概貌用

47、户b 的兴趣概貌 用户a 用户b图2.4 协同推荐技术示意图和基于内容的过滤方法相比,协同过滤具有如下优点5253:1)适合于过滤难以分析内容的资源:协同过滤不关心资源的具体内容,因此,在难以分析资源内容的情况下,如图形、图像、视频、音乐等,协同过滤是很好的选择。2)新奇的推荐:协同过滤可以发现内容上完全不相似的资源,用户对推荐信息的内容事先是预料不到的。 协同过滤推荐是当前最成功的推荐技术。最近邻协同过滤根据评分相似的最近邻居的评分数据向目标用户产生推荐。由于最近邻居对项(电子商务中的商品,电影,音乐等)的评分与目标用户非常相似,因此目标用户对未评分项的评分可以通过最近邻居对项评分的加权平均

48、值逼近54。协同过滤推荐通过用户对项的评分信息产生推荐,用户对项的评分信息可以通过隐式和显式两种方式得到。隐式方式通过用户浏览或购买过的商品推断用户兴趣爱好。显式方式则让用户直接输入用户对商品的数字评分和文本评价信息协同过滤推荐系统通过用户对项的评分信息,建立用户档案,然后使用不同的推荐机制提供推荐服务。最简单的协同过滤系统计算所有用户对项的平均评分,选择平均评分最高的前n个项作为推荐结果推荐给用户。这种推荐机制根据所有的用户评分信息产生推荐,所有用户在同一时间得到的推荐都是相同的,因此这种推荐方法又称为非个性化推荐。tapestry是最早提出的个性化协同过滤推荐系统。用户需要明确指出与自己兴趣爱好相似的其他用户,推荐系统根据指定的其他用户对商品的评价信息产生推荐结果。与之类似,maltz等人提出的个性化协同过滤推荐系统允许用户向自己熟悉的用户群体主动提供推荐信息。在上述协同过滤推荐系统中,用户之间必须了解对方的兴趣爱好,因此一般只适用于用户数量比较小的场合。随着电子商务系统的发展,用户和项的数量逐渐扩大,与之相适应,研究者提出了自动个性化协同过滤推荐系统。在自动个性化协同过滤推荐系统中,系统自动识别用户的最近邻居,根据最近邻居对项的评价产生推荐。grouplens是最早提出的的自动个性化协同过滤推荐系统,用于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论