




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 apriori算法的改进及其在电子商务中的应用 刘彬+程晓荣摘要:apriori算法是关联模型中的经典算法,但是当数据库很大时apriori算法的复杂度将会指数上升,因此该文对apriori算法扫描数据库的方式进行了改进,改进后的算法有效地降低了算法的复杂度。并将apriori算法粗浅的应用于在电子商务中的推荐环节。关键词:apriori算法;关联规则;算法改良;电商平台: tp393 : a :1009-3044(2017)27-0274-02随着我国经济的迅速发展,互联网得到了极大的普及。电子商务作为一种新的销售方式,迅速地占据了我国零
2、售业很大的比重。电子商务开辟了新的市场,新的购物方式。近年来我国的电子商务交易量迅速增长,其运营模式的创新日益增加,电子商务呈现出多层次、多元化的发展趋势1。其中淘宝、京东、唯品会等平台占领了90%的市场份额。而且随着互联网的发展,怎样让用户消费行为更加简洁,怎样吸引更多的用户成为了各大电商平台关注的焦点。apriori算法是一种基于关联规则的算法,根据关联规则可以推荐给用户想要的商品,从而节省了用户的购物时间,使用户购物更为方便快捷,从而可以吸引更多的用户,然而传统的apriori算法在处理海量的数据时,复杂度较高,必须对apriori算法进行改良使之能够适用于现在大数据的时代,本文对apr
3、iori算法进行了简单的介绍,并提出了一种改良的方法。并简单的验证了改良后的算法。1 apriori算法1.1 apriori算法简介apriori算法是关联规则模型中的经典算法,它是r.agrawal等人于1994年在ais算法基础上提出的改进算法,是數据挖掘问题中的一个重要研究内容。apriori算法在发现关联规则问题方面有非常的大的影响力2。apriori算法是一种挖掘关联规则的频繁项集的宽度优先的算法,这个算法的核心思想是通过扫描数据库,生成候选集和逐级的监测来发现数据库的频繁项集。通过对数据库的多次扫描来发现所有的频繁项目集,在每一次扫描中只考虑具有同一长度的所有候选集3。1.2 基
4、本概念对于事件a和b:支持度:p(ab),a事件和b事件同时发生的概率。置信度:p(b|a),在事件a已经发生的条件下事件b发生的概率。也可以记为p(ab)/p(a)。例如购物车记录分析:泳衣和泳镜。支持度1%:只有1%的用户同时购买了泳衣和泳镜。置信度60%:购买了泳衣的用户有60%也同时购买了泳镜。1.3 算法的实现apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法apriori使用一种称作逐层搜索的迭代方法,“k-1项集”用于搜索“k项集”4首先,需要找到数据库的频繁“1项集”的集合,这个集合记为l1。l1用来寻找频繁“2项集”的集合l2,而l2则用来寻找l3。依次类推循环
5、下去,直到不能找到“k项集”。在这个过程中,每寻找到一个lk,都需要完整的扫描一次数据库。核心步骤:连接步和剪枝步。连接步是自连接(lk和lk连接),连接的规则是保证每一项的前k-2项是相同的。依次按字典序连接。剪枝步,是使任一频繁项集的所有非空子集也必须是频繁的。反之,如果某个候选的非空子集不是频繁的,那么该候选集肯定不是频繁的,从而可以将其从ck中删除,产生lk。5简单地讲,发现频繁项集过程可以归结为:扫描;计数;比较;产生频繁项集;连接、剪枝,产生候选项集。重复步骤-直到不能发现更大的频集。例如有如下数据库:经过三次扫描三次比较找到数据库的3项集,apriori算法求解得出abe三项关联
6、度最高。但是apriori算法的缺点也显而易见:每找出一个频繁项集lk,需要完整地扫描一次数据库;而且这样产生的候选项集也非常庞大。当数据库结构较为简单时,apriori算法可以较好的工作,但是当数据库较为庞大时,apriori算法复杂度就会很高。例如长度为500的频繁集x1,x2,x3,x500,将会 产生10000个候选项集6。因此我们必须对apriori算法进行改进。2 april算法的改进apriori算法在现如今大数据时代存在的缺陷极为明显,大数据时代,数据以pb为起步,在这么大的数据库中运用apriori算法来寻求关联度,其复杂度不可想象的。根据apriori算法的特性,改进主要可
7、以由以下两方面来进行: 自连接和剪枝步骤采用更优的策略。 简化数据库本身来减少apriori算法的复杂度。本文主要讨论从数据库方面来进行优化,apriori算法每筛选一次候选集都需要对数据库进行一次扫描,因此我们队数据库进行优化,在每次计算ck支持度的过程中,将ck中没有的所有事物都标记出来,并且在以后的扫描中不考虑这些已经被标记的事物,由此在实际计算候选集支持度所涉及的数据库将小于真实数据库,并且随着k值的增大,这一差值也不断增大,因此可以有效地降低扫描时间,减小候选集的计算速度,提升了整个算法的效率。改进后的算法步骤: 选取最小的支持度,对初始数据库进行扫描,计算出各个1项集的度,得到1-
8、项集l1。 连接剪枝(与原算法相同)。 将ck中没有的元素标记,删除被标记的元素得到新的数据库dk,再重扫扫描dk,计算ck+1各元素的支持度。 将ck中不满足最小支持度的项集删掉,并形成lk;-,直到不能产生新的频繁项目集时终止。endprint用实例数据来进行比较:由图2和图3可以看出来,在筛选c3时,数据库简化变为d1,商品由10项减少为9项,而在下一步中,数据库d2减少为7项,因此节省了扫描数据库的时间,而当数据库越大,这种改进方法节省的时间将越多,因此这样的改进是可行的,但是由于改进算法又增加了新的数据库,生成新的数据库也将会占用一定的时间,所以该算法的改进还有待进一步提升。3 改进
9、apriori算法在电商中的应用随着时代的发展,电子商务在整体商务中占到的比重越来越大,面对纷繁复杂的商品,电商平台如何推荐给用户想要的商品,如何吸引更多的用户,这都是店商平台在考虑的问题。apriori根据关联规则计算关联度较高的方法,电商平台可以根据用户的消费行为,以及各种商品的关联度,来推荐给用户想要的商品,從而节省了用户搜索商品的时间,给用户更好的购物体验,从而吸引更多的用户。4 结束语apriori算法是一种基于关联规则的推荐算法,但是随着时代的发展,大数据环境下数据库越来越大,apriori算法的缺陷也越来越明显,本文对算法进行了改良,使其适用范围更广,可以应用到电商平台,给以用户
10、推荐可能的商品,但是这样的改进还有很多缺陷,下一步的工作将会对算法继续进行改进,使之能够在大数据时代有用武之地。参考文献:1 聂林海. “互联网+”时代的电子商务j. 中国流通经济,2015,29(06):53-57. 2017-08-10. doi:10.14089/11-3664/f.2015.06.0082 罗可,黄园芳,郭锋. 用visual foxpro实现apriori算法的研究j. 长沙电力学院学报:自然科学版,2001,(4):16-19. 2017-08-10.3 罗可,贺才望. 基于apriori算法改进的关联规则提取算法j. 计算机与数字工程,2006,(04):48-51+55. 2017-08-10.4 郅芬香,王留芳. 基于关联规则的apriori算法改进研究j. 信息与电脑:理论版,2014,(09):169-170. 2017-08-10.5 佘为,谢会娟. 改进的apriori算法在高校选修课系统和应对气候变化相关统计工作中的应用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市政道路占道施工方案
- 2025至2030年中国可解降一次性饭盒数据监测研究报告
- 2025至2030年中国不锈钢宠物指甲剪数据监测研究报告
- 2025年中国陆地式电泵吸污机市场调查研究报告
- 2025年中国芪风固表颗粒剂市场调查研究报告
- 张家口二层轻钢房施工方案
- 2025年中国座式麦克风市场调查研究报告
- 景观膜结构运动场施工方案
- 2025年中国太阳能保温水箱市场调查研究报告
- 2025年中国不锈钢薄壁容器市场调查研究报告
- 精选装饰工程室内拆除专项施工方案
- 《交通工程CAD》课程教学大纲(本科)
- 人教版数学五年级下册 全册各单元教材解析
- 2022年二年级生命安全教育教案
- 换班申请表(标准模版)
- 丰田汽车战略规划与战略管理体系研究(2021)
- 公共政策学(第三版)-课件
- 文物保护项目可行性研究报告
- 冷却塔是利用水和空气的接触
- 者阴村战友纪念者阴山对越自卫还击作战30周年联谊会计划2
- 我国古代职业教育的发展
评论
0/150
提交评论