(计算机应用技术专业论文)基于人工免疫网络的电子商务个性化推荐算法研究.pdf_第1页
(计算机应用技术专业论文)基于人工免疫网络的电子商务个性化推荐算法研究.pdf_第2页
(计算机应用技术专业论文)基于人工免疫网络的电子商务个性化推荐算法研究.pdf_第3页
(计算机应用技术专业论文)基于人工免疫网络的电子商务个性化推荐算法研究.pdf_第4页
(计算机应用技术专业论文)基于人工免疫网络的电子商务个性化推荐算法研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

广西大学硕士学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 基于人工免疫网络的电子商务个性化推荐算法研究 摘要 随着互联网的不断发展,电子商务网站越来越受到重视。作为电子商 务企业对外的一个门户,如何通过为用户提供更加个性化的服务,提高其 商品的吸引力,进而为企业带来更大的收益,就成为了网站所面临的核心 问题。 电子商务个性化推荐系统是解决这一问题的有效手段,通过准确推荐 与指导可以提高用户在网站体验的舒适度,建立稳固的客户关系。在为数 众多的推荐技术中协同过滤技术由于其算法机理十分符合推荐活动的实际 需求,因而受到了许多学者的青睐,同时也被广泛地应用于商业推荐系统 中。 本文首先简要介绍了在电子商务中采用个性化推荐的必要性。接下来 分析了协同过滤技术的基本原理,并对几种比较常用的协同过滤算法进行 了详细的说明。然后文章通过对自然免疫学和人工免疫学理论的研究,着 重讨论了将人工免疫网络技术应用于电子商务个性化推荐的思想,提出了 使用形态空间模型对推荐技术及其存在问题的解释方法。本文还在深入研 究s t e v e 算法的基础上,提出了应用聚类分析技术的改进算法聚类免疫 推荐算法( c i n r ) :另外通过分析原算法( s t e v e 算法) 的可并行性,又进 一步提出了针对原算法的并行化改进算法并行免疫推荐算法( p i n r ) 。 最后,通过对算法的时间复杂度分析和仿真实验都证明了这两个算法在推 荐实时响应速度方面对原算法有比较大的改进。 关键词:电子商务个性化推荐协同过滤聚类分析人工免疫 形态空问模型独特性人工免疫网络响应时间 ! 翌苎望堂笙羔 茎王叁三叁壅旦竺堕皇王塑墨尘丝些丝登竺鲨翌窒 r e s e a r c ho ne - c o m m e r c ep e r s o n a lr e c o m m e n d e r a l g o r i t h m b a s e do na r t i f i c i a li m m u n en e t w o r k a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ,e - c o m m e r c ew e bs i t e i sg o t t e n m o r ea n dm o r ee m p h a s i s a st h ep o r t a lo fo n ee c o l n n l e r c ee n t e r p r i s e ,h o wt o o f f e rm o r ei n d i v i d u a ls e r v i c e s ,h o wt oi m p r o v et h ea t t r a c t i o no f i t sc o m m o d i t i e s a n dh o wt om a k et h ee n t e r p r i s eg a i n i n gm o r e p r o f i t , w h i c ha r ea l lt h ei m p o r t a n t p r o b l e m st h a tt h ew e bs i t em u s tr e s o l v e - e c o m m e r c ep e r s o n a lr e c o m m e n d e rs y s t e mi s a ne f f e c t i v em e t h o dt o s o l v i n gt h i sp r o b l e m i ti sb e n e f i c i a lt oi m p r o v i n gt h eu s e r sc o m f o r tf e e l i n ga n d b u i l d i n gak i n do fm o r ef i r mr e l a t i o n s h i pw i t hc u s t o m e r s a m o n gt h en u m e r o u s r e c o m m e n d e rt e c h n o l o g i e s ,c o l l a b o r a t i v ef i l t e r i n gt e c h n i q u eg e t sm a n ys c h o l a r s f a v o rb e c a u s eo fi t s t h e o r ya c c o r d i n gw i t ht h ea c t u a l r e q u i r e m e mo f r e c o m m e n d a t i o ns u f f i c i e n t l y i na d d i t i o n ,t h ea l g o r i t h mi sa l s ou s e di nm a n y c o m m e r c i a lr e c o m m e n d e r s y s t e m sw i d e l y a t f i r s t ,t h i s p a p e r i n t r o d u c e st h e i m p o r t a n c e o f u s i n g p e r s o n a l r e c o m m e n d e rs y s t e mi ne c o m m e r c eb r i e f l y t h e n ,i ta n a l y s e st h em n d a m e n t m o fc o l l a b o r a t i v e f i l t e r i n gt e c h n o l o g y , a n dr e c o m m e n d ss e v e r a l u s u a l c o l l a b o r a t i v e f i l t e r i n ga l g o r i t h m s i nd e t a i l a n dt h e nt h r o u g hs t u d y i n gt h e n a t u r a li m m u n ea n dt h ea r t i f i c i a li m m u n et h e o r i e s ,i td e s c r i b e st h ei d e ao f u s i n g m 堕盔堂堡兰竺堡苎 茎三三叁壅塑竺塑皇王查墨尘丝些垄董苎鲨旦塑 t h ea r t i f i c i a li m m u n e t e c h n i q u ei ne c o m m e r c ep e r s o n a lr e c o m m e n d a t i o n ,a n d g i v e st h em e t h o df o re x p l a i n i n gr e c o t m n e n d e rt e c h n i q u ea n di t sp r o b l e m sw i t h t h es h a p e 。s p a c em o d e l t h r o u g hr e s e a r c h i n gt h es t e v e s a l g o r i t h mt h o r o u g h l y , t h i sw o r kg i v e sa l li m p r o v i n ga l g o r i t h mw i t hc l u s t e r i n gt e c h n i q u e ,c l u s t e r i n g i m m u n en e t w o r kr e c o m m e n d a t i o n ( c 孙诹) i na d d i t i o n , t h r o u g ha n a l y z i n g p a r a l l e lq u a l i f i c a t i o no ft h es t e v e sa l g o r i t h m ,i ta l s o g i v e sa ni m p r o v i n g a l g o r i t h mw i t hp a r a l l e lp r o g r a m m i n gt e c h n i q u e ,p a r a l l e li m m u n en e t w o r k r e c o m m e n d a t i o n ( p i n r ) f i n a l l y , i tp r o v e st h a tt h et w oa l g o r i t h m sa r eb e t t e r t h a nt h eo r i g i n a la l g o r i t h mo n r e s p o n s es p e e db yt i m ec o m p l e x i t ya n a l y z i n ga n d e m u l a t ee x p e r i m e n t k e y w o r d s :e - c o m m e r c e ;p e r s o n a lr e c o m m e n d e r ;c o l l a b o r a t i v ef i l t e r i n g ; c l u s t e r i n ga n a l y s i s ;a r t i f i c i a li m m u n e ;s h a p e s p a c em o d e l ; i d i o t y p i ca r t i f i c i a li m m u n en e t w o r k s ;r e s p o n s et i m e - l i , 广西大学硕士学位论文 基于人工免疫网络的电子商务个忭化推荐算法研究 1 1 研究背景 第一章绪论 随着i n t e r n e t 的迅速发展,电子商务正在成为一种重要的商务形式,企业的经营方 式也由传统的大规模标准化生产( 以标准化产品、计划市场、长的产品生命期和开发周 期为特征) 向大规模定制生产( 以向不同的顾客提供多样和定制的产品为特征) 转变【”。 这些在为商家带来巨大商机的同时,也对他们提出了挑战:如何才能为顾客提供更加个 性化的服务,进而提高他们的满意度,是每个商家不得不面对的问题。另一方面,面对 浩如烟海的商品信息用户往往束手无策,经常会迷失在大量的商品信息空间中,无法顺 利准确地找到自己所需要的商品,即出现了用户信息过载( i n f o r m a t i o n o v e r l o a d ) 的问 题。那么,如何在电子商务网站上有效地提高商品的吸引力,提高用户对网站的忠诚度, 从而使企业获得尽可能多的收益? 如何使用户面对电子商务网站所提供的上万甚至上 百万种商品时,更准确地选择到自己满意的商品? 电子商务推荐系统正是解决这些问题 的一条途径。 i 1 1 电子商务推荐系统 推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而使 其顺利完成购买过程,因此可以有效地保留客户,提高电子商务网站的销售量;商家也 可以通过推荇系统建立稳固的客户关系,提高客户的忠诚度。 电子商务网站需要推荐系统的大力支持来提高商品的销售量。同时,电子商务自身 的特点也有利于推荐系统的顺利实施,主要原因包括以下三个方面【2 ,3 】: l 、数据的内容丰富 在电子商务环境下收集的各种数据内容比较丰富,例如用户注册信息数据、用户浏 览行为数据、用户评分数据、用户购物车的信息( 已购买商品的信息) 、用户交易数据 等。丰富的数据为建立多种推荐模型,产生高质量的推荐提供了保证。 2 、数据收集的自动化 电子商务环境中的各种数据通过自动化的方式采集,减小了人工方式收集数据可能 出现的误差,因而噪声数据大大减少,各种数据的可信度比较高,并且数据预处理过程 比较简单。 3 、推荐效果评估的简易化 。在电子商务中实施推荐系统的投资回报率很容易通过电子商务w e b 站点访问量的 增加、电子商务系统销售额的增长等指标直接进行评估。 推荐系统可以从三方面促进电子商务网站的销售【4 】: 1 、将阿站的浏览者变为商品的购买者 广西大学碗十学位论文基于人工免疫网络的电子商务个性化推荐算法研究 用户在浏览电子商务网站过程中有时并没有购买欲望或是没有发现他所需要的商 品,推荐系统通常能够根据用户个人数据推荐一些他们感兴趣的商品,从而将其从电子 商务网站孵访闯者变成为商品的实际购买者 2 、提高交叉销售能力 推荐系统在用户浏览某件商品时,根据用户的兴趣和已购买的商品,向其提供其它 有价值的商品推荐,帮助他们发现那些确实需要的但在浏览过程中没有想到的商品,增 加这些商品被浏览和购买的机会,从而有效地提高电子商务网站的整体销售能力。 3 、提高顾客对网站的忠诚度 在电子商务环境下,顾客转翻竞争对手鹩髑站,衙单搿仅仅点击几下鼠标或是输入 一些简单信息而已,所以培养顾客的忠诚度是一项根本的商业战略【5 】。推荐系统能根据 顾客的信息为他们提供符合其意愿的建议,提高客户对网站服务的满意度,有利于网站 和客户之间建立长期稳定的关系,防止客户流失 研究表明,采用电子商务形式进行销售的行业在使用个性化推荐系统之后,销售额 能提高2 8 w 4 们,尤其在书籍、电影、c d 音像、日用百货等产品相对较为低廉且商品 种类繁多、用户使用个性化推荐系统程度高的行业,推荐系统能大大提高企业的销售额。 电子商务推荐系统和销售系统( m a r k e t i n gs y s t e m s ) 、供应链决策支持系统 ( s u p p l y c h a i n d e c i s i o n - s u p p o r ts y s t e m s ) 既相似又有不同。销售系统是帮助销售人员如 何把产品销售出去;推荐系统则是帮助用户对购买什么产品做出决策供应链决策支持 系统是帮助生产者决定什么时候生产什么产品,以及仓库应该存贮多少某类产品,其最 终目的是为企业生产者服务:推荐系统则是面向用户的系统。 1 1 2 个性化服务 所谓个性化服务( p e r s o n a l i z a t i o ns e r v i c e ) 就是指,根据用户的不同情况提供有针 对性的服务。比如当用户浏览网站时,尽可能地迎合每个用户的浏览兴趣并且不断调整 自己来适应用户浏览兴趣的变化,使得每个用户都有是该w e b 站点唯一用户的感觉。 a m a z o n t o m 的c e o 贝索斯对这一点有一句精辟的描述:“如果我的站点有三百万用户, 我将为他们提供三百万个a m a z o n 网站。? 【6 j 个性化服务需要获取有关用户的知识,建立用户的信息需求模型。利用有关用户的 知识,有针对性地获取或帮助用户筛选信息资源,并能够逐渐学习用户需求的变化“j 。 高质量的个性化推荇服务包括如下内涵: 1 、推荐的准确性 推荐系统提供的信息要尽可能地满足用户的需求,这就需要对用户需求的准确把 握、对信息内容的准确把握、对信息内容和用户需求之间相关性的准确把握。 2 、推荐响应的及时性 网络应用面对的服务客户是数以万计的。面对大量用户的信息需求,推荐系统要对 用户做出及时有效的反馈。 3 、以用户为中心 2 - 广西大学硕士学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 推荐系统要以用户为中心进行服务碍1 ,这就要求方便用户的使用。例如:系统主动 将信息推荐给用户;用户可以方便地表达自己的需求:系统要及时适应用户需求的变化。 目前有许多著名的电子商务弼站都不同程度韵使用了个性化推荐系统作为其提高 销售的工具。比如,c d n o w e o m 的c d 推荐系统,w m c o m 的酒类推荐系统, m o v i e f i n d e r c o m 的电影推荐系统等,其中a m a z o n c o m 的图书推荐系统足其中的佼佼 者。 1 2 电子商务推荐系统主要研究内容 电于商务推荇系统的研究内容和研究方向主要包括1 4 , 6 】 l 、推荐算法研究 如何在推荐形成的过程中更多地结合用户个人信息,达到推荐的商品真正符合用户 的个性化要求,这是进一步改进和发展推荐算法以及开发优秀用户建模技术的研究方 向。 2 、实时性研究 在大型电子商务推荐系统中,随着用户群和商品种类的不断增加,推荐系统的可扩 展能力和实时性要求越来越难以保证。如何有效增强推荐系统的实时响应速度成为一项 重要的研究目标。 3 、推荐质量研究 在大型电子商务系统中,用户评分数据极端稀疏。用户评分数据的极端稀疏性使得 推荐系统无法产生有效的推荐,推荐系统的推荐质量难以保证。 4 、推荐算法评价标准 目前衡量推荐算法有效性的标准主要是通过计算测试结果与真实数据之间的某种 偏差得到的,而且已有的方法一般都比较简单,因此造成对推荐效果的评价不准确,从 而推荐结果不能完全符合用户意愿。通过对用户的主观评价进行建模分析,开发有效的 评价标准将是一个需要关注的研究方向。 5 、多种数据多种技术的集成 当前大部分的电子商务推荐系统都只利用了- d , 部分可用信息来产生推荐,很多有 价值的信息没有被利用到。随着研究的深入,新型电子商务推荐系统应该利用尽可能多 的信息,收集多种类型的数据,有效集成多种推荐技术,从而提供更加有效的推荐服务。 6 、数据挖掘技术在推荐系统中的应用 随着研究的深入,各种数据挖掘技术( 主要包括关联规则挖掘、序列模式挖掘、聚 类分析、b a y e s i a n 分类等) 在推荐系统中得到了广泛的应用。其中通过使用w e b 挖掘 算法隐式地得到用户个性化描述( p r o f i l e ) 的技术,受到了越来越多学者的关注 7 、用户隐私保护研究 由于推荐系统需要分析用户的购买习惯和兴趣爱好,涉及到用户隐私的问题,如何 在提供推荐服务的同时有效保护用户隐私值得作深入的研究 广西大学硕士学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 8 、推荐系统可视化研究 推荐系统的目的是为用户提供服务,因此必须为用户提供友好的可视化服务界面。 主要包括推荐结果可视化研究和推荐结果解释研究等方霹的内容。 9 、多种推荐系统集成研究 现有推荐系统与商业系统的接i :1 1 多采用紧耦合的方式,由于推荐需求和应用系统之 间的差别,推荐系统需要根据具体w 曲站点进行定制开发,集成代价高,系统移植性 差。难以动态有效管理和维护多个推荐工具和大量数据。随着推荐系统在电子商务系统 中的广泛应用,带来了大量关于如何有效管理和维护众多推荐工具、数据、应用接1 1 1 等 的闯越。 1 3 电子商务推荐系统国内外研究现状 从海量数据中挖掘出有用信息的数据挖掘和信息过滤技术很早就有学者进行研究, 但将其应用于电子商务个性化推荐却只是近十几年的事在电子商务个性化推荐技术的 研究与应用方面,耳前国内理论研究还处于起步跟踪阶段,没有提出开创性的算法和技 术,实际应用的推荐系统从推荐的深度、规模性和质量方面都远远落后于国外。文献 1 5 】 是国内一篇比较早的电子商务推荐技术的综述,它详细介绍了个性化服务技术在网络中 的应用以及国外在此方面的研究成果。文献 5 6 ,5 7 1 通过采用默认评分和分类技术来解决 推荐系统中数据稀疏性的问题,提高了算法的推荐质量。文献【5 8 】则是提出了采用推荐 技术改进电子商务中已有服务质量的方法。 在国外,许多著名研究机构和学者在这方面做了大量的研究,发表了很多高水平的 论文,其中一些文章对推荐技术的研究有十分深远的影响。例如,文献 1 1 全面介绍了 推荐系统的要求并且分析了其亟待解决的一些问题;文献 1 3 ,1 4 ,1 7 】是最早的几篇系统 阐述协同过滤思想的论文。提出了使用协同过滤技术进行信息推荐的想法;文献【2 8 】在 传统协同过滤算法的基础上,提出了基于项目相似度推荐的改进算法,推动了协同过滤 技术的发展;文献 2 0 2 3 也都从实际需求出发提出了多种应用于不同环境下推荐问题 的算法。另外研究人员也实现了许多研究型推荐系统示范模型。美国计算机学会( a c m ) 从1 9 9 9 年开始召开的电子商务研讨会中,有关电子商务推荐系统的研究文章占很大比 重。此协会的数据挖掘特别兴趣组s i g k d d 小组设立w e b k d d 研讨组,主题集中在 电子商务中的w e b 挖掘技术和推荐系统技术。而a c m 下面的信息检索特别兴趣组 s i g i r 在召丌的第2 4 届研究和发展会议上,开始专门把推荐作为一个研讨主题。目前 电子商务推荐系统主要集中在推荐技术、推荐实时性、推荐质量、多种数据技术的集成、 数据挖掘技术在推荐系统中的应用等的研究。 在商业界,由于国外的电子商务起步比较早,所以有很多成功应用电子商务推荐系 统的实例。国内虽然起步晚,但是由于意识到推荐系统对电子商务整体的重要性,所以 现在也有很多较大型的电子商务网站在应用此项技术,比如当当网上商店 下面列举了一些研究推荐技术的示范性系统和成功应用于电子商务实践的案例 广西大学硕士学位论文 基于人工免疫两络的电子商务个性化推荐算法研究 0 5 , t 6 1 。 1 、t y p e s t r y :是x e r o xp a r c 研究中心提出的最早的一个研究型协同过滤推荐 系统l l 引,用于过滤电子邮件、推荐电子新闻t y p e s t r 系统提供电予文档存储、用户 评价存储和协同过滤推荐服务。在t y p e s t r 系统中,设计了一种类似于s q l 的查询 语言t q l ,用户的查询请求中必须明确指出与自己兴趣爱好相似的其他用户。由于用 户之间必须了解对方的兴趣爱好,因此t y p e s t r 推荐系统一般只适用于用户群体比较 小的场合。 2 、g r o u p l e n s :由m i t 开发的研究型自动协同过滤推荐系统【1 7 1 8 】用于新闻组信息 推荐( 该项目现在由c m u 等多所大学共同承担) 。g l 啪西毛地系统避过用户的译分信息 自动搜索用户的最近邻居,然后根据最近邻居的评分信息产生最终的推荐结果,适合于 用户数量比较大的场合。g r o u p l e n s 系统具有极好的开放性,用户可以通过g r o u p l c n s 系统提供的a p i 函数向g r o u p l e n s 服务器提供评分信息,请求推荐结果。同时,g r o u p l e n s 系统提供三种客户端工具e m a e s g n u s 。n n 和n e w s w a t c h e r 达到上述目的 3 、m o v i e l e n s :是m i n n e s o t a 大学开发的研究型自动协同过滤推荐系统【1 9 l ,用于推 荐电影。与g r o u p l e n s 不同,m o v i e l e n s 系统是一个基于w e b 的推荐系统,系统通过浏 览器的方式进行用户评分数据收集与推荐结果显示,用户使用更加方便。 4 、f a b :是s t a n f o r d 大学数字图书馆项目组开发的基于内容的过滤和协同过滤的 复合型推荐系统【2 0 l ,用于推荐w e b 页面。其特点是综合了基于内容过滤的推荐和协同 过滤推荐的优点,同时支持两种类型的推荐服务,所以该系统是混合推荐的一个典型案 例。f a b 系统主要包括页面收集代理,个人推荐代理和中心路由器。页面收集代理从 w e b 上收集特定主题的页面,个人推荐代理从特定主题中选择用户感兴趣的页面推荐给 用户。个人推荐代理根据文档内容信息建立用户的用户档案,然后根据用户档案之间的 相似性搜索用户的最近邻居。产生的推荐结果可以基于用户档案中的文档内容信息,也 可以基于用户最近邻居的评价信息( 协同过滤) 。 5 、a m a z o n 推荐系统:a n l a z o n c o m 是世界上最成功的电子商务公司之一,它也是 比较早并且成功的将电子商务个性化推荐系统应用于商业界的代表。 a n l a z o n c o r n 通过以下五个方面来达到它个性化推荐的目的。 每个用户都会得到系统提供的根据已购买书籍的两个推荐列表:第一个是其他购买 此书的顾客还常常购买的书籍列表;第二个是该书作者的其他畅销书籍列表。 用户可以通过属性( 包括作者、出版社、书籍分类等) 查询的方式了解所关心的最 新信息。 用户可以通过在网站上订阅所有感兴趣的信息,来定期从电子邮件中了解最新的商 品情况。 用户可以对网站上的书籍直接进行评分( 五种星级别) ,通过用户的评分,系统可 以从中学习用户的兴趣,推荐更加个性化的信息。 用户在浏览书籍商品时还可以从其他用户的书评中了解某一书籍,同时自己也可以 参与其中,通过这种方式可以方便用户选择到自己最满意的书籍,其间用户的参与 广西大学硕士学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 也能增强对网站服务的满意度。 另外还有很多成功应用推荐系统的实例,它们都有各自结合推荐技术的方法和特 色,如e b a y c o m 公司的反馈描述机制把用户对某项商品或卖主的反馈反映在对其 描述中,使其他用户可以根据此描述选择商品和可信赖的卖主:c d n o w c o m 公司的“我 的c d n o w ”技术用户可以根据自己的喜好殴立属于自己的网上音乐商店,推荐系 统由此获得用户的兴趣并根据此信息向用户推荐相应的音乐专辑。 1 a 本文主要研究内容 本文研究的对象是电子商务推荐系统中的协同过滤推荐算法。针对电子商务推荐系 统面临的主要挑战,对传统的协同过滤推荐算法进行了深入地探索和研究。并通过引入 人工免疫理论改进了传统算法。本文的研究内容主要包括: l 、分析了电子商务个性化推荐系统,给出了推荐系统整体的系统概念模型,并论 述了现有推荐系统面临的主要挑战。 2 、对不同的电子商务个性化推荐算法进行分类和总结详细研究了传统的协同过 滤算法在应用中所面临的问题和挑战,如,可扩展性、数据稀疏性、冷启动、邻居用户 集合选择问题等等 3 、深入研究和分析了自然免疫机理和人工免疫理论,提出了用形态空间模型解释 电子商务推荐问题的方法,并用此方法描述了在传统协同过滤算法中寻找目标用户的邻 居用户集合时,出现的多样性差的问题及其对算法的整体影响。 4 、改进了s t e v e 的免疫推荐算法,提出了两个应用独特性人工免疫网络的算法一 一聚类免疫推荐算法( c i n r ) 和并行免疫推荐算法( p i n r ) 。在聚类免疫推荐算法中, 通过引入聚类优化操作,将s t e v e 算法要求的迭代运算量减少了数个量级,达到了提高 算法实时响应速度的目的。在并行免疫推荐算法中,通过深入研究s t e v e 算法潜在的可 并行性问题,提出了算法并行化的改进方法,达到了在保持邻居用户最大多样性的基础 上进一步提高算法实时响应速度的目的。 5 、最后,本文对今后算法进一步的改进方向进行了展望,并给出了相应的改进方 案。 1 5 本文结构 论文共分为五章,文章结构及各章内容简介如下: 第一章首先综述了电子商务推荐系统与个性化信息推荐服务和个性化推荐系统的 主要研究内容。然后,还对推荐系统的研究现状和实例进行了简要的介绍。最后,介绍 了论文的研究内容和工作,并给出本文的整体组织结构。 第二章详细论述了电子商务个性化推荐系统的基本知识,给出了推荐系统整体的系 统概念模型,并分析了推荐系统的分类、数据的表现形式和面临的主要挑战。 广西大学硕士学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 第三章对各种成功应用于电子商务推荐系统的算法进行了总结和分类,其中重点探 讨了协同过滤算法和解决它所面临问题的主要方法。 第四章根据人工免疫理论中的形态空问模型,给出了用形态空间模型艉释电予商务 推荐问题的方法,并用此方法描述了在传统协同过滤算法中寻找目标用户的邻居用户集 合时出现的多样性差的问题及其对算法的整体影响。在s t e v e 算法的基础上,给出了两 点改进方案,提出了聚类免疫推荐算法( a r ) 和并行免疫推荐算法( p 姗) 。最后通 过算法时间复杂度理论分析和仿真实验测试,表明本文的改进算法在预测的准确性以及 算法的实时响应速度方面都有比较大的优势。, 第五章总结全文,指出本文的后续研究方向。 广西大学硕士学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 第二章电子商务推荐系统 互连网的迅速发展,促成了以交易电子化为特征的新商业形式一一电子商务 ( e c o m m e r c e ) 。随着其规模和影响范围的不断扩大,近年来无论在学术界还是在商业 界它都成为了一个最热门的领域。 简单地讲,电子商务就是利用当代计算机技术、网络通讯技术、多媒体技术、i n t e m e t 、 l n n a a e t 。e x t r a n e t 等技术,通过一定的协议连接起来的电子网络环境,进行各种各样商 务活动的方式。更广泛她说,凡是利用国际互联网进行商务活动的方式都可以认为是电 子商务p j 。电子商务以其高效率、低廉、高收益、全球化等传统经营方式所无法比拟的 优点受到全球的关注。美国、欧盟等发达的国家或组织己经采取措施大力发展电子商务。 我国政府也大力倡导电子商务。, 随着电子商务的蓬勃发展,以客户为中心的客户关系管理( c u s t o m e rr e l a t i o n s h i p m a n a g e m e n t ,c r m ) 成为电子商务环境中企业吸引和留住顾客的致胜法宝之一。怎样 在电子的虚拟世界中吸引新的客户,并确保能为客户提供更好的服务,成为许多电子商 务网站的主要任务。另一方面。客户面对网上大量的信息和如此众多的选择,要从中挑 选出自己真正需要的东西也相当困难。近年来兴起的推荐系统成为解决这些问题的重要 途径之一l 1 0 1 。 “ 2 1 电子商务推荐系统的含义 2 i i 基本概念 电子商务推荐系统( r e c o m m e n d e rs y s t e m sf o re c o m m e r c e ) 正式的定义是r e s n i c k & v a r i a n 在1 9 9 7 年给出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助 用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程” i l l ,现在这个定义 己被广泛引用。 简单来说,它就是利用统计和知识发现等技术来解决与日标客户交互时提供商品推 荐问题的系统。它在电子商务系统中向客户提供商品信息和建议,帮助客户决定购买何 种商品,模拟销售人员向客户推荐商品完成购买的过程。推荐系统推荐何种商品是在电 子商务网站整体商品的购买情况、客户的人数统计或者对客户购买的历史记录上进行分 析产生的。广义上讲,这些因素的考虑使电子商务具有了个性化的色彩,而且对于不同 的客户,具有推荐系统的电子商务网站表现出了一定的自适应性。 8 广西大学硕士学位论文基于人工免疫网络的电子商务个性化推荐算法研究 c i 数据预处理k 白唐自自h o 丽 公式3 1 。) 在该式中,使用评价i 项目的用户数来代替同时评价i 和,项目的用户数,这样就 加大了评价少量项目用户的权重,相应地降低了频繁用户的影响。 2 、在线推荐阶段 在实时推荐阶段的推荐产生方式和基于用户的协同过滤技术相似,也是先针对目标 用户的未评价项目进行预测评分,然后再按照指定相似度阈值或是t o p - n 的方式产生最 终推荐 但是由于之前通过离线建模我们已经拥有了项目之间相关性的模型库,所以这一阶 广西大学硕士学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 段不必再进行大计算量的实时向量计算,而仅仅从模型库中取出已有的相似性结果进行 预测评分 基于项目的协同过滤算法的预测公式为: 乞f = ,;+ j i m ( i ,) ( 吒。j - 一r j ) j e n i 枷( 训 公虮1 1 j e n l 气是当前用户“对项目i 的预测评分值,s i m ( i ,) 是表征预测目标项目i 与其邻居 用户- ,的相似度( 其中- ,川,m 是i 的邻居项目集合) ,是用户“对项h j 的评价 值,吩,分别为项目_ ,和项目i 的平均评价值 , 3 3 3 基于模型的协同过滤算法 此类算法是从概率的角度看协同过、滤【3 9 1 ,在给定所有信息的条件下,计算( 估计) 目标用户对项目评价的期望值。实际应用中一般采用成熟的概率模型,在已有信息的基 础上,估计目标用户对项目的评价分布,进而得到期望,作为算法的预测值。使用该算 法的推荐系统,运行时只需将已经建立好的结果存入规则模型库中,避免了实时的大计 算量。 下面具体介绍一下用概率模型进行推荐的形式化定义。 假设用户评价值后是0 到聊的整数,对于给定用户甜,取 对项目s 的评价为: 吒,= 后p ( ,:,= k l r )( 公式3 1 2 ) k = o 表达式中的条件概率是指在已知评价矩阵r 的条件下,用户“对信息s 评价值为k 的概 率。如何计算这一条件概率即是基于概率模型推荐算法的重点。 目前有两种方法来估计这个概率,聚类方法和贝叶斯网络。 聚类方法,是通过把相似的用户聚成一类,建立朴素贝叶斯模型,模型的参数和类 的数量可以从训练数据中得到。具体来讲,首先是将用户聚成n 类u ( i _ 1 n ) ,由已 知用户数据估计出每类对项s 的评价分布p ( 气,= kir ) ,再由目标用户的已知信息估 计出该用户属于某类的概率p 0 配l j s ) ,结合这两者最终得到目标用户对 项目j 的评价。 贝叶斯网络的方法,把每个项目作为贝叶斯网络的每个节点,每个节点的状态相当 2 5 广西大学硕士学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 于每个项目的评价值,网络结构和条件概率从训练数据中得到。由于贝叶斯网络模型相 比较朴素贝叶斯模型在建模准确性方面有比较大的优势,所以当前的研究多围绕基于贝 叶斯网络模型的推荐算法。 贝叶斯网络 2 5 1 是基于概率分析、图论的一种不确定性知识的表达和推理模型。从寅 观上讲,在贝叶斯网络中,用每一个节点表示一个变量,即一个事件;各变量之间的弧 表示事件发生的直接因果关系。贝叶斯网络的建模目的是对所包含的定性知识和定量知 识进行结构上的描述,并为下一步推理提供依据。从原始数据中构造贝叶斯网络模型, 实际上就是对原始数据进行数据挖掘:即先找出最符合原始数据的定性的网络图关系, 然后椴据髑络罄中的因果关系,专婚# 带点婀的条件概率 推荐系统中应用的贝叫斯网络技术利用o i l 练集创建相应的模型,其中模型用决策树 表示,节点和边表示客户信息。模型的建立是一项比较费时的操作,时间一般需要数小 时甚至数天j 但可以离线进行,所以不会影响整体推荐速度,并且由此得到的模型规模 可以比较小,实时推荐时模型的使用非常快 基于概率模型的协同过滤算法和基于内容的算法二者的主要区别主要是,基于内容 的算法是采用启发式的方法进行预测,而基于概率模型的推荐算法则是通过从训练数据 中使用机器学习和数据挖掘算法学习到的模型来产生预测。 这种算法的缺陷是模型不是很稳定,时常需要更新。这是因为随着客户的不断增多 以及客户兴趣爱好的变化即数据集的变化,贝叶斯网络的学习过程也要重新进行, 因此这种方法适合客户的兴趣爱好变化比较慢或者用户群比较稳定的场合。 3 4 协同过滤算法的评价 3 4 1 算法的优势 与传统文本过滤的方式相比,协同过滤技术有下列优点 2 9 1 : 1 、能够过滤那些难以使用机器进行自动内容分析的信息,如图片、音乐等非文本 的多媒体信息。文本分析的方法一般采用关键词作为项目的描述,而对于文本信息较少 的场合,它就不能充分发挥计算机的自动文本处理的优势,往往只能通过人工介入的方 法束为项目建立关键词描述,这对于拥有大量商品项日的电子商务站点来说是不现实 的。而协同过滤的方法则避开这个问题,结合别人的选择和项目本身的信息来进行推荐, 所以对于那些文本不丰富的项目信息也能做到自动、准确的推荐。 2 、通过共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一 些复杂的,难以表述的概念( 如信息质量、品味) 进行过滤。对于一些像项目质量等一 些主观的评价,文本分析的方法往往束手无策。比如研究同一课题的两篇质量差别很大 的研究报告,用一般的文本分析方法会得到两组差不多的关键词描述,因此计算机就无 法分辨哪篇质量更佳。 3 、可以有效地使用其他相似用户的反馈信息,减少用户必须的反馈信息量,加快 广西大学硕十学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 个性化学习的速度。参考用户的邻居用户集的兴趣变化,系统能够及时地了解该用户的 兴趣,因而减少了为达到此目的用户必须向系统输入的信息量。 4 、具有一定的推荐新信息的能力。因为文本过滤豹方式推荐的内容往往是那些用 户“过分”相关的内容,比如在新闻类的推荐中会经常出现同一内容的不同报道被同时 推荐给用户的情况,这样的推荐往往是“零价值”甚至“负价值”的。而协同过滤则可 以结合他人的选择信息,尽量避免这榉隋况的发生 3 4 2 算法存在的问题 协同过滤技术是一项非常成功的推荐技术,无论在实验系统还是在真实系统中都取 得了不错的效果,但是随着电子商务系统规模的不断扩大,该算法面临着一系列的挑战。 学者们也针对这些问题提出了一些解决方法。 l 、数据稀疏性问题 协同过滤算法是通过寻找实体之间的关联度来猜测用户的兴趣,进而产生对用户的 个性化推荐。这点就要求实体之间要有足够数量“重叠”的支持来完成其间关联度的运 算,但是现实中的电子商务网站这种“重叠”往往很少数据非常稀疏【3 0 1 ,因此给算 法的精度带来了一定的影响。这就需要开发能够同时利用多种信息的算法,尽量避免某 种算法仅应用部分数据所造成的信息浪费情况,把有限的信息资源转化为尽量准确的推 荐。 。 。 2 、扩展性问题 协同过滤算法在常规数据量的情况下表现的很好,但是面对大型电子商务网站海量 数据集面前,单纯结果最好并不是算法好坏的决定性因素,这时算法的响应( 运算) 速 度成为了最重要的指槲3 0 】。针对此问题有学者建议借鉴基于模型的方法,先对数据集采 用机器学习的方法进行相应的处理,建立一些指导模型或规则库,然后再进行算法的运 算。另外通过对原有算法的改造,使新算法能够适应并行计算环境,从根本上提高算法 的计算速度。其实,算法的高响应速度和高精度是一对矛盾体,因此如何找n - 者最佳 平衡点的推荐算法是一个重要的研究课题。 3 、推荐质量问题 严格说来,这一点其实是所有推荐系统所面临的核心问题。推荐系统一般会产生两 种方式的偏差,一是没有推荐客户确实需要的商品,还有一种是错误的推荐了客户不需 要的商品。第二种偏差是严重的,会极大地影响客户对推荐系统乃至整个公司网站的信 任程度,所以应该尽量避免。因此,开发在避免第二类偏差的基础上尽可能提高推荐质 量的算法是推荐技术研究的一个挑战。 4 、冷启动问题 也称“新项目”问题【3 1 1 。对于没有或者很少用户评价过的项目,单纯的协同过滤算 法一般很难对其产生预测评分和推荐,这就使得该类项目可能永远都得不到推荐。并且 在项目出现的早期由于用户的评价少,所以也容易影响推荐质量目前解决的办法主要 是采用混合基于内容推荐的算法和协同过滤算法的方法来形成推荐,但是这种方法还不 广西大学硕士学位论文 基于人工免疫网络的电子商务个性化推荐算法研究 是十分成熟,存在模型结构固定、自动化程度不高的缺陷,但是混合推荐方法确实是一 条解决该问题的途径。 5 、个别用户闯题 一些新用户或是评价过很少项目的用户,推荐系统只能掌握很少一部分他们的情 况,往往不能进行准确的推荐,使得这些用户不能从推荐系统中受益p 甜。其实对于电子 商务站点来说,这些用户往往是一种财富,提高他们对网站的满意度是扩大网站客户群 和销售的重要途径。现在这方面解决主要是请客户先手工填写一些详细的描述文件( 比 如调查表之类) ,然后争取从中获得客户尽可能详尽的信息,这种做法由于客户手工参 与的太多( 另外还涉及到用户跨稻等同题) 所以教果不是很好。有学者借鉴w e b 挖掘 技术”,通过观察用户的浏览习惯隐式地得到用户的信息,减少用户的直接参与。 3 4 3 算法的改进 总体来说,协同过滤是电子商务推荐技术中比较优秀的算法,针对它存在的种种问 题,学者们给出了许多解决方案,围绕这些方案学术界也形成了一个个的研究热点。其 中将数据挖掘、统计学理论和机器学习技术引入协同过滤中f 3 ”5 1 ,是学者们的共识。下 面简要介绍一些重要的改进方法。 “ l 、数据的多样化 , 采用数据挖掘特别是w e b 挖掘和高维数据分析技术得到更加详细的用户信息, 丰富用户描述。通过w e b 挖掘减少用户的参与,隐式得到用户信息,提高了自动化的 程度,使用户感受到完全个性化的体验。高维数据分析技术可以突破协同过滤技术中的 基于用户一项目矩阵推荐的模式,通过引入更多的“维”来使算法能够充分使用有限用 户的信息。 2 、使用聚类技术对算法改进 为了提高算法在线实施推荐的响应速度和离线建立模型的时间,有学者提出使用聚 类技术来降低算法必须处理的数据量,加快建模和在线推荐的速度。 3 、默认评分技术 这是一种比较常用的减少用户一项目矩阵稀疏性的方法【8 i ,主要有用户平均模式、 项目平均模式、混合模式和软件代理模式等方法。 用户平均模式就是使用该用户对已评价项目的平均评价值来代替那些没有评价的 项目评分。 项目平均模式对未评分项目的处理方法是采用所有评价过该项目的用户的平均评 价值作为该项目的评分 混合模式是前两种方式的结合,方法是先采用某一种技术算出的评分为基础,再在 此基础上用另一种技术对评分给予修正 文献 3 6 1 提出了一种f i l t e r b o t s 系统,它属于一种代理模式,能够使用软件代理模 拟推荐系统的用户而自动生成评分。 广西大学硕士学位论文 基于人工免疫网络

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论