




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于内容过滤的个性化农业信息推荐模型研究 张启宇,郭承坤,宋瑶,陈英义,王磊 (中国农业大学烟台研究院,山东烟台;中国农业大学信息与电气工程学院,北京; 山东省农业科学院科技信息研究所,济南) 摘要:针对农业信息化综合服务平台信息过载问题,构建了个性化农业信息推荐模型,重点研究了用户类别兴趣向量、用户特征词喜好向量和文档特征向量,建立了农业专业词典和中英文停用词典;采用遗忘函数按时间对特征词的权重进行更新,并对用户类别兴趣进行更新,实现用户模型的更新;采用余弦相似度进行推荐度计算,提出了个性化服务推荐算法;通过对推荐信息的参数统计获知推荐效果,进一步对个性化推荐模型进行修正。结果表明,该模型可根据用户兴趣制定推荐,为用户提供有价值的信息,满足用户个性化需求。 关键词:内容过滤;个性化服务;农业信息;信息推荐 :;:A:0439114(15)164052-05 DOI:10.14088/j.ki.issn0439-8114.xx.16.057 : 基金项目:山东省自主创新专项() 作者简介:张启宇(),男,山东荣成人,讲师,硕士,主要从事农业信息化技术研究,(电话)(电子信箱); 通信作者,王磊(),男,主要从事农业信息化技术研究,(电子信箱)。 随着互联网和农业信息化的迅速发展,农业网站建设进入了快速发展期。大量的农业技术、供求信息、市场信息、政策法规和农业新闻等信息资源分布在农业网站中,然而由于互联网信息资源具有信息异质、异构、分散、重复现象严重的特点,缺少统一的形式化表达,形成各种各样的“信息孤岛”,很难对农业信息资源进行整合和利用。对农民而言,不会使用搜索引擎,不知道使用什么关键词进行搜索。为此,打造了农业信息化综合服务平台,农业信息化综合服务平台包括农业服务信息搜索引擎系统(针对涉农科技信息、市场行情、市场供求等信息进行定时、定向地自动获取、清洗和分类)、信息展示系统(搜索引擎获取的信息分类显示)、农业专家系统、农业论坛系统(用户提出各种农业问题,由农业专家或其他用户回答,支持短信智能问答)、个性化服务系统(根据用户的兴趣爱好进行信息主动推荐)等。随着信息的不断增长,用户很容易被淹没在信息海洋当中,因此个性化服务系统是农业信息化综合服务平台的重要组成部分,可以提取及分析用户个性信息,根据用户兴趣制定推荐,为用户提供有价值的信息,满足用户个性化需求。 个性化服务系统根据其所采用的推荐技术可分为基于规则的系统和信息过滤系统。信息过滤系统又可分为基于内容过滤的系统和协作过滤系统。目前对于基于内容过滤的个性化服务推荐模型的研究主要在搜索引擎、数字图书馆、虚拟研究环境、博物馆等领域,对农业领域的研究很少。本研究对基于内容过滤的个性化服务推荐模型进行了研究,提出了适合农业信息化综合服务平台的可更新的个性化服务推荐模型。 用户兴趣模型 用户兴趣的获取 个性化服务推荐模型建立的第一步是建立用户兴趣模型。建立用户兴趣模型首先要获取用户兴趣,用户模型中兴趣的获取主要有用户显式反馈和用户隐式反馈两种。用户显式反馈是指用户回答系统提出的问题,直接参与建模过程,一般通过填表的方式来完成,其优点是获取的信息比较具体、全面、客观,可靠性较高,缺点是灵活性差,浪费用户的时间;用户隐式反馈是指系统在观察用户行为的基础上通过推理来获取用户兴趣知识,可以减少用户不必要的负担。 根据农业信息化综合服务平台的特点,用户兴趣获取的信息包括用户注册时的兴趣爱好、浏览的信息页面、信息查询的关键词、论坛中发布及回复的帖子、短信提问的问题。 用户兴趣模型的表示 杨艳等提出的将兴趣粒度表示法和向量空间模型表示法结合起来的显隐式结合用户模型,在用户兴趣爱好固定的情况下取得了比较好的效果。但用户的兴趣爱好不是一成不变的,本研究借鉴了该模型的思想,根据农业信息化综合服务平台的特点,构造可更新用户兴趣类别的用户兴趣模型。 用户兴趣模型的实现 目前,在信息处理方向上,文本的表示主要采用向量空间模型。用空间向量模型表示文本,首先要对文本进行分词,进行特征选择和权重计算,最后形成一个维空间向量。 特征词权重的计算 权重的计算有多种方法,主要有布尔函数、频度函数、开根号函数、对数函数、熵函数及*函数等,*函数因其算法相对简单、有较高的准确率和召回率,一直受到相关研究人员和众多应用领域的青睐。在年提出的*启发式权重算法计算公式为: (,)(,)()()()() 其中,(,)是特征词在文本中的权重,()是出现特征词的文本数,是总文本数,()是文本中出现的次数。 施聪莺等对“考虑类间类内差异的*”、“*”、“引入方差的*”及“*频率”算法进行测试,“引入方差的*”无论是在开放测试还是在封闭测试中,测试值都非常高,反映了方差在抑制干扰方面的作用。本研究采用陈克利等提出的“引入方差的*”权重算法进行计算。 特征词在类别中的权重计算公式: 心理学研究认为,人的记忆会随着时间的延续而逐渐遗忘,当环境或场合的改变使得记忆中的某些信息长期不被利用时,这些信息会逐渐被遗忘。根据心理学的记忆遗忘理论,可以认为用户兴趣的改变就是一种记忆遗忘现象。目前对遗忘机制的研究是把时间对兴趣的影响通过遗忘函数或遗忘因子来表示出来,并更新用户的兴趣。遗忘函数或遗忘因子有着不同的公式表示,有指数函数、线性函数、菲波拉契数列、幂函数、对数函数、分段函数、非线性函数等。于洪等用工具对艾宾浩斯遗忘曲线进行拟合,得到符合遗忘曲线的数学函数: 百度百科的“遗忘曲线”词条给出了艾宾浩斯记忆遗忘一般规律,得出初次记忆后经过了小时,记忆率近似地满足: 对公式()()进行运算,公式()最符合艾宾浩斯遗忘曲线,但公式()缺少以后的表示。以后的记忆趋于稳定,所以把以后设置为固定值,修改后的公式为公式(): 其中,为正整数。 采用公式()对特征词在类别和文档中的权重进行动态更新。特征词的权重按照公式()和()进行特征词加权修订后和公式()之乘积进行计算。文档中的权重也要计算,因为文档越新,对用户的价值越大,公式()对类别和文档进行计算时,可以取不同的值。 特征向量的构造 特征向量的构造过程如下: )分析服务器日志,去掉与日志无关的信息,如请求失败信息、页面图片请求等等,把用户有效的访问信息保存到数据库中。 )获取用户浏览的新闻资讯页面、论坛中发布及回复的帖子、便民服务的关键词、短信提问的问题,进行中文分词,去除停用词。对于中文分词采用。是一个开源的、基于语言开发的轻量级中文分词工具包。在版本中,支持通过配置文件来扩充专有词典和停止词典,词典的格式为无的编码的中文文本文件。农业专业词典可以借助网络上的词库构建,搜狗输入法、百度输入法、输入法等输入法提供了众多的词库供用户下载使用。从“农林牧渔”类挑选词库,农业专业词典。停止词典在文献和的基础上构建。 )对每一个类别计算特征词在类别和文档中的权重,构造用户特征词喜好向量和文档特征向量。=(w1k,w2k,,wnk),为用户感兴趣的类别个数,为类别中特征词的个数;=(w1h,w2h,,wsh),为该类别下的文档个数,为文档中特征词的个数。 特征向量的构造如图所示。 用户类别喜好向量的更新 ,得到新的类别喜好权重。 相似度的计算 用户特征词喜好和文档特征表示采用向量方式,因此可以把资源对用户的推荐度计算转换为向量间的余弦相似度的计算。由于余弦相似度的计算要求两个向量维数相同,因此向量Tk和要进行维数的统一,即存在于Tk而不存在于的特征词补充到中,其权重为;存在于而不存在于Tk的特征词补充到Tk中,其权重为。即Tk=(w1k,w2k,wSk),=(w1h,w2h,,wSh),为维数统一后的特征词个数,满足(,)。余弦相似度计算公式为: 个性化服务推荐算法及反馈 个性化服务推荐算法 个性化服务推荐算法流程图如图所示。 反馈 为了判断用户是否浏览推荐的信息,对推荐信息的添加一个参数,设置为用户注册的用户名。当用户点击推荐的信息,服务器会进行统计。通过统计信息,可以获知每一次推荐的效果。 小结 对基于内容过滤的个性化服务模型进行了研究,针对农业信息化综合服务平台的目的与意义,提出了农业信息个性化推荐模型,采用用户显式反馈和用户隐式反馈两种方法相结合获得用户兴趣。利用特征词权重和构造特征向量将文本分词,为了让个性化推荐更准确,采用遗忘函数按时间对特征词的权重进行更新,并对用户类别兴趣进行更新。通过对推荐信息的参数统计获知推荐效果,进一步对个性化推荐模型进行修正,为用户提供更好的个性化服务。但这个反馈需要对大量统计数据进行挖掘分析,是一项长期的工作。 参考文献: 胡宜敏农业垂直搜索引擎语义化若干问题的研究与实现合肥:中国科学技术大学, 潘拓宇,朱珍民一种改进的基于协同过滤的个性化推荐算法微计算机信息(管控一体化),():, 李宁,王子磊,吴刚,等个性化影片推荐系统中用户模型研究计算机应用与软件,(): 曾春,邢春晓,周立柱个性化服务技术综述软件学报,(): 杨艳,邱艳丽新的基于日志分析的用户个性化模型计算机科学与探索,(): 余侠,朱林根据用户反馈建立和更新数字图书馆用户兴趣模型情报杂志,(): 张帆,杨炳儒基于文本过滤的数字图书馆个性化服务技术计算机工程与应用,(): 赵银春,付关友,朱征宇基于浏览内容和行为相结合的用户兴趣挖掘计算机工程,():, 李永,徐德智,张勇,等中基于内容过滤的论文推荐算法计算机应用研究,():, 周珊丹,周兴社,王海鹏,等智能博物馆环境下的个性化推荐算法计算机工程与应用,(): 赵丰年,刘林,商建云基于概念的文本过滤模型计算机工程与应用,(): 施聪莺,徐朝军,杨晓江算法研究综述计算机应用,():, 陈克利,宗成庆,王霞基于大规模真实文本的平衡语料分析与文本分类方法孙茂松,陈群秀语言计算与基于内容的文本处理全国第七届计算语言学联合学术会议论文集北京:清华大学出版社, 刘华,张普面向词典编纂的词汇聚类研究年辞书与数字化研讨会论文集上海:上海辞书出版社, 颜端武面向知识服务的智能推荐系统研究南京:南京理工大学, 蒋萍,崔志明智能搜索引擎中用户兴趣模型分析与研究微电子学与计算机,(): ,cfabtpp:isiitsi:, 张红卫基于科技文献的时序主题链构建方法研究辽宁大连:大连理工大学, 邓娟,陈西曲基于用户兴趣变化的协同过滤推荐算法武汉工业学院学报,(): 邓攀,钟将基于推荐的抗攻击电子商务信任模型计算机应用,():, 李克潮,梁正友适应用户兴趣变化的指数遗忘协同过滤算法计算机工程与应用,():. 石晶,龚震宇,裘杭萍,等基于用户兴趣模型的智能信息检索系统技术与实现情报学报,(): 宋丽哲,牛振东,余正涛,等一种基于混合模型的用户兴趣漂移方法计算机工程,():, 李宁,王子磊,吴刚,等个性化影片推荐系统中用户模型研究计算机应用与软件,(): 邢春晓,高凤荣,战思南,等适应用户兴趣变化的协同过滤推荐算法计算机研究与发展,(): 郑充林协同过滤的服装推荐算法的改进研究上海:东华大学, 张守志,许彦一个个性化服务系统的设计与实现小型微型计算机系统,(): 于洪,李转运基于遗忘曲线的协同过滤推荐算法南京大学学报(自然科学),(): 朱祎,和莉,王小军基于关联反馈技术的用户兴趣模型的建立与自适应更新金陵科技学院学报,(): 南智敏基于网页兴趣度的用户兴趣模型体系研究上海:复旦大学, 申倩倩基于本体和情境感知的信息个性化服务关键技术研究西安:西安工程大学, 李志浩,聂文汇,成鹏,等基于分页缓存模型的用户兴趣跟踪方法计算机工程与科学,(): 郑先荣,汤泽滢,曹
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- it项目采购合同样本
- 中英投资合同样本
- 买卖标准合同样本
- 共用线路三方协议合同标准文本
- 个人租赁土地合同样本
- 代购柴油合同标准文本
- 住房代理销售合同样本
- 中石油用工合同样本
- 个人坟墓购买合同样本
- 住房公积金购房合同样本
- 湖北省十一校2024-2025学年高三第二次联考数学试卷(解析版)
- 《手工制作》课件-幼儿园挂饰
- 人武专干考试题型及答案
- 2025届高三化学二轮复习 化学反应原理综合 课件
- 2025年北京五湖四海人力资源有限公司招聘笔试参考题库含答案解析
- 常见的酸和碱第2课时酸的化学性质 2024-2025学年九年级化学人教版(2024)下册
- 欢乐购物街-认识人民币(说课稿)-2024-2025学年人教版数学一年级下册
- 2025年中国南方航空股份有限公司招聘笔试参考题库含答案解析
- 疫苗与接种管理制度
- 电子商务案例分析知到智慧树章节测试课后答案2024年秋西安邮电大学
- 《通信用开关电源的元器件降额准则-》
评论
0/150
提交评论