下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 37 卷第 4 期2005 年 12 月东 北 师 大 学 报 自 然 科 学 版J OU RNAL O F NOR T HEAS T NORMAL U N IV ERSI T YVol . 37 No . 4December 2005 文章编号 1000 21832 (2005) 0420038205电子政务系统引入“主题智能公文包”服务的研究张真继1 ,刘红璐2 ,孙洁1(11 北京交通大学经济管理学院 ,北京 100044 ;21 北京交通大学运输学院 ,北京 100044) 摘要 利用数理统计 、知识推理原理 ,采用智能代理 、信息推送等技术 ,提出在系统内建立利于用户自身习惯的方
2、便快捷的信息定制服务 (即主题智能公文包) 功能模型 . 通过该模型 ,用 户可以获得即时 、主动 、个性化的信息服务 ,并且能够便捷地获取所需信息. 关键词 个性化定制服务 ;搜索引擎 ;智能代理 ;推送技术 中图分类号 TP 315 ; TP 301 . 6 学科代码 520·40 文献标识码 A0引言任何一个电子政务系统一般都包含“前台系统”和“后台系统”. 前台系统一般服务于公众 ,后台系统则一般服务于公务员 .“后台系统”数据支持“前台系统”信息的自动更新. 每个“前台系统”的会员制用户 及“后台系统”的公务员用户在使用该电子政务系统的信息资源时 ,一般都具有自己的使用方法
3、及使用 信息的不同频率等特点 .面对庞大无序的政务信息 ,如何获取和利用用户所需的有效信息就成了一个大问题 . 普通的搜索引 擎不足以满足政务信息量和信息复杂度的几何级增长 ,其局限性概括起来有以下几点 :(1)“大海捞针”式的搜索效率极低 ,信息的查准率不高.(2) 这种信息查找方式不足以满足电子政务系统用户个性化的要求 ,智能化程度不高.(3) 数据风暴问题加剧了网络拥塞. 甚至一旦具有某种信息资源的计算机同时受到多台计算机的访 问 ,有可能造成主机的崩溃 、瘫痪 .因此 ,在电子政务系统内建立利于用户自身习惯的方便快捷的个性化信息定制服务成为迫切之需 .电子政务系统引入个性化信息定制服务
4、主要基于两个目的 :一是为了提高电子政务系统将原始资 源转化为知识的能力 ;二是便于用户方便快捷地获得所需信息资源 . 该服务模式应为用户提供这样一种 服务 ,它能充分了解用户需求 ,可以提供即时 、个性化 、主动的信息服务 ;同时 ,在用户端提供主题化的信 息界面 ,例如包含所有用户感兴趣的信息公文包形式 ,使用户便捷地获得所需资源.个性化信息定制服务模式1作为一种提供公共服务的信息系统 ,电子政务急需解决的一个问题是如何缓解海量的政务信息和用户的信息驾驭能力之间强烈的反差所引起的矛盾. 一方面 ,用户通常不知道如何贴切地表达自己的信 收稿日期 基金项目 作者简介 2005204201铁道部
5、科技基金资助项目 ( 2002 X040) .张真继 ( 1961 - ) ,男 ,博士 ,副教授 ,主要从事信息化理论与实践研究.假设在电子政务系统中加入这样一个模块 ,可称之为基于个性化信息定制服务的主题智能公文包.该模块能自动记录每个用户的个性特征并根据这些特征建立用户知识库 ,具有良好的自适应性 、学习性 和可定制性 ,在传统信息检索的基础上进行用户知识匹配 ,根据用户特征对检索到的信息进行过滤 ,并将有用信息及时推送给用户 ,使用户能准确 、直接 、有效地获得自己真正所需要的信息 .主题智能公文包是融合了个性化信息定制技术与电子政务理念的产物 ,它是电子政务信息服务形 式的变革 ,是
6、个性化信息定制技术的外延 ,为用户提供了便于操作 、主题化的信息界面 . 其服务模式如图1 所示1 .在用户桌面 , 经过主题智能公文包模 块 处 理 的 个性化信息存放在主题文件夹中 ,当有更新信息时 , 系统将会以图标等形式提醒用户 , 用户只需在主题 智能公文包中查阅新的信息. 系统将自动对信息进 行过滤和筛选 , 将搜索到的相关信息根据用户知识库中具体用户的需求进行选择 , 若匹配则放入本地 信息库 ,客户端只需要从本地信息库中调用该用户 所需的信息即可. 为了节省空间 ,还应该在客户端嵌 入某种算法 , 定期更新已搜集过的旧信息或者用户 长时间不访问的文件 . 根据堆栈理论 ,一般应
7、遵循先进先出的原则 ,根据预先设置好的时间 ,比如一个星期 、一个月自动删除文件夹中的信息 ; 或者由用户自己按照重要程度设定优先级进行更新 . 主题智能公文包是电子政务个性化服务模式的核心 ,主要通过用 户兴趣模型的建立实现系统的主要功能.图 1 主题智能公文包服务模式主题智能公文包的算法实现2用户兴趣是个性化服务的基础. 为了更好地了解用户需求 ,在主题智能公文包服务中 ,应该找到一种比关键字更能贴切地描述用户兴趣的特征量 . 这种特征量的获得需要跟踪并分析用户日常行为 ,通过 机器学习用户兴趣. 为了让机器可以识别用户的行为 ,首先要把用户浏览的各种文本转化成机器可以识别的逻辑结构 ,然
8、后对转换后的文本进行分析 ,提取用户兴趣向量 ,得出用户兴趣模型. 主题智能公文包 服务的另一个特点是主动性 ,这集中体现在信息推送服务上 . 通过监视页面的更新 ,将更新信息通过邮 件或频道的方式推送到用户桌面 ,省去了用户浏览所需花费的时间 . 最后 ,根据用户兴趣 ,去掉用户不感 兴趣的信息 ,存入主题智能公文包 . 其功能模块划分为如下三种.211 用户兴趣学习功能模块用户兴趣建模方法很多 ,包括向量空间模型 , Navie Bayes ,神经网络 ,遗传算法等. 本文采用了向量 空间模型2 .40东 北 师 大 学 报 自 然 科 学 版第 37 卷档 , f c 表示示例文档类型
9、, f d (Doc) 表示示例文档 Doc 经过一定的文档映射可以转换为 Text 类型文档 ,则有 :H ESet ( U ) = Doc| f c (Doc) Doc Type , f d (Doc) = Text ,Doc Type = U RL , H TML , T EX T , KE YWO RD ,WO RD , PS , PD F ,W PS , .另设转换后的示例集为 E TSet ,则有E TSet ( U ) = Txt | Doc H ESet , f d (Doc) = Text = T 1 , T 2 , T m .(1)对于每个示例文本 ,首先经过版面整理和文本
10、物理结构分析 ,确定文本的各个组成单元 ,主要是段落 、标题 、文本日期等 ,然后去掉禁用词和感叹词 、介词 、连词等对理解用户兴趣作用很小的词汇 ,用如下 结构表示该文本集的逻辑结构 :T = T No , Title ,Aut ho rs , Text ,date ,Doc Type ,L engt h ,U RL ,Text = P1 , P2 , P s ,Pi = PNo , P Ti , Po sitio n ,L engt h , T No ,P Ti = ter m i1 ,ter m i2 , . . . ,ter m i n , ter m ij = t ij ,At t
11、r , Po sitio n , T No ,f t ( ter m i j ) lo g2 ( 1 + f v ( ter m ij ) ) lt i j = f w ( ter m ij ) =(2).m( f t ( ter m ij ) lo g2 ( 1 + f v ( ter m i j ) ) l ) 2j = 1其中 , T 表示示例文本 , T No 表示文本序号 ,Aut ho r 表示作者 , Text 表示文本正文 ,L engt h 表示长度 , Pi表示段落序号 , P Ti 表示段落的特征向量 , Po sitio n 表示所在位置 , 如段首 、标题 、摘要等
12、, ter m i j 表示特征 项 , At t r 为属性 , t ij 为权重值 , f w ( ter m i j ) 为权重函数 , f t ( ter m ij ) 表示 ter m ij 在文本内的频数 ; f v ( ter m ij ) 为 ter m i j 的段落频率 , l 表示特征项 ter m ij 的词长. 计算出的权重值 t i j 组成了段落的特征向量 . 根据段落 特征向量 , 我们下一步将进行段落聚类分析 .( 2) 段落聚类分析得到了段落特征向量 , 就可以利用段落间的相似度把段落分成若干个意义近似的类别 , 假定给定类 别数为 K , 段落集为 P n
13、 则相似度为mt ik t j k k = 1 Sim ( Pi , Pj ) =.( 3)m mt 2 t 2ik j kk = 1k = 1然后根据相似度进行段落聚类 , 段落聚类的算法如图 2 所示 :图 2 段落聚类算法流程将示例文本分为若干类之后 , 就可以通过计算各个类别的表达能力 . 各个示例文本中公共词汇表明了词汇水平上的用户兴趣 , 利用特征项在示例文本中的分布情况来衡量特征项对于用户兴趣的表达能 力 . 一个段落或者一个类别中包含这样的特征项越多 , 可以认为对用户兴趣的表达能力越强 .于用户定义的 关 键 字 集 合 时 , = 1 ; 当 位 于 副 标 题 或 者 摘
14、 要 段 以 及 H TML 文 档 的 标 记 区 域 内 , 如H TML 的标题 、头部等其他表示主页内容的标记内所含的特征项 ,= 0 . 5 .类别表达能力f calss ( C) = 1f para ( P) , 其中 T 是类别中包含的段落数 .T P C最后 , 按照表达能力的高低进行排列 , 得到类别序列 C1 , C2 , C K , 取前 S 个表达能力最强的类S, S ) , 则用户兴趣的特征向量为 Q = i Ci , 其中 i = f class ( Ci ) /别 , 设其为段落特征向量 Ci ( i = 1 , 2 ,Si = 1f class ( Cj ) 3
15、 .j = 1212用户兴趣判断功能模块假设文本流为 St ream , 文本 T St ream , f c ( T ) Doc Type , f d ( T ) = Text , 则经过版面处理 , 获得文本的特征向量 T = ( P1 , P2 , , Ps ) , Pi ( 1 i S ) 表示段落特征向量 , Pi = ( t i1 , t i2 , t i n , ) . 文本 T 与用户兴趣向量的 Q = ( q1 , q2 , qn ) 的匹配度为nt i k qkSim ( T , Q) = 1 (Sk = 1) .( 4)S i = 1n nt 2 q2i kkk = 1
16、k = 1通常 , 指定类别 K , 段落相似度 Sim ( P i , Pj ) 和文本与用户兴趣向量的相似度 Sim ( T , Q ) 是初次运行系统时由系统管理员制定的 . 因此 , 用户兴趣模型还应根据用户反馈来进行修改 , 以取得更好的效果.213 用户兴趣更新与维护模块一般地 , 用户兴趣模型不需要用户手动更新 , 如果必要也可由用户手工修改. 正如我们所知 , 一个人 的兴趣有时是随着时间 、工作性质等外部环境的变化而改变的 . 一个适应性良好的智能模块还应该能跟踪用户的这种状态的改变 , 来相应地更新用户模型 . 当用户对某一特征项表现出感兴趣时 , 它的权重就 增加 ; 当
17、用户对原来的特征项长期没有访问 , 则降低它的权值. 同时用户兴趣模型中所有的权值都会随 着时间的过去而下降 , 这样就保证了用户兴趣模型的时间可靠性 . 在下列情况下 , 用户兴趣特征向量都 可能发生改变 4 :用户点击一个链接 , 浏览一个文档 ;用户向系统反馈一个评价 ;用户的信息经过外部系统得出 ;用户的爱好被重新设置或描述 ;用户的爱好自动地由用户的行为推导出来.用户的兴趣向量最终是通过向量空间模型来表示的. 如果现在得到一个新的当前兴趣向量 Q1 , 可 以借鉴下面的公式来计算用户兴趣变化后的兴趣向量 5 :Q = Q0 + Q1 + ( 1 - ) Q 0 Q 1 ,0 ,0 .
18、( 5)其中 : Q 0 是原始的兴趣向量 ; Q 1 是后来提取的兴趣向量 ; Q 0 Q 1 表示在 Q 0 中去掉在 Q 1 中出现的42东 北 师 大 学 报 自 然 科 学 版第 37 卷当 = 0 时 , 意味着抛弃原来的兴趣向量 , 当 = 0 时 , 则意味着当前的兴趣向量不起作用 . 一般情况下 , 我们认为后来提取的新兴趣向量更能代表用户当前的兴趣 , 所以 比往往要大 , 即 . 例如 可以取 = 0 . 4 ,= 0 . 6 .在用户兴趣模型的更新中 , 不但要充分考虑用户的长期个性化向量 , 而且也要考虑用户的当前兴趣 向量 , 综合两者来取舍其特征项及计算特征项的权
19、重 .结束语3主题智能公文包是结合了搜索引擎技术 、智能代理技术 、个性化技术和信息推送技术的自动信息检索机制 , 它满足了个性化定制服务的需要 , 在电子政务系统中具有巨大的发展潜力和现实意义 . 本文只 给出了一个系统框架设计 , 关键在于如何具体实现 . 特别是在用户知识库的建立 、使用 、机器学习 、相关 度分析等方面都是下一步的研究重点 . 此模型的算法也可以推广应用到其他信息系统的定制服务研究 中去. 在知识经济时代 , 人们越来越需要个性化服务的提供 , 因而“主题智能公文包”信息定制服务的功能将受到广大用户的青睐 , 相信它的发展前景是非常广阔的 . 参考文献 1234林鸿飞
20、,杜之生. 用户兴趣模型的表示和更新机制J . 计算机研究与发展 ,2002 ,39 ( 7) :843 - 847 .李晓丽 ,杜振龙 ,李明 ,等. 基于 Bayes 概率的用户兴趣发现J . 计算机工程与科学 ,2003 ,25 ( 5) :17 - 20 .孙铁利 ,邓安生. 智能用户接口 Agent 的用户模型与系统构建方法J . 东北师大学报 ( 自然科学版) ,2000 ,30 ( 3) :115 - 119 . Bernick , Philip . Habitabilit y in search engine interfaces :characteristics identi
21、fied t hro ugh fo r mative evaluatio n D . New Mexico State U niversit y. 2003 .Zhang Zhen - ji , Sun jie . Research and realizatio n o n a custo mized service of E - government systemA . Proceedin gs of 2004 Interna2tio nal co nference o n management science & engineeringC , Harbin : Press of Harbin Institate of Technolo gy ,2004 . 235 - 241 .5Study on themat ic an d intell igent portf ol ioservice in E - govern ment systemZHAN G Zhen2ji1 ,L IU Ho ng2lu2 ,SU N J ie1( 1 . School of Eco no mics and Management ,Beijing J iaoto ng U niversit y ,Beijing 100044 ,China ;2 . S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车改装技术 课件 9.2加装360度全景影像认知
- 二零二四年多辆汽车租赁合同中的国际争端解决机制2篇
- 迎新欢乐活动主题班会
- 认知行为心理治疗
- 2024高三教师个人工作总结
- 监理项目安全培训
- 现场应急急救讲解
- 神经外科疼痛治疗
- 夏季高温安全生产培训
- 2024年乡村振兴工作总结
- 《如何撰写人物通讯》课件
- 《肩关节MR解剖》课件
- 城市轨道交通乘客行为分析
- 外墙高空清洁安全施工方案
- 《价格变化原因》课件
- 仓库发料存在问题点及改善对策培训课件
- 2023年全国医学博士外语统一考试(英语)
- Google人力资源管理案例分析
- 乐器购买合同
- DB21-T 3505-2021 中国蛤蜊增养殖技术规范
- 中国移动渠道资源整合
评论
0/150
提交评论