


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一种依据搜索用户的搜索和浏览行为发现具体关键字的关联关键字并确定相互间从属关系 的方法,以便更加精准地建立关键字之间的关联关系。本方法是基于一种强关联假设实现的,即如果用户(同一用户或不同用户)向搜索引擎 提交关键字A和关键字B,通过分别搜索并浏览了同一条知识信息,则说明关键字A和关 键字B存在某种程度的关联。本方法的另一种假设为,用户(同一用户或不同用户)向搜 索引擎提交关键字A和关键字B,通过分别搜索并浏览了同一条知识信息,如果通过关键 字A搜索并浏览该知识信息的次数明显大于通过关键字B搜索并浏览该知识信息的次数,则 说明关键字B在概念上从属于关键字A。搜索引擎关键字关联的发现和生成方法依
2、靠“互联网具体知识信息关键字匹配生成”和“具体 搜索关键字关联生成”这两个步骤来实现。具体分别说明如下:“互联网具体知识信息关键字匹配生成”步骤:1)搜索用户登录搜索引擎,输入具体关键字A;2)搜索引擎在其知识信息数据库中查找具体关键字A,给出相应搜索结果的核心内容并根 据设定的规则对搜索结果排序,最后整合生成结果页面;3)搜索用户在搜索结果页面上选择具体知识信息浏览后退出;4)搜索引擎在该具体知识信息已经匹配生成的关键字库中查找具体关键字A并按下列步骤 对该具体知识信息进行关键字匹配和生成:a)如果找到,则增加关键字A的关联指数;b)如果没有查找到,判断该具体知识信息已经匹配生成关键字库的关
3、键字数量是否已经达 到程序设定的最大数量;如果已经达到,则根据各关键字的排序按程序删除该具体知识信息 已经匹配生成关键字库中排序最后的关键字,然后将具体关键字A设置为新的关键字并设 定关键字A的初始关联指数;如果没有达到,则按程序将具体关键字A直接设置为该具体 知识信息新的关键字并设定关键字A的初始关联指数。其中,关键字关联指数的增加量和关键字初始关联指数均按照下列公式计算:关键字关联指数的增加量或关键字初始关联指数= T/(Ti/S)其中,T表示此次搜索用户浏览该具体知识信息所花费时间;S表示此次浏览行为之前所有 搜索用户浏览该具体知识信息的次数;Ti表示此次浏览行为之前搜索用户第i次浏览该
4、具体 知识信息所花费时间。另外,在本步骤中,所有匹配生成关键字库中每个关键字的关联指数以24小时为周期按衰 减因子1/365进行减小。即,假如某个具体知识信息匹配生成关键字库中关键字A现在的关 联指数为365,如果在24小时内该具体知识信息没有因为搜索用户提交关键字A而被搜索 并浏览,则该具体知识信息匹配生成关键字库中关键字A的关联指数将在24小时后由365 减少至364。需要特别指出的是,某个具体知识信息匹配生成关键字库中关键字A的关联指 数的衰减不受该具体知识信息在24小时内有没有因为搜索用户提交关键字A而被搜索并浏 览的影响,均以24小时为周期按衰减因子1/365进行减小。最后,在本步骤
5、中,具体知识信息匹配生成关键字库中的关键字按每个关键字的关联指数由 大到小排序;如果关联指数相同,则随机排序。“具体搜索关键字关联生成”步骤:1)搜索用户登录搜索引擎,输入具体关键字B;2)搜索引擎在其知识信息数据库中的知识信息匹配生成关键字库中查找具体关键字B;3)如果在某个具体知识信息匹配生成关键字库中查找到具体关键字B,则将该匹配生成关 键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具体关键字B关 联搜索结果;4)针对具体关键字B关联搜索结果中的每一个不同于具体关键字B的关键字C,搜索引擎 在具体关键字B关联搜索结果中按下列方式进行具体关键字B与关键字C关联的生成:a)
6、如果在具体关键字B关联搜索结果中的某个匹配生成关键字库中查找到关键字C,则将 该匹配生成关键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具 体关键字B与关键字C关联搜索结果;b)根据具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B 的关联指数和关键字C的关联指数,按程序计算该匹配生成关键字库中具体关键字B与关 键字C关联基数和关联系数;c)根据具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B 与关键字C关联基数和关联系数,搜索引擎按程序计算具体关键字B的综合关联指数和关 键字C的综合关联指数;d)搜索引擎根据具体关键字B的综合关
7、联指数和关键字C的综合关联指数按照程序计算具 体关键字B与关键字C综合关联基数和综合关联系数;5)根据具体关键字B与关键字C综合关联基数和综合关联系数,搜索引擎按照排序规则对 每一个关键字C排序,即,先按综合关联系数由大到小排序,如果综合关联系数相同,则 按综合关联基数由大到小排序。在本步骤中,依据具体关键字B与关键字C关联搜索结果,具体关键字B与关键字C综合 关联基数和综合关联系数按照下列步骤计算:1)计算具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B 和关键字C关联系数,公式如下:Gi=Ci/Bi其中,Gi代表具体关键字B与关键字C关联搜索结果中第i个匹配生成关键
8、字库中具体关 键字B和关键字C关联系数;Bi代表具体关键字B与关键字C关联搜索结果中第i个匹配 生成关键字库中具体关键字B的关联指数;Ci代表具体关键字B与关键字C关联搜索结果 中第i个匹配生成关键字库中关键字C的关联指数;2)设置关联系数阀值1和关联系数阀值2,如果具体关键字B与关键字C关联系数大于关 联系数阀值1或者小于关联系数阀值2,则对该匹配生成关键字库不予考虑3)计算通过关联系数阀值过滤后的具体关键字B与关键字C关联搜索结果中Gi 1的匹配 生成关键字库的数量S1和具体关键字B与关键字C关联搜索结果中Gi 1的匹配生成 关键字库进行下一个步骤的计算;如果S2/(S1+S2)大于a,则使用具体关键字B与关键字C关联搜索结果中Gi1.2,则定义具体关键字B在概念上从属于关键字C;如果G0.8, 则定义关键字C在概念上从属于具体关键字B;如果0.8MGM1.2,则定义具体关键字B与 关键字C在概念上属于无从属的关联关系。另外,在本步骤中,筛选系数a可以由用户在其数值范围内调节。如果用户不希望对匹配生 成关键字库通过筛选系数a进行筛选,则可以将筛选系数a调节为数值1。借助于本方法描述的步骤,当搜索用户提交具体关键字查询时,搜索引擎可以依据实时的计 算将关联程度较高的其它关键字提供
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育行业劳动合同范文
- 合作发展合同-股本借款标准范本
- 租赁合同纠纷调解协议书范本
- 10-1《兰亭集序》教学设计 2023-2024学年统编版高中语文选择性必修下册
- 10 吃饭有讲究 教学设计-2024-2025学年道德与法治一年级上册统编版
- 长期借款合同参考模板
- 贷款合同范本:全新标准版
- 环保治理工程承包合同范文
- 生产订购合同范本
- 餐饮直营协议合同范本
- (正式版)CB∕T 4550-2024 船舶行业企业安全设备设施管理规定
- 新入职员工廉政谈话
- JB∕T 9006-2013 起重机 卷筒标准规范
- 2024内蒙古中考数学二轮专题复习 二次函数与几何综合题 类型二 面积问题(课件)
- 太平洋保险计划书模板
- 2024年广东省中考生物+地理试卷(含答案)
- 2024年高考时事政治考试题库(134题)
- 有关煤矿生产新技术、新工艺、新设备和新材料及其安全技术要求课件
- DZ∕T 0201-2020 矿产地质勘查规范 钨、锡、汞、锑(正式版)
- 安全生产责任制考试试卷及答案
- 产科临床诊疗指南
评论
0/150
提交评论