




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、面向中等职业教育的垂直搜索引擎的分析与研究面向中等职业教育的垂直搜索引擎的分析与研究1绪论1.1概述目前我们的社会已经进入高度信息化时代,人们对获取信息的方式发生了根本性的变化,我们学习的途径不再局限于课堂和书籍,而是越来越多地通过互联网来找到我们所需要的信息。那么为了可以更快更好地获取互联网上的资源,那么搜索引擎技术就应运而生了,搜索引擎雅虎、百度、Ggle可以使人们快速地搜索网络上我们需要的相关信息。但是,获得的信息也是非常庞大和分散的,而且其中包含了许多与我们查询主题无关的内容,需要浪费用户大量的时间和精力来加以区别。垂直搜索引擎技术的产生就是为理解决通用搜索引擎专业性不够、集中度不高的
2、问题,大大地进步了搜索的速度和准确度。而随着我国执行大力开展中等职业教育的政策,教育资源缺乏严重地制约着中等职业教育质量的进步1。目前面向普通教育资源的垂直搜索引擎开展的也很迅速,但是对于专门面向中等职业教育的垂直搜索引擎仍然严重缺乏。目前我们国家对于中等职业教育非常重视,投入的力度也很大,对于计算机和网络的硬件条件已经完全具备在中等职业学校建立辅助教学的信息检索平台。1.2国内外研究现状分析通用搜索引擎从诞生到如今已经经历了十余年的开展,目前已经广泛应用于互联网,成为人们搜索互联网资源必不可少的工具,实际上,搜索引擎的出现是个必然,因为随着网络资源的几何级别的增长,同时网络传播的速度大大超出
3、了人们的想象,互联网行业的应用已经浸透到人类生活的方方面面。搜索引擎就像茫茫大海中灯塔一样指引着人们在互联网中遨游。搜索引擎的开展经历了几个重要的历史时期:最开场出现的搜索引擎只是检索FTP上边的文件;随后的搜索引擎开场收录网络地址;搜索引擎开场收录标题;目前的搜索引擎,已经开场抓取网页全文了。1.3面向教育的搜索引擎的开展现状目前流行的通用搜索引擎其工作原理及核心代码是不对外公开的,其产生查询结果的排序方法也被视为商业机密。甚至有人质疑由于商业利益的关系对查询结果的排序造成了扭曲。面向教育的垂直搜索引擎的研究有很多的文章,但未对教育搜索引擎框架和核心给出详细的描绘。这使得开发教育搜索引擎成为
4、教育技术领域一项困难的任务。为此该文结合教育领域特征和搜索需求的多样化研究对面向教育的垂直搜索引擎框架及其关键技术进展了深化地讨论和研究。1.4面向中等职业教育的垂直搜索引擎开展现状面向中等职业学校的垂直搜索引擎的研究目前严重缺乏。对于垂直搜索引擎来说专业性越强其搜索的效果越好,由于我国的经济形势的开展,各种产业不断晋级,社会需要大量具有合格工作技能的专业人才,国家对于中等职业教育越来越重视,投入也越来越大,甚至到达了职业教育与义务教育同等重要的地位。2垂直搜索引擎技术分析垂直搜索引擎系统由4局部组成:信息采集raler、分析、索引Indexer和查询Query。信息采集模块负责在互联网上查找
5、网页信息,并对所采集的网页内容进展解析、过滤、分词处理;索引模块对采集到的信息分析之后进展倒排序的方式存放到索引数据库中;查询模块根据用户输入的关键词,从索引数据库中找到相关的网页,并根据相关度排序将网址和网页摘要反应给用户。2.1信息采集模块搜索引擎采集网页通常采用网络爬虫Spider2方式。通过它可以生成以用户输入的关键词为根据排序的URL及摘要的索引数据库,它的工作原理是从初始URL开场不断抓取URL。这些URL信息集成一个URL队列,一直到不满足查询条件为止。通过分析过滤掉不相关的网页链接,将有用的网页链接放到URL队列中,并在URL队列中找到后面要抓取的网页。最后将抓取的URL和摘要
6、按相关度的顺序保存到索引数据库中,用于后面的索引和查询。2.2信息的分析模块目前互联网上的网页数量呈几何级别的增长,如何从浩如烟海的网络中抓取用户需要的信息,过滤掉无关的网页需要建立一个断定的规那么。通用搜索引擎是不进展主题相关性断定的,造成抓取的网页数量庞大且分散。由于垂直搜索具地专业特性、准确度高、深度大的特点,要对信息采集模块采集到的网页进展主题相关度的断定。使其可以尽量地抓取高度相关的网页,这样进步了搜索的准确度和搜索的速度。同时还要制定一定的策略来解决网页重复和网页内容变化的问题。2.3信息索引模块信息采集模块抓取的网页,保存在一个构造化的数据库中,按照类型进展排列建立索引数据库以便
7、进展快速检索。通用搜索引擎抓取的本文由论文联盟.Ll.搜集整理网页庞杂、分散,因此不能进展全文检索,垂直搜索引擎因为是针对某一特定领域或某一特定人群,因此支持进展全文检索。使其具有相比于通用搜索引擎搜索深度大的优点。2.4用户界面用户输入和输出的接口,如今通常使用Ajax技术来设计用户使用的界面。利用Luene全文检索工具根据用户输入的关键词将索引的相关网页以列表的形式反应给用户。3面向中等职业教育的垂直搜索引擎的分析和研究3.1中等职业教育的特点中等职业教育具不同于普通教育的特殊性,简单的说有些类似于高等教育与义务制普通教育的结合体。既有高等教育按专业分类的特点,又有普通教育课程分配的特点。
8、要求的知识内容和技术程度接近于高中教育程度。虽然中等职业教育是以培养专业技术型人才为目的,但同时也要兼顾文化素养和德智体美全面开展。即不仅要学好专业课程和专业相关领域知识,同时也要加强文化课程的学习。3.2构建面向中等职业教育资源的垂直搜索引擎框架根据我国中等职业教育的自身特点,搜索引擎框架从下面几个角度来设计,分别为专业课程、文化课程、技能鉴定和实习就业4个局部。学生可以根据自己在学习当中的需要,有针对性地查询自己所想要的信息。3.3各个子系统的设计信息采集系统的设计:网络爬虫的工作步骤。首先蜘蛛搜索网站首页的根网址,保存到待抓取的地址列表中,假设地址列表不为空就判断是否曾经访问过该地址,假
9、设此网页没有被访问过就读取网页内容,并对读取的网页内容进展解析,然后对内容主题相关度进展判断,并将关联主题的网页内容保存到数据库中,并把这些网页的网址保存到已访问网页列表中,否那么去掉此网页地址。最后当待抓取的网页列表为空的时候,或者抓取的深度满足制定要求的时候完毕读取,重复执行抓取其他网站直到完毕。索引系统的设计。索引过程可分为3个主要的操作步骤:将信息转换成文本,分析文本,将分析过的文本保存到数据库中。要想对信息分类和建立索引,那么首先必须将信息转换成纯文本字符流。但是在网络中信息是以各种富媒体文档格式存在的:比方PDF,RD,EXEL,HTL,XL等。为此需要使用文档解析器,将富媒体转换
10、成纯文字字符流。分析文本。在对信息进展索引之前,还必须将转换后的文本进展分词技术处理,才能更好地建立索引。当数据分析时,首先将文本拆成假设干个块和单元词汇,接着可选择操作,比方:大小写转换在索引操作之前,防止大小写的错误;比拟典型的是去除经常使用却没用的词汇,比方介词、冠词the、a、in、n、an等。同样道理,找到一些没有意义的词汇在索引之前就把它们去掉以减少索引的次数进步索引的效率。对输入数据分析处理完成后,就可以将结果写入索引文件中。结果一般包括网页标题,正文,所属住地址,主机,内容摘要,当前URL地址等,并根据详细情况和需要建立索引和存储。信息查询算法。通过预处理网页后,每个元素由下面
11、几个信息构成:编号,网页地址和主题,初始网页文档包含的系统关键词的集合以及它们在文档中出现的位置数据同时还包括一些其他的重要信息例如重要级别,代码类别等。而关键词集合和文档的编号共同组成了一个倒排索引文件构造,可以迅速地输出相关文档的集合编号。查询方式指的是搜索引擎成认的查询方法。由于客户的不同要求所以不能只有一种查询方法。通常对于普通的客户的查询方式,那就是输入他最想要的词汇。然而这不能作为一种准确定义的查询方式。比方客户写技师学校,可能是他想理解技术学校目前的招生状况,可能需要找到技师学校教务系统的网址,可能需要理解大家对技师学校的评价。这是3种相当不同的需求。在其他一些情况下,用户可能关
12、心的是间接的信息,例如技师学校录取分数线,450分应该是他需要的,但不可能包含在这个短语中。尽管如此,用一个字或短语来间接表达查询需要,假如网页内容或标题中包括输入的词或短语,仍然是最普遍的查询方法。原因是他所查询出现的概率是最多的,还包括如此查询也更简单和容易完成。如此来说,搜索引擎接收的语句。通常用q0作为客户的初始查询,比方,q0=网络与分布式系统实验室。它最先要被分词成一个词的序列。所以那么变成网络与分布式系统实验室注意,分词软件的不同有可能导致不一样的查询结果。接着要过滤掉那些几乎在所有文档中都会出现的那些没有意义的字符,最后生成查询词表用于匹配,q=t1,t2,t,从上面的实例来说q=网络,分布式,系统,实验室。倒排文件就是把所有的词按倒序的方式依次保存到搜索引擎的索引文件中,所以q中的词一定要存在于搜索引擎所产生的查询倒排文件。那么作为用户所输入的q,客户输入的词汇会分割成一个个的关键词而抓取到文档编号的集合,记作Lti,所产生的交集就是相关查询的倒排文件,也就是到达了查询和网页文档的匹配。因此用户总是要求所输入的词汇被包含在网页文档当中。3.4专业课程模块设计专业技术的学习是中等职业教育的核心和重点,专业技能的上下直接决定了学生将来的就业前景。由于中等职业学校规模的限制不可能像大学那样建立大而全的专业体系。大体上来讲,中等职业学校的专业可以笼统地分为工业类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件技术专业教学标准(高等职业教育专科)2025修订
- 2025年中国紧急救援和其他救助服务行业市场全景分析及前景机遇研判报告
- 2025年中国建筑护板行业市场全景分析及前景机遇研判报告
- 2025年中国咖啡器具行业市场发展监测及投资前景展望报告
- 癌症患者情绪疏导
- 防爆培训课件
- 中国维生素B12行业市场调查研究及投资规划建议报告
- 2020-2025年中国摩托车铝轮行业市场调研分析及投资前景预测报告
- 2024年中国四氯吡啶行业市场调查报告
- 2025年 云南省行测考试试题附答案
- 电子政务内网机房运维管理制度
- 陕西省专业技术人员继续教育2025公需课《党的二十届三中全会精神解读与高质量发展》20学时题库及答案
- 学习通《科研诚信与学术规范》课后及考试答案
- 典当行组织架构和岗位设置
- 2023-2024学年内蒙古自治区锡林浩特市小学语文五年级期末自我评估试题
- GB/T 24025-2009环境标志和声明Ⅲ型环境声明原则和程序
- 《半导体及二极管》教学课件
- 病房床头卡模板
- 2022年西双版纳傣族自治州景洪教师进城考试笔试题库及答案解析
- 公路改建工程边施工边通车安全专项施工方案
- 道路交通安全法律法规知识测试题
评论
0/150
提交评论