《智能搜索与引擎技术》课程教学大纲_第1页
《智能搜索与引擎技术》课程教学大纲_第2页
《智能搜索与引擎技术》课程教学大纲_第3页
《智能搜索与引擎技术》课程教学大纲_第4页
《智能搜索与引擎技术》课程教学大纲_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《智能搜索与引擎技术》教学大纲课程名称:智能搜索与引擎技术课程编号:2402英文名称:IntelligentSearchandEngineTechnology学时:40学时 学分:2.5学分开课学期:第7学期适用专业:数据科学与大数据技术专业课程类别:理论课+实验课课程性质:专业方向与拓展课先修课程:程序设计基础(C语言)、数据结构、数据挖掘与机器学习一、课程的性质及任务《智能搜索与引擎技术》课程是数据科学与大数据技术专业学生的专业方向与拓展课,本课程主要研究学习搜索引擎的工作原理,实现技术,各种关键算法和系统构建方法。通过本课程的学习,学生应能掌握智能搜索引擎的基本原理和方法,通过实验加深学生对搜索引擎的构建有全面的认识。同时向学生介绍该学科领域近年来取得的新成果、新发展和新技术,培养学生的独立研究和思考的能力。依据河北工程大学数据科学与大数据技术专业培养计划,本课程需要培养学生的能力是:能够针对大数据特定的任务需求,完成大数据系统、模块的设计与开发(毕业要求指标3.2)能够针对智能信息系统设计、大数据技术应用等大数据应用领域的复杂工程问题设计实验方案、构建实验系统和测试平台、获得实验结果(毕业要求指标4.2)掌握基本的大数据开发环境的配置和应用,熟练掌握软件开发语言,并能够运用集成开发环境进行复杂程序设计(毕业要求指标5.1)二、课程目标与要求2.1课程目标1.使

PAGE16PAGE4292.2课程目标与毕业要求对应关系毕业要求1234毕业要求二级指标毕业要求●●3.2. 能够针对大数据特定的任务需求,完成大数据系统、模块的设计与开发。3.能够设计出大数据应用领域的复杂工程问题的解决方案,具有数据采集、处理、分析、挖掘的能力,并能够在设计环节中体现创新意识,考虑社会、健康、安全、法律、文化以及环境等多维度协同发展因素。●4.2能够针对智能信息系统设计、大数据技术应用等大数据应用领域的复杂工程问题设计实验方案、构建实验系统和测试平台、获得实验结果4.能够基于数据科学与大数据技术原理并采用科学方法对大数据应用领域的复杂工程问题进行研究,包括设计实验、分析与解释数据、并通过信息综合得到合理有效的结论。●5.1掌握基本的大数据开发环境的配置和应用,熟练掌握软件开发语言,并能够运用集成开发环境进行复杂程序设计5.能够针对大数据应用领域的复杂工程问题,开发、选择与使用恰当的技术、资源、现代信息技术工具,包括对大数据应用领域的复杂工程问题的预测与仿真,并能够理解其局限性。2.3课程目标与培养环节对应矩阵序号课程目标理论教学课内实验课后作业1使学生了解智能搜索与引擎技术的基本概念、发展历程和应用领域。HL2掌握搜索引擎的工作原理、关键技术和算法,包括网页抓取、索引构建、查询处理、排序算法等。HHM3培养学生运用所学知识设计和实现简单搜索引擎系统的能力。HMM4提高学生分析和解决问题的能力,培养创新思维和实践能力。MHL注:H表示该能力的在此环节重点培养;M表示该能力在此环节有应用要求;L表示该能力在此环节有所涉及。数据挖掘与机器学习课程设计教学大纲PAGE2PAGE4392.4目标达成度的评价课程目标1主要通过理论教学环节进行培养,在课后作业有所涉及。主要通过课堂测试和期末考试中概念性、原理性题目进行考核。目标达成综合以上内容进行评价。课程目标2主要通过理论教学环节和课内实验进行培养,在课后作业有应用要求。主要通过课堂测试,课后作业和期末考试中各种智能搜索题目进行考核,在实验中体现为能搜索技术的基本理论和设计方法。目标达成综合以上内容进行评价。课程目标3主要通过理论教学环节进行培养,在和课内实验和课后作业有应用要求。主要通过布置计算机领域复杂工程问题应用案例题目进行考核,在实验报告中体现为能给出符合要求的智能搜索结论。在课后作业中体现为搜索引擎技术,综合运用各种搜索引擎技术能力;目标达成综合以上内容进行评价。课程目标4主要通过理论教学环节进行培养,在课内实验有应用要求,,课后作业有所涉及。目标达成综合以上内容进行评价。三、教学方法及手段理论教学以课堂讲授为主,上机实验为辅并结合课堂讨论、案例分析、师生互动等教学方法展开教学;理论教学强调将各种智能搜索引擎技术与实际项目案例的实际情况紧密联系,面向知识的实际应用;本课程教材力求内容新颖,采用多样化的方式进行教学,让学生在理论与实践相结合的基础上,对课程所要求的实际操作能力有进一步的提高。充分利用多媒体等现代化教学手段,整体优化教学过程和教学内容,调动学生学习积极性;布置实际操作任务给学生上机操作并及时指导。课程强调学生的自主学习,强调通过自学的方式消化、吸收课程的庞大知识量,并在此基础上举一反三、灵活应用。四、课程的基本内容与教学要求第一章搜索引擎及其技术架构[教学目的与要求]:了解搜索引擎技术发展史,搜索引擎的技术架构,掌握搜索引擎的三个目标和核心问题。[本章主要内容]:1.1搜索引擎的重要性1.2搜索引擎技术发展史1.3搜索引擎的技术架构[本章重点]:搜索引擎的三个目标。搜索引擎的核心问题。[本章难点]:搜索引擎的技术架构第二章网络爬虫[教学目的与要求]:了解通用爬虫框架、优秀爬虫的特征、爬虫质量的评价标准、暗网抓取、分布式爬虫,掌握抓取策略、网页更新策略。[本章主要内容]:通用爬虫框架、优秀爬虫的特征、爬虫质量的评价标准、抓取策略、网页更新策略、暗网抓取、分布式爬虫[本章重点]:抓取策略、网页更新策略[本章难点]:暗网抓取、分布式爬虫第三章搜索引擎索引[教学目的与要求]:掌握索引基础、单词词典、倒排列表、建立索引:理解索引更新策略、查询处理、多字段索引、扩展列表方式。[本章主要内容]:3.1索引基础、单词词典、倒排列表3.2建立索引、动态索引、索引更新策略、查询处理、多字段索引3.3扩展列表方式、短语查询、分布式索引。[本章重点]:索引基础、单词词典、倒排列表、建立索引。[本章难点]:索引更新策略。第四章检索模型与搜索排序[教学目的与要求]:掌握布尔模型、向量空间模型、检索质量评价标准:了解概率检索模型、语言模型、机器学习排序。[本章主要内容]:布尔模型、向量空间模型、概率检索模型、语言模型、机器学习排序、检索质量评价标准[本章重点]:布尔模型、向量空间模型、检索质量评价标准[本章难点]:概率检索模型、语言模型、机器学习排序第五章链接分析[教学目的与要求]:掌握PageRank算法、HITS算法:理解SALSA算法、主题敏感PageRank算法、Hilliop算法。[本章主要内容]:Web图、两个概念模型及算法之间的关系、PageRank算法、HITS算法、SALSA算法、主题敏感PageRank算法、Hilltop算法、其他改进算法[本章重点]:PageRank算法、HITS算法。[本章难点]:PageRank算法、HITS算法第六章网页反作弊[教学目的与要求]:掌握内容作弊、链接作弊、页面隐含作弊、Web2.0作弊方法:掌握通用链接反作弊方法、专用链接反作弊技术、识别内容作弊:了解反隐含作弊、搜索引擎反作弊综合框架。[本章主要内容]:内容作弊、链接作弊、页面隐含作弊、Web2.0作弊方法、反作弊技术的整体思路、通用链接反作弊方法、专用链接反作弊技术、识别内容作弊、反隐含作弊、搜索引擎反作弊综合框架[本章重点]:内容作弊、链接作弊、页面隐含作弊、Web2.0作弊方法、搜索引擎反作弊综合框架[本章难点]:搜索引擎反作弊综合框架。第七章用户查询意图分析[教学目的与要求]:理解搜索行为及其意图,了解搜索日志挖掘、相关搜索、查询纠错。[本章主要内容]:搜索行为及其意图、搜索日志挖掘、相关搜索、查询纠错。[本章重点]:搜索行为及其意图。[本章难点]:日志挖掘。第八章网页去重[教学目的与要求]:理解通用去重算法框架,了解Shingling算法、I-Match算法、SimHash算法。[本章主要内容]:通用去重算法框架、Shingling算法、I-Match算法、SimHash算法、SpotSig算法[本章重点]:通用去重算法框架[本章难点]:去重算法。五、课内实验5.1本课程实验教学的地位和作用智能搜索引擎技术实验是巩固和扩展课程理论知识的必要环节。通过实验教学,使学生掌握搜索引擎技术的基本方法。了解搜索引擎的实际过程,并具有分析、整理实验数据和编写实验报告的能力。5.2教学基本要求通过实验预习及设计,理解智能搜索的基本原理,要求学生通过实验环节运用专业理论知识与技能,通过实验使学生掌握智能搜索的特点和处理的实际过程,并通过对实验数据和结果的解析得到正确的结论,并具有分析、整理实验数据和编写实验报告的能力,有助于提高学生的实际动手能力和分析解决问题的能力。5.3实验内容及要求大纲基本内容包括四个实验项目,在8个学时内完成。实验一小型搜索引擎系统的开发实验目的:(1)掌握搜索引擎工作原理和体系结构(2)搜索引擎的开发方法。实验设备:要求计算机安装有MicrosoftVisualStudio工具软件实验内容:(1)应用C++语言开发一个小型搜索引擎系统(2)记录并分析实验结果(3)编写预加重函数。实验二主题网页的信息提取实验目的:(1)理解网页净化与元数据提取的过程(2)了解网页净化与元数据提取的方法。(3)掌握网页信息提取的方法实验设备:要求计算机安装有MicrosoftVisualStudio工具软件实验内容:编程实现有主题网页的信息提取;记录并分析实验结果。实验三混合索引的实现实验目的:(1)了解检索系统的基本技术。(2)掌握查询的网页索引结构的方法。实验设备:要求计算机安装有MicrosoftVisualStudio工具软件实验内容:(1)编程实现混合索引的未登录词识别、扩展词典组织和分词;(2)记录并分析实验结果。实验四中文网页自动分类器的实现实验目的:(1)了解文档自动分类算法(2)了解中文网页自动分类的一般过程。(3)掌握实现中文网页自动分类的方法。实验设备:要求计算机安装有MicrosoftVisualStudio工具软件实验内容:编程并实现中文网页分类器5.4教学文件及教学形式教学文件:《信息检索实现和评价搜索引擎》。教学形式主要包括:预习、课堂指导与实验操作、撰写实验报告。实验报告学生自拟。实验报告包括:实验目的、编程语言,描述方法原理,详细叙述编程步骤,要有完整的数据和编程、图表表示的实验结果,以理论联系实际为出发点,调整参数并分析与实际数据之间的误差,总结实验中出现的问题及解决方法。5.5实验项目及学时分配序号实验项目实验学时实验类型实验类别实验性质1小型搜索引擎系统的开发2验证性专业必修2主题网页的信息提取2验证性专业必修3混合索引的实现2综合性专业必修4中文网页自动分类器的实现2综合性专业必修5.6本课程实验用到的场地和仪器大数据实验中心机房、多功能多媒体设备、智慧黑板。六、课程学时分配教学课次教学内容教学环节与计划时数教学环节计划时数11搜索引擎及其技术架构理论课222.1通用爬虫框架、优秀爬虫的特征理论课232.2爬虫质量的评价标准、暗网抓取、分布式爬虫理论课242.3抓取策略、网页更新策略理论课253.1索引基础、单词词典、倒排列表、建立索引理论课263.2索引更新策略、查询处理、多字段索引、扩展列表方式理论课274.1布尔模型、向量空间模型、检索质量评价标准理论课284.2概率检索模型、语言模型、机器学习排序理论课295.1PageRank算法、HITS算法理论课2105.2SALSA算法、主题敏感PageRank算法、Hilliop算法理论课2116.1内容作弊、链接作弊、页面隐含作弊、Web2.0作弊方法理论课2126.2通用链接反作弊方法、专用链接反作弊技术、识别内容作弊理论课2136.3反隐含作弊、搜索引擎反作弊综合框架理论课2147搜索行为及其意图、搜索日志挖掘、相关搜索、查询纠错理论课2158.1通用去重算法框架理论课2168.2Shingling算法、I-Match算法、SimHash算法理论课217实验1小型搜索引擎系统的开发实验课218实验2主题网页的信息提取实验课219实验3混合索引的实现实验课220实验4中文网页自动分类器的实现实验课2注:实验课由任课教师负责协调安排时间。七、课程考核与成绩评定7.1考核方式考核环节包括课程学习过程考核和期末考核,其中课程过程考核占总成绩的40%,分别由课堂表现、课后作业、实验情况进行评定;期末考核占总成绩的60%。各环节的比重如下。考核环节比重合计过程考核(平时成绩)课堂表现10%40%作业10%实验20%期末考核(课程论文)大作业的报告30%60%答辩30%总计100%100%7.2考核内容及要求本课程为考查课。考核内容及分值分配如下。考核方式考核内容分值课程目标总分值期末考核60%搜索引擎及其技术架构2~5目标1100分网络爬虫5~10目标2搜索引擎索引10~15目标2检索模型与搜索排序10~15目标2,3链接分析10~20目标2,3网页反作弊10~15目标3,4用户查询意图分析5~10目标3,4网页去重5~10目标2,3过程考核40%课堂表现课堂测试、出勤情况10目标1,2,410分课后作业作业完成情况10目标1,210分实验实验出勤、实验表现及实验报告20目标2,320分7.3成绩评定1.课堂表现课堂表现总分10分,由课堂测试与课堂出勤情况评定。其中,课堂测试满分6分,以客观题(填空、选择、判断)为主,每学期随堂测试15~20次,每次测试1~2道题目,每答错一道题目扣0.5分(直到扣满6分为止);课堂出勤满分4分,缺勤一次扣1分,迟到或请假扣0.5分。2.课后作业课后作业总分10分,由作业完成情况评定。每学期布置作业5次,每次作业占2分,评分标准如下;评分标准分值标准描述课后作业3能够按时认真完成作业、作业态度认真、书写清楚、分析计算正确。2能够按时完成作业、作业态度较好、书写较清楚、分析计算基本正确1能够按时完成作业、作业态度一般、书写不清楚、分析计算错误较多0不交作业或作业态度不认真、抄袭他人作业3.实验成绩实验成绩占所学课程的20%,即20分。根据学生的实验表现及实验报告结果,进行综合评定。具体评分标准如下表所示。评分标准分值标准描述实验表现(10)10无迟到、早退现象,态度端正,与同组同学配合认真完成编写及调试程序,运行结束后,按要求整理实验报告。8有迟到、早退现象或编程过程不够认真。6有迟到、早退现象且编程过程不认真。4有迟到、早退现象,编程过程不动手,浑水摸鱼。0旷课实验报告(10)10有完整正确的程序,过程叙述内容完整,正确分析数据,图形绘制清晰合理,结论正确,书写认真。8有相应程序,过程叙述内容较完整,正确分析实验数据,图形绘制清晰较合理,结论正确,书写较认真。6过程叙述内容较完整,分析数据有较少错误,图形绘制不够清晰,结论不准确,书写不够认真。4过程叙述内容较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论