![定向网络爬虫开题报告_第1页](http://file3.renrendoc.com/fileroot_temp3/2021-12/23/04423012-ef0a-4e4a-a576-88bd66be1aa8/04423012-ef0a-4e4a-a576-88bd66be1aa81.gif)
![定向网络爬虫开题报告_第2页](http://file3.renrendoc.com/fileroot_temp3/2021-12/23/04423012-ef0a-4e4a-a576-88bd66be1aa8/04423012-ef0a-4e4a-a576-88bd66be1aa82.gif)
![定向网络爬虫开题报告_第3页](http://file3.renrendoc.com/fileroot_temp3/2021-12/23/04423012-ef0a-4e4a-a576-88bd66be1aa8/04423012-ef0a-4e4a-a576-88bd66be1aa83.gif)
![定向网络爬虫开题报告_第4页](http://file3.renrendoc.com/fileroot_temp3/2021-12/23/04423012-ef0a-4e4a-a576-88bd66be1aa8/04423012-ef0a-4e4a-a576-88bd66be1aa84.gif)
![定向网络爬虫开题报告_第5页](http://file3.renrendoc.com/fileroot_temp3/2021-12/23/04423012-ef0a-4e4a-a576-88bd66be1aa8/04423012-ef0a-4e4a-a576-88bd66be1aa85.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、山东科技大学本科毕业设计论文开题报告题目网络爬虫定向爬取?脚本之家?文本信息学院名称信息科学与工程学院专业班级计算机科学与技术2021级2班学生姓名包志英学号 202102150201指导教师赵中英填表时间:二0 六年三月二十八日设计论文 题目网络爬虫?定向爬取脚本之家文本信息设计论文 类型划“/工程设计应用研究开发研究根底研究其它一、本课题的研究目的和意义本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有 一定的性能,要考虑到网络爬虫的各种需求.网络爬虫主体网站的特性.对url进行构造.网络爬虫使用scrapy实现多线 程,让爬虫具备更强大的抓取水平和灵活性. 网络爬虫要实现
2、对特定主题的爬取. 网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、 行业信息等.对网络爬虫的连接网络设置连接及读取时间,防止无限制的等待. 研究网络爬虫的原理并实现爬虫的相关功能.最终实现的网络爬虫应该能根据设定的主题,从构造的url进行一定数据爬取,并最终得到需要的数据互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出 来有着巨大的应用前景.搜索引擎作为一个辅助人们检索信息的工具.但是, 这些通用性搜索引擎也存在着一定的局限性.不同领域、不同背景的用户往往 具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心 的网页.为了解决这个冋题
3、,一个灵活的爬虫有着无可替代的重要意义.本课题的主要研究内容提纲本课题研究的内容是如何使网络爬虫灵活高效1. 如何更具网站主体特性不同构造 URL2. 如何具备更强的抓取水平.3. 如何分辨重复的网页内容.4. 如何确定主题相关性.5. 对于对线程并发的处理.6. 对于缓存和并发请求的处理7. 对反扒机制的应对8. 对于网络时延等的处理.9. 对于数据的存储格式与形式三、文献综述国内外研究情况及其开展对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成局部.网络上比拟著名的开源爬虫包括 Nutch,Larbin,Heritrix .网络爬虫最重要的
4、是网页搜索策略广度优先和最正确 度优先和网页分析策略基于网络拓扑的分析算法和基于网页内容的网页分析 算法.国内外流行的爬虫技术相当多,很多人喜欢基于Python的,也有人喜欢用C#, 很多人由于系统集成开发和跨平台的需要倾向于java,我跟喜欢用Python.就原理来说,爬虫组件都是差不多的,无头浏览器,最能够说明爬虫的特性, 它们被设计创造出来,大局部情况是用于自动化测试的.基于socket的 client功能简单,性能强大,特别是在高并发的情况下,而被大家所青睐,特别是搜索引擎中,如果抓取静态页面, client非常适合.当遇到ajax加载的信息,就需要javascript 效果渲染的时候
5、, client 就不行了,htmlunit是基于 client 参加Rhino引擎实现js渲染的无头浏览 器,当然包含了 client的特性,然而,由于内存泄露的问题,高并发的状态下,并不能很稳定的工作,内存消耗随着程序的运行而不断增大,直到到达jvm分配的上限而崩溃.很多时候,你只能做个权衡,每个webclient使用假设干次后就把它回收,然后重新启动一个,这非常影响性能.Rhino对于javascript的支持并不好,实际使用中,会发现各种 Exception ,很多时候会导致无法渲染出想 要的结果,这个htmlunit的又一大缺陷.随着版本的更新,能够渐次解决一些问 题,但是好的程序员
6、,还是应该自己读源码来尝试解决冋题.Phantomjs相比于htmlunit,对于js的支持更接近真实的浏览器,但是并发 性能差,通过java的exec调用系统命令来启动,更加降低了性能.此外主流的浏览器都提供了相应的抓取支持,selenium可谓是一个集大成者, 包含了上述的所有组件,以 WebDriver的形式,适配各种爬虫组件,你可以用它 操控浏览器自动抓取,当然,并发和性能的问题依然存在.爬虫开发的主要问题是性能和反封锁.很多时候,采用高并发高频率抓取数 据是可行的,前提是目标站点没有采用任何反爬举措访问频率限制、防火墙、 验证码;更多时候,有价值的信息,一定伴随着严格的反爬举措,一旦
7、ip被封,什么组件都没戏了.你不得不维护一个代理IP池来解决这个问题,当然,这也带来了代理ip稳定性和速度的问题,这些问题都是无法回避的问题,我们需 要针对具体的情况,采用对应的举措,以最大限度的完成爬虫爬取任务.目前,爬虫的需求呈爆炸式增长的趋势,这是当前各种互联网创新和大数据 时代的新常态.火车和八爪鱼等团队看到了这一点,并率先开发了相对完备的爬 虫产品,很多用户都在使用,但是更多的用户希望直接把爬虫抓取任务外包出去, 由于他们不懂技术,工具的使用需要逾越技术的鸿沟,大局部用户并没有这个逾 越鸿沟的打算.我相信像猪八戒这样的技术外包平台会活的越来越好,我也相信 各个技术门类会不断聚集,形成
8、相对独立的社区,P2P的社区平台将提供爬虫开发者和爬虫需求者更加通畅的交流渠道.目前,淘宝等平台上出现很多爬虫效劳商,如 :/item.taobao /item.htm?spm=a230r.0ZOWj&i d=42659198536 &ns=1 &abbucket=6#detail ,这种定制开发的效劳,增加了效劳商的本钱,效劳往 往是一次性的,满足了一个用户的需求,然而具有相似需求的用户,却很难有机 会找到这个效劳商,这就是为什么我们需要爬虫信息交流的平台.我有意建立这样的平台,不管是微博、微信公众号、文章,还是政府门户的 信息公开,或者门户网站、新闻
9、社区等媒体,或者其他领域如金融的数据,都可 以在平台上找到,也很容易实现供给和需求者的相互匹配.然而,对于这其中的法律问题,特别是知识产权问题,不甚明了,除了 robots 协议,很多数据网站都会另外声明其数据使用标准,同时,如群众点评等网站提 供的API很难满足分析的需要,就形成了数据被独占而其价值得不到有效开发的 不合理现象.大数据时代,对大数据的分析应当成为一个行业,数据拥有者应该开放数据 的分析接口,让数据的价值释放,而爬虫开发者,很多时候是数据分析者最起 码是个数据清洗和筛选者.他们蒙上了一层神秘面纱,带着一丝黑客气息,法 律应当给他们更大的生存空间,让这个有价值的行业创造更大的价值
10、.四、拟解决的关键问题使网络爬虫高效灵活,在主题网站中尽量全面的爬取信息,并且 能够自动构造URL递归调用自身,开启多线程快速的爬取,准确提取有效信息, 存储到数据库,对于网络延迟的处理,并且能够开启 CHACH极大限度的提高爬取速度,伪造代理信息,表单等,让目标网站,认为你是平安的,整合数据 信息,并以json格式存储至Mongq方面各个平台使用,通过脚本程序,迁移到 Mysql为依赖关系较强的工程使用,具备可视化显示,以网页的形式有好的显示 数据,并提供简单的搜索功能,能将数据简单分类,智能推荐.五、研究思路和方法参考网上开源的网络爬虫和各种网络爬虫相关的书籍、视屏等信息,学习了 解网络爬
11、虫运行机制,根本原理,根据所爬取的目标网站设计自己的爬虫,习 Python,Scrapy框架的搭建,Mongodb的简单操作,Laravel ,bootstrap 框架学 习、编写、调试.并与老师的屡次面谈和邮件交流,解决了一些理论的疑点和实 践上的难点,指导了爬虫的设计和利弊分析,提供了很多的帮助,设计和学习完 根底知识后,搭建了繁琐的环境,在Win dows下进行了爬虫的开发、调试,最终成功的实现了信息的爬取与提取,将爬去下来的数据,通过脚本程序进行数据转 换,利用网页技术可视化显示,并提供简单的查询接口.六、本课题的进度安排2021.03.18 2021.03.31查阅资料完成任务书,完
12、成开题报告.2021.04.012021.04.14开题报告会,学习网络爬虫根本机制,学习使用Mon god数据库,学习Pytho n,搭建Scrapy环境,学习Laravel与Bootstrap框架.2021.04.15 2021.04.28查阅资料,进行论文根本章节的写作,与导师探讨设计缺陷,并提出解决方案,完成初稿,并完成根底代码编写.2021.04.29 2021.05.12编写设计好的爬虫文件,并进行系统稳定性测试调试,修复bug.2021.05.13 2021.05.26 运行爬虫,提取有用信息,将其存储至Mon god数据库中,数据整合,通过脚本程序将数据迁移至 MySQL202
13、1.05.27 2021.06.10数据可视化,完成论文等相关文档的编写.七、参考文献1 :/baike.baidu /li nk?url=EdHY1vcvYqlz32EfYu91TViHpf9vk nfEtjh wolHuHO nq54T1rXfBWHjKTJMGB2xm13RwGd_5P8dkjWPBjNh-ja2 :/ 360doc /co nten t/14/0325/22/9482_363730690.shtml3 :/baike.baidu /li nk?url=HEK-9IVNug8ccN9z8KE43SZTIIF5ojvWJ0c jG46TY5Yjf8h1t5Cu4LYoZ_r
14、ht5jfwj nFohp0xNPZaxMGIsGC7_.4 :/blog.jobbole /53961/. 罗刚 王振东.自己动手写网络爬虫M.北京:清华大学出版社,2021年10 月 李晓明,闫宏飞,王继民.搜索引擎:原理、技术与系统一一华夏英才基金学 术文库M.北京:科学出版社,2005年04月.7 J.I.HerlockerJA.Konstan,A.Borchers,andJ.Riedl,"An algorithmic forperform ing collaborative filteri ng," in Proceedi ngs of the Conferenc
15、e on ResearchandDevelopme ntinIn formatio nRetrieval(SiglR'99),pp.230-237,1999.8 R. Salakhutdi nov and A. Mn ih,Probabilistic Matrix Factorizatio n. InProceed ings of NIPS. 2007.9 R. Salakhutdi nov and A. Mni h,Bayesia n probabilistic matrix factorization usi ng Markov chain Monte Carlo.I n Proc
16、eed in gs of ICML. 2021, 880-887.10 Mohsen Jamali, Gholamreza Haffari, Martin Ester.Modeling thetemporal dyn amics of social rati ng n etworks using bidirectio nal effectsof social relatio ns and rating patterns. WWW 2021, 527-536.11 Tia njunF u,AhmedAbbasi,Hs inchun Che n. A focused crawler for Dar
17、k Web forumsJ. J. Am. Soc. Inf. Sci.,2021,6,16.12 Pu nam Bedi,Anjali Thukral,Hema Ba nati,Abhishek Behl,Varu nMen diratta. A Multi-Threaded Sema ntic Focused CrawlerJ. Jour nal ofComputer Scie nee and Tech no logy,2021,2,16.13 Winter .中文搜索引擎技术解密:网络蜘蛛 M.北京:人民邮电出版社, 2004 年.指导教师意见指导教师签名:年 月日所在系所意见负责人签章
18、:年 月日下午 13 : 00 17 : 00上度.全体员工都必须自觉遵守工作时间,实行不定时工作制的员工不必打卡.3.122打卡次数:一日两次,即早上上班打卡一次,下午下班打卡一次.3.123打卡时间:打卡时间为上班到岗时间和下班离岗时间;因公外出不能打卡:因公外出不能打卡应填写?外勤登记表?,注明外出日期、事由、外勤起止时间.因公外出需事先申请,如因特殊情况不能事先申请,应在事毕到岗当日完成申请、审批手续,否那么按旷工处理.因停电、卡钟工卡故障未打卡的员工,上班前、下班后要及时到部门考勤员处填写?未打卡补签申请表?,由直接主管签字证实当日的出勤状况,报部门经理、人力资源部批准
19、后,月底由部门考勤员据此上报考勤.上述情况考勤由各部门或分公司和工程文员协助人力资源部进行治理.手工考勤制度手工考勤制申请:由于工作性质,员工无法正常打卡如外围人员、出差,可由各部门提出人员名单,经主管副总批准后,报人力资源部审批备案.参与手工考勤的员工,需由其主管部门的部门考勤员文员或部门指定人员进行考勤治理,并于每月26日前向人力资源部递交考勤报表.参与手工考勤的员工如有请假情况发生,应遵守相关请、休假制度,如实填报相关表单.外派员工在外派工作期间的考勤,需在外派公司打卡记录;如遇中途出差,持出差证实,出差期间的考勤在出
20、差地所在公司打卡记录;3.2加班治理3.2.1定义加班是指员工在节假日或公司规定的休息日仍照常工作的情况.A.现场治理人员和劳务人员的加班应严格限制,各部门应按月工时标准,合理安排工作班次.部门经理要严格审批员工排班表,保证员工有效工时到达要求.但凡到达月工时标准的,应扣减员工本人的存休或工资;对超出月工时标准的,应说明理由,报主管副总和人力资源部审批.B.因员工月薪工资中的补贴已包括延时工作补贴,所以延时工作在4小时不含以下的,不再另计加班工资.因工作需要,一般员工延时工作4小时至8小时可申报加班半天,超过 8小时可申报加班1天.对主管含以上治理人员,一般情况下延时工作不计加班,因特殊情况经
21、总经理以上领导批准的延时工作,可按以上标准计加班.3.222 员工加班应提前申请,事先填写?加班申请表?,因无法确定加班工时的,应在本次加班完成后3个工作日内补填?加班申请表?.?加班申请表?经部门经理同意,主管副总经理审核报总经理批准后有效.?加班申请表?必须事前当月内上报有效,如遇特殊情况,也必须在一周内上报至总经理批准.如未履行上述程序,视为乙方自愿加班.员工加班,也应按规定打卡,没有打卡记录的加班,公司不予成认;有打卡记录但无公司总经理批准的加班,公司不予成认加班.原那么上,参加公司组织的各种培训、集体活动不计加班.力卩班工资的补偿:员工在排班
22、休息日的加班,可以以倒休形式安排补休.原那么上,员工加班以倒休形式补休的,公司将根据工作需要统一安排在春节前后补休.加班可按1:1的比例冲抵病、事假.3.2.3加班的申请、审批、确认流程?加班申请表?在各部门文员处领取,加班统计周期为上月26日至本月25日.员工加班也要按规定打卡,没有打卡记录的加班,公司不予成认.各部门的考勤员文员负责?加班申请表?的保管及加班申报.员工加班应提前申请,事先填写?加班申请表?加班前到部门考勤员文员处领取?加班申请表?,?加班申请表?经工程治理中央或部门经理同意,主管副总审核,总经理签字批准后有效.填写并履行完审批手续后交由部门考勤员
23、文员保管.部门考勤员文员负责检查、复核确认考勤记录的真实有效性并在每月27日汇总交人力资源部,逾期未交的加班记录公司不予成认.想起了高中就想起了我的兄弟姐妹们,呵呵!还是那句不厌其烦的话“想你们了.每次夜深人静,或者单独一个人的时候,总是会思念我的那些小伙伴们.或许他们也有这样的,相同的感已经很久没有写日志了,最近有一种特别强烈的写日志的想法!可是思绪一直都被各种测试,各种复习围攻着,无法脫身.今天,我终于忍不住了!就算文章写的再烂,再不堪入目我也要写点东 西.或者说,阿里手贱,不写点东西就过不好周末.哈哈!仔细想想,不知道写什么,大概各位看到?有些人?这个题目都不懂什么意思吧!那就对了!你要是看懂了,我岂不是很没面子,嘻嘻!不过,说实话吧!我也不知道是什么意思,只是觉得这三个字,我喜欢!率性而为,意识随波逐流.就是我写文章的习惯,改不了,也不会改.这也是为什么咱高中时,作文从未被表扬过的受吧!其实,现在想想,有些人,我都想不起什么模样,叫不知名字了.就像,有些人,从我们的生命中匆匆走过,我们却从来不记
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023三年级数学上册 一 两、三位数乘一位数第3课时 倍的认识说课稿 苏教版
- 2025年度节水型喷灌设备采购及安装服务合同
- 炊具挂盘项目融资渠道探索
- 2025年度南京二手房买卖合同房屋质量检测与风险评估报告
- 2024-2025学年度九年级历史下册 第八单元 第17课 第三次科技革命说课稿 新人教版001
- 2025至2030年中国X射线光电子能谱仪数据监测研究报告
- 2025至2030年中国三羟基丙烷数据监测研究报告
- 2025年烘焙奶粉项目可行性研究报告
- 2025年水管接头配件项目可行性研究报告
- 2025年支撑座项目可行性研究报告
- 法语专四四级词汇
- 动物检疫技术-动物检疫的对象(动物防疫与检疫技术)
- 中考记叙文阅读
- 《计算机应用基础》-Excel-考试复习题库(含答案)
- 产科沟通模板
- 2023-2024学年四川省成都市小学数学一年级下册期末提升试题
- GB/T 7462-1994表面活性剂发泡力的测定改进Ross-Miles法
- GB/T 2934-2007联运通用平托盘主要尺寸及公差
- GB/T 21709.13-2013针灸技术操作规范第13部分:芒针
- 2022年青岛职业技术学院单招语文考试试题及答案解析
- 急诊科进修汇报课件
评论
0/150
提交评论