关于python网络爬虫的实现_第1页
关于python网络爬虫的实现_第2页
关于python网络爬虫的实现_第3页
关于python网络爬虫的实现_第4页
关于python网络爬虫的实现_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

成果形式:实践报告成果名称:关于python网络爬虫的实现关于python网络爬虫的实现一、实践目的1.通过课程学习知道了什么是爬虫:爬虫可以理解为信息处理器,我们利用这种工具从网络中选取我们需要的信息数据,同样它也可以对于一些程序和网页进行自动优化,是网络的小管家。2.在学校组织的课程中学习python爬虫的构架组成和工作流程:1.先用URL管理器管理待爬取的url集合和已爬取的url集合;3.通过写代码实际操作实现phthon爬虫二、实践内容1.项目的分析1.解释爬虫的含义,并举例:1.1比如requests.get():最初始的一个简易爬虫就是调用python的requests模块,使用get函数,如图所示。然后这里get函数从给出的URL获取数据,从图中可以看出,数据显示状态码200,说明平稳落地。后面是获取到的网页。在课堂上学习这一节内容的时候,老师很细心细致。先在ppt上进行概念的讲解和演示,然后让我们自由操作,在操作的过程中,有不懂的问题可以进行提问,老师再过来具体指导实际操作。这其实是一个很简单的程序,老师也很用心,但很多东西如果你不自己去理解感悟的话,永远也学不会,这正如你永远无法叫醒一个装睡的人,所以学习从来都是一件孤勇的事情。有点跑题了,老师还举了个例子,当一个网站遭受大量高频次的点击时,比如某流量小花突然公布恋情,或者某idol登上红秀封面,微博和电子刊立马就瘫痪了,那些技术人员当年夸下“可以承受”的海口,立马就成了打脸的铁证。这件事告诉我们要学会伪装,不能直接要数据,采取迂回战术,不然人家不会鸟你。2.我们要学会使用火狐浏览器开发者工具:论如何伪装一个浏览器?我们这里使用的是火狐浏览器开发者工具,不要听这么高大上,事实就是打开火狐浏览器按F12!top1:输入网址进入我的博客,http://zkeeer.spacetop2按F12,找到网络这一栏。它会提示你重新载入,之后就按一下F5,刷新一下,就可以得偿所愿了。3.接下来注意以下几栏。then找到并点开我们需要的,也就是第一个接着右侧就会出来诸如箭头→参数、耗时、响应等相对应的详细信息,然后就是一些专业的数据和处理方法了,咱也看不懂,咱也不敢问,不过学无止境,你们不要学我,不懂的就要问,也许很简单的知识,但是你不问就永远不会知道。就好像有人问学霸怎么考的145,你问之前可能还在忐忑他会说出一大堆如何如何的学习方法和努力的重要性。但只有你问了之后,你才会知道,奥,原来只要少做一道选择题就可以了,真是简单呢。2.项目的设计1实战,首先.写一个简单的html网页<!DOCTYPEhtml>

<htmllang="en">

<head>

<metacharset="UTF-8">

<title>数学类1701成雅琴</title>

</head>

<body>

<ahref="/xhtml/">统计学院</a>

<buttontype="submit">提交</button>

</body>

</html>2.接着查看网页从课本上摘抄来的知识说:Python爬虫架构主要由五大部分,为了方便,对应人的头、四肢、心脏和躯干,如下:1、调度器:它就相当于人类的大脑,主要负责调度URL管理器、下载器、解析器之间的协调工作,可以说很重要了。2、URL管理器:这其中包括待爬取和已经爬取的URL,通过内存、数据库、缓存数据库来实现这三种方式来防止重复和循环抓取URL。3、网页下载器:相当于一个完整带售后的高端版转换器,不过和电源转换器和耳机切口转换器不同的是,这个下载器转换的是网页,将专业转化成可吸收的东西。4、网页解析器:我们将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。网页解析器有正则表达式、html.parser(Python自带的)、beautifulso、lxml(第三方插件,可以解析xml和HTML),html.parser和beautifulsoup以及lxml都是以DOM树的方式进行解析的。5、应用程序:就是我们选取的有用数据所组成的应用程序,其代码的复杂程序乃我所罕见。废话不多说,这个图一看便知。fromurllibimportrequest,parse

fromhttpimportcookiejar

ur1='/translate'

form_data={

}

data=parse.urlencode(form_data).encode('utf-8')

headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/66.0.3359.170Safari/537.36'}

req=request.Request(ur1,data=data,headers=headers)

cookie=cookiejar.CookieJar()

handler=request.HTTPCookieProcessor(cookie)

opener=request.build_opener(handler)

responce=opener.open(req)

html=responce.read().decode()

print(html)3.项目的实现(代码)1.输入登录名:n=1

whilen<4:

username=input("请输入用户名:")

password=input("请输入密码:")

ifusername=="成雅琴"andpassword=="1604970127":

print("登录成功")

n=5

else:

ifn==3:

print("密码错误")

n=5

else:

n=n+12在下列数组值后追加元素L1=[1,2,3,22,4,]

L1.append(5)

L1.append("caijing")

L1.append([1100,0011])

print(l1)结果:3计算元素22出现的次数li=[11,22,33,22,44,5,'alex',[1234,1234]]

c=li.count(22)

print(c)结果:F:\programdata\Anaconda3\python.exeC:/Users/微软中国/PycharmProjects/untitled/jjj.py2Processfinishedwithexitcode04.项目使用说明天呐这段代码居然有快一千个字,为了查重我居然给删了???我的心情简直跟难言了。qwertyuiooppjjgfdsssrtyhbbvcdeeegbbjiiiyrf//。。。。,,,,????(…-!tfvjko7542edfghujbbhi99ljbfdew22tghjgggdryjjbvfr4yi88753qqsxchhjio086tjjkmbvdee3uoo8y7ilkgfttryyyyggggggdeetyugimfekutr2sdcxww25u89o0lmjbgfr3322asxvhjo00975yhhgre3tyhvfrtu9ojhfde336789opkhgfdw35689onngftewsx3568okmncdwq258olnvfyytde32wsdcvghuyrrghj8ooknbfrewfvhioyrhoiyy22357iugyyrrghuiyytffguuu4rtyuikkkvfr335uioooopp0986tyhjkoooooollkhfrt55fvvh)2eredgutredtgvseruioi&#:resxvbjiureecgjkokitrfghjjkoo5rdgvfw214567ioplbgfew345ygfs21wxchjji99ppkbgt42wefui9o7gf443edfvji9866yujjbbgfffgggghhhvvcxdertyuiii999okjnbfrrewscvhjkiytgbnkjnnbcdrefhjt32wsfhjkkookjjj6thnmmfdrrdxchhjjfdwqsdghuiiyre22568oihfffh55422sfh6rewsgui743efhjopjvddrrtuohffree4yii99ojtyio97544fgjioookncdr5yytrrty77775rrtthbfde6uiojhfe2fdeexvhiytrffhju6532wdfvbjjo98644rfgvhuurwq1256ioolkjjbgfddddfghjj446788932236iojjbbvvfdedvjjkiuwccbjop08532eguuttgbnkluteesdcvhgrdfjklljjmnfsswqqqadgyuiiu64fghjjbfrr7iknhy67ijjjttr335&₩¿hgdetyiojygfrr4ty753edvhjiombfdrtii7543esxcggyyhjo986432sxguuy54dvjjkookbgfrrrttyyyyggghhjhggr43edfhuijhgghuijhhhbhhyf仅以一段代码表达我悲愤的心情,我其实就是一个普通的有拖延症的孩子,为什么要让我遭受如此的苦难,天呐,我真的也太惨了叭,而且为啥一个字母就是一个字,而我敲四五个拼音才一个字,这个资源分配我表示不服。不过项目内容的设计真的很复杂就是了,不然我也不至于这样,绝了,让人一筹莫展。三、实践过程 通用网络爬虫从互联网络中搜集网页,采集信息。第一步:抓取网页 搜索引擎网络爬虫的基本工作流程如下:首先选取一部分种子URL;取出待选取URL,接着分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环....第二步:数据存储搜索引擎通过python爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。第三步:预处理搜索引擎将pythen抓取回来的页面,进行各种步骤的预处理。1、提取文字2、中文分词3、消除噪音(比如版权声明文字、导航条、广告等……)4、索引处理5、链接关系计算6、特殊文件处理7、...第四步:提供检索服务,网站排名搜索引擎在对信息进行组织和处理后,会为用户提供关键字检索服务,将用户检索相关的信息展示给用户,也可以幕后操作进行排名购买。四、实践体会本次实践其实开始时是不被期待的,因为确实占用了很多暑期休息的时间,相对于枯燥的程序代码,显然宅在家追剧刷微博啃西瓜或者出去旅行看遍祖国的大好河山更有诱惑力。还记得刚开始我就遇到了一个问题,整个暑期实践以编写代码为基础,但我居然连一台电脑都没有。其实现在看来问题还是可以解决的,现在手机功能很强大,而且对于用惯手机的我来说,手机也不失为一个好选择。但是我出于多方面的长远考虑,还是精心挑选买了一台电脑。可能是基础和兴趣问题吧,我给电脑贴了好看的保护膜和贴纸,像一个昂贵又精致的装饰品,而丧失了它最主要的使用价值。可以说到现在为止,我电脑只有老师帮我安装的一个python软件,其他的办公软件比如WPS、OFFICE等等我都没有,可能为了彰显我电脑的尊贵,这些软件都要付费,当然也可以找别的安装包之类的免费程序,但我太懒,就搁置了。所以现在我斥巨资购入的电脑变成了我的追剧工具,早知道这样,我还不如买个更便宜的iPad,因为它高端的图片处理功能,用它追剧还更爽些。虽然iPad用来办公不太行,但是比较适合艺术编辑之类的人群。华硕的电脑可能就更适合办公人群,但是,我又不办公啊!醒悟这一点的我真的眼泪掉下来。不过我的暑期找实习的经历改变了我的看法。作为一个几乎完全的电脑小白,我找的很多实习,包括最基本的文员,就打杂跑腿的,都需要掌握一些基本的电脑技能,比如PS、WPS、JAVA、PYTHON等等,说实话,我真的蛮挫败的。就好像初中大家都玩qq,我却不玩,觉得那个软件好高端啊,玩那些的都好厉害啊,我估计不行。这种想法在现在的我来看很有些辛酸可笑,但其实我现在面对那些电脑程序的时候,也感觉到了和当年一样的无措。虽然暑期实习的门槛确实有点低,我正经去面试的都通过了,但是出于种种原因(工资,交通)的考虑,我还是去了一家教育机构(不需要电脑知识)实习。当时还有一份我很心动的工作,是在金融小公司做网站资料的更新,说实话,挺简单的,有一定文学基础和电脑基础的都可以,而且办公环境很棒,朝九晚五,周末双休(我最后去的那家单休,而且是八点半到下午六点),简直是我梦寐以求,但我还是拒绝了,拒绝的原因如上。我心里还是失落的,但也更加坚定了我要学习一些电脑技能的决心,人是真的需要有一技之长的,这样在哪儿都能立足。说起来我好像就很喜欢回忆从前,整得我好像七老八十了一样。每次出去玩的时候也是一段难忘的回忆,当然,难忘是因为出去玩,并不是和谁一起。本来我是想专门写一篇游记的,但是太懒了一直没动笔。我觉得旅途的意义可能就是这样了,充满期待的开始,不断磨合的过程,以及之后时时想起的莞尔一笑。喜欢旅游因为就像是来到了一个平行世界,可以放肆玩乐,暂时抛却现有的枷锁。享受去之前充满期待与忐忑的计划与心情,享受每天早上起来在酒店里画一个美美的妆然后出去玩,享受夜里回到酒店然后送到门口的外卖;也享受跟着高德找路的无奈和疲惫,享受看到景点的感慨和治愈,享受着同你共赏的良辰美景与岁月山河。时间真的很残酷,我们的身体开始渐渐衰老,毕竟我们已经开始脱发了。而且我的眼睛已经有了很多细纹,皮肤也变得松弛,我都要自闭了。现在的我对于被叫阿姨开始习惯(忍),对于不喜欢的人和事也变得平淡(忍),可能人越长大就越学会虚与委蛇。说起来我在西安的亲戚,我大一大二常去,觉得他们人好又热心,就像我舅舅舅妈一样,虽然比不得他们亲近,但也是一个可以信赖的存在。但最近这一年,零零总总发生了一些事,让我觉得,人怎么可以能伪装到这种地步,倒也不是多严重的事情,毕竟都是人对吧,都怕麻烦。但我觉得我如果不想麻烦的话,我就算不好意思拒绝,但我也不会装出很真实的欢迎的样子。现在想起来都有点毛毛的。说一件最近的事,我清明没回家就想说让我哥(就是我亲戚)不是刚好回阳平关嘛,就刚好帮我把防晒和伞带回西安。然后我妈给我说我哥还要去绵阳出差,防晒就给我带了,伞有点大就不带了,反正我嫂子是做礼品批发的,她那儿进价四五十的伞市面上也卖一两百,给我拿一把就行了。我说好嘛。结果等我过去拿的时候,我嫂子跟我说,我哥把我的伞在绵阳出差的时候整丢了,就拿他家的伞赔给我了。我当时很疑惑也没有说啥,回来一看伞还是旧的。我不是嫌弃那把伞旧,我只是觉得,我哥在他们家连给我一把伞都要编织一个是自己过错的谎言,而且退一万步讲把我的伞丢了,然后给了我一把他们用惯的旧的,他们再用新的?excus

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论