Python网络爬虫与数据采集试题1_第1页
Python网络爬虫与数据采集试题1_第2页
Python网络爬虫与数据采集试题1_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python网络爬虫与数据采集试题选择题(每题2分)1、下列哪个选项不属于HTTP协议的请求方法?()GETPUSHPUTPOST下列哪个HTML标签可以设置超链接?()<p><div><a><h1>正则表达式“\d{3}-\d{8}|\d{4}-\d{8}”能匹配下列哪个字符串?()010-123456780432-12345670101234567804321234568Requests库中,可以查看响应状态码的方法是()textencodingcookiesstatus_code关于JavaScript说法不正确的是()JavaScript是一种面向对象、动态类型的解释性语言JavaScript主要运行在网站服务器上浏览器中的页面是在HTML的基础上经过JavaScript加工处理后生成的JavaScript可以写在HTML的<script>标签中下列NumPy方法中,能够将两个二维数组横向拼接的是()matinvvstackhstack以下不是Scrapy框架组件的是()‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬EngineSchedulerProcesserPipeline在Scrapy框架中,Downloader下载页面内容后结果经Engine发送到哪个组件?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬()‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬SpidersPipelineScheduler以上均不正确Scrapy项目的settings.py文件中,指定log的最低级别的设置项是()BOT_NAMEDOWNLOAD_DELAYLOG_LEVELUSER_AGENTRequestHeader中指定是否需要持久连接的是()AcceptRefererRangeConnection判断题(每题2分)Python字符串操作中的strip方法可以去掉字符串左、右侧的空格()python_whois库可以查询网站所有者的相关信息()正则表达式中“$”匹配前面的子表达式0次或1次()SQL是一种小巧易用的轻量型关系数据库系统()pandas中的Series数据类型的特点是相比普通的一维数组能存放更多数据()Matplotlib可以用于绘制图表。()Selenium是一个专门用于开发Python爬虫的浏览器()Selenium中模拟键盘输入的函数是send_keys()()Python自带的单元测试模块是unittest()某同学认为自己开发的爬虫对网站的影响很小,可以忽略robots.txt中的内容()三、填空题(每题2分)旨在让网站访问者(或访问程序)了解该网站的信息抓取限制。HTTP请求中的方法向指定资源提交数据进行处理请求。正则表达式中表示匹配任意数字的是“”。Chrome开发者工具中的面板主要用来调试JavaScript。网络API使用约定和格式呈现数据。是一个开源的键值对存储数据库。可以操纵浏览器进行一些类似于普通用户的行为。浏览器一般把Cookie数据放在HTTP请求中的数据中。可以类似jQuery的形式解析网页,并支持CSS选择器。验证码的英文名称缩写为。四、简答题(每题4分)1.请使用正则表达式匹配下列字符串(1)只能输入数字。(2)只能输入非零的正整数(3)只能输入长度为3的字符(4)只能输入由26个大写英文字母组成的字符串(5)只能输入由26个英文字母组成的字符串2.请简述HTTP请求中的GET、HEAD、POST、PUT和DELETE方法(4分)3.请举例说明5种反爬虫的方式(4分)请简述Scrapy包含的组件及其功能。(至少举出5个组件)(4分)5.请说明Scrapy爬虫

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论