《Python网络爬虫技术（第2版）（微课版）》习题池瑞楠

上传人：y*** IP属地：山东上传时间：2024-06-04 格式：DOCX 页数：13 大小：59.23KB 积分：20 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

项目

了解爬虫与Python爬虫环境选择题（1）下列不属于常见爬虫类型的是（）。A．通用网络爬虫 B．增量式网络爬虫C．表层网络爬虫 D．聚焦网络爬虫（2）下列不属于增量式网络爬虫的常用方法的是（）。A．统一更新法 B．个体更新法C．基于分类的更新法 D．基于聚合的更新法（3）下列不属于反爬虫的手段是（）。A．发送模拟User-Agent B．提高访问频度C．识别验证码 D．使用代理IP地址（4）下列选项中合法的是（）。A．爬取百度的搜索结果 B．爬取淘宝上竞争对手的商品销售数据C．出售网站用户的个人信息 D．为电信诈骗分子提供技术服务（5）下列关于Python爬虫库的功能，描述不正确的是（）。A．通用爬虫库—urllib3 B．通用爬虫库—RequestsC．爬虫框架—Scrapy D．HTML/XML解析器—urllib（6）下列是Python自带的IDE是（）。A．VSCode B．PyCharm C．JupyterNotebook D．IDLE（7）下列关于数据库描述错误的是（）。A．在Linux操作系统下，查看MySQL8.0.13数据库默认密码的命令是：grep'password'/var/log/mysqld.logB．在Windows操作系统下，启动MySQL服务的命令是：servicemysqldstartC．在Windows操作系统下，MySQL的端口号默认是3306D．MongoDB介于关系数据库和非关系数据库之间，是最为接近关系数据库的、功能最丰富的非关系数据库

项目

爬虫基础知识准备1．选择题（1）下列哪个HTML标签可以实现图片的加载？（）A．<img></img> B．<p></p> C．<src></src> D．<h1></h1>（2）在网页中，正文内容一般都放在哪个标签中？（）A．<!DOCTYPE> B．<html></html>C．<head></head> D．<body></body>（3）在超链接标签<a></a>中，通过属性（）来指定超链接跳转到的网址。A．href B．src C．class D．id（4）下列不属于HTTP请求方法的是（）。A．GET B．POST C．TRACE D．OPTION（5）HTTP状态码由3位数字组成，下列哪个不是常见的客户端请求成功的状态码？（）A．404 B．503 C．333 D．200（6）HTTP头部类型按用途不包括下列哪个类型？（）A．通用头 B．回复头 C．请求头 D．响应头（7）Cookie存储在（）。A．服务器端 B．客户端浏览器C．客户端和服务器端 D．不保存2．操作题（1）使用浏览器打开百度首页“”，查看网页的源代码，分析网页的基本结构和网页中用到的标签。（2）使用开发者工具查看访问百度首页“”的过程中，资源加载的情况。分析请求方法、响应状态码、头部信息字段及Cookie信息。

项目

简获1．选择题（1）使用Chrome开发者工具查看User-Agent值时，通常通过哪个面板查看？（）A．“元素”面板 B．“源代码”面板C．“网络”面板 D．“内存”面板（2）使用requests.get()发送请求时，下列哪个参数是必须的？（）A．url B．header C．headers D．method（3）当使用Xpath定位下面代码中的<p></p>标签时，下列哪个选项的Xpath规则是正确的？（）<html><body><divid="author"class="name"><pclass="detail">Lucy</p></div></body></html>A．//div[class="name"]/p B．//div[@class="name"]/pC．//p[@id="author"] D．/html/body/p（4）使用BeautifulSoup的select()方法定位第（3）题中的<p>标签，下列哪个选择器的写法是正确的？（）A．p#detail B．>p C．<p D．div#author//p（5）将正则表达式写成[0-9]*[abc]，可以匹配下列哪个字符串？（）A．123? B．123*a C．1ab D．1a（6）下列关于JSON模块描述错误的是（）。A．dumps函数返回的结果是一个字符串B．dump函数将JSON对象转换为Python对象C．将数据存储为JSON文件是一个编码过程D．JSON模块可实现在Python中对JSON编码及解码的两种操作（7）在pymysql.connect函数中，下列哪个参数用来接收要建立连接的数据库库名？（）A．password B．user C．database D．host2．操作题通过使用Xpath或BeautifulSoup库，获取虎扑—历史栏目中各帖子的标题、标题的超链接地址。同时，在本地数据库中新建一个html_text表，要求该表有两列，列名为“标题”“链接”，分别用于存储标题和标题相对应的链接。将爬取下来的多个帖子的数据按行插入html_text表中，并查看数据是否存储成功。项目

爬取动态网页—获取图书基本信息1．选择题（1）Selenium库不支持下列哪个浏览器？（）A．QQ浏览器 B．Chrome浏览器C．Edge浏览器 D．Firefox浏览器（2）当使用Selenium库的find_element()方法定位单个元素时，哪种是依据标签中的文本内容定位？（）A．By.ID B．By.XPATH C．By.LINK_TEXT D．By.NAME（3）当通过逆向分析定位数据所在的网址时，需要用到的面板是（）。A．“元素”面板 B．“控制台”面板C．“网络”面板 D．“安全”面板（4）若需要定位文本输入框，并向其中输入文字，需要加载下列哪个模块？（）A．frommon.keysimportKeysB．frommon.keysimportKeyC．frommon.keyimportKeysD．frommonimportKeys（5）若A．click() B．send_key() C．clicks() D．send_keys()（6）若单击某链接，打开了一个新窗口，想要截图新窗口中内容，则需要（）。A．直接截图B．获取窗口句柄、切换到新窗口、截图C．获取窗口句柄、截图D．不需要窗口句柄、直接切换到新窗口、截图（7）下列哪条代码不能成功连接到MongoDB数据库（）。A．pymongo.MongoClient()B．pymongo.MongoClient(27017)C．pymongo.MongoClient('localhost')D．pymongo.MongoClient('localhost',27017)2．操作题（1）内推是企业一种比较新颖的招聘方式，通过内推能够让人才更高效、自由的流动，使招聘变得更有效率、更具情感。通过逆向分析法获取泰迪内推平台首页“/#/index”中“热门职位”栏下的职位名称。（2）使用Selenium库打开中国新闻网官网“”，获取当前页面中的导航标题、标题对应的超链接网址，并将获取到的文本内容存储到MongoDB数据库中。

项目

模拟登录—登录某企业官网1．选择题（1）验证码的作用不包括（）。A．防止恶意破解密码B．防止机器刷票C．防止论坛“灌水”D．防止恶意访问网站（2）表单登录需要使用的请求方法是（）。A．GET B．POST C．PUT D．DELETE（3）【多选题】使用Requests库的get()方法设置发送请求，携带Cookie的参数是cookies，它接收的数据类型包括（）。A．dict B．CookieJar C．list D．str（4）关于LWPCookieJar对象，下列说法错误的是（）。A．用于存储和加载Cookie B．存储Cookie的方法是save()C．加载Cookie的方法是load() D．FileCookieJar是LWPCookieJar的子类（5）在PIL库的Image模块中，加载图像的方法是（）。A．open() B．save() C．load() D．crop()2．操作题查找名著小说网的提交入口并采取不同的方式进行模拟登录。

项目终端协议分析——爬取某音乐PC客户端和App客户端数据1．选择题（1）Fiddler是一个基于（）的调试代理工具，它能够记录并检查电脑和互联网之间的HTTP通信，设置断点，查看所有的“进出”Fiddler的数据（如Cookie、HTML、JS、CSS等文件）。A．HTTP B．HTML C．IP D．TCP（2）Fiddler工具抓取到的包的数据类型是（）。A．CSV B．JSON C．YAML D．XML（3）【多选题】在Fiddler的请求信息“Raw”上，显示的数据是（）。A．Headers B．HTML C．Body D．Center（4）【多选题】Fiddler是一款功能强大的抓包工具，用于记录客户端与服务器端之间的所有HTTP（及HTTPS）请求的通信数据，它的主要功能有（）。A．抓包 B．改包 C．模拟各种客户端 D．弱网测试2．操作题使用Fiddler工具抓取移动端访问墨滴网站的数据包，并修改移动端请求参数和响应结果，具体要求如下。（1）Wi-Fi环境下，在移动端中安装Fiddler证书，并使用浏览器访问墨滴网站。（2）在PC端配置Fiddler工具，并使用Fiddler工具抓取同一子网中移动端访问墨滴网站的相关数据包。（3）使用Fiddler的断点操作实现修改移动端请求参数和响应结果。

项目

使用Scrapy爬虫—爬取某企业官网新闻动态1．选择题（1）下列Scrapy爬虫框架的组件描述错误的是（）。A．引擎组件是整个爬虫的调度中心B．Spider中间件的主要功能是处理Spiders的输入和输出C．调度器会自动去除重复的URLD．下载器中间件的主要功能是获取网页内容，并将其提供给引擎和Spiders（2）下列对Scrapy数据流向描述错误的是（）。A．引擎仅需要负责打开一个网站，并找到该网站的Spiders，并向该Spiders请求第一个要爬取的URLB．调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载器中间件（请求方向）转发给下载器C．Spiders处理响应并返回爬取到的Items及（跟进的）新的请求给引擎解析中间件D．一旦网页下载完毕，下载器会生成一个该网页的响应，并将其通过下载器中间件（响应方向）发送给引擎（3）下列不属于Scrapy全局命令的是（）。A．startproject B．shell C．list D．settings（4）下列对Scrapy爬虫项目目录说法错误的是（）。A．spiders目录用于存放用户编写的爬虫脚本B．items脚本定义了一个Item类，能够存储爬取到的数据C．settings脚本用于设置中间件D．pipelines脚本定义了一个pipeline类，可以根据需求将数据保存至数据库、文件等（5）下列对Scrapy的设置说法错误的是（）。A．Scrapy设置允许自定义所有Scrapy组件的行为，包括核心、扩展、管道和爬虫本身B．DOWNLOAD_DELAY设置能够限制爬取的速度C．HTTPCACHE_ENABLED设置能够启用HTTP缓存，并设置路径D．DOWNLOADER_MIDDLEWARES设置能够激活用户定制的下载器中间件（6）【多选题】为了创建一个Spider，必须继承scrapy.Spider类，并定义（）这3个属性。A．name B．sta

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《Python网络爬虫技术（第2版）（微课版）》习题池瑞楠

文档简介

温馨提示

最新文档

评论

《Python网络爬虫技术（第2版）（微课版）》习题 池瑞楠

文档简介

温馨提示

最新文档

评论

相关文档

《Python网络爬虫技术（第2版）（微课版）》习题池瑞楠