Python网络爬虫技术项目教程练习题

上传人：q*** IP属地：山东上传时间：2025-03-19 格式：DOCX 页数：6 大小：28.23KB 积分：12 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章爬取静态网页一、选择题1.下列哪个是Request的安装命令？A.pipinstallRequests B.yuminstallRequestsC.piplist D.rpmRequests2.下列哪个属于Request的请求？A.RookieB.TestC.PostD.Session3.以下关于BeautifulSoupfind方法说法正确的是()A.BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库B.BeautifulSoup是一个C++库C.BeautifulSoup是支持C语言调用D.BeautifulSoup是支持Java语言调用4.以下选项中不是Python数据分析的第三方库的是（）A.numpyB.scipyC.pandasD.requests5.对Scrapy描述正确的是（）A.一个Scrapy项目只能创建一个爬虫B.一个Scrapy项目只能使用一管道C.爬虫与管道之间传递数据不使用item子类D.爬虫与管道之间传递数据使用item子类简答题1.请简述Requests的基本功能2.Cookies的定义？3.简述从Response对象（r）中可以获取到的内容4.简述一下BeautifulSoup的作用5.简述Scrapy架构中包含的组件第二章爬取动态网页一、选择题1.下列关于scrapy爬虫的表述有误的是（）A.Scrapy可用XPath表达式分析页面结构 B.Scrapy可以用于数据挖掘、监测和自动化测试C.Scrapy源码中默认callback函数的函数名就是parse D.Scrapy使用了Twisted同步网络库来处理网络通讯2.下列关于JSON支持是的数据结构，哪项是不正确的是？（）A.名/值对集合：这一数据结构由不同的键值对组成。B.无序的对象结构：多个名称/值构成的封装体，类似字典表。C.有序的对象结构：规整的文本文档、Execl等D.有序的值列表：包括数组，列表，向量或序列等等。3.下列哪个不属于JSON的数据类型（）A.NumberB.StringC.CharD.Value4.下列关于loads转化JSON数据转换为Python对象，错误的是（）A.object–dictB.array–stringC.number(int)–int、longD.true--True5.下列对WebDriver=组件，说法错的是：A.API:应用程序编程接口。这是一组用来操作WebDriver的“命令”。B.库:一个代码模块，它只包含api和实现这些api所需的代码。C.驱动程序:负责控制实际的浏览器。大多数驱动程序是由浏览器厂商自己创建的。驱动程序通常不是是与浏览器一起在系统上运行的可执行模块，而是在执行测试套件的系统上。D.框架:用于支持WebDriver套件的附加库。二、简答题1.简述JSON对象的书写方式2.简述JSON的基本概念3.PhantomJS的特点4.简述Selenium框架的作用5.简述WebDriver的定位策略第三章爬取APP数据一、选择题1.以下哪一个功能面板不属于Fiddler的主界面面板（） A.工具面板B.监控面板C.通讯面板D.状态面板2.以下哪一个是Windows查看IP地址的命令（） A.ipconfigB.ifconfigC.ipaddrD.ipaddrroute3.对Http请求方式描述正确的是（） A.POST请求可以传递大于2M的数据B.GET请求可以传递大于2M的数据C.POST请求可以传递没有限制D.GET请求可以传递没有限制4.以下关于http协议响应行中状态码说法正确的是（） A.200表示正常B.403表示请求资源未找到C.404表示请求资源无权访问D.500请求方法不正确5.捕获通过HTTPS发送的数据，需要启用HTTPS流量解密。配置项位于（） A.Tools>Options>GeneralB.Tools>Options>HTTPSC.Tools>Options>AppearanceD.Tools>Options>Tools二、简答题1.简述Fiddler的功能2.Fiddler的主界面监控面板中，Web会话性能统计信息可以直接在监控面板中的什么窗口查看？3.Fiddler的主界面监控面板中，Web网络会话内容可以直接在监控面板中的什么窗口查看？4.查看一个或多个Web会话的传输时间线的瀑布图可以直接在监控面板中的什么窗口查看？5.简述Fiddler的主界面面板第四章反爬虫策略以及解决办法一、选择题1.以下哪一种是教材中未提及的反爬虫策略？（） A.Headers； B.Cookies； C.Proxies； D.Socket；2.Headers的（）自动保存并设置链路？ A.User-Agent B.Referer C.get D.url3.在爬取有些网页是要求登录之后的才能爬取，所以要和服务器一直保持登录状态，有时的策略不都指定cookies，而是会使用（）来完成 A.requestsB.post请求C.headerD.session4.哪个方法不适合应对服务器封禁IP（）？ A.使用静态IP B.做更完善的设置，避免浏览器识别并封禁IPC.使用代理IPD.设置好访问时间间隔，避免服务器压力过大5.Pytesseract具有的函数中，其中最常用，也最直接识别验证码的函数是：？ A.get_languages B.image_to_boxes C.image_to_string D.image_to_alto_xml二、简答题1.简述三种反爬虫策略以及其反爬策略内容2.简单介绍Tesseract，并列举出Pytesseract的函数第五章反爬策略优化一、选择题1.以下哪一个不属于Redis的value数据类型A.StringB.ListC.DictD.Hash2.以下关于RedisKeys命令组的基本命令描述错误的是（） A.DUMPkey-----废除key所对应的键值对 B.EXISTSkey[key...]-----查询一个key是否存在 C.EXPIREkeyseconds-----设置一个key的过期的秒数 D.DE

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Python网络爬虫技术项目教程练习题

文档简介

温馨提示

最新文档

评论

Python网络爬虫技术项目教程 练习题

文档简介

温馨提示

最新文档

评论

相关文档

Python网络爬虫技术项目教程练习题