南开大学(答案)2024春学期(高起本1709-2103、专升本高起专2003-2103)《网络爬虫与信息提取》在线作业_第1页
南开大学(答案)2024春学期(高起本1709-2103、专升本高起专2003-2103)《网络爬虫与信息提取》在线作业_第2页
南开大学(答案)2024春学期(高起本1709-2103、专升本高起专2003-2103)《网络爬虫与信息提取》在线作业_第3页
南开大学(答案)2024春学期(高起本1709-2103、专升本高起专2003-2103)《网络爬虫与信息提取》在线作业_第4页
南开大学(答案)2024春学期(高起本1709-2103、专升本高起专2003-2103)《网络爬虫与信息提取》在线作业_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

24春学期(高起本:1709-2103、专升本/高起专:2003-2103)《网络爬虫与信息提取》在线作业 共50道题总分:100分 100分 单选题 多选题 判断题 一、单选题 共20题,40分 1 2分 PyMongo中逻辑查询表示小于的符号是() A$gt B$lt C$gte$$lte 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: 正则表达式的基本符号 2 2分 Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法 A组件 B模块 C控件 D单元 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: Scrapy与Redis 3 2分 在Linux中哪个命令是添加权限的() Achmod Bsudo Ccp Dmkdir 我的得分:2分 我的答案:A 解析: 暂无内容 4 2分 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击 AXSS BDOS CDDOS D跨域 我的得分:2分 我的答案:C 解析: 暂无内容 相关知识点: 阶段案例——小说网站爬虫开发 5 2分 下列说法错误的是() A小程序的请求极其简单,基本上没有验证信息 B用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。 C如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。 D小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率。 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: 异步加载与请求头 6 2分 Python中列表可以用()方法在末尾添加元素 Aadd Bappend Cplus D+ 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: Python基础 findall方法 Python编译器 7 2分 使用UIAutomatorr点亮屏幕的操作是得到相应控件后使用命令() Awakeup Blight Cbright Dsleep 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: 文件操作 8 2分 ()是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。 Ameta Bhead Cheader Dbody 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: 阶段案例——乐视网爬取视频 9 2分 使用UIAutomator打开微信的操作是获取相应图标后使用命令() Atouch Bclick Cpush Dhover 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: 文件操作 10 2分 Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成 A列表 B元组 C字典 D集合 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: Scrapy的使用 11 2分 HTTP常用状态码表明服务器内部资源出故障了的是() A500 B503 C403 D404 我的得分:2分 我的答案:A 解析: 暂无内容 12 2分 当需要把Python里面的数据发送给网页时,应先将其转换成() AJson字符串 BGET CPOST DRequest 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: Python基础 Python与数据库 Python编译器 13 2分 Redis若要进入交互环境,需要打开终端输入() Aredis-cli Bredis Credis-cmd Dredis-start 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: Redis的使用 14 2分 在Scrapy的目录下,哪个文件负责存放爬虫文件?() Aspiders文件夹 Bitem.py Cpipeline.py Dsettings.py 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: 文件操作 15 2分 Python操作CSV文件可通过()容器的方式操作单元格 A列表 B元组 C字典 D集合 我的得分:2分 我的答案:C 解析: 暂无内容 相关知识点: 文件操作 16 2分 Python正则表达式模块的findall方法返回结果为() A列表 B元组 C字典 D集合 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: findall方法 17 2分 以下关于Charles的说法正确的是() ACharles是一个跨平台的HTTP抓包工具,可以截取HTTP或者HTTPS请求的数据包 BCharles有Windows32/64版和Linux64版,但是目前还没有对MacOS进行有效的支持。 CCharles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标,可以清停止抓包。 D在Charles启动时,系统自带浏览器的部分HTTP流量不会经过Charles。 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: 使用Charles抓取数据包 18 2分 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个() A列表 B元组 C字典 D集合 我的得分:2分 我的答案:C 解析: 暂无内容 相关知识点: MongoDB的使用 MongoDB 19 2分 Redis中读取数据语句lrangechapter03,那么表示读列表中()个值 A2 B3 C4 D5 我的得分:2分 我的答案:C 解析: 暂无内容 相关知识点: Python的条件语句和循环语句 20 2分 Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含() A列表 B元组 C字典 D集合 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: findall方法 二、多选题 共10题,20分 1 2分 一个可行的自动更换代理的爬虫系统,应该下列哪些功能? A有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中 B在发现某个请求已经被设置过代理后,什么也不做,直接返回 C在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用 D周期性验证数据库中的无效代理,及时将其删除 我的得分:2分 我的答案:ACD 解析: 暂无内容 相关知识点: 带权限管理的反向代理 2 2分 Python中有哪些实现多线程方法() Amultiprocess.dummy Bthreading.Thread Cprocess DPyMongoDB 我的得分:2分 我的答案:BA 解析: 暂无内容 相关知识点: findall方法 Python基础 Python编译器 3 2分 以下哪些可以独立成为Python编译器() APycharm BIDLE CEclipse DVisualStudio2010 我的得分:2分 我的答案:AB 解析: 暂无内容 相关知识点: Python编译器 4 2分 网络爬虫的用途有() A收集数据 B尽职调查 C提高流量 D攻击服务器 我的得分:2分 我的答案:ABC 解析: 暂无内容 相关知识点: 网络爬虫的用途 5 2分 HTTP常用状态码表明请求被正常处理的有() A200 B301 C302 D204 我的得分:2分 我的答案:AD 解析: 暂无内容 相关知识点: 请求头 6 2分 下列关于在IOS上配置charles的说法正确的是() A不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。 B手机和电脑需要在同一个局域网下。 CHTTP代理可以使用“自动”选项。 D安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动 我的得分:2分 我的答案:BD 解析: 暂无内容 相关知识点: 使用Charles抓取数据包 7 2分 Python中一个函数没有返回值则可以写() A没有return Breturn CreturnNone DreturnNULL 我的得分:2分 我的答案:ABC 解析: 暂无内容 相关知识点: Python函数的定义和使用 8 2分 最常见的HTTP请求类型有() AGET BPOST CSEND DRECEIVE 我的得分:2分 我的答案:BA 解析: 暂无内容 相关知识点: 请求头 9 2分 HTTP常用状态码表明表明服务器本身发生错误的有() A403 B404 C500 D503 我的得分:2分 我的答案:CD 解析: 暂无内容 10 2分 自动填充验证码的方式有 A手动识别填写 B图像识别 C打码网站 D浏览器自动识别 我的得分:2分 我的答案:BC 解析: 暂无内容 相关知识点: 填充验证码 三、判断题 共20题,40分 1 2分 微信小程序的反爬虫能力要比网页的高很多。 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: App爬虫和小程序爬虫 2 2分 Python中写CSV文件的writerows方法参数为字典类型 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: Python编译器 字典与集合 Python基础 3 2分 Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: Redis的使用 4 2分 UIAutomatorViewer与Pythonuiautomator可以同时使用 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: Python编译器 Python与数据库 Python基础 5 2分 robots.txt是一种规范,在法律范畴内 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: 爬虫开发中的法律和道德问题 6 2分 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。 A对 B错 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: MongoDB MongoDB的使用 7 2分 上课传纸条。A要把纸条传给B,但是A与B距离太远,于是让C来转交纸条。此时,C先篡改纸条的内容再传给B,这是一种类似抓包的方式。 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 8 2分 默认情况下,MongoDB可以通过外网访问 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: MongoDB的使用 MongoDB 9 2分 使用AJAX技术,可以在不刷新网页的情况下更新网页数据 A对 B错 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: 简单的网页爬虫方法 10 2分 Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: 使用Charles抓取数据包 11 2分 如果元组里面只有整数、浮点数、字符串、一个列表,就既不能添加数据,也不能删除数据,还不能修改里面数据的值。 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: 字符串、列表、元组 12 2分 HTTP状态码302表示资源永久重定向。 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 13 2分 对Charles设置代理时,Ip可以设置为,端口为8888. A对 B错 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: 使用Charles抓取数据包 14 2分 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。 A对 B错 我的得分:2分 我的答案:A 解析: 暂无内容 相关知识点: App爬虫和小程序爬虫 15 2分 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: Python的安装和运行 16 2分 PyMongoDB中排序方法sort第二个参数-1表示升序 A对 B错 我的得分:2分 我的答案:B 解析: 暂无内容 相关知识点: findall方法 17 2分 Redis的集合与Python的集合一样,没有顺序,值不重复 A对 B错 我的得分:2分 我的答案:A 解析: 暂无内容 相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论