大数据采集与处理复习试题有答案_第1页
大数据采集与处理复习试题有答案_第2页
大数据采集与处理复习试题有答案_第3页
大数据采集与处理复习试题有答案_第4页
大数据采集与处理复习试题有答案_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页大数据采集与处理复习试题有答案1.下列选项中,在JSONPath中表示选取根对象的是()A、$B、/C、@D、*【正确答案】:A2.关于BeautifulSoup的描述,说法错误的是()。A、BeautifulSoup是一个用于从HTML或XML文档中提取目标数据的Python库B、BeautifulSoup支持CSS选择器C、BeautifulSoup可以将HTML或XML文档、片段转换成节点树D、BeautifulSoup会将整个节点树看作一个Python类的对象【正确答案】:D3.下列选项中,关于动态页面的描述说法错误的是()A、动态网页的内容不一定呈现在网页源代码中。B、动态网页的访问速度相较于静态网页更快。C、采用动态网页技术的网站可以实现更多的功能,如用户注册、用户登录等功能D、动态网页相比静态网页,动态网页有数据库支撑。【正确答案】:B4.下列XPath路径表达式中。用于选取第一个app元素的是()A、/appstore/app(1)B、/appstore/app(first)C、/appstore/app[1]D、/appstore/app[first]【正确答案】:C5.lxml库中,用于解析xml文件的方法是()A、etree.parse()B、etree.XML()C、etree.HTML()D、etree.fromstring()【正确答案】:A6.关于CSS选择器的描述,说法错误的是()A、类别选择器是根据类名选择元素,类名前面用“.”进行标注B、ID选择器是根据特定ID选择元素,ID前面加上“$”进行标注C、属性选择器是根据元素的属性选择元素,属性必须用中括号进行包裹D、元素选择器是根据元素名称选择元素【正确答案】:B7.selenium中,用于关闭浏览器对象的是()。A、driver.cancel()B、driver.exit()C、driver.quit()D、driver.close()【正确答案】:C8.下列选项中,用于查看响应状态码的属性是()。A、contentB、headersC、textD、status_code【正确答案】:D9.能将’baidu_logo.png’正确的保存到文件中的代码是()A、withopen('baidu_logo.png','wb')asfile:B、withopen('baidu_logo.png','w')asfile:C、withopen('baidu_logo.png','wr')asfile:D、withopen('baidu_logo.png','a+')asfile:【正确答案】:A10.关于Requests库中get()函数的说法错误的是()。A、get()函数既可以发送GET请求也可以发送POST请求B、get()函数中参数url是必选参数,该参数含义为请求地址C、get()函数会根据传入的URL构建一个请求D、使用get()函数发送GET请求时可以携带请求参数【正确答案】:A11.当正则表达式中包含能接受重复的限定符时,匹配尽可能少的字符,这被称为()。A、贪婪匹配B、懒惰匹配C、占有匹配D、随机匹配【正确答案】:B12.下列选项中,关于设置代理服务器目的的说法正确的是()A、加快网络爬虫抓取数据的速度B、识别网站验证码C、降低访问网站速度D、防止IP被封禁【正确答案】:D13.下列选项中,关于静态页面的描述说法错误的是()。A、静态网页的交互性较差,在功能方面有较大的限制B、静态网页的访问速度快,访问过程中无需连接数据库C、静态网页没有数据库的支持,内容更新与维护比较复杂D、静态网页的内容可根据用户信息进行定制化展示【正确答案】:D14.下列选项中,关于Cookie的描述错误的是()。A、Cookie是一段文本数据,由一个名称和一个值组成B、Cookie的生存期可以由开发人员设置C、Cookie数据存储在网站服务器中D、Cookie是为了网站辨别用户身份、进行会话跟踪而存储的数据【正确答案】:C15.GET请求方法通过请求参数传输数据,最多能传输的数据量是()A、2KBB、4KBC、1MD、无限制【正确答案】:A16.关于JSONPath的描述,说法错误的是()。A、JSONPath只适用于JSON文档B、JSONPath提供了描述JSON文档层次结构的表达式C、JSONPath提供的语法与XPath提供的语法相同D、JSONPath可以看作定位目标对象位置的语言【正确答案】:C17.下列选项中,用于标识客户端身份的是()A、HOSTB、User-AgentC、AcceptD、Refere【正确答案】:B18.()会将数据包原封不动地转发给服务器,让服务器认为当前访问的用户只是一个普通客户端,而不是代理服务器。A、高度匿名代理服务器B、普通匿名代理服务器C、透明代理服务器D、所有选项均不对【正确答案】:A19.关于正则表达式的描述,说法错误的是()A、一条正则表达式也称为一个模式。B、正则表达式匹配HTML时会根据其层次结构进行匹配。C、正则表达式由普通字符、元字符或预定义字符集组成。D、正则表达式是对字符串操作的一种逻辑公式。【正确答案】:B20.下列正则表达式中,表示只能匹配任意数字的是()。A、\wB、\sC、\dD、\b【正确答案】:C21.下列响应头中,用于告诉客户端资源文件的类型和编码的是()。A、ConnectionB、Content-EncodingC、Content-TypeD、Server。【正确答案】:C22.下列选项中,关于处理响应的描述说法错误的是()A、当服务器返回的响应状态码为200时,表明可以接收到由服务器返回的响应信息。B、Response类的对象中封装了服务器返回的响应信息。C、响应内容中只能包含文本内容。D、若想获取响应的最终URL,可通过url属性获取。【正确答案】:C23.以下Python语言关键字在异常处理结构中用来捕获特定类型异常的选项是()A、forB、lambdaC、inD、expect【正确答案】:D24.下列不能匹配任意字符的正则表达式是()A、[\d\D]B、[\w\W]C、[\s\S]D、[\a\A]【正确答案】:D25.XPath路径表达式中,在搜索节点是会忽略层级关系的是()。A、/B、//C、[]D、@【正确答案】:B26.下列选项中,表示超文本传输协议的是()A、FileB、HTTPC、FTPD、Mailto【正确答案】:B27.下列选项中,被称为主题网络爬虫的是()。A、增量式网络爬虫B、通用网络爬虫C、深层爬虫D、聚焦网络爬虫【正确答案】:D28.requests库中,get()函数能用于设置是否启用SSL证书的参数是()。A、urlB、headersC、verifyD、proxies【正确答案】:C29.https的端口号是()A、80B、8080C、443D、433【正确答案】:C30.以下关于列表操作的描述,错误的是()A、通过append方法可以向列表添加元素B、通过extend方法可以将另一个列表中的元素逐一添加到列表中C、通过insert(index,object)方法,在指定位置index前插入元素D、通过add方法可以向列表添加元素【正确答案】:D31.下列选项中,关于聚焦网络爬虫的描述错误的是()。A、聚焦网络爬虫会随机抓取网页与主题相关的数据B、聚焦网络爬虫比通用网络爬虫目的性更强C、聚焦网络爬虫会根据一定的网页分析算法对网页进行筛选D、聚焦网络爬虫会根据预先设定的主题顺着某个垂直领域进行抓取【正确答案】:A32.下列哪个正则表达式与1\d{5,9}不相同()A、[1]\d{5,9}B、1[0-9]{5,9}C、1[0123456789]{5,9}D、[1]\D{5,9}【正确答案】:D33.下列选项中,关于设置代理服务器的描述错误的是()A、降低单个IP访问频率B、防止IP被封禁C、加快访问网站的速度D、代理IP的寿命是有限的【正确答案】:C34.URL地址'?ie=utf-8&wd=python',其中属于表示查询字符串的是()A、ie=utf-8&wd=pythonB、httpsC、D、wd=python【正确答案】:A35.使用xpath获取文本使用()。A、textB、text()C、contentD、content()【正确答案】:B36.关于jsonpath模块的描述,说法错误的是()。A、jsonpath是一个解析JSON文档的模块B、jsonpath()函数根据JSONPath的表达式定位目标对象C、jsonpath函数会返回包含解析后的结果的列表D、jsonpath模块可以解析XML文档中的数据【正确答案】:D37.下列选项中,关于网络爬虫合法性探究的描述说法错误的是()A、Robots协议又称爬虫协议B、Robots协议能够有效防范网络爬虫C、爬虫会给网站增加不小的压力D、Robots协议没有实际的约束力【正确答案】:B38.在匹配嵌套了HTML内容的文本时,会忽略HTML内容本身存在的层次结构的解析语言是()A、正则表达式B、XPathC、BeautifulSoupD、所有选项均正确【正确答案】:A39.下列选项中,关于Selenium的描述说法错误的是()A、Selenium是一个开源的、便携式的自动化测试工具。B、Selenium可以模拟用户使用浏览器完成一些动作。C、Selenium最初的目的是为了便于网络爬虫抓取动态网页数据。D、Selenium需要通过浏览器驱动程序WebDriver才能与所选浏览器进行交互。【正确答案】:C40.关于定制请求头的描述说法错误的是()。A、参数headers可以接收列表类型的数据B、定制的请求头需要由参数headers中传递C、get()函数和post()函数均可以添加定制请求头D、定制请求的目的是将发送的请求伪装成浏览器发送的请求【正确答案】:A41.下列选项中,表示图像标签的是(D)。A、<html>B、<h1>C、<p>D、<img>【正确答案】:D42.下列选项中,不属于防爬虫策略的是()。A、添加User-agent字段B、降低访问频率C、反复使用同一IP抓取数据D、识别验证码【正确答案】:C43.下列选项中,不属于请求行组成的是()。A、请求方法B、URLC、协议版本D、请求数据【正确答案】:D44."发布人:张三□□发布时间:2022-11-18□□来源:图情信息中心".split('□□')的执行结果是()A、['发布人:张三','□','发布时间:2022-11-18','□','来源:图情信息中心']B、['发布人:张三','发布时间:2022-11-18','来源:图情信息中心']C、('发布人:张三','□','发布时间:2022-11-18','□','来源:图情信息中心')D、('发布人:张三','发布时间:2022-11-18','来源:图情信息中心')【正确答案】:B45.请阅读下列一段示例程序:importrequestsurl="/"response=Requests.get(url)response.encoding='ISO-8859-1'print(response.text)上述程序运行后,会使用哪种编码方式返回文本()。A、utf-8B、gbkC、gbk2312D、ISO-8859-1【正确答案】:D46.以下XPath谓语中,能获得满足条件的第一个节点的是()A、[0]B、[1]C、[first()]D、[min()+1]【正确答案】:B47.下列选项中,属于Selenium访问指定URL地址的方法是()A、get()B、post()C、head()D、put()【正确答案】:A48.下列选项中,关于检测代理IP有效性的描述说法错误的是()。A、当使用代理访问网站时,返回的状态码为200时表示代理可用B、当代理无效时,不能返回响应信息C、使用的代理IP通过参数proxies传递D、post()函数无法使用代理ip【正确答案】:D49.关于抓取静态网页实现技术的说法,下列描述错误的是()A、如果要抓取静态网页的数据,只需要获得网页的源代码即可。B、通过urllib、urllib3和Requests等库抓取静态网页数据。C、Requests库只能发送网络请求不能获取网页源码。D、抓取静态网页数据的整个过程是模仿用户通过浏览器访问网页的过程。【正确答案】:C50.下列选项中,用于以二进制形式获取响应内容的属性是()A、status_codeB、textC、contentD、string【正确答案】:C51.【】img标签中的什么属性,用于指图片地址。()。A、srcB、hrefC、titleD、alt【正确答案】:A52.的元素的表达式是()Selenium中,能查找A、find_element_by_css_selector('hello')B、find_element_by_class_name('hello')C、find_element_by_tag_name('hello')D、find_element_by_name('hello')【正确答案】:D53.selenium中,浏览器对象往网页的输入框中输入文字需要调用的方法是()。A、get()B、save_screenshot()C、send_keys()D、find_element_by_id()【正确答案】:C54.正则表达式[a-z].*3可以配置abc3abc3a3几次()。A、0B、1C、2D、3【正确答案】:B55.下列选项中,不属于Python开发网络爬虫优势的是()A、语法简洁,容易上手B、开发效率高C、丰富的模块D、运行速度快、性能强【正确答案】:D56.下列选项中,关于HTTP协议的描述说法错误的是()。A、HTTP协议能够高效准确的传送超文本资源B、若协议类型为HTTP,则每次连接可以处理多个请求C、HTTP协议中的每个请求都是独立的D、HTTP协议用于将Web服务器的超文本资源传送到浏览器中【正确答案】:B57.下列选项中,表示向服务器提交表单或上传文件的请求方法是()A、GETB、POSTC、HEADD、PUT【正确答案】:B58.下列选项中,BeautifulSoup使用CSS选择器的方法是()A、search()B、findall()C、find()D、select()【正确答案】:D59.关于XPath的描述,说法错误的是()A、XPath基于XML或HTML的节点树定位目标节点所在的位置。B、XPath是一种用于确定XML文档中部分节点位置的语言。C、XPath匹配节点的方式与正则表达式匹配字符串的方式类似。D、XPath通过路径表达式可以快速地定位与选取XML或HTML文档中的一个节点或者一组节点集。【正确答案】:C60.下列选项中,不属于HTML元素组成的是()。A、开始标签B、内容C、样式D、结束标签【正确答案】:C61.下列选项中,关于网络爬虫实现技术的描述错误的是()。A、只有Python语言能够实现爬虫程序B、使用Python开发网络爬虫程序效率相对其他语言更高C、使用C++语言开发网络爬虫程序代码成型速度慢D、Java提供了众多解析网页的技术,对网页解析有着良好的支持【正确答案】:A62.阅读下面的程序:ImportjsonDemo_dict={"city":"北京","name":"小明"}Print(json.dumps(demo_dict,ensure_ascii=False))运行程序,程序最终输出的结果为()。A、{"city":"北京","name":"小明"}B、{"city":"\u5317\u4eac","name":"\u5c0f\u660e"}C、{}D、运行错误【正确答案】:A63.requests库中,proxies参数传入一个字典,该字典中包含了所需要的代理IP,其中字典的键为A、getB、ip地址C、协议类型(http或https)D、post【正确答案】:C64.关于响应状态码的描述说法错误的是()。A、响应状态码代表服务器的响应状态B、响应状态码的作用是告知客户端请求Web资源的结果C、若服务器发生错误,用户便无法获取响应状态码D、当响应状态码为200时表示服务器接收请求并成功处理【正确答案】:C65.re模块中,对正则表达式进行预编译,从而生成一个代表正则表达式的Pattern对象()。A、re.pattern()B、re.split()C、re.run()D、pile()【正确答案】:D66.下列选项中,关于Requests库post()函数的说法错误的是()A、如果请求数据类型为Json可通过参数json传递。B、post()函数会根据传入的URL构建一个请求并将该请求发送给服务器。C、post()函数通过参数data携带请求数据。D、post()函数既可以发送GET请求也可以发送POST请求。【正确答案】:D67.下列状态码中,表示服务器拒绝访问的是()。A、402B、403C、404D、405【正确答案】:B68.下列选项中,用于解析域名的协议是()。A、HTTPB、DNSC、FTPD、SMTP【正确答案】:B69.下列选项中,表示匹配的字符串开头元字符是()A、*B、^C、$D、[]【正确答案】:B70.下列选项中,表示匹配前导字符0次或1次的是()A、?B、*C、+D、{n}【正确答案】:A71.以下选项中是HTTP请求行的是()A、GET/HTTP/1.1B、Connection:keep-aliveC、Accept-Language:zh-CN,zh;q=0.9D、User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)...【正确答案】:A72.bs4中,若已找到节点并存放于变量x中,能获取节点内容的是()A、x.textB、x.contentC、x.htmlD、x.attrs【正确答案】:A73.关于浏览器加载网页过程的说法,下列描述错误的是()A、浏览器通过DNS服务器查找被访问服务器对应的IP地址。B、浏览器向DNS服务器解析的IP地址发送HTTP请求。C、Web服务器将响应的HTML页面返回给DNS服务器。D、浏览器会对HTML页面进行渲染并呈现给用户。【正确答案】:C74.下列选项中,用于在GET请求中传递查询字符串的是()。A、paramsB、headersC、verifyD、timeout【正确答案】:A75.下列选项中,表示内容类型的字段是()。A、Cache-ControlB、ConnectionC、Content-EncodingD、Content-Type【正确答案】:D76.以下哪个选项是文件传输协议,访问共享主机的文件资源()。A、FileB、FTPC、HTTPD、Mailto【正确答案】:B1.CSS用于向网页中添加交互行为。()A、正确B、错误【正确答案】:B2.Python中的open()函数可以用于打开网页并读取网页内容。()A、正确B、错误【正确答案】:B3.POST请求的请求参数会暴露在URL地址中。()A、正确B、错误【正确答案】:B4.在BeautifulSoup中,.get_text()方法会返回标签内所有文本内容,但不包括任何子标签的内容。()A、正确B、错误【正确答案】:B5.在HTTP请求中,GET方法比POST方法更适合传输大量数据。()A、正确B、错误【正确答案】:B6.get方法相比post方法能携带更多信息。()A、正确B、错误【正确答案】:B7.在BeautifulSoup中,soup.find_all('div',class_='header')[1]会返回所有Class='header'的div标签中的第一个元素。()A、正确B、错误【正确答案】:B8.JSONPath表达式$..*可以用来获取JSON对象中所有字段的值。()A、正确B、错误【正确答案】:A9.Selenium启动浏览器后,浏览器的窗口默认以最大化的形式显示。()A、正确B、错误【正确答案】:B10.在XPath中,@*表示选取所有属性,而//*表示选取所有节点。()A、正确B、错误【正确答案】:A11.在实际应用中,文件存储和数据库存储各有利弊,文件存储比较适合中小型网络爬虫,数据库存储比较适合大型网络爬虫A、正确B、错误【正确答案】:A12.Robots协议可以从根本上约束爬虫程序。()A、正确B、错误【正确答案】:B13.soup.find('div',class_='header').find_all('p')可以选取class='header'的div标签下所有p标签。()A、正确B、错误【正确答案】:A14.JSONPath只能解析JSON格式的数据。()A、正确B、错误【正确答案】:A15.服务器端可以记住用户的登录状态,因此HTTP协议自身具有保持会话状态的功能。()A、正确B、错误【正确答案】:B16.soup.select('div.header>p')会选择所有div标签下类名为header的元素的直接子元素p标签。()A、正确B、错误【正确答案】:B17.HTTP协议是无状态的,这意味着每次请求都是独立的,不会记住之前的请求信息。(√)A、正确B、错误【正确答案】:A18.soup.select('div#header')用于选取页面中第一个id='header'的div标签。()A、正确B、错误【正确答案】:B19.soup.find('p',{'class':'intro'}).find('a')会选取class='intro'的p标签下第一个A标签。()A、正确B、错误【正确答案】:A20.requests.get()方法可以用来发送GET请求并返回一个包含响应内容的对象。()A、正确B、错误【正确答案】:A21.re模块在提取HTML标签中的特定信息时比BeautifulSoup或lxml会更高效。()A、正确B、错误【正确答案】:B22.表层网页是指传统搜索引擎可以索引的页面,主要以超链接可以到达的静态网页构成的网页。()A、正确B、错误【正确答案】:A23.爬虫可以通过模拟点击事件来动态获取数据,但如果没有正确处理JavaScript渲染,它仍然无法抓取数据。()A、正确B、错误【正确答案】:A24.XPath表达式//div[@class='header'][contains(text(),'Python')]会选择Class='header'且包含文本Python的div标签。()A、正确B、错误【正确答案】:A25.互联网上每个文件都有一个唯一的URL。(√)A、正确B、错误【正确答案】:A26.在XPath中,//div[@id='content']/text()可以选取id="content"的div标签中的所有文本节点。()A、正确B、错误【正确答案】:B27.在BeautifulSoup中,soup.find_all('div',{'class':'header'})与Soup.find_all('div',class_='header')效果是相同的。()A、正确B、错误【正确答案】:A28.爬虫在抓取动态内容时,如果直接使用requests库获取网页源码,能够获得所有渲染后的内容。()A、正确B、错误【正确答案】:B29.get方法比post方法速度更快。()A、正确B、错误【正确答案】:A30.Selenium不支持浏览器的功能,它不需要与第三方浏览器结合使用。()A、正确B、错误【正确答案】:B31.soup.select('divp#main')会选择所有div标签中的id="main"的p标签。()A、正确B、错误【正确答案】:A32.JSON比XML的语法更简单,层次结构更加清晰,易于阅读。()A、正确B、错误【正确答案】:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论