《商务数据分析》 课件 项目二 数据采集_第1页
《商务数据分析》 课件 项目二 数据采集_第2页
《商务数据分析》 课件 项目二 数据采集_第3页
《商务数据分析》 课件 项目二 数据采集_第4页
《商务数据分析》 课件 项目二 数据采集_第5页
已阅读5页,还剩141页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

BusinessDataAnalysis商务数据分析调查问卷认知为了达到调查和收集必要数据的目的,由一系列问题、备选答案及说明等组成的向被调查者收集资料的工具。什么是调查问卷?针对调查事项,采用调查问卷方式进行数据和信息的搜集、整理,并采用统计的分析方法,帮助解决调研主体解决一些决策或其他相关问题。什么是问卷调查分析?电子商务行业企业,为了解决一些市场决策问题,自行或委托第三方调查机构或公司开展相关的调查,以获得恰当的信息用于辅助决策。通常为电子商务类及相关企业的消费者,是企业面向客户进行的问卷调查。(1)调查主体问卷调查分析认知(2)调查客体(3)调查方式采用问卷形式搜集和整理信息和数据,并采用统计的分析方法进行分析。可采用团体进行的方法,也可通过社交软件、邮寄的方法发出问卷,或者刊登在报刊杂志上,回收的数据非常方便计算机进行处理,节省了分析的费用和时间。(1)具有较高的效率问卷调查的特点-优点(2)具有客观性(3)具有统一性所有被调查者都是用同一问卷进行提问,有益于在同一情况下进行比较分析。(4)具有广泛性不受人数、范围限制,回答范围一般是由调查对象做选择,方便对调查内容理解。一般不需要在问卷上署名,被调查者可以畅所欲言的表达内心真实想法和情况。问卷调查都是预先设计好了回答范围,可能会遗漏一些更多细致、深层的信息(1)缺乏弹性问卷调查的特点-缺点(2)容易误解(3)回收率和有效率较低通过邮寄出去的问卷,回收率往往不高,对调查样本造成很大的影响调查者一般不会当场进行检查答案的正确或者遗漏,容易出现漏答、错答等问题问卷调查应用场景(1)开发新产品的时候需要确定新产品的目标客户群,新产品的细节和新产品的营销方式。(2)把原有的产品推向新市场的时候需要了解新市场对原有产品的接受状况,是否需要做必要的调整(3)原有的产品或已开发的新产品市场表现不及预期的时候需要了解产品不及预期的原因,并找出调整的方案(4)原有的产品或已开发的新产品市场表现出现下滑的时候需要了解产品市场表现下滑的原因,并找出调整的方案【任务实施】商务数据分析初识1明确调查问卷调研需求2明确调查问卷客户群体3确定产品市场营销策略企业坚果面向哪些客户销售?WHO(谁):目的客户需要什么的坚果?WHAT(什么):目的客户需要坚果的理由。WHY(为什么):明确调查问卷调研需求5W2H分析法WHEN(什么时候):客户需要坚果的大概在什么时间?WHERE(哪里):企业需要在什么地方将坚果卖给客户?HOW(怎样):企业怎样将坚果卖给客户?HOWMUCH(多少钱):企业准备给坚果定价多少卖给客户?大部分消费者群体喜爱坚果的类别已确定,消费者在口味的偏好上可能就会出现不同的派别。明确调查问卷客户群体口味偏好相同的人就构成了一个群体,通过从不同的客户群中筛选其中的一群或多群,作为某种产品或服务的购买和使用对象。在制定某个产品营销方案时,要决定方案中到底放什么宣传内容能更吸引客户。如果该目标客户群在选择开心果时最看中的是价格,那么在制定策划方案时应重点突出开心果的优惠方案;如果目标客户群在选择开心果时最看中的是口味,那么在打广告时应重点突出该开心果的口味多元化任务总结(1)问卷调查分析是针对调查事项,采用调查问卷方式进行数据和信息的搜集、整理,并采用统计的分析方法,帮助解决调研主体解决一些决策或其他相关问题。(2)问卷调查的主体主要为电子商务行业企业,问卷调查的对象(客体)通常为电子商务类及相关企业的消费者。(3)问卷调查高效、客观、广泛,但也缺乏弹性、回收效率低。BusinessDataAnalysis商务数据分析问卷调查方式问卷调查按照访问形式的不同,通常可以分为如下4种:(1)电话访问调查(2)当面访问调查(3)网络访问调查(4)邮寄问卷调查问卷调查方式分类获得被调查者的联系电话,调查者通过电话对被调查者进行访问调查。问卷调查方式分类—电话访问调查缺点:同样明显,被调查者不愿意接电话或者对于长时间接电话有一定的抵触性。优点:能够掌握被调查者更多信息,互动性较好,调研过程连续性较好,不容易被打扰;调查者以面对面的方式对被调查者进行直接访问,访问的过程中调查者记录相关的信息,填写问卷所需的资料。问卷调查方式分类—当面访问调查优点:能够更全面的掌握被调查者信息,互动性最好,同时还能通过交流过程中根据被调查者的肢体语言获得更多信息;缺点:调研过程连续性难以保障,容易被打扰,如出现被调查者调研到一半有事需要离开等情况。获得被调查者的网络联系方法,调查者以网络交流方式对被调查者进行访问,并记录相关的信息,填写问卷所需的资料。问卷调查方式分类—网络访问调查优点:能够掌握被调查者较多信息,互动性较好,尤其随着互联网技术的发展,问卷发放及采集回收非常方便,比较方便获得被调研者联系方式;缺点:则是缺少沟通,无法针对问卷进行解释。将要调查的问卷以邮寄的方式(包括电子邮件和传统纸质邮件)寄送给被调查者,被调查者自行根据自身的状况填写问卷所需的资料,然后将填写好的问卷回寄给调查者。问卷调查方式分类—邮寄问卷调查优点:被调研者区域优势明显,涉及范围广,比较容易回收;缺点:问卷有效率及可执行性较差,被调研者的普适性较弱。BusinessDataAnalysis商务数据分析01问卷结构设计该向受访者问什么问题才能达到调查的目的。所以问题内容的确定是由调查目的和调查内容所决定的。调查目的调查内容问卷问题问卷结构设计采用逻辑树分析法,从调查目的出发,分解成若干调查内容,再把每个调查内容分解成一系列具体的问题,这就形成了问卷的初稿。问卷结构设计调查目的调查内容1问卷问题1问卷问题2……调查内容2问卷问题1问卷问题2……调查内容3问卷问题1问卷问题2……例如,某家杂志社要进行一项调查,目的是要了解各类家长教育子女方面的情况。根据这一目的,列出了如下六个方面的调查内容板块问卷问题的设计02问卷页面编制问卷一般由五个部分组成:标题、说明信、填表说明、正文和致谢语。问卷页面编制标题是对问卷调查主题的基本概括和说明,它的功能是能够让调查对象一目了然地了解该次问卷调查的主要内容和基本用意。不要简单使用“问卷调查”或“问卷”这样的标题。问卷基本结构-标题用来说明调查的目的、需要了解的问题及调查结果的用途等。其目的在于引起受访者对填答问卷的重视和兴趣,使其对调查给予积极支持和合作。一般放在问卷的开头,采取比较简洁、开门见山的方式,篇幅一般以不超过300字。问卷基本结构-说明信填表说明也称问卷说明或填答须知,是用来指导受访者填答问题的各种解释和说明,包括注意事项、填写方法、问题指示等。问卷基本结构-填表说明又称主体,是问卷的主要内容,由一系列问题和答项构成,以提问的形式提供给被调查者,这部分内容设计的好坏直接影响整个调查的价值。问卷基本结构-正文在问卷的最后,要写一段致谢语,用于对受访者的合作表示感谢。问卷基本结构-致谢语问卷调查都是预先设计好了回答范围,可能会遗漏一些更多细致、深层的信息(1)缺乏弹性调查者一般不会当场进行检查答案的正确或者遗漏,容易出现漏答、错答等问题(2)容易误解通过邮寄出去的问卷,回收率往往不高,对调查样本造成很大的影响(3)回收率和有效率较低问卷调查的特点-缺点BusinessDataAnalysis商务数据分析问卷调查质量控制问卷调查质量控制回收问卷的质量直接影响统计分析的结果,是决定整个问卷调查成功与否的关键。单份回收的问卷质量主要是指问卷中填写信息的真实性、有效性和充足性。(1)建立监督机制包括组长负责制、分组调查制,尽量减少单独调查,这样可以实现相互监督,杜绝弄虚作假的情况发生。(2)问卷审核机制在问卷设计中设置交叉检验项,如果出现答案矛盾的地方,则需要对问卷的质量提出质疑。问卷调查质量控制例如,在问卷中针对产品各细项的评价,可以设置一道检验的多选题,如“请选出您对所有产品细节中最满意的三项”,如果客户选择最满意三项的打分并不是各个细项评分中最高的三项,则说明该问题的答案有问题,必须进行审视和核对,或作为无效问卷放弃。(3)回访制对被访者进行回访,确定被访者的真实性。问卷调查质量控制问卷质量的关键在于调查人员的专业和诚实,尽量选择专业诚实的调查团队,避免使用临时人员进行。即便是临时人员,也需要经过系统的培训。BusinessDataAnalysis商务数据分析问卷调查实施流程在问卷调查实施过程中,需做好以下几个方面的工作:(1)准备充分,目的明确,有针对性地进行。(2)计划严密,切实可行,有组织有秩序地进行。(3)调查团队需经过严格而系统地培训后进行。问卷调查实施流程问卷调查方案制定通常包括如下内容:说明本次调查的最终目的,以及要调查的关键性问题等调查任务说明说明本次调查涉及产品的基本情况和特点,例如产品的功能、价格、与其他产品的差别、竞争产品的状况等调查产品说明说明本次调查的人员分工安排及整个调查的进度安排调查分工及计划说明本次调查的客户对象是哪些人以及调查地点安排调查对象及地点在开展面对面访问调查问卷时,尤其所涉及内容的广度和深度较高的问卷时,通常需要开展问卷调查培训。问卷调查培训通常可以分为三大层次:(1)产品背景培训;(2)问卷调查基础培训;(3)调查方案培训。问卷调查指导培训问卷调查实施(1)对访问对象进行前期的识别和筛选;(2)然后建立信任关系;(3)之后进行现场访问,记录访问内容;注:如果遇到特殊情况造成访问不完整的情况,再进行其他方式的补充访问。问卷调查回收与管理(1)调查人员管理,包括分组、保密性等;(2)问卷回收管理,包括回收期限、问卷归档等,(3)调查进度管理(4)问卷质量控制管理BusinessDataAnalysis商务数据分析问卷问题类型【问卷问题类型】商务数据分析初识1封闭式问题2开放式问题3半开放/半封闭式问题按答案的设计来划分,问题的类型有:问卷问题类型-封闭式问题封闭式问题是给定备选答案,要求受访者从中做出选择,或者给定“事实性”空格(如:您的年龄),要求如实填写的一种问题:(1)单项选择题(2)多项选择题(3)填入式问题(4)顺位式问题(5)态度评比测量题(6)矩阵式问题(7)比较式问题(8)过渡式问题封闭式问题——单项选择题最常见的问卷问题类型,且答案只有1个封闭式问题——多项选择题从多个备选答案中选择多个,由于由于所设答案不一定能表达出填表人所有的看法,所以在问题的最后通常可设“其他”项目,以便使被调查者表达自己的看法。封闭式问题——填入式问题填入式问题一般针对只有惟一答案(对不同人有不同答案)的问题封闭式问题——顺位式问题又称排队式问题,是指问卷设计者列出若干个备选答案,由受访者按重要性进行排序的一种方法。不仅能反映被调查者的意见、动机、态度、行为等方面的因素,同时也便于对调查结果加以统计。封闭式问题——态度评比测量题将消费者态度分为多个层次进行测量,即列出不同等级的答案,适用于要表示意见、态度、感情的等级或强烈程度的定序问题,尽可能了解和分析被调查者群体客观存在的态度。注意:选项要设中性层次(如:“一般”这样的字眼),且其左右两端的层次数最好相等。封闭式问题——矩阵式问题将若干同类问题及几组答案集中在一起排列成一个矩阵,由被调查者按照题目要求选择答案,优点是能节省问卷的篇幅、受访者阅读及填写的时间,缺点是集中排列方式较为复杂,容易使受访者产生厌烦的情绪。封闭式问题——比较式问题采用对比的方式,将具有可比性的事务进行对比并作出选择的方法,适用于对质量和效用等问题做出评价。注意:考虑受访者对所要回答问题中的答案选项(如:商品品牌等)是否熟悉,否则将会导致没有答案选项被选中的情况。封闭式问题——过渡式问题在调查问卷中,有些问题只适用于样本中的一部分个体,而某个受访者是否需要回答这一问题,常要依据他对前面某个问题的回答结果而定。封闭式问题通过对比上述八种常见的封闭式问题题型的作用,将它们进行归类,便于选择适当且容易结果量化的问题题型。问卷的问题类型-开放式问题是一种只提出问题,不提供任何具体答案,而由受访者自己填答,允许回答者充分自由地按自己的方式发表意见的一种题型,能最大限度地发挥被调查者的主动性和创造性。一般有以下几种题型:(1)自由回答式(2)词语联想式(3)角色扮演式(4)文章完成式(5)句子完成式开放式问题——自由回答式要求受访者根据问题要求,用文字的形式自由表述。开放式问题——词语联想式是指给受访者一个有许多意义的词或词表,让其看到词后马上说出或写出最先联想到的词。开放式问题——角色扮演式是指不让被调查者直接说出自己对某种产品的动机和态度,而让他(她)通过观察别人对这种产品的动机和态度来间接暴露自己的真实动机和态度。开放式问题——文章完成式是由调查者向被调查者提供有头无尾或有尾无头的文章,由其按自己的意愿来完成,使之成篇,从而借以分析他的隐秘动机的一种开放题型。开放式问题——句子完成式是指提出一些不完整的词句,由被调查者完成该词句。问卷的问题类型-半开放/半封闭式问题又称混合型问题,是一种介于开放式问题和封闭式问题之间的一种问题设计方式,即在一个问题中,只给出一部分答案,被调查者可从中挑选,另一部分答案则不给出,要求被调查者根据自身实际情况自由作答。BusinessDataAnalysis商务数据分析问卷问题措辞问卷提问措辞问卷是用来收集受访者的真实想法的,但在实际问卷调查中,有很多问卷设计得不科学、不合理,影响受访者对问卷问题的理解和填答,使调查结果出现偏差。掌握一些问卷问题的措辞技巧和原则,有助于设计出一份科学有效的问卷。(1)避免一句多问(6)避免提诱导性问题(2)避免提断定性的问题(7)避免存在过多计算(3)避免使用专业词汇(8)避免提时间久远的问题(4)避免提一般性问题(9)避免直问敏感问题(5)避免使用不确切的词(10)避免使用含糊不清的句子问卷提问措辞—避免一句多问例如:您为何不看电影而看电视?这种问题就是一句多问问题,受访者难以回答。正确的问法应为:您为何不看电影?您为何要看电视?什么原因使您看电视?问卷提问措辞—避免提断定性的问题例如:您一天抽多少支烟?这种问题就是断定性问题,受访者如果不抽烟,就会造成无法回答。正确的问法应为:您抽烟吗?您一天抽多少支烟?问卷提问措辞—避免使用专业词汇例如:您理发的频率如何?“频率”这个词是统计专业用语,如果受访者无此类知识背景的,就无法理解问题的意思,从而导致空题的发生。正确的问法应为:您多长时间剪一次头发?问卷提问措辞—避免提一般性问题例如:您对百货商场的印象如何?这样的问题因问得不具体,太笼统。正确的问法应为:您认为百货商场的营业时间是否合适?问卷提问措辞—避免使用不确切的词例如:您是否经常购买洗发液?“普通”、“经常”、“一些”等,以及部分形容词,如“美丽”等,这些词语,各人理解往往不同,在问卷设计中应避免或减少使用。正确的问法应为:您上个月共购买了几次洗发液?问卷提问措辞—避免提诱导性问题例如:人们都说A牌比B牌好。您是否也这样认为?这种提出的问题不是“执中”的,而是暗示出调查者的观点和见解,力求使回答者跟着这种倾向回答,这种提问就是“诱导性提问”。正确的问法应为:您认为A牌和B牌哪个好?问卷提问措辞—避免存在过多计算例如:您家每人平均每年的食品支出是多少?需要计算家中每人平均每年的食品支出,计算量大,做问卷的时间有限,很容易造成受访者为了避免过多的计算随便回答,甚至空题。正确的问法应为:您家每月食品支出大概是多少?您家有几口人?问卷提问措辞—避免提时间久远问题例如:您去年家庭生活费用支出是多少?需要回忆家中去年的生活费用支出,间隔时间太长,容易造成受访者遗忘随便回答,甚至空题。正确的问法应为:您家上月生活费用支出是多少?问卷提问措辞—避免直问敏感问题例如:您有痔疮吗?这种比较敏感,属于受访者隐私的字词不可直接询问,容易引起受访者的反感。还有直接询问女士年龄也是不太礼貌的。正确的问法应为:许多人都患有痔疮。您有这方面的烦恼吗?问卷提问措辞—避免使用含糊不清句子例如:你最近是出门旅游,还是休息?出门旅游也是休息的一种形式,它和休息并不存在选择关系。正确的问法应为:你最近是出门旅游,还是在家休息?提问问题的顺序安排不同,受访者回答的结果往往也会产生差异。在给问题进行排序的时候,一般要遵循以下几条原则:问卷问题顺序(1)问题排序要注意前后的逻辑性;(2)问题的排序应先易后难;(3)一些特殊问题应置于问卷的中后部;(4)把能引起受访者兴趣的问题放在前面;(5)一般开放性的问题放在问卷的后面。BusinessDataAnalysis商务数据分析网络请求响应流程HTTP请求响应过程输入怎么就出现了百度界面?这个过程是浏览器向网站所在的服务器发送了一个HTTP请求,获得了服务器的响应。HTTP请求响应过程HTTP请求响应过程HTTP请求响应过程客户端输入URL域名解析发送HTTP请求与服务器建立连接服务器响应HTTP请求返回页面源代码客户端浏览器解析网页源代码对页面进行渲染URL统一资源定位符(UniformResourceLocator)是一种WWW上资源位置的唯一识别方法。URL例如:URLURL的一般由4部分组成,语法格式为(带方括号[]的为可选项,可省略):protocol://hostname[:port]/path/[;parameters][?query]#fragmentURLProtocol(协议)指定使用的传输协议,数据采集中最常遇到的是HTTP/HTTPS协议。Hostname(主机名)是指存放资源的服务器的域名系统(DNS)主机名或IP地址。Port(端口号)各种传输协议都有默认的端口号,如http协议的默认端口为80。如果输入时省略,则使用默认端口号。Path(路径)由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。Parameters(参数)这是用于指定特殊参数的可选项。Query(查询)可选,用于给动态网页传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。Fragment(信息片断)用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。域名解析发给谁?服务器1服务器2服务器n……??????我们访问网页常用的方式是在浏览器中输入URL例如域名解析服务器地址:IP域名解析(DNS)域名解析(DNS)是把域名URL指向网站空间IP,让人们通过注册的域名可以方便地访问到网站的一种服务。请求HTTP请求报文请求行请求头部空行请求数据请求以请求简书中某文为例:https:///p/5dd5993f981b请求请求行分为三个部分:请求方法、请求地址URL和HTTP协议版本。例如,GET/p/5dd5993f981bHTTP/1.1序号方法描述1GET请求指定的页面信息,并返回实体主体。2HEAD类似于GET请求,只不过返回的响应中没有具体的内容,用于获取报头3POST向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。4PUT从客户端向服务器传送的数据取代指定的文档的内容。5DELETE请求服务器删除指定的页面。6CONNECTHTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。7OPTIONS允许客户端查看服务器的性能。8TRACE回显服务器收到的请求,主要用于测试或诊断。9PATCH是对PUT方法的补充,用来对已知资源进行局部更新。请求请求行分为三个部分:请求方法、请求地址URL和HTTP协议版本。例如,GET/p/5dd5993f981bHTTP/1.1序号方法描述1GET请求指定的页面信息,并返回实体主体。2HEAD类似于GET请求,只不过返回的响应中没有具体的内容,用于获取报头3POST向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。4PUT从客户端向服务器传送的数据取代指定的文档的内容。5DELETE请求服务器删除指定的页面。6CONNECTHTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。7OPTIONS允许客户端查看服务器的性能。8TRACE回显服务器收到的请求,主要用于测试或诊断。9PATCH是对PUT方法的补充,用来对已知资源进行局部更新。请求GET方法当客户端要从服务器中读取文档时,当点击网页上的链接或者通过在浏览器的地址栏输入网址来浏览网页的,使用的都是GET方式。请求GET方法URL定位的资源响应报文的数据部分请求GET方法URL定位的资源响应报文的数据部分客户端请求GET方法搜索PythonGET请求请求GET方法/Search?keyword=python要搜索的关键词请求GET方法/Search?keyword=python&enc=utf-8传输数据分隔请求GET方法不同的浏览器对地址的字符限制也有所不同,一般最多只能识别1024个字符,所以如果需要传送大量数据的时候,也不适合使用GET方式。请求POST方法将请求参数封装在HTTP请求数据中,以名称/值的形式出现,POST方式对传送的数据大小没有限制,而且也不会显示在URL中。请求请求头Accept:请求报头域,用于指定客户端可接受哪些类型的信息。Accept-Language:指定客户端可接受的语言类型。Accept-Encoding:指定客户端可接受的内容编码。Host:用于指定请求资源的主机IP和端口号,其内容为请求URL的原始服务器或网关的位置。请求必须包含此内容。Cookie:这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。相关内容将在下文详细展开。Referrer:此内容用来标志性这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理。User-Agent:简称UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器,而不加则可能被识别为爬虫。Content-Type:也叫互联网媒体类型或者MIME类型,在HTTP协议消息头中,它用来表示具体请求中的媒体类型信息。例如,text/html代表HTML格式,更多关系可查看/commons/

。用来说明服务器要使用的附加信息。请求请求数据请求数据一般承载的内容是POST请求中的表单数据,对于GET请求的请求数据为空。注意:当RequestHeaders中指定Content-Type为application/x-www-form-urlencoded,会以表单数据的形式提交。京东登录页抓包响应客户端浏览器:

你要的网页内容,发送给你!响应HTTP响应报文响应以请求简书中某文为例:/p/5dd5993f981b响应状态行由3部分组成,分别为:协议版本、状态码、状态码描述。状态类型状态码和状态信息含义1xx信息100Continue服务器收到了客户端的请求行和头部信息,告诉客户端继续发送数据部分。客户端通常要先发送Expect:100-continue头部字段告诉服务器自己还有数据要发送2xx成功200OK请求成功3xx重定向301MovedPermanently资源被转移,请求将被重定向302Found通知客户端资源能在其他地方找到,但需要使用GET方法来获得他304NotModified表示被申请的资源没有更新,和之前获得的相同307TemporaryRedirect通知客户端资源能在其他地方找到。与302不同的是,客户端可以使用和原始请求相同的请求方法来访问目标资源。4xx客户端错误400BadRequest通用客户请求错误401Unauthorized请求需要认证信息403Forbidden访问被服务器禁止,通常是由于客户端没有权限访问该资源404NotFound资源没有找到407ProxyAuthenticationRequired客户端需要先获得代理服务器的认证5xx服务器错误500InternalServerError通用服务器错误503ServiceUnavailable暂时无法访问服务器响应状态行由3部分组成,分别为:协议版本、状态码、状态码描述。状态类型状态码和状态信息含义1xx信息100Continue服务器收到了客户端的请求行和头部信息,告诉客户端继续发送数据部分。客户端通常要先发送Expect:100-continue头部字段告诉服务器自己还有数据要发送2xx成功200OK请求成功3xx重定向301MovedPermanently资源被转移,请求将被重定向302Found通知客户端资源能在其他地方找到,但需要使用GET方法来获得他304NotModified表示被申请的资源没有更新,和之前获得的相同307TemporaryRedirect通知客户端资源能在其他地方找到。与302不同的是,客户端可以使用和原始请求相同的请求方法来访问目标资源。4xx客户端错误400BadRequest通用客户请求错误401Unauthorized请求需要认证信息403Forbidden访问被服务器禁止,通常是由于客户端没有权限访问该资源404NotFound资源没有找到407ProxyAuthenticationRequired客户端需要先获得代理服务器的认证5xx服务器错误500InternalServerError通用服务器错误503ServiceUnavailable暂时无法访问服务器响应状态行由3部分组成,分别为:协议版本、状态码、状态码描述。状态类型状态码和状态信息含义1xx信息100Continue服务器收到了客户端的请求行和头部信息,告诉客户端继续发送数据部分。客户端通常要先发送Expect:100-continue头部字段告诉服务器自己还有数据要发送2xx成功200OK请求成功3xx重定向301MovedPermanently资源被转移,请求将被重定向302Found通知客户端资源能在其他地方找到,但需要使用GET方法来获得他304NotModified表示被申请的资源没有更新,和之前获得的相同307TemporaryRedirect通知客户端资源能在其他地方找到。与302不同的是,客户端可以使用和原始请求相同的请求方法来访问目标资源。4xx客户端错误400BadRequest通用客户请求错误401Unauthorized请求需要认证信息403Forbidden访问被服务器禁止,通常是由于客户端没有权限访问该资源404NotFound资源没有找到407ProxyAuthenticationRequired客户端需要先获得代理服务器的认证5xx服务器错误500InternalServerError通用服务器错误503ServiceUnavailable暂时无法访问服务器响应状态行由3部分组成,分别为:协议版本、状态码、状态码描述。状态类型状态码和状态信息含义1xx信息100Continue服务器收到了客户端的请求行和头部信息,告诉客户端继续发送数据部分。客户端通常要先发送Expect:100-continue头部字段告诉服务器自己还有数据要发送2xx成功200OK请求成功3xx重定向301MovedPermanently资源被转移,请求将被重定向302Found通知客户端资源能在其他地方找到,但需要使用GET方法来获得他304NotModified表示被申请的资源没有更新,和之前获得的相同307TemporaryRedirect通知客户端资源能在其他地方找到。与302不同的是,客户端可以使用和原始请求相同的请求方法来访问目标资源。4xx客户端错误400BadRequest通用客户请求错误401Unauthorized请求需要认证信息403Forbidden访问被服务器禁止,通常是由于客户端没有权限访问该资源404NotFound资源没有找到407ProxyAuthenticationRequired客户端需要先获得代理服务器的认证5xx服务器错误500InternalServerError通用服务器错误503ServiceUnavailable暂时无法访问服务器响应响应头Data:标识响应产生的时间。Content-Encoding:指定响应内容的编码Server:包含服务器的信息,比如名称、版本号等。Content-Type:文档类型,指定返回的数据类型是什么,决定浏览器将以什么形式、什么编码读取这个文件,如text/html代表返回HTML文档Set-Cookie:设置cookie。响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookie中,下次请求携带Cookie请求。Expires:指定响应的过期时间,可以使代理服务器或浏览器将加载的内容更新到缓存中。如果再次访问时,就可以直接从缓存中加载,降低服务器负载,缩短加载时间。响应头包含了服务器对请求的应答信息。响应响应数据网页代码BusinessDataAnalysisPractice商务数据分析实务01爬虫基本原理爬虫基本原理互联网网络爬虫网页爬虫爬到这就相当于访问了该页面,获取了其信息。把节点间的连线比作网页与网页之间的链接关系,蜘蛛通过一个节点后,可以顺着节点连线继续爬行到下一个节点。爬虫基本原理通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。爬虫基本原理爬虫获取网页并提取和保存信息的自动化程序。爬虫基本原理爬虫流程1.获取网页源代码代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息。最关键的环节就是构造一个请求并发送给服务器,然后接收到响应后便于之后的内容解析。构造一个请求爬虫基本原理爬虫流程2.分析网页源代码、提取数据正则表达式方法,万能但效率低。据网页节点属性、CSS选择器或XPath来提取网页信息的方法。节点的属性文本值爬虫基本原理爬虫流程3.保存数据TXT文本、JSON文本、XML关系型数据库SQLsever、MySQL,非关系型数据库MongoDB视频、音频等特定格式保存形式,多种多样爬虫基本原理爬虫可以代替人来完成这些操作。自动化程序爬虫基本原理爬虫就是代替我们来完成这份爬取工作的自动化程序,它可以在抓取过程中进行各种异常处理、错误重试等操作,确保爬取工作持续高效的运行。当手工无法完成提取信息时爬虫基本原理02常用的爬虫工具常用的爬虫工具静态网页爬虫编程类工具可视化采集器静态网页爬虫编程类工具可视化采集器代表性工具Python、Java和PHP等八爪鱼数据采集器、火车采集器、后羿采集器等优点通用性和可协作性

学习简单、容易上手,可满

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论