




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第2章 电子商务数据采集电子商务数据化运营管理概述/电子商务数据化运营管理实训教学概述主讲人:XXX学习任务书任务编号分项任务职业能力目标知识要求参考课时2.1电子商务数据采集了解电子商务数据采集1.数据采集2.常用的电子商务数据分析方法常用的数据分析工具22.2电子商务数据采集实训进行电子商务数据采集实训1.HTML 源码解析及网络抓包2.采集并统计形成行业数据4数据采集01学习重点02HTML 源码解析及网络抓包常用的电子商务数据分析方法0103学习难点02常用的数据分析工具采集并统计形成行业数据2.1 电子商务数据采集一、数据采集1.采集店铺排名数据处理数据的首选工具就是 Excel。采
2、集店铺排名数据主要涉及的操作包括创建 Excel 工作簿、重命名工作表、输入数据和保存文档。下面就以 Excel 2016 为例,介绍采集店铺排名数据的方法。启动 Excel 2016,在右侧的列表框中选择“空白工作簿”选项,即可创建一个全新的 Excel 工作簿1.采集店铺排名数据在创建的 Excel 工作簿左上角单击“保存”按钮1.采集店铺排名数据打开“另存为”界面,在其中可选择保存 Excel 工作簿的方式和位置,在右侧的“另存为”栏中单击“浏览”按钮1.采集店铺排名数据打开“另存为”对话框,在“文件名”右侧的文本框中输入“商业规划”,单击“保存”按钮,重命名并保存 Excel 工作簿1
3、.采集店铺排名数据在“商业规划”工作簿左下角的“Sheet1”工作表标签上单击鼠标右键,在弹出的快捷菜单中选择“重命名”命令,此时选择的工作表标签将呈可编辑状态,然后在其中输入“店铺排名”1.采集店铺排名数据选择 A1、B1 和 C1 单元格,并在其中分别输入“排行”“店铺名称”“店铺平台”,然后打开网页中需要采集数据的店铺排名,将相关数据分别输入到对应的单元格中,其输入后的效果如图所示1.采集店铺排名数据Excel 工作表通常是按列和行进行划分的,列标以英文字母标记,行号以数字标记。这里的 A1 表示第 A 列的第 1 行所在的区域,Excel 也把这个区域称为单元格。另外,在输入店铺名称的
4、过程中,若发现 C 列的宽度不够,可以将鼠标光标移动到 C 列和 D 列的中间,按住鼠标左键不放,向右拖动到合适位置,释放鼠标左键后即可调整 C 列的宽度。再次在工作簿左上角单击“保存”按钮,保存输入的数据,完成采集店铺排名数据的操作1.采集店铺排名数据一、数据采集2.采集商品类目销售数据采集商品类目销售数据的操作步骤与采集店铺排名数据的相似,只需要在前面创建的“商业规划”工作簿中新建一张工作表,然后在其中输入数据即可,其具体操作步骤如下。(1)打开“商业规划”工作簿,单击“店铺排名”工作表标签右侧的“新工作表”按钮, 增加“Sheet2”工作表标签,将其命名为“类目”。(2)打开网页查看需要
5、采集数据的类目,并在工作表中输入采集数据的类目数据,并根据文字的多少适当调整列宽。一、数据采集3.采集商品品牌销售数据(1)打开“ 商业规划” 工作簿,单击“类目” 工作表标签右侧的“ 新工作表”按钮,新建“ Sheet3”工作表标签,将其命名为“品牌”。(2)打开网页中需要釆集数据的品牌,在工作表中输入对应的品牌数据,并适当调整列宽。二、常用的电子商务数据分析方法1.流量来源分析(1)流量来源:主要来源于关键词、来访域名、来访地区和人群。(2)流量来源分析方法: 网站流量来源排名、搜索引擎关键词分析、网站流量趋势分析、 网站流量核对、推介网站与直接访问的比例。到达率:到达率是指广告从点击到网
6、站登录页的比例。一般来说,到达率达到 80%是比较理想的, 其与网站的速度有关,可以综合分析。二跳率:二跳率用于分析流量的有效性。如果是有效流量,一般会有合理的二跳;如果是虚假点击,一般是没有二跳的,但是也不排除有部分作假很厉害的网站能做出二跳。PV/IP 比: 访问量(Page View,PV),即页面浏览量或点击量,用户每次刷新即被计算一次。 IP(独立 IP):指独立 IP 数。00:0024:00 内相同 IP 地址只被计算一次。二、常用的电子商务数据分析方法2.流量效率分析流量效率是指到达网站的流量是不是真实流量,主要分析指标如下。订单转化率:订单转化率是最核心的数据,没有订单转化率
7、,其他一切免谈。页面流量排名:主要用于查看产品详情页的流量,特别是首页陈列的产品详情页参照最终的销售比例,优胜劣汰,用以调整销售结构。场景转化分析:即首页列表页详情页购物车订单提交页订单成功页的数据流分析。频道流量排名:主要用来分析产品组织的问题。二、常用的电子商务数据分析方法3.站内数据流分析站内数据流分析主要用来分析购物流程是否顺畅和产品分布是否合理,主要分析指标如下。站内搜索分析:这个指标反映的是用户关心的产品有哪些,是产品调整的最直接数据。用户离开页面分析:分析用户在哪些页面最容易离开,是首页还是频道页?是购物车还是订单提交页?若用户突然大比例地离开网站,往往预示着有问题产生。二、常用
8、的电子商务数据分析方法4.网购用户行为特征分析用户在电子商务网站上有了购买行为之后,就从潜在客户变成了网站的价值客户。电子商务网站一般都会将用户的交易信息保存在自己的数据库中,所以对于这些用户,我们可以基于网站的运营数据对他们的交易行为进行分析,以估计每个用户的价值,及针对每个用户进行扩展营销(Lead Generation) 的可能性。行业产品分布:行业产品分布的数据主要从以下几个方面分析:找到什么样的产品,实现了多少销量产品的特性和卖点的分析寻找合适的推广方式。淘宝销售分析:对淘宝销售分布的数据分析主要从以下几个方面进行:对产品关键词搜索量(日搜索量、优化、提升)的分析对淘宝销售类目分布的
9、分析对主要目标的分析。客户分析:对客户的数据分析主要从以下几个方面进行:客户数据分析的主要目的是为店铺装修、市场营销活动等提供参考客户分析的因素主要有性别、年龄、地域、职业、消费习惯、兴趣等。二、常用的电子商务数据分析方法5.网店经营数据分析产品分析:对产品数据的分析主要有以下几个方面:产品数据分析的主要目标预测热销产品。店铺/页面分析: 店铺/页面分析的主要目标 店铺/页面分析的目的 店铺/页面分析的内容。三、常用的数据分析工具1.查看内部数据(1)Google AnalyticsGoogle Analytics 是著名互联网公司 Google 为网站提供的数据统计服务。该工具可用于对目标网
10、站的访问数据进行统计和分析,并提供多种参数供网站拥有者使用。其使用方法非常简单,只需在网站的页面上加入一段代码或者输入某网站地址,就可以得到所需并且详尽的图表式报告。Google Analytics 的主要功能是可以帮助用户衡量销售与转化情况,而且能为其提供最新的数据信息,帮助用户了解访问者如何使用网站,如何到达网站,以及如何吸引他们不断回访等。Google Analytics 的主要功能包括以下 6 个。实时报告:实时报告的内容包括用户网站上的实时访问人数、访问者所在地及浏览内容等。自定义报告:用户能过自定义报告可以迅速定义专属的指标信息中心,与同事共享关键数据信息。自定义变量:自定义变量可
11、以帮助用户了解客户所属的细分群体以及与客户的互动情况。 分析工具分析工具主要帮助用户深入剖析访问者的数据,通过标准报告来衡量和理解网站上的访问和互动情况;另外,运用分析工具还可以迅速创建自定义报告和访问者细分,并以此作为用户团队分享的重要数据。Google Analytics 的分析工具包括以下 6 种。高级细分:高级细分用来轻松分析流量的特定部分,用户还可以自行创建细分系列。信息中心:信息中心用于组织、监控和分享关键效果指标,用户可以同时监控多种指标,从而快速了解账户的运行状态。可视化:可视化包括用户流可视化和网页内分析两种。用户流可视化报告可用于分析访问者在用户网站上访问的路径,网页内分析
12、可以直观地评估客户如何与用户的网页进行互动。Google Analytics 的实时报告 分析工具网站搜索:利用网站搜索报告。网页内分析:用户可以直观地评估客户与网页的互动情况。网站速度分析:网站速度分析结果可以显示客户需要多长时间才能看到网站内容并与内容互动。 内容分析内容分析主要是指通过 Google Analytics 中的内容报告,找出网站上的热门内容以及隐藏的价值。用户可以了解客户访问网站上的各个网页的频率、停留的时间和转化频率。Google Analytics 的内容分析主要包括以下 4 种。事件跟踪:根据事件跟踪,用户可以查看与 Flash 和 AJAX 元素进行互动或者单击链接
13、下载产品手册的频率,甚至还可以设置事件跟踪功能来详细了解客户的行为方式。Google Analytics 的网页内分析 内容分析社交转化:社交转化报告可显示来自各个社交网络的访问所带来的转化率和转化的货币价值。社交来源:社交来源报告可以帮助用户优化互动地点,将企业社交策略从直觉式转变为以数据为中心。社交分享:通过结合流量与分享,用户可以将社交与内容关联在一起,帮助决策者做出明智的决策,并通过在站内和站外构建社区,让更多客户主动分享网站内容。 社交分析社交分析主要是指通过社交报告帮助用户评估社交媒体对自己的业务目标和转化次数施加的影响。整合的网络和社交数据可帮助用户全面了解企业的内容和受众群体。
14、Google Analytics 的社交分析包括以下 3 种。移动应用分析:该功能可针对客户与应用接触的整个过程(从发现、下载到互动)进行评估。此类报告专为移动应用开发人员和营销人员设计,所提供的内容常为他们所关注的焦点。移动网站报告:在 Google Analytics 的“地理分布图”标签上按照位置查看统计信息, 用户可以了解目前的移动流量的来源,并预测哪些位置的流量可能会增加。移动广告衡量:Google 移动广告会在移动设备上的 Google 搜索结果、内容网站和应用中展示。 移动分析移动分析主要利用 Google Analytics 来衡量移动网站、应用以及具有网络访问功能的移动设备(
15、包括智能手机和平板电脑)所带来的访问次数。用户可以向营销人员提供与客户相关的分析数据,以帮助营销人员抓住重点吸引客户,使其在不同类型的设备与屏幕上都能取得良好的广告效果。Google Analytics 的移动分析又包括以下 3 种。Google Analytics 的移动分析 移动分析探查访问者行为认识如何促成销售和转化:用户可以跟踪销售量、下载次数、视频播放次数、转化次数、网站上的用户参与度或自定义指标来实现业务目标。利用电子商务报告提高在线销售量:电子商务报告用于确定最畅销的产品和最有价值的促销活动,帮助用户了解客户购买的原因和类型。通过多渠道路径报告全面掌握广告系列效果:用户可以查看自
16、己的所有数字营销活 动的效果,包括搜索广告、展示广告、社交营销、联署网络营销、电子邮件营销等。 转化分析转化分析主要是指利用 Google Analytics 转化套件扩大用户的分析范围,了解用户的所有数字营销渠道如何共同发挥作用,为企业网站带来访问者。通过衡量销售量、下载次数和视频播放次数等有价值的操作指标,了解访问者购买产品的意愿,从而调整网站和营销计划以达到企业的业务目标。Google Analytics 的转化分析包括以下 4 种。跟踪访问者在网站上的不同路径:利用 Google Analytics 用户流可视化功能和目标渠道,用户可以跟踪访问者的转化路径,找出网站导航中的优缺点,分析
17、企业在网站和营销计划中的调整方向。 广告分析广告分析指通过了解用户的社交广告、移动广告、搜索广告和展示广告的效果,以最大限度地发挥广告的作用。Google Analytics 的广告分析包括提升搜索引擎营销的效果、使用再营销功能覆盖有需求的客户、了解展示广告对用户的广告计划的贡献度、了解用户的广告与多渠道路径的配合效果、通过广告系列衡量报告分辨有效的营销活动和无效的营销活动。 广告分析Google Analytics 的基本使用方法如下。a.登录 Google Analytics(分析)网站,单击右上角的“登录”超链接或者“创建账户” 按钮。b.打开登录页面,在文本框中输入注册好的电子邮件地址
18、,单击“下一步”按钮,进入Google Analytics 管理页面。如果没有注册,则需要单击“创建账号”超链接,打开创建账户的页面,填写相关内容创建一个 Google 账户,然后再登录 Google Analytics 管理页面。c.在页面中单击“管理”选项卡,在右侧的“媒体资源”栏中单击“google-blog”右侧的下拉按钮,在打开的下拉列表中,选择“创建新媒体资源”选项。d.在打开的页面中,设置数据跟踪的站点,在“设置媒体资源”栏的“网站名称”和“ 网站网址”文本框中输入企业的网站内容,完成后单击“获取跟踪 ID”超链接。e.重新登录后,在管理页面中,单击“报告”选项卡,在左侧的任务窗
19、格中选择对应的选项,即可查看到网站各种数据的分析结果(通常是 24 小时后可以看到效果)。三、常用的数据分析工具1.查看内部数据(1)生意参谋生意参谋是淘宝官方的数据产品。生意参谋不但秉承数据让生意更简单的使命,而且致力于为电商、淘宝商家提供精准、实时的数据统计、多维的数据分析和权威的数据解决方案。提高销量。生意参谋的数据内容包括 8 个方面:访客分布、流量地图、产品诊断、产品效果、产品概览、经营报告、产品排名、标题优化。三、常用的数据分析工具1.查看内部数据(2)CRM客户关系管理(Customer Relationship Management,CRM)是一种基于互联网的应用系统,通过对企
20、业业务流程的重组来整合用户信息资源,以更有效的方法管理客户关系,在企业内部实现信息和资源的共享,从而降低企业运营成本,为客户提供更经济、快捷、周到的服务,以保持和吸引更多的客户,最终达到企业利润最大化的目的。客户联系的提醒:提醒今天或明天应联系的客户、逾期未及时联系的客户、逾期未及时下单或长期没有业务往来的客户。客户资料的查询和分析统计:按客户名称关键词模糊查询,防止撞单;每天客户联系拜访情况的查询和分析。业务员数据查询与提醒:包括业绩查询和统计,应收款的提醒,以及工资、提成及费用的查询。销售数据查询与分析统计:包括订单查询及交货提醒、统计销售部门业绩和打印出货单。应收款提醒:提示周六、周日有
21、哪些应收款,逾期未收的应收款。应收款统计分析:分析哪些客户应收款比例较大、哪些客户逾期款累计金额超限、哪些客户账龄过长。收/付款查询和统计:对于任一时期的收/付款进账/出账明细,按收/付款方式、按业务员、按年、月等进行分类统计,显示各种统计图表,反映企业资金流入、流出情况。费用查询和统计:查看企业各类费用和明细的支出情况,并可按费用多少、费用项目、年/月、业务员进行统计,显示统计图表。 CRM 的运用范围由于 CRM 主要是针对客户的数据管理软件,所以 CRM 数据对于各种业务人员和财务人员的作用更大,其运用范围主要如下:客户概况分析(Profiling):包括客户消费的层次、风险、爱好、习惯
22、等。客户忠诚度分析(Persistency):指客户对某个产品或商业机构的信用程度、持久性、变动情况等。客户利润分析(Profitability):指不同客户所消费的产品的边缘利润、总利润额和净利润等。客户性能分析(Performance):指不同客户所消费的产品按种类、渠道、销售地点等指标划分的销售额。客户未来分析(Prospecting):客户未来分析包括客户数量和类别等情况的未来发展趋势、争取客户的手段等。客户产品分析(Product):包括产品设计、关联性、供应链等。客户促销分析(Promotion):包括广告和宣传等促销活动的管理。 CRM 的运营指标CRM 的运营指标被称为“TP”
23、指标,包括以下 7 个方面的内容。按软件关注的重点分类:CRM 软件分为操作型和分析型两大类,也有两者并重的。操作型软件更加关注业务流程和信息记录,提供便捷的操作和人性化的界面;而分析型软件往往基于大量的企业日常数据,对数据进行挖掘分析,找出客户、产品、服务的特征,从而修正企业的产品策略、市场策略。从软件的技术层面分类:CRM 软件分为预置型和托管型两类,托管型 CRM 面临的最大难题是如何解决数据安全方面的问题;预置型 CRM 的重点功能则是如何说服一个成熟企业将核心数据放置在企业可控制范围之外。 CRM 软件的类型CRM 软件有很多种,主要有以下两种分类方法。综合排名。综合排名指特定网站在
24、所有网站中的名次,Alexa 每 3 个月公布一次新的网站综合排名。此排名的依据是用户链接数 UR、页面浏览数 PV、3 个月累积的几何平均值。分类排名。分类排名主要分为两种形式。一种是按主题分类排名,如新闻、娱乐和购物等,Alexa 给出某个特定网站在同一类网站中的名次。另一种是按语言分类排名,通过语言的不同,给出特定站点在所有此类语言网站中的名次。三、常用的数据分析工具2.查看外部数据(1)AlexaAlexa 是首屈一指的免费提供网站流量信息的公司,致力于开发网页抓取和网站流量计算。通常 Alexa 的网站排名主要分为综合排名和分类排名两种。(1)Alexa登录 Alexa 网站,并免费
25、查询淘宝网的排名数据,其具体操作如下。 登录 Alexa 网站,在 http:/www 右侧的文本框中输入需要查询的网站网址,这里输入“”,按【Enter】键。 在下方将显示该网站的备案信息、服务器信息、站点的全球网站排名(包括当日、1 周平均、1 月平均、3 月平均的排名和排名变化趋势)、P 和 PV 值(包括日均、月平均、3 月平均。 在下面还显示了该网站下属子站点的访问比例、页面访问比例、人均页面流览量,以及网站的日平均排名走势图。市场趋势:淘宝指数默认打开“市场趋势”选项卡,在“搜索指数”栏中显示最近 6 个月与关键词相关产品的搜索指数的变化趋势,在右侧的任务窗格中将显示搜索趋势简报,
26、卖家可以根据这部分数据进行市场预测。另外,卖家还可以在“关键词”文本框中输入其他产品名称,进行搜索对比,以及拖动数据表格下方的时间滑块,显示其他时间的搜索数据。人群特征:人群特征则主要有地域细分和人群定位两大功能板块。地域细分主要显示近 6 个月与搜索关键词相关的搜索和成交的地域分布情况。它又分为喜好度和人群占比两个板块。人群定位主要显示近 6 个月的人群性别、年龄、星座、爱好、买家等级和消费层级 6个层面的信息。市场细分:单击“市场细分”选项卡,淘宝指数就会显示与关键词相关的市场细分情况。(2)淘宝指数淘宝指数是淘宝官方免费的数据分享平台,不同人群利用淘宝指数可以获得不同的便利。淘宝指数的主
27、要数据来源就是淘宝网中的各项交易数据。通过淘宝指数,卖家可以对数据的市场趋势、人群特征、市场细分、成交排行进行分析,这 4 项也是淘宝指数的主要功能模块。成交排行:在淘宝指数页面的顶部单击“成交排行”超链接,即可显示近 1 周各类产品的搜索排行和成交排行。趋势研究:趋势研究是百度指数的默认显示模块,将显示 30 天内全国范围内搜索该关键词的指数概况和指数趋势。需求图谱:需求图谱能够显示网民对搜索关键词的关注内容和关注点舆情洞察:舆情洞察分为新闻监测和百度知道两个板块。新闻监测主要显示全国各大媒体与搜索关键词相关的新闻的媒体指数。百度知道则显示与搜索关键词相关的提问的浏览热度。(3)百度指数百度
28、指数是以百度网民的行为数据为基础的数据分享平台。百度指数的主要功能模块包括基于单个词的趋势研究(包含整体趋势、PC 趋势和移动趋势)、需求图谱、舆情洞察、人群画像;基于行业的整体趋势、地域分布、人群属性和搜索时间特征。人群画像:人群画像分为地域分布和人群属性两个板块。地域分布主要显示该搜索关键词在全国各省份和城市的排名情况。人群属性则显示该搜索关键词在各年龄段和不同性别人群中的搜索分布情况。2.2.1 HTML源码解析及网络抓包掌握从HTML源码中寻找目标数据的方法0102实验目的掌握网络抓包的方法HTML是什么?HTML(超文本标记语言)是用于在Internet上显示Web页面的主要标记语言
29、。网页由HTML组成,用于通过Web浏览器显示文本,图像或其他资源。HTML是制作网页的基础,我们在网络营销中讲的静态网页,就是以HTML为基础制作的网页。HTML网页结构通常包括头部(head)、主体(body)两大部分。头部描述浏览器所需的信息,主体包含所要说明的具体内容。HTML文件是带有格式标识符和超文本链接的内嵌代码的ASCII文本文件HTML结构,可以被多种网页浏览器读取,产生网页传递各类资讯。一、关于HTML由三部分组成:资源类型、存放资源的主机域名、资源文件名。也可认为由4部分组成:协议、主机、端口、路径 。URL的一般语法格式为:(带方括号的为可选项):scheme:/hos
30、t:port#/path/?query-string#anchor,其中:scheme:协议(例如:http,https,ftp)host:服务器的IP地址或者域名port#:服务器的端口(如果是走协议默认端口,缺省端口80)path:访问资源的路径query-string:参数,发送给http服务器的数据anchor:锚(跳转到网页的指定锚点位置)例如:16:8080/index.jsp/11936238.html#product-detail淘宝链接/search?q=玻璃胶https是传输协议,是服务器域名,search是访问资源的路径,问号后的是参数,如果有多个参数用&号连接。二、认识
31、URL构成业务背景:你想要学习通过网页源码抓包采集数据,但在采集数据之前需要找到数据的接口,后续才可以通过数据接口采集数据。实验内容打开某一网页,例如淘宝网页,在网页页面空白处单击鼠标右键,弹出菜单中单击“查看网页源代码”(不同浏览器表述可能有所不同,例如有的可能是“查看源”,功能是一样的)一、HTML源码解析左侧是HTML的行号,右侧是HTML代码一、HTML源码解析按键盘的CTRL+F键调出搜索框,根据前端页面的目标信息进行搜索(例如:复制图1查看源码所在页面中任一宝贝的标题或其中一部分关键词,粘贴到调出的搜索框内),找到目标信息则说明数据就在HTML中,此数据称之为静态数据。一、HTML
32、源码解析打开/,任意空白位置,右键选择“检查”(有的浏览器可能是“审查元素”,或者按键盘F12)进入开发者模式,单击“network(网路)。二、网络抓包刷新页面(可按键盘F5键),可以获取到许多文件,这个过程也称之为抓包。二、网络抓包搜索下拉框会有关键词推荐,与HTML源码解析时搜索出的信息不同,这些关键词并不是静态的(上图中可看到两个蓝色框的内容是相同的),因为系统并不知道用户会搜索什么词,所以无法提前埋在HTML中。通过动态交互的方式,用户产生了操作,系统从服务器获取对应的数据包,使用开发者模式可以观察到这些数据包。二、网络抓包Practice抓取百度搜索框的下拉词数据包抓取速卖通搜索框
33、的下拉词数据包课后练习2.2.2 采集并统计形成行业数据了解行业数据的统计方法0102实验目的实操数据采集方法03实操行业数据统计方法第三方公司统计行业数据的方法通常是基于统计学原理,根据某个行业的销量排序,从高到低采集固定数量的样本,统计样本的销量或者销售额来代表整个行业的数据。采集工具选用Power BI(个人免费版)。Power BI是微软旗下的一款(BI)商业智能软件,它包含桌面版(Power BI Desktop)、网页版和移动版。一、行业数据的统计方法总体个体样本样本容量总体与样本总体包含所研究的全部个体(数据)的集合。个体总体中每一个考察对象称为个体。样本研究中实际观测或调查的一
34、部分个体称为样本。样本容量样本中个体的数目称为样本容量。二、总体与样本为了研究某中学九年级学生的身高情况,从全部九年级学生中抽取了60名学生的身高。在这个案例中,总体、个体、样本、样本容量各指什么?总体是一个确定的数字集合,而样本可以有许多。“在总体中取出的一部分个体叫作总体的一个样本”,如果取出另一部分个体那就构成另一个样本,即使每次抽取身高作为样本的学生都是60人,每次抽取的情况也不会相同。所以样本里面的数都是一些变量,这些变量的特点只有在一次具体的抽取完成之后才能知道它们的值。从上述的分析可以得出结论:样本一般不等于总体,但样本来源于总体,因而用样本估计总体才有一定的依据,这是统计的基本
35、思想。研究电商行业大数据的基本思想也是如此,行业里面有庞大的数据量,就商品数据来说,每个商品又有多种不同的属性。我们通常对数据整体进行抽样采集,获取具有代表性的、能够尽可能地代表整体趋势的数据,数据拿到手之后,再抽取不同的属性特点作为研究对象,以分析不同的趋势特征。二、总体与样本三、采集数据流程将整个HTML或者JS文件下载到本地,此时数据在文件中,文件可转换成文本这种可读的类型。采集存储数据一般将下载的文件或者文本整个存入数据库。储存从文件或者文本中提取目标资料,并组织成表格形式,形成可供分析的原始资料。清洗1、IP限制:最基础的反爬虫方式,也比较好破解,通过变换网络IP即可破解。四、反爬虫
36、2、账号权限限制:必须登录账号才可以访问,且可能账号有访问的权限限制,如限制页面或者限制访问次数,破解的方法是上传身份信息给服务器,一般使用cookie字段。对于限制访问权限的,需要使用具备对应权限的账号,如果暴力破解则是黑客范畴。对于访问次数的限制,只要频繁变换账号即可。3、密钥匹配:密钥匹配是目前比较难破解的,需要具备密码学的知识,破解密钥的算法,然后自行生成密钥和服务器匹配。业务背景:分析数据之前需要先有数据,数据一般可以通过数据产品和页面收集,收集数据时如果使用手动的方式将耗费大量的时间和精力,因此使用软件构建采集脚本可极大节约时间成本。下面我们将带领大家体验通过传统的源码采集方式实现
37、数据采集。实验内容/search?q=%E8%B7%AF%E7%94%B1%E5%99%A8&sort=sale-desc服务器地址:/search参数:q(搜索词),sort(排名方式)。也就是说链接中“q”后面是搜索词字段,“sort”后面代表的是排序方式。可直接复制该链接到浏览器中进行检验,如图所示,可以发现搜索词为“路由器”,排序方式为“销量从高到低”。一、实操数据采集方法明确目标链接“q”后面的搜索词由“路由器”改为“连衣裙”,可以发现淘宝宝贝搜索框中的关键词也对应变成了“连衣裙”。这说明该链接已经包含了必要的搜索字段。该链接可通过复制淘宝搜索链接然后去除部分字段而得到。一、实操数据
38、采集方法明确目标链接例:淘宝搜索“路由器”,设置“销量从高到低排序”,得到的链接为:/search?q=%E8%B7%AF%E7%94%B1%E5%99%A8&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm= a21bo. 2017. 201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&sort=sale-desc将中间字段删除,即可得到只包含“q”和“sort”参数等必要字段的目标链接:/search?q=%E8%B7%AF%E7%
39、94%B1%E5%99%A8&sort=sale-descM语言(M代表Microsoft),编程语言,是微软新Oslo发展和面向服务策略的一部分。在M语言中,实现网络抓包的核心函数是Web.Contents,它能够对指定的URL向服务器发出request并接受返回的response。在测试单页采集数据中M语言的公式为:=Web.BrowserContents(URL)。一、实操数据采集方法测试单页采集数据1)使用web引入示例的方法进行京东连衣裙数据的单页采集首先获取目标链接。打开京东网页,在宝贝搜索框中输入关键词,例如我们将要采集的“连衣裙”,并设置“销量从高到低排序”,此时会有对应链接产
40、生。1)使用web引入示例的方法进行京东连衣裙数据的单页采集观察链接会发现,当搜索的宝贝页码改变时,链接也会随之改变;需要说明的是,不同于淘宝宝贝链接中的页码参数由s参数单独控制,京东宝贝链接的s参数由page参数直接控制;观察可发现,当搜索的宝贝页码为n时,page参数值为2n-1,这也是我们后面将用到的规律,将链接复制以备用。1)使用web引入示例的方法进行京东连衣裙数据的单页采集打开Power BI主页,依次单击“获取数据”、从“Web”获取选项,将上步复制的京东搜索页链接粘贴到弹出的“从Web”对话框中,单击“确定”按钮。1)使用web引入示例的方法进行京东连衣裙数据的单页采集在弹出的
41、“导航器”页面单击“使用示例添加表”,等待数据的加载,如图所示。这里选择“使用示例添加表”的操作是为了学习数据的路径,通过两到三个数据实现定位,进而完成整个数据表的填充(下一步操作中将体现)。1)使用web引入示例的方法进行京东连衣裙数据的单页采集在弹出的“从Web”对话框中进行数据填充。首先在左下角的“列1”的空白行输入上方对应宝贝的标题,这里会有关键词提示,输入前几个关键字后会出现包含相应字段的标题,双击选中即可自动填入。可先在前两行输入前两个宝贝的标题,在其它空白单元格上双击(或者按住鼠标左键划过整列),即可进行整列填充,如图所示,并将该列重命名为“标题”。1)使用web引入示例的方法进
42、行京东连衣裙数据的单页采集同以上步骤,再分别添加“价格”和“评价数”列(这里可根据需要,添加想要采集的内容列),单击“确定”按钮。1)使用web引入示例的方法进行京东连衣裙数据的单页采集待出现如左图所示的“导航器”页面时,单击“转换数据”(有的版本是“编辑”),将进入“Power Query编辑器”页面,如右图所示。1)使用web引入示例的方法进行京东连衣裙数据的单页采集依次单击“主页”、“高级编辑器”选项,可验证M语言中的公式为:=Web.BrowserContents(URL)2)使用自定义函数进行京东羽绒服数据的单页采集单页采集连衣裙数据之后进入Power Query编辑器页面,得到“表
43、1”如左图所示;右键单击“表1”,在弹出的菜单里单击第二个“复制”选项,它的功能是复制并粘贴表;也可单击第一个“复制”,它的功能是复制表,复制完之后需要再次右键单击“粘贴”,如右图所示。打开复制得到的表1(2),依次单击“主页”、“高级编辑器”,进行自定义函数设置,引入变量“x”,编辑如图所示,此步操作的含义是将x设置为Web.BrowserContents函数的自变量。2)使用自定义函数进行京东羽绒服数据的单页采集将Html.Table()函数中的“源”替换为Web.BrowserContents(x),并将两行之间多余的内容删掉,得到:源=(x)=Html.Table(.),这时x又间接成
44、了Html.Table函数的变量,如图所示。2)使用自定义函数进行京东羽绒服数据的单页采集编辑let和in语句模块如图所示,删除多余行的内容,注意将let语句末尾的逗号删除,否则将出现语句错误,编辑完成后单击“完成”按钮。2)使用自定义函数进行京东羽绒服数据的单页采集单击“输入数据”选项,在弹出的“创建表”对话框中将京东搜索“羽绒服”的链接粘贴至单元格,如图所示,这里实质上是相当于我们所输入的链接为变量x赋值的过程,输入完成后单击“确定”按钮。2)使用自定义函数进行京东羽绒服数据的单页采集依次单击“添加列”、“调用自定义函数”选项,函数调用如图所示,设置完成后单击“确定”按钮。2)使用自定义函
45、数进行京东羽绒服数据的单页采集如左图所示,对得到的表格进行展开,即可得到所采集的搜索页羽绒服数据,如右图所示。由于是在采集到的连衣裙数据基础上,通过引入自定义函数的方法来采集羽绒服的数据,相当于学习了采集连衣裙数据时的路径与方法,因此,得到的羽绒服数据所包含的商品属性与单页采集连衣裙数据时所包含的商品属性是一致的,都包括“标题”、“价格”、“评价数”等字段。2)使用自定义函数进行京东羽绒服数据的单页采集(1)使用自定义函数方法进行数据的批量采集前面我们讲到在单页采集连衣裙数据的基础上,通过自定义函数引入变量x,用“羽绒服”的搜索链接为x赋值,再调用自定义函数实现羽绒服数据的单页采集。批量采集与
46、单页采集的原理相同,需要修改的步骤是在高级编辑器语句修改完成之后,“输入数据”时,增加单元格行数,并分别粘贴京东搜索页各页链接至单元格,这里我们选择以5页作为示例,如图所示。一、实操数据采集方法测试批量采集数据接下来的步骤与单页采集相似,操作完成将得到所搜索的5页数据,结果如图所示。京东每页可采集30个宝贝数据,因此5页一共有150条宝贝数据结果。(1)使用自定义函数方法进行数据的批量采集一、实操数据采集方法测试批量采集数据首先需创建批量采集的链接,通过观察,page参数是以1起步,步长为2的等差数列,当页码为n时page参数为2n-1;M语言中生成100个数的序列公式:=1.100。具体操作
47、如下:在前步“单页采集连衣裙数据”结果的基础上依次单击“新建源”、“空查询”选项,如图所示。此步完成之后,将新建一个空查询“查询1”,后续的创建批量采集链接、数据抓包与采集等步骤将在此查询中完成。(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方法测试批量采集数据在函数框内输入=,在“=”后面输入“引号”(注意:这里的符号都是英文状态下的,“=”是一定要加的,不然后面会出现链接错误),并将京东搜索链接粘贴到这里(例如,我们此处是京东搜索“连衣裙”,选择按销量排序,将第一页搜索结果的链接复制过来);把链接末尾的“page=”后面的参数删掉(这里不同于淘宝,若是淘宝链接,需要删掉的是“
48、s=”后面的参数;京东的s参数由page参数直接l控制),因为我们后面要建立多页的链接;然后单击函数框前的“对号”完成引用;接着单击到“到表”选项,如图所示。(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方法测试批量采集数据依次单击“添加列”、“自定列”选项,自定义列的名称改为“页码序列”,自定义列公式=1.100,单击“确定”按钮,生成100个数的序列,如图所示。(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方法测试批量采集数据单击“页码序列”列名右侧的小图标,在下拉菜单中单击“扩展到新行”,如图所示。(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方
49、法测试批量采集数据单击“页码序列”列名左侧的小图标,在下拉菜单中将页码序列的数据类型设置成“整数”格式。然后依次单击“添加列”、“自定义列”选项,计算生成“page参数”,前面我们已经分析过,京东链接中page参数的数值与实际页码n的关系呈2n-1的等差数列,如图所示,单击“确定”按钮。(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方法测试批量采集数据单击“page参数”列名左侧的小图标,在下拉菜单中将page参数的数据类型设置成“文本”格式后,依次单击“添加列”、“自定义列”选项,生成“URL”列,如图所示。(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方法测试批
50、量采集数据当URL列生成后,即完成了100页采集链接的创建,点击URL列对应链接时,在页面下方可观察到链接对应的page参数会随页码序列呈公式为2n-1的等差变化;如图所示,点击第三行时,显示的page参数为5,这与在京东网页上观察的链接结果是一致的。(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方法测试批量采集数据创建完100页采集的链接之后,接下来将进行100页数据的抓包。原理依然是在单页采集连衣裙数据的基础上,学习其数据存储路径与采集方法,进而完成批量采集。单击连衣裙的单页采集结果“表1”,进入其编辑器页面,依次单击“主页”、“高级编辑器”选项,复制第一行“=”后面的内容,
51、如图所示,此步的目的主要是复制Web.BrowserContents()函数(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方法测试批量采集数据在“查询1”中重复自定义列操作,将复制的内容粘贴到自定义列公式处,删除小括号中的内容,并将“URL”插入到小括号内,可将此列命名为“抓包下载”,如图所示。(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方法测试批量采集数据从网页代码中提取数据,在没有触发网站的防爬机制时,可使用可视化操作提取,如果触发了网站的防爬机制,需要插入以下处理方法:登录京东获取cookie,注意是cookie后面的具体参数,不包含“cookie”(2)通过创建多页采集链接实现数据的批量采集一、实操数据采集方法测试批量采集数据参数中加入HeadersText.FromBinary(Web.Contents(URL,Headers=#cookie=COOKIE)添加延时Function.InvokeAfter()=Text.From
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 情经费预算方案(3篇)
- 工装材料现场管理制度
- 宜昌装修监理方案(3篇)
- 唐山培训机构管理制度
- 小米老板日常管理制度
- 哈根达斯公司管理制度
- 公园加强日常管理制度
- 平安校园建设管理制度
- 儿童艺术剧场管理制度
- 健全质量安全管理制度
- 运动技能学习与控制课件第四章感觉系统对运动控制的作用
- QES三体系内审检查表 含审核记录
- 安装施工进度计划表-样表
- 砖砌体工程质量标准及检验方法
- 项目建设满意度调查表
- 电气火灾监控系统调试、检测、验收记录
- 代谢组学-课件
- 2022年湛江市中考联考物理试题含解析
- 华东师范大版初中数学八年级下册 综合与实践 图形的等分 课件(共20张PPT)
- 船舶英语专业用语
- 玉雕工具磨头讲解
评论
0/150
提交评论