版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章电子商务数据采集3.1电子商务数据采集概述3.2数据采集的渠道及工具3.3WebScraper数据采集【章节目标及学习难点】章节目标1.了解数据采集的原则与流程2.熟悉数据采集渠道与工具3.掌握WebScraper的应用学习难点1.使用WebScraper爬取多页列表数据【案例导入】公民个人信息是如何被爬走的如今很多人都有类似这样的经历“刚和朋友聊天提起某款商品,打开购物App后首页随即出现同类产品的推送广告;刚和家人商量去某地旅游,某旅游App就推送该地最佳旅游攻略…”,这种“聊啥来啥”的现象让人们在接受贴心服务的同时也越发感到疑惑。近几年,在侵犯公民个人信息犯罪案件的办理中,网络爬虫技术逐步走进大众视野。个人信息是互联网企业输出用户画像、制定营销策略以及识别风险的重要依据。随着数据产业的不断发展,个人信息已成为高价值的数据资源,对其的争夺日趋激烈。据统计,目前除了直接通过用户采集数据,另一个主要的数据来源就是使用网络爬虫技术采集公开信息。目前存在的5种利用爬虫技术非法爬取公民个人信息形式,包括制作爬虫软件出售给他人使用以牟利,制作爬虫软件供自己爬取公民个人信息,购买爬虫软件使用权供自己爬取公民个人信息,购买爬虫软件使用权爬取公民个人信息出售牟利,利用职务便利获取用户个人信息并出售牟利。【案例导入】淘宝新灯塔服务指标体系在大数据时代,爬虫技术应用的法律边界在哪儿?实际每家网站都设定了哪些数据、哪些页面能被抓取,哪些不能被抓取的协议文件,即国际互联网界通行的Robots协议。互联网业界提出该协议来限制网络爬取数据的行为。被爬取数据方将写有可爬取信息范围的Robots协议文件放到该网站后,就表示允许数据爬取方可在协议范围内爬取数据。拓展思考1.当前有哪些法律条例保障公民个人信息安全?2.数据采集和爬取的渠道与工具有哪些?第1节电子商务数据采集概述3.1.1数据采集的原则3.1.2数据采集的流程3.1.3数据采集方案制定数据采集也叫数据获取,是指通过在平台源程序中预设工具或程序代码,获取商品状态变化、资金状态变化、流量状态变化、用户行为和信息等数据内容的过程,为后续进行数据分析提供数据准备。数据采集的原则合法性及时性准确性有效性3.1.1数据采集的原则数据采集的步骤确定采集范围及人员分工1
进行数据采集前首先需要根据数据采集目标进行分析,明确数据采集的指标范围和时间范围。接着明确这些数据需要从哪些途径及部门采集,最后确定参与部门和人员配备。建立必要的数据指标规范2
数据指标需对数据进行唯一性标识,并且贯穿之后的数据查询、分析和应用,建立数据指标规范是为了使后续工作有一个可以遵循的原则,也为庞杂的数据分析工作确定了可以识别的唯一标识。3.1.2数据采集的流程数据检查3完整性检查准确性检查规范性检查完成数据采集后对数据进行复查或计算合计数据,将其和历史数据进行比较。同时还要检查字段的完整性,保证核心指标数据完整。在数据采集录入的过程中可能会有个别数据出现录入错误,可以通过平均、求和等操作与原始数据进行比对,如发现比对结果不匹配,则需要检查出相应的错误数据。检查采集的数据中是否存在有多个商品标识编码相同或同一数据出现多个数据指标等。3.1.2数据采集的流程背景介绍数据分析指标数据分析目标渠道及工具数据采集与处理方案背景介绍主要是让项目参与人员了解该数据项目的来龙去脉,明确分析的环境和所处情况。数据分析目标,也就是数据分析人员完成数据分析后对项目运营各部门基于什么样的目的提出建议及调整策略。数据分析指标是为了明确进行此次数据分析所需要的指标类型及具体指标。在数据采集处理方案中注明数据来源及采集工具不仅可以为后续的工作提供工作方向,也可以为后期效果评估及复盘提供理论依据。3.1.3数据采集方案制定第2节数据采集的渠道及工具3.2.1内部数据采集渠道3.2.2外部数据采集渠道3.2.1内部数据采集渠道数据的主要来源渠道包含内部数据和外部数据两大类站点的访客数、浏览量、收藏量,商品的订单数量、订单信息、加购数量内部数据指在电子商务运营过程中站点或店铺自身所产生的数据信息。外部数据主要来自政府部门、行业协会、新闻媒体、出版社等发布的统计数据;还包括行业调查报告、新闻报道、出版物、行业权威网站或数据机构发布的报告、白皮书等3.2.1内部数据采集渠道一、流量数据1、站内免费流量数据各平台站内免费流量的来源有很多,要想收集站内免费流量的数据,首先一定要清楚站内免费流量的结构,哪些是店铺已经做了的引流,哪些是店铺还可以去做的引流。淘系(阿里巴巴、淘宝、天猫)平台的流量结构。2.站内付费流量数据(1)淘系站内付费流量来源直通车、淘宝客是淘宝/天猫平台站内付费流量的来源方式。对于直通车,需要采集的数据指标有:宝贝展现量01点击量02点击率03点击转化率04投入产出比05关键词质量得分063.2.1内部数据采集渠道二、商品数据通过对商品访客数、商品浏览量、有效访问商品数、详情更评价停留时长、详情跳出率、访问收藏转化率、和访问加购转化率等数据进行分析,对表现一般或销量不太乐观的商品进行优化,甚至下架。另外商家需要从流量来源分析中清楚引流的来源效果,从销售分析中总结商品销量变化规律,从客群洞察中获得商品吸引消费者的具体特征,从系统的关联搭配中选择合适的商品进行关联销售,促进销量。3.2.1内部数据采集渠道三、交易数据交易数据最能体现店铺的经营情况,有效收集交易数据对店铺分析意义重大。店铺交易数据分析结果一直是店铺运营及后期决策调整的重要指标。一般来讲,店铺交易数据的分析离不开交易的数量、类目、渠道、金额及转化率等。而主推品交易数据则反映了店铺主推的单品或爆款产品的交易信息数据,其主要包括下单买家数、支付买家数、下单件数、支付件数、下单金额、支付金额、下单支付转化率和支付转化率等几类数据。3.2.1内部数据采集渠道四、客户和物流服务数据(1)客户服务数据客户服务质量影响着消费者的忠诚度。客户服务的目的是让消费者在购买商品的过程中享受到优质的服务体验,提高消费者对店铺的满意度,从而提升商品回购率。(2)物流服务数据物流服务数据一直是商家比较难以把控和收集的数据,只有掌握其数据结构才能分析诊断出店铺产品在物流途中发生的异常。物流服务数据包括创建订单数、发货订单数、揽收订单数、签收订单数等。3.2.1内部数据采集渠道五、市场和竞争数据市场和竞争数据是商家在前期开展市场调研时需要收集的重要数据。商家需要精准收集市场和同行的信息,以制定相应的营销策略。(1)市场行业数据指标市场行业数据主要包括行业概况、产品排行类目、商家排行、产品属性等。(2)竞争店铺运营数据对于竞争店铺,可以从访客数、流量指数、交易指数、各级转化率、搜索人气、收藏人气、加购人气、预售定金指数和上新商品数等核心指标进行监控;商家还需要掌握竞争店铺的商品,明确竞争商品的数据结构,收集流量指数、交易指数、搜索人气、收藏人气和加购人气等关键指标数据,通过这些关键指标分析对比得到本店商品的优势与劣势。3.2.1内部数据采集渠道3.2.2外部数据采集渠道外部数据的采集渠道主要包含政府部门、行业协会、新闻媒体、出版社、行业权威网站或数据机构、电子商务平台等。这些基于互联网的采集渠道,通常使用的采集工具为互联网爬虫工具,具体可分为第三方爬虫软件(如八爪鱼采集器等)、基于浏览器的爬取插件(如WebScraper等)和使用Python自行编写的爬虫程序。网络爬虫是一类批量自动访问网页的工具,核心功能是访问网页。网页中的素材存在于网站所在的服务器上,当这个服务器收到一个访问请求时,它会把对应的素材发送到请求发出的地方,这就是人们通过浏览器可以看到别人服务器上的内容的原因。3.2.2外部数据采集渠道1.WebScraperWebScraper是一个轻量级的Chrome浏览器爬虫插件,用于抓取任意Web页面并使用几行JavaScript代码从中提取结构化数据。它能够加载web页面并实现动态抓取。3.2.2外部数据采集渠道3.2.2外部数据采集渠道缺点说明只支持文本数据抓取图片短视频等多媒体数据无法批量抓取不支持范围抓取默认全量抓取,无法配置抓取范围,若停止抓取,只能待数据加载完毕不支持复杂网页抓取无法抓取复杂交互、酷炫特效的网页导出数据乱序默认使用LocalStorage存储数据,存储数据乱序,需借助Excel工具重排WebScraper主要缺点2.八爪鱼(1)介绍八爪鱼八爪鱼采集器可简单快速地将网页数据转化为结构化数据,存储于Excel或数据库等,并且提供基于云计算的大数据云采集解决方案,实现精准、高效、大规模的数据采集。/edu3.2.2外部数据采集渠道3.2.2外部数据采集渠道特性说明覆盖全球主流电商平台数据淘宝、天猫、京东、苏宁、唯品会、1688.Amazon、eBay等国内外主流电商平台和一些官方/第三方电商数据分析平台涵盖90%以上数据类型及字段商品类目、标题、URL、价格(挂牌价与到手价)、显示销量、库存、评价、图片、发货地、促销活动、所在店铺、店铺等级等。独家云采集,实时采集更新数据支持设置灵活的定时采集策略与多节点高并发采集,能够在极短时间内完成多个数据源大规模更新数据的采集,保障商品价格等电商数据的时效性支持导出为Excel、Json或数据库采集结果可实时导出为Excel、Json或同步到数据库中,便于灵活生成各类报表,帮助客户进行大盘分析、价格监控、店铺监控、活动效果跟踪、库存管理、预算管理、品牌维权等电商运营工作。八爪鱼采集器主要特性3.Python爬虫程序Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)缺点说明调度器主要负责调度URL管理器、下载器、解析器之间的协调工作URL管理器包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL网页下载器通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)网页解析器将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析应用程序从网页中提取的有用数据组成的一个应用3.2.2外部数据采集渠道第3节WebScraper数据采集3.3WebScraper数据采集1.安装过程(1)下载插件官方地址“https://www.WebScraper.io”下载WebScraper插件,保存在本地。(2)安装插件首先打开Chrome浏览器,在地址栏中输入“chrome://extensions/”。然后单击Enter键,或者从浏览器【设置】-【更多工具】-【扩展程序】,进入扩展程序加载页面,并打开【开发者模式】。最后把压缩包内的文件直接拖拽到该页面,自动跳转到WebScraper官网,安装成功3.3WebScraper数据采集2.主要功能打开谷歌浏览器,进入开发者工具,单击WebScraper标签栏,其分为三个功能,分别是【Sitemaps】、【Sitemap】和【Createnewsitemap】3.3WebScraper数据采集(1)Createnewsitemap假设要获取知乎上的一个问题的回答,就创建一个Sitemap,并将这个问题所在的地址设置为Sitemap的“StartURL”,然后点击【CreateSitemap】即可创建一个Sitemap3.3WebScraper数据采集(2)SitemapsSitemaps是Sitemap的集合,所有创建过的Sitemap都会在这里显示,选择一个Sitemap进行修改和数据抓取等操作3.3WebScraper数据采集(3)Sitemap一个Sitemap下可以有多个Selector,每个Selector有可以包含子Selector,一个Selector可以只对应一个标题,也可以对应整个区域,此区域可能包含标题、副标题、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育机构团队中的沟通与协作策略
- 2025年度电子产品线上销售返利合同范本
- 第十单元课题2酸碱中和反应说课稿第一课时 -2023-2024学年九年级化学人教版下册
- 23《梅兰芳蓄须》说课稿-2024-2025学年四年级上册语文统编版
- 2025年度空间技术开发合同5篇
- 2025年房产出租合同样本3篇
- 2025年度跨国PPE货物买卖合同法律条款规定及风险规避
- 全国清华大学版信息技术九年级上册第1单元第2课《昂首阔步-计时器和对象的位移》说课稿
- 2023-2024学年天津市中小学生mixly创意编程 第9课 LED创意设计-说课稿
- 第9课《桃花源记》说课稿 2023-2024学年统编版语文八年级下册
- 大宗贸易居间协议2024年
- 第2课《济南的冬天》课件-2024-2025学年统编版语文七年级上册
- 2024年水利工程高级工程师理论考试题库(浓缩400题)
- 增强现实技术在艺术教育中的应用
- TD/T 1060-2021 自然资源分等定级通则(正式版)
- 《创伤失血性休克中国急诊专家共识(2023)》解读
- 仓库智能化建设方案
- 海外市场开拓计划
- 供应链组织架构与职能设置
- 幼儿数学益智图形连线题100题(含完整答案)
- 七上-动点、动角问题12道好题-解析
评论
0/150
提交评论