大数据营销 课件 第3、4章 营销大数据采集及预处理、营销大数据分析_第1页
大数据营销 课件 第3、4章 营销大数据采集及预处理、营销大数据分析_第2页
大数据营销 课件 第3、4章 营销大数据采集及预处理、营销大数据分析_第3页
大数据营销 课件 第3、4章 营销大数据采集及预处理、营销大数据分析_第4页
大数据营销 课件 第3、4章 营销大数据采集及预处理、营销大数据分析_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章

营销大数据采集及预处理本章内容

第1节

数据采集

第2节

数据预处理学习目标

了解大数据的类型和数据来源

了解数据采集过程,培育正确的信息隐私观

了解大数据采集方法

掌握数据预处理的方法,以及每种方法对应处理的问题类型导入案例

喜茶:“私域流量”时代的数字化奶茶2020年3月初小程序下单比2月同期增长774%,创下了线上销售新高。这一切,主要归功于“数字化”与“私域流量”。在用户分析上,喜茶利用会员数据可以进行精准的用户喜好评估。挖掘出用户的细分需求,就能获取产品研发的灵感,推出更贴近用户的独特的新品。通过自动化推荐,喜茶让营销更个性化和定制化。自动化的千人千面营销,不仅可灵活控制库存,还能有效提高销量,提升用户的使用体验,第一时间把需要的信息与产品呈现在用户面前。喜茶利用大数据为创意营销策略提供方向性指导,不断实践着跨界联名、社区活动等新鲜玩法。这背后,其实也依靠会员系统数据的支撑。本章知识结构数据类型数据来源数据预处理营销数据采集及预处理数据采集方法结构化数据、非结构化数据、半结构化数据搜索引擎、电子商务平台、社交媒体平台系统日志、感知设备、网络爬虫、市场调查数据清洗、数据集成、数据变换、数据归约数据类型丨数据来源丨数据采集方法丨大数据采集面临的问题一、数据类型第1节

数据采集数据预处理数据采集结构化数据结构化数据是指关系模型数据,即以关系数据库形式管理的数据,可计算、可查询、可定义。结构化数据能够形式化存储在数据库里,可以用二维表结构来表示,它被归类为定量数据。非结构化数据非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不便于用数据库二维逻辑表来表现的数据,在技术上比结构化信息更难标准化和理解。半结构化数据半结构化数据是介于完全结构化数据和完全无结构数据之间的一种结构化数据形式。因其比较特殊,所以单独列出来,但本质还是结构化数据。半结构化数据是非关系模型的、有基本固定结构模式的数据。数据三大类型数据类型丨数据来源丨数据采集方法丨大数据采集面临的问题二、数据来源第1节

数据采集数据预处理数据采集数据来源

搜索引擎搜索数据和网站的点击浏览数据来源于搜索引擎,搜索平台拥有庞大的用户行为数据。利用点击和浏览数据对消费者进行分析,可以找到用户的关注点、兴趣点,利用这些信息,企业可以对用户进行个性化推送,精准营销,极大提高了广告的效率。电子商务平台商品的搜索数据、浏览数据、交易数据、评价数据以及对应的用户数据来源于电子商务平台。通过对商业大数据的分析,能够更直接地了解消费者的动态。通过用户的点评数据,企业能够分析出用户满意或者不满意的地方,这些因素就是企业存在的优势和劣势。收集、分析用户的点评数据还有一个重要之处就是倾听用户的意见、了解用户的真实需求。半结构化数据用户属性标签、用户生成内容(UGC)、用户间社交网络数据来源于社交媒体平台。通过对社交网络的研究,企业可以跟踪信息传播路径。基于用户的行为和属性标签,可以生成用户画像,从而了解用户喜好,企业根据分析结果来开展精准营销。数据类型丨数据来源丨数据采集方法丨大数据采集面临的问题三、数据采集方法第1节

数据采集数据预处理数据采集

系统日志系统日志数据采集主要是收集公司业务平台日常产生的大量日志数据,供离线和在线大数据分析系统使用。很多互联网企业都有自己的海量数据采集工具用于系统日志采集,如Hadoop公司的Chukwa,Cloudera公司的Flume,以及Facebook公司的Scribe等。这些工具均采用分布式架构,能满足每秒数百兆字节的日志数据采集和传输需求。数据类型丨数据来源丨数据采集方法丨大数据采集面临的问题三、数据采集方法第1节

数据采集数据预处理数据采集

感知设备感知设备数据采集是指通过传感器、摄像头和其它智能终端自动采集信号、图片或录像来获取数据。在智能制造、可穿戴设备、物联网愈发普及的今天,高速、可靠的数据采集技术是当前需要重点突破的方向。科技快速发展,技术创新给大数据采集提供了新的方法,比如基于眼动(EM)、脑电图(EEG)、事件相关电位(ERP)、皮肤电反应(GSR)、肌电(EMG)、心电图(ECG)等前沿科技来采集数据。通过感知设备对生物数据进行采集的方式在广告、消费者评论领域均有很强的应用价值,逐渐成为营销领域研究者的“新宠”。数据类型丨数据来源丨数据采集方法丨大数据采集面临的问题三、数据采集方法第1节

数据采集数据预处理数据采集

网络爬虫网络爬虫是指按照一定规则在搜索引擎下载并存储网页的程序或脚本,又被称为网页蜘蛛、网络机器人。传统爬虫从获得一个或若干初始网页的URL开始,在抓取网页的过程中,不断从当前页面抽取新的URL放入队列,直到满足系统的停止条件后结束。从严格意义上来说,爬虫更像一种数据下载逻辑,很多软件都具备爬虫的功能(如Python、R、“火车头”、“八爪鱼”等)。数据类型丨数据来源丨数据采集方法丨大数据采集面临的问题三、数据采集方法第1节

数据采集数据预处理数据采集

市场调查利用上文所说的信息化手段收集资料非常方便,但对于有些数据,如顾客需求及偏好、顾客满意度、市场环境和行情信息、竞争对手信息以及战略合作伙伴方的情况等无法通过信息化手段取得资料时,则需要通过市场调查或科学的实验方法来获取一手数据。市场调查分为线下、线上两种。线下即传统人与人面对面的调查方式;线上即网络在线调查方式,相比线下方式可以在投入较少人力、时间和资金的情况下获取更大规模数据,许多企业和市场调研机构越来越多地采用线上网络市场调研的方式进行网络营销数据采集。数据类型丨数据来源丨数据采集方法丨大数据采集面临的问题四、大数据采集面临的问题第1节

数据采集数据预处理数据采集数据获取渠道缺乏项目二数据质量难以保证项目三隐私安全问题凸显缺少数据获取渠道,是数据分析面临的一大难题。很多行业和企业并没有积累数据的意识,导致很多数据存在空白。此外,大数据包含大量信息,可能涉及到用户的隐私和公司的机密,企业和政府不愿意分享数据。互联网时代,在线活动与在线交易不断增多,用户数据与隐私泄露事件时有发生,网络安全威胁更为严峻。数据挖掘一方面可以被企业有效利用,增强营销活动的精准度,提升营销效率;但另一方面,如果缺乏有效监管,用户数据被不法分子得到,将会带来严重的损失与危害。大数据的“大”是指全体样本,而非单指数据量大。现有平台数据质量参差不齐,大数据采集能力有待提升,实践中很难获得全样本数据,庞杂的数据中充斥着大量无效的干扰性数据、缺失内容,如何让收集到的数据样本丰富全面,是大数据给营销变革带来的挑战之一。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约一、数据清洗概念:数据清洗主要是通过填写缺失值对“脏数据”进行处理,识别或删除离群点,将数据库中所存数据精细化,并使剩余数据转化成标准可接受格式的过程,以达到格式标准化、异常数据消除、错误纠正、重复数据清除等目的。原始数据中的“脏数据”指源系统中不在给定的范围内、对于实际业务毫无意义、数据格式非法、存在不规范的编码和含糊业务逻辑的数据。在数据清洗步骤中,主要解决数据出现遗漏值、噪声、异常值等问题。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约一、数据清洗遗漏值(missing

value)遗漏值(missing

value)为数据遗漏、缺失的情况,如某客户的月消费数据缺失。在数据搜集阶段,由于设备故障或人为失误均有可能导致数据的遗漏,应将数据补全。处理遗漏数据最简单直接的方法是直接删去该变量值,但当数据遗漏比例很大时,此方法将造成大量数据流失;第二种方法是使用一个常数或该字段所有数据的平均值统一替换遗漏值,例如用其他用户消费均值替换某客户消费指标的遗漏值,此方法缺点是不具客观性,当数据本身具有类别或等级之分时,容易高估或低估数据;最后还可利用数据挖掘模式来填充遗漏值,使用回归分析、决策树、人工神经网络等数据挖掘推导工具来推测填补遗漏值。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约一、数据清洗噪声(noise)噪声(noise)表示数据中的随机误差或干扰项。在数据收集、整理的过程中,会产生大量的噪声数据,即“离群点”。比如在年龄收入曲线中,出现个别远离曲线的极端点。因为噪声数据不在合理的数据域内,所以分析、挖掘过程中输入和输出数据的质量难以保证,容易造成后续的挖掘结果不准确、不可靠。常用的消除噪声数据的方法分为两种。一种是噪声平滑方法(datapolishing),常用分箱法处理,即将预处理数据分布到不同的箱中,通过参考周围实例平滑噪声数据。具体的分箱技术包括:平均值平滑,中位数平滑,按设定的箱边界平滑。另一种是噪声过滤(datafilters),利用聚类方法对离群点进行分析、过滤。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约一、数据清洗异常值(abnormal

value)若某一些数据的表现与其他数据差距很大时,这些数据称为异常值(abnormal

value),如数据显示某用户的月消费金额基本在3000~5000元范围内,若账单有一条30000元的记录,即为异常值。异常值可通过经验判断、标准分数(或法则)、箱线图等方法来判断。对于异常值的处理需根据具体情况分析,若该异常值拥有特殊意义,则需保留;若由于仪器工具或人工失误导致,可根据情况考虑直接删除该数据,或用其它数值更替,将数据的范围归一化。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约二、数据集成概念:数据清洗后方可进行数据集成,数据集成是将来自多个数据源的数据合并,统一存放在一个数据库中。由于描述同一个概念的属性在不同数据库可能有不同的名字,在进行数据集成时常会引起数据的不一致和冗余。命名的不一致常常也会导致同一属性值的内容不同。使用数据量太大的数据进行分析不仅会降低数据挖掘速度,也会误导数据挖掘进程。因此进行数据清洗之后,在数据集成中还需要注意消除数据的不一致、重复和冗余。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约二、数据集成数据不一致数据不一致是指两条及以上数据出现数据的矛盾性或不相容性的情况。由于整合数据后,不同来源的数据属性可能不同,在数据表达、比例定义或编码上也会有所不同,因此产生数值或字段不一致的状况。例如在两个不同的数据表中,用户在线时长分别用小时和分钟两种单位来记录。为使数据保持一致,需要先确定作为标准的字段,然后对另外的字段进行单位的换算或者修改来保持数据一致。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约二、数据集成数据重复重复数据是指重复出现的数值或字段。对于重复数据的处理方法也需根据实际情况进行判断:如因数据库信息有重合,在数据整合后发生的数据重复,删除多余记录只保留一条即可;如确实为几条不同的记录,如同一用户对同一规格的产品、下单两次,则两条均需保留。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约二、数据集成数据冗余数据冗余是指数据之间的重复,也可以说是同一数据存储在不同数据文件中的现象。属性命名的不一致,也有可能导致集中的冗余数据。数据冗余的处理主要是针对具有相同意义或彼此间存在已知数学关系的字段,也就是此变量的属性或代表的意义可由另一变量推导而得,如数据中含有用户1-12月的“月消费金额”及全年的“年消费金额”,“年消费金额”完全可以由每月消费金额累加得出,即为数据冗余。为使数据更加简洁,可将该字段剔除。若数据冗余因属性命名不一致导致,需经具体判断后处理或保留。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约三、数据变换概念:数据变换是将数据转换成适合于各种数据挖掘模式的形式,以转换原始数据或重新编码的方式提升数据价值,其中可能涉及数据数值与数据类别的转换。例如,将数值型数据转换为离散型的类别数据,根据领域知识将旧变量合并成新的变量,或将数据归一化以避免尺度的差异,常见如人工神经网络对输入数据的归一化。对于数据的数值转换,可采取归一化和标准化方法,归一化(normalization)是将属性数据按比例缩放到一个特定的区间,如[-1,1]或[0,1],标准化(standardization)则是依据数据的均值和标准差进行标准化处理。对于数据的属性转换,可视情况将离散数据转换为连续数据,如将顾客评论中“比较满意”“满意”“非常满意”转化为数值8、9、10,或是将连续数据转换为离散数据,例如按照顾客的价值评分把顾客分为白银贵宾、黄金贵宾、铂金贵宾、钻石贵宾。数据采集数据预处理第2节

数据预处理数据清洗|数据集成|数据变换|数据归约四、数据规约概念:数据归约的主要目的是得到与原始数据具有相同信息但较精简的数据集。数据挖掘时数据量往往非常大,数据归约技术通过选择替代的、较少的数据来减少数据量,可以有效缩减数据规模,在尽可能保持数据原貌的前提下最大限度地精简数据量,使得大数据挖掘更精准高效。企业根据现实情况主要进行维度规约和数值规约两方面的处理。数据维度归约常用于分类或预测问题,最直接的方式是以目标变量作为比较基准,利用特征选取法将变量维度中与目标变量不相关的属性删除,或利用主成分分析法将变量作线性转换,只留下提供较多信息的几个主成分,以缩小变量维度。数值规约通过选择替代的、较少的数据来减少数据量,包括有参数方法和无参数方法。参数方法可采用回归模型与对数线性模型来实现,非参数化方法包括直方图、聚类、抽样、数据立方体聚集等方法。案例3-1拥抱大数据:1号店的电商营销之道大数据时代的到来,颠覆了传统的市场营销模式与理念,要求市场营销不能再仅凭嗅觉和感觉做事,也要依靠科技和分析洞察能力。近年来随着我国大数据产业的发展,越来越多的国内企业投身到这场变革的浪潮中来。1号店作为中国电子商务行业最早的“网上超市”,是最早将大数据融入到营销中的企业之一。1号店的大数据营销主要有以下举措:建立营销系统,实现全自动化构建数据仓库,挖掘用户价值立足产品特点,打造产品推荐抓住用户个性,提高用户体验利用网络技术,实现自动调价基本概念

结构化数据(StructuredData)

半结构化数据(Semi-StructuredData)

数据整合(DataIntegration)

数据归约(DataReduction)

非结构化数据(UnstructuredData)

数据清理(DataCleaning)数据转换(DataTransformation)思考题简述大数据分析的流程及每一步的主要任务。举例说明大数据的类型,分别有什么特点?营销实践中,可以通过哪些渠道收集用户数据,如何确保隐私保护等问题?数据预处理的流程是什么,对于大数据分析有什么作用?THANKS!

第4章

营销大数据分析本章内容

第1节

预测分析

第2节

文本分析

第3节

社交网络分析

第4节

数据分析工具学习目标

理解并掌握预测分析的内容、作用及分析方法

理解并掌握文本分析的内容、作用及分析流程

理解并掌握社交网络分析的内容、作用及分析指标

了解数据分析常用工具及其特点导入案例

大数据助力京东物流顾客享受分钟级收货体验“购物车还没清空,就接到了配送的电话”,“京东物流速度简直不可思议”……京东物流数据显示,2021年618期间,最快仅4分钟就将快递送至客户手中。618当日,京东稳定履约背后的技术数据也首次公开:全国日均单量预测准确率超过95.5%,32座亚洲一号护航,机器人仓单日订单处理量超过100%,智能快递车送达业务量同比增长24倍。通过大数据,京东能够有效分析出消费者的偏好,将消费者的订货需求准确传达给最近的仓库,精准高速配送的同时也不会发生送错现象。京东物流“预测式发货(AnticipatoryShipping)”正是利用大数据预测,直接锁定潜在客户需求,实现精准营销。根据预测结果,京东物流将货物运送至距离潜在客户最近的物流网点,实现“单未下货先行”;消费者下单后,直接从距离最近的仓库调拨货物,让消费者购买商品实现“即买即得”。本章知识结构预测分析文本分析数据分析工具营销大数据分析社交网络分析分析内容:用户行为、偏好、关系、价值预测分析方法:回归、决策树、随机森林、神经网络、支持向量机、KNN算法等分析内容:用户特征、情感、需求分析分析流程:数据采集、数据预处理、数据分析社交网络核心概念及相关理论分析内容:营销推荐网络、用户间关系、用户与企业互动分析分析指标:网络密度、中心度、凝聚子群等EXCEL、SPSS、SAS、R、Python、MATLAB、Tableau等预测分析概述丨预测分析方法一、预测分析概述第1节

预测分析预测分析的内容

用户行为预测从大量的历史用户数据中挖掘出用户的特定行为及其规律,快速准确地预测未来一定时间内即将发生的用户行为,如浏览、搜索、点击、收藏、购买、流失、违约等未来行为动向。用户偏好预测基于历史数据对用户品类偏好、价格偏好、渠道偏好、品牌偏好等进行预测,挖掘用户兴趣,为用户提供“投其所好”的个性化产品和服务,增强用户粘性及对企业的忠诚度。用户关系预测基于用户数据(如微博中的用户基本信息、所在位置、微博内容、粉丝用户、关注用户等属性数据)进行预测分析,挖掘用户间潜在的链接关系,降低网络稀疏性、提高营销效率。用户价值预测结合交易数据预测用户整个生命周期的购买力,识别和重点维护高价值用户。文本分析社交网络分析数据分析工具预测分析预测分析概述丨预测分析方法一、预测分析概述第1节

预测分析预测分析在营销中的作用

识别潜在客户项目三项目二项目四企业通过大数据预测分析,能够有效识别高质量潜在客户,并以高效、针对性地吸引和触达客户,使营销活动更具目标性,从而大幅降低成本。增强客户粘性提升客户价值减少客户流失文本分析社交网络分析数据分析工具预测分析企业通过大数据预测分析,能够为客户提供更优惠便捷的产品或服务选择,创造极致顾客体验,增强客户粘性,巩固客户关系,提高客户忠诚度。企业通过大数据预测分析,能够识别客户价值,从而对高价值目标客户重点营销,同时提升低价值客户贡献度,充分挖掘现有客户的潜力,获取最大价值回报。企业通过大数据预测分析,预测顾客隐藏的趋势与行为,识别潜在流失客户,便于主动出击,实施挽回计划,减少客户流失,最大限度降低损失。文本分析社交网络分析数据分析工具预测分析第1节

预测分析预测分析概述丨预测分析方法二、预测分析方法

回归分析(RegressionAnalysis)回归分析是在自变量和因变量间关系的基础上建立回归方程,并将该方程作为预测模型,根据自变量在预测期的值来预测因变量数值的分析方法。按照自变量个数分类,分为一元回归和多元回归分析;按照自变量和因变量间关系分类,分为线性回归和非线性回归。如谷歌在

2014年发布的通过电影相关搜索量数据提前预测电影上映首周票房收入的预测模型,采用的就是最为简单的线性回归方法,但其预测准确度高达94%。线性模型虽然表面上看起来简单,精准度却很高。越是简单的模型越容易被人们理解和分析,简单且效果好是实际应用中一直追求的目标。文本分析社交网络分析数据分析工具预测分析第1节

预测分析预测分析概述丨预测分析方法二、预测分析方法决策树是一种树形结构,由3个主要部分组成:根节点、分支和叶子节点。最顶部的是根节点,表示一个待分类的数据类别或属性,从根结点开始分支分裂,直到叶子节点给出结果。三种经典算法:ID3、C4.5和CART算法,不同算法会根据不同标准选择最优的分裂属性,进而生成一棵完整的决策树。右图为一棵构建好的决策树。决策树(DecisionTrees)文本分析社交网络分析数据分析工具预测分析第1节

预测分析预测分析概述丨预测分析方法二、预测分析方法随机森林通过建立多棵随机生成的决策树而形成。通俗来讲,随机森林是若干决策树进行“投票表决”的过程:每棵决策树给出“投票结果”,随机森林的输出结果则是将若干单个决策树的“投票结果”整合后的“最终投票结果”。仍以决策树的分类问题为例,如果随机森林中包含1000棵决策树,有892棵决策树的预测结果为“有购买意向”,108棵决策树的预测结果为“无购买意向”,经过1000棵决策树的“投票表决”,判断结果为该用户有购买意向。随机森林(RandomForest)文本分析社交网络分析数据分析工具预测分析第1节

预测分析预测分析概述丨预测分析方法二、预测分析方法以一个经典的单层神经网络为例,包含输入层、中间层(也叫隐藏层)、输出层三个层次。类比生物神经元的工作原理,在人工神经网络中,一个神经元有n个输入,每一个输入对应一个权值w,神经元内会对输入与权重做乘法后求和,求和的结果与偏置做差,最终将结果放入激活函数中,由激活函数给出最后的输出结果。人工神经网络(ArtificialNeuralNetwork)文本分析社交网络分析数据分析工具预测分析第1节

预测分析预测分析概述丨预测分析方法二、预测分析方法支持向量机的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。SVM和线性回归的思想有相似之处,两者都是寻找一条最佳直线,但定义方法不同,线性回归要求直线到各个点的距离最近,而SVM要求直线离两边点距离尽量大。如下图,SVM划分直线使得圆形和三角形分离尽量大。支持向量机(Support

Vector

Machine)文本分析社交网络分析数据分析工具预测分析第1节

预测分析预测分析概述丨预测分析方法二、预测分析方法KNN算法的思路正如其名,是借助样本点附近的K个“Neighbors”是什么类别来判断该样本的所属类别。以经典示意图进行说明。有两类已知标签的数据(蓝方块和红三角),绿圆圈是需要进行分类判断的样本点。如果K=3(判断范围为小圆区域),范围内红三角多,则绿圆圈属于红三角类别;而如果K=5(判断范围为大圆区域),范围内蓝方块多,则绿圆圈属于蓝方块类别。KNN(K-NearestNeighbors)文本分析(TextAnalysis)又称文本挖掘(TextMining),是指从大量非结构化文本数据中抽取特征词进行量化以表示文本信息。社交网络分析数据分析工具预测分析文本分析第2节

文本分析文本分析概述丨文本分析流程一、文本分析概述文本分析可以回答“是什么?”“为什么?”揭示出非结构化文本信息中的人物、事件、时间、地点等内容反映用户购买和使用产品的潜在动机和真实需求为客户体验、市场研究、用户调查以及数据分析和媒体测量提供关键解决方案社交网络分析数据分析工具预测分析文本分析第2节

文本分析文本分析概述丨文本分析流程这里是文本这里是文本这里是文本这里是文本数据采集数据分析二、文本分析流程数据预处理数据分析用户交流记录客户投诉意见用户产品评论用户搜索记录……分词清洗剔除停止词拼写检查词干化关键词抽取语义网络分析情感倾向分析主题建模……社交网络分析数据分析工具预测分析文本分析第2节

文本分析文本分析概述丨文本分析流程一、文本分析概述用户特征分析对用户在社交网络平台发表观点、撰写文章、与朋友互动等活动产生的文本进行分析,得到能够表达用户日常行为的主题词,进而得知用户特征。用户情感分析用户评论信息中包含着丰富的情感色彩和情感倾向,如喜、怒、哀、乐、批评、赞扬等。基于这些带有主观色彩的评论,企业识别出用户文本背后蕴含的情绪或情感。用户需求分析通过对用户在社交平台、购物网站上在线交流、分享经验、发表评价等活动生成的内容进行文本分析,能够快速、准确地捕捉用户需求。文本分析的内容在计算机找出输入或识别等错误后,根据检查结果决定是否进行改正将英文单词的派生形式或中文词语的同义词提取和还原为对应词干对仅具有语言学的意义,而对所表达的内容没有太大意义的词进行过滤对文本中的HTML标签、URL地址、图像等没有实质性意义的内容进行清洗按照一定规则对文本语料中的基本词汇进行划分社交网络分析数据分析工具预测分析文本分析第2节

文本分析文本分析概述丨文本分析流程(一)数据采集(二)数据预处理分词清洗停用词过滤拼写检查词干化营销文本数据来源渠道丰富,如社交平台上的用户交流记录、客户意见建议、在线口碑、用户评论、搜索引擎中的用户搜索记录、用户发表的微博等自媒体内容等。社交网络分析数据分析工具预测分析文本分析第2节

文本分析文本分析概述丨文本分析流程(三)数据分析关键词抽取关键词抽取(KeywordsExtraction)可以精炼文本信息,读者通过几个关键词便可领略文本大意。在提取得到关键词后,还可对每个关键词进行词频统计,并制作个性化词云图。应用:右图为2021年鸿星尔克河南捐款事件网友评论的词云图,展示方法美观、易视,看出关键词有鸿星尔克、买、加油、鞋子、好、尔克、支持等,体现消费者的积极态度。社交网络分析数据分析工具预测分析文本分析第2节

文本分析文本分析概述丨文本分析流程(三)数据分析主题抽取主题抽取(TopicExtraction),或主题建模(TopicModeling),用来挖掘文本中隐含的主题以及各个主题间关联变化。常用技术有LDA、LSA、PLSA等。应用:以微博营销为例,微博用户标签常被用作内容推荐的依据,然而自定义标签数量有限。企业可对用户微博文本数据进行主题抽取,分析得出用户习惯、偏好等属性标签,产生用户画像,对用户进行商品个性化推荐。社交网络分析数据分析工具预测分析文本分析第2节

文本分析文本分析概述丨文本分析流程(三)数据分析关系抽取关系抽取(RelationExtraction)是指基于社会网络对文本中不同的词语进行分析,提取语义关系。应用:如基于小米手机正面评论语义网络图,可以看出用户评论的关注点(如“效果”、“屏幕”、“速度”、“拍照”等),还可以看出它们之间的关系(如“效果”与“待机时间”、“拍照”、“音效”、“速度”等性能密切相关)。社交网络分析数据分析工具预测分析文本分析第3节

社交网络分析社交网络基础知识丨社交网络分析概述丨社交网络分析关键指标一、社交网络基础知识社交网络(SocialNetwork),又称社会网络、社会化网络,是指个体成员之间通过社交关系结成的网络体系。个体,又称节点(Node),可以是组织、个人、网络ID等不同含义的实体或虚拟个体。六度分隔理论强关系弱关系顿巴数贝肯数社交网络中的基础理论及关键概念社交网络分析数据分析工具预测分析文本分析第3节

社交网络分析社交网络基础知识丨社交网络分析概述丨社交网络分析关键指标一、社交网络基础知识数贝肯数名称内容结论营销启示六度分隔理论最多通过六个人,即可认识任意一个陌生人。任何两位素不相识的人之间总能够产生必然联系或关系。充分发挥社交网络强势传播的杠杆作用,使信息扩散更加高效顺畅。强关系弱关系强关系是稳定但范围有限的社会关系,如亲人;弱关系是关系较浅但更为广泛的社会关系,如网友。强关系网络成员互动频率较高,更容易产生信任;弱关系促成信息流动,可以获得更丰富的信息。强关系、弱关系分别通过用户间的联系深度和广度,在成员的活跃维护方面和规模扩张方面发挥重要作用。顿巴数顿巴教授研究得出,人类拥有稳定社交关系的人数是148人,四舍五入为150人。大多数人只能与150人建立起实质关系,超过一定数量后,个体间的交互及影响减弱很多。与客户保持密切联系,加强信任,建立起稳定的社交关系;对拥有高价值资源的重点客户加强联系,实现人脉资源扩张和资源价值放大。贝肯数贝肯一类普通演员与明星大腕发生联系所需要的中间人数量在2.6-3之间。“小人物”也能非常接近网络中心;隔离高链接性人物,即可阻断两个网络之间的链接。不仅大V值得关注,像贝肯这样的用户也应给予重视;高链接节点用户流失可能造成整个网络崩溃。社交网络分析数据分析工具预测分析文本分析第3节

社交网络分析社交网络基础知识丨社交网络分析概述丨社交网络分析关键指标一、社交网络基础知识社交网络通常以关系图的形式表示。下图表示一个由10个节点组成的小型网络。节点间的连线表示个体间存在关系,连线越多表示联系越密切。图形表示对用户间关系进行分析,确定用户社交圈及在社交圈中的地位、判断社交圈中的信息扩散速度等内容利用营销事件或产品的推荐网络图,分析网络传播的结构、推荐路径,找到热点事件或产品,进行有效营销社交网络分析数据分析工具预测分析文本分析第3节

社交网络分析社交网络基础知识丨社交网络分析概述丨社交网络分析关键指标二、社交网络分析概述社交网络分析(SocialNetworkAnalysis)是基于信息学、数学、社会学、管理学、心理学等多学科的理论和方法,理解人类各种社交关系的形成、行为特点以及信息传播规律的一种可计算分析方法。内容营销推荐网络分析用户间关系分析观察用户对企业品牌、产品及促销优惠活动的情绪及反应,制定实时社交网络回应决策,优化调整营销策略用户与企业互动分析根据社交网络分析识别出的用户社交关系,将相关产品信息推广和扩散至目标用户,有效拓展潜在客户资源企业在进行营销时,仅通过将信息告知少量KOL,足以使信息最大限度在社交网络上进行传播并影响其他用户定位KOL加速信息传播社交推荐拓展客户资源对社交媒体平台的用户生成内容和行为进行分析,精准识别客户需求,实现客户和资源的精准匹配识别需求实现精准匹配作用社交网络分析数据分析工具预测分析文本分析第3节

社交网络分析社交网络基础知识丨社交网络分析概述丨社交网络分析关键指标三、社交网络分析关键指标网络密度网络密度为网络中实际存在边数与可容纳边数上限的比值。网络密度=当前关系数÷理论最大关系数0≤网络密度≤1以微信群为例:家庭群,群成员均为家庭成员,彼此非常熟悉,网络密度为1;微商群,成员彼此间几乎不认识,网络密度几乎接近于0;社区团购群,群成员同住一个社区,彼此存在一定联系,网络密度在0-1之间。社交网络分析数据分析工具预测分析文本分析第3节

社交网络分析社交网络基础知识丨社交网络分析概述丨社交网络分析关键指标三、社交网络分析关键指标中心度接近中心度ClosenessCentrality表示某节点与其他节点之间的接近程度中介中心度BetweenCentrality以经过某节点最短路径的数目来刻画节点重要性点度中心度

DegreeCentrality对一个节点单独价值的衡量,是刻画中心度最直接的指标社交网络分析数据分析工具预测分析文本分析第3节

社交网络分析社交网络基础知识丨社交网络分析概述丨社交网络分析关键指标三、社交网络分析关键指标凝聚子群“人以类聚,物以群分”网络中某些行动者之间的关系特别紧密,以至于能结合成一个次级团体时,这样的团体为凝聚子群。如果网络存在凝聚子群,并且凝聚子群的密度较高,说明这个凝聚子群内部的行动者间联系紧密,在信息分享和合作方面交往频繁。(图片来自网络)社交网络分析数据分析工具预测分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4节

数据分析工具常用的分析工具繁多,根据功能主要分为:数据获取、数据处理、建模和可视化四大类社交网络分析数据分析工具预测分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4节

数据分析工具操作简便,数据分析入门级工具工作表方式管理数据,数据一目了然,数据处理和管理更直观、方便强大的数据处理和分析功能,如描述性统计、相关系数、概率分布、均值推断、回归分析、分类、聚类等支持可视化制图,如折线图、条形图、散点图、饼图、圆环图及一些立体图形但也有其短板,如不能非常有效地处理大型数据集;无法进行复杂处理,有更高数据分析要求时需要使用专业分析工具一、Excel社交网络分析数据分析工具预测分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4节

数据分析工具二、SPSS最早的统计分析软件操作界面极为友好,大多数操作可通过菜单和鼠标拖曳来完成提供各种统计分析方法,如数据探索性分析、统计描述、列联表分析、相关分析、方差分析、非参数检验、回归分析等输出结果美观漂亮,以统一、规范的界面展现编程方便,无需通晓各种算法,只要了解统计分析原理,即可得到所需统计分析结果社交网络分析数据分析工具预测分析Excel丨SPSS丨SAS

|R丨Python|MATLAB|Tableau文本分析第4节

数据分析工具三、SAS也是较早开发的一款统计分析软件编程语句简洁、短小,只需几句简短语句即可完成复杂运算分析方法齐、全、新,几乎囊括了所有最新方法,分析技术先进可靠分析方法的实现通过过程调用完成,同时提供多种算法和选项社交网络分析数据分析工具预测分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4节

数据分析工具四、R是一种编程语言(不是统计软件),官方描述为“用于统计计算和图形的语言和环境”分析方法丰富,不仅包括经典通用统计方法,还拥有大量前沿模型算法操作较为简便,可通过调用现有模型算法解决一般性问题,也可自行编写程序解决特殊性问题有开放的网络社区化平台,不断吸引更多专家学者成为开发者,不断吸引更多、更有效、更前沿的方法融入社交网络分析数据分析工具预测分析Excel丨SPSS丨SAS|R丨Python

|MATLAB|Tableau文本分析第4节

数据分析工具五、Python功能非常强大,如数据爬取、数据处理、数据分析、机器学习、图像处理等极简主义,几乎没有多余的符号,使用的是简单易懂的英语名称,语法简洁而清晰拥有丰富且成熟的标准库,如Numpy(数学计算)、Pandas(数据处理)、Matplotlib(图形绘制)、Scikit-learn(机器学习)等,现成可直接使用强大的联接功能,把不同语言(尤其是C/C++)编写的程序无缝拼接,更好地发挥不同语言和工具的优势社交网络分析数据分析工具预测分析Excel丨SPSS丨SAS|R丨Python|MATLAB

|Tableau文本分析第4节

数据分析工具六、MATLABMATLAB(MatrixLaboratory,矩阵实验室),是一款数学软件,具有卓越的数值计算能力编程简单,允许数学形式语言编写程序,又被称为“演算纸式科学算法语言”快速排除输入程序中的书写、语法等错误,加快用户编写、修改和调试程序的速度绘图操作方便,只需调用绘图函数即可但也有一定劣势,如程序执行速度较慢,因此选择MATLAB是编程效率和运行效率两者之间的权衡

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论