版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目七
挖掘市场调查资料学习目标√了解训练数据分析的思维√熟悉数据挖掘的流程√掌握掌握各种数据挖掘方法的应用√掌握分析解读数据挖掘的结果任务7.1文本挖掘任务7.2K-Means聚类挖掘任务7.3分类问题的数据挖掘任务7.4回归问题的数据挖掘C
ONTENTS文本挖掘/
017.1.1文本挖掘的概念5购物平台上关于产品的评论影视剧的弹幕和评论知乎或微博上时事热点的讨论被调查者观点和看法的文本文本数据挖掘对象文本挖掘也叫文本信息的知识发现,即是从大量的文本数据中,提取有价值和意义的关键信息。(“精炼”文字)7.1.1文本挖掘的概念6TF-IDF:用于信息检索与数据挖掘的常用加权技术,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度的统计方法。TF:词频;IDF:是逆文本频率指数。一个字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。7.1.2文本挖掘的应用7文本挖掘作为市场调研、客户体验管理的一种补充手段,可以帮助企业完成诸如“消费者情绪识别”、“售前支持”、“购买信号”、“发掘意见领袖”等信息的挖掘。网购平台对商品的服务和评价企业网络舆情监测与分析调查问卷开放式问题的分析(3)做一做根据调查的美团“团购美食评论.xlsx”数据,分析调查的消费者对团购美食的整体评价和情感态度。课堂活动8K-Means聚类挖掘/
027.2.1聚类分析概念10根据研究对象的某些属性把研究对象进行分组:组内对象相似,组间对象不同。事先没有确定的类数或类:没有因变量(没有事先给定组别)(“无监督”法)。7.2.2K-Means聚类分析原理1115234首先指定类别数k给出初始聚类中心计算每一个样本到各个类中心的距离,将每个样本分配到离其最近的类中心代表的类别中,形成k个类别。重新计算更新k个类别的类中心重复3和4两个步骤,直至k个类中心不变或者达到规定的更新迭代次数停止。7.2.3聚类分析的应用12帮助企业完成客户细分实验市场选择销售片区确定抽样方案设计市场机会研究做一做利用K-Means聚类挖掘方法对“某电信行业客户数据.sav”,完成通信客户类群划分。课堂活动13分类问题的数据挖掘/
037.3.1Logistic回归模型原理151.决策树模型决策树算法是一种很好的归纳分类算法,既可以处理类别型输出变量也可以处理连续型输出变量,是一种根据训练数据集。决策树算法通过一系列的测试问题输出分类结果进行决策的过程。根结点条件判断……叶结点(决策)条件判断……叶结点(决策)7.3.1Logistic回归模型原理162.随机森林模型随机森林是专门为决策树而设计的集成学习算法。集成学习就是利用多个算法模型(基分类器)进行组合建模的一种技术。基于数据建立多个基分类器,然后对基分类器输出的结果,利用投票(分类型)或是取平均值(连续型)进行集成输出,从而获得更加稳健的输出结果。图7-1集成学习中的随机森林决策树1决策树2决策树3集成策略输出结果7.3.3人工神经网络模型原理17人工神经网络(ANN)是一种模拟人脑思维的计算机建模方式。人工神经网络通过类似于生物神经元的处理单元,以及处理单元之间的有机连接,解决现实世界的模式识别、联想记忆、优化计算等问题。图7-2人工神经网络单个处理单元7.3.4分类模型的应用18帮助企业完成消费者行为研究客户风险监测和识别市场机会判断决策等信息的挖掘做一做基于“银行信贷客户违约数据.sav”,进行客户信用风险评估,挖掘影响客户违约的重要风险因素。课堂活动19回归问题的数据挖掘/
047.4.1线性回归原理线性回归分析是指通过提供变量间数学表达式来定量描述变量间相关关系的一种统计分析方法。自变量是影响变量,也称为解释变量、预测变量,是可以观测和控制的。因变量是被影响变量,也称为被解释变量,是随机变量。线性回归模型的一般表达形式如下:217.4.2CART决策树及神经网络原理两种算法主要应用于市场调查研究中涉及分析的输出特征是连续型变量的问题。对于输入的自变量是类别型数据还是连续型数据则没有要求。227.4.3回归模型的应用回归算法模型应用于解决市场调查中研究的输出变量为连续型的问题。本质上回归算法模型与分类算法模型解决的市场调查分析问题都是一致的,只是一个解决影响变量为类别型,一个解决影响变量类别为连续型。23分析调查项目之间的关联性和因果关系量化研究影响
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度果园广告宣传与推广合同3篇
- 2024年研发合作合同详细规定
- 2024年综合虫害管理合同
- 2024年版货物买卖合同标的详细描述
- 2025年度新型泥工装修工程劳务合同范本3篇
- 2024年民营企业股权转让合同范本一
- 2025年度信用卡透支反担保风险控制与处理合同3篇
- 2025版旧房屋买卖及房屋修缮合同3篇
- 2024某某投资合伙企业投资决策与管理层责任补充协议3篇
- 二零二五年度三人合作开展教育培训合同3篇
- ISO IEC20000-2018信息技术服务管理体系程序文件
- 牛初乳知识课件
- 维也纳外交关系公约-VIENNA-CONVENTION-ON-DIPLOMATIC-RELATIONS
- (完整版)混凝土公司组织机构框图
- 煤气化工艺路线的比较
- 宝石学 第11章 有机宝石.
- SAP-按销售订单采购生产系统实现之配置和操作
- 《安宁疗护培训》PPT课件
- 第5章煤炭气化技术
- 全口义齿修复汇总
- 业余无线电台设置(变更)申请表
评论
0/150
提交评论