版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代:技术与应用杨华博士/副教授中国海洋大学信息科学与工程学院E-mail:大数据营销《纸牌屋》是“大数据”时代下的产物,其制作公司Netflix公司通过对3000万付费用户的收视习惯、剧情评论、演员喜好等数据精准分析定制内容,将全部13集内容一次全部推出而大获成功。现代海洋科技浅蓝
深蓝
透明海洋ToomuchVolume(Ihavetoomuchdata)ToomuchVelocity(It’scomingatmetoofast)ToomuchVariety(It’scomingatmefromtoomanyplacesintoomanyformats)Whatis“BigData”数据爆炸:互联网催生大量数据“COPYRIGHTRESERVED”,“一键分享”1995年,Windows95,MB2004,Google上市,GB2014,大数据,TB,PB大数据分分析字节(B)、千字节节(KB)、兆字节节(MB)、吉字节节(GB)、太字节节(TB)、拍字节节(PB)、艾字节节(EB)、泽它字字节(ZB,又称皆皆字节)、尧它字字节(YB)表示、千千亿亿亿亿字节(BB)封面故事事:利用海量数据据的最新新策略研究人员员怎样才才能应对对现代方方法所产生的大量数数据流?大数据分分析不是随机机样本,,而是全全体数据据不是精确确性,而而是混杂杂性不是因果果关系,,而是相相关关系系大数据分分析1.AnalyticVisualizations(可视化化分析))2.DataMiningAlgorithms(数据挖挖掘算法法)3.PredictiveAnalyticCapabilities(预测性性分析能能力)4.SemanticEngines(语义引引擎)5.DataQualityandMasterDataManagement(数据质质量和数数据管理理)大数据分分析可视化::NASA公布全球球洋流图图语义搜索索引擎数据挖掘掘案例分析析:电子子商务领领域大数据之用户行为分析析数据挖掘掘:机器器学习算算法学习方式式1、监督式式;2、非监督督式;3、半监督督式;4、强化;;算法类似似性1、回归算算法;2、基于实实例的算算法;3、正则化化方法;;4、决策树树学习;;5、贝叶斯斯方法;;6、基于核核的算法法;7、聚类算算法;8、关联规规则学习习;9、人工神神经网络络数据挖掘掘:机器器学习算算法输入数据据,被称作作“训练练数据””,并进进行标识识。在建模时时,将预测测结果和和实际结结果进行行比较,,不断调调整,直直到预期期的准确确率。应用:分类、、回归算法:逻辑回回归、反反向传递递神经网网络等监督式学学习非监督式式学习数据不被标识识,学习习模型是是为了推推断出数数据的内内部结构构。应用场景景:企业数数据,如如关联规规则学习习、聚类类半监督学学习数据部分被标标识,部部分不被被标识。。模型先学习数数据的内内部结构构,再用用于预测测应用场景景:图像识识别,回回归和分分类算法:对标识识数据进进行建模模,然后后对未标标识数据据进行预预测。强化学习习数据:直接作为为模型的的反馈模型:必须对数数据做出出直接反反应应用场景:动态系统统和机器器人控制制机器学习习算法学习方式式1、监督式式;2、非监督督式;3、半监督督式;4、强化;;算法类似似性1、回归算算法;2、基于实实例的算算法;3、正则化化方法;4、决策树树学习;5、贝叶斯斯方法;6、基于核核的算法法;7、聚类算算法;8、关联规规则学习习;9、人工神神经网络络回归分析析RegressionAnalysis物理意义义:试图采用用对误差差的衡量量来描述变变量之间间的相关关关系步骤▪确定定变量▪建立预测测模型▪进行相关关分析▪计算预测测误差▪确定预测测值回归分析析RegressionAnalysisSIM手机的用用户满意意度与相相关变量量的线性性回归分分析因变量::“用户满满意度””自变量::“质量””、“形形象”和和“价格””回归方程程:用户满意意度=0.008××形象+0.645××质量+0.221××价格指标显著性水平意义
R20.89
“质量”和“形象”解释了89%的“用户满意度”的变化程度F248.530.001回归方程的线性关系显著T(形象)0.001.000“形象”变量对回归方程几乎没有贡献T(质量)13.930.001“质量”对回归方程有很大贡献T(价格)5.000.001“价格”对回归方程有很大贡献回归分析析RegressionAnalysis指标显著性水平意义
R0.89
“质量”和“形象”解释了89%的“用户满意度”的变化程度F374.690.001回归方程的线性关系显著T(质量)15.150.001“质量”对回归方程有很大贡献T(价格)5.060.001“价格”对回归方程有很大贡献SIM手机的用用户满意意度与相相关变量量的线性性回归分分析因变量::“用户满满意度””自变量::“质量””、“形象””和“价格””回归方程程:用户满意度度=0.008×形象+0.645×质量+0.221×价格决策树DecisionTree决策树DecisionTreeEMV(建建大厂)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000EMV(中型厂))=(0.4)*($60,000))+(0.6)*(-$10,000)=+$18,000EMV(建小厂)=(0.4)*($40,000)+(0.6)*(-$5,000)=+$13,000EMV(不建厂))=$0如果建一个大厂且市场较好好就可实现现$100,000的利润。。如果市场场不好则会会导致$90,000的损失失。但是,如果市场场较好,建建中型厂将会获得$60,000,,小型厂将会获得$40,000,市市场不好则则建中型厂厂将会损失失$10,000,,小型厂将将会损失$5,000。当然,还有一个个选择就是是什么也不干干。最近的市市场研究表表明市场好好的概率是是0.4,,也就是说说市场不好好的概率是是0.6。。决策树DecisionTree根据EMV标准公司应该建一个个中型厂复杂网络ComplexNetworksAspatialcomplexdynamicalnetworkwithtime-varying(switching)topology复杂网络ComplexNetworksConsensusCorrectconsensus(Truelearning)ControlManipulationMisinformation复杂网络ComplexNetworksPOWEROFBIGDATAOFTHEDATAWisdomofcrowdsBYTHEDATAWhatuneedtochangeFORTHEDATAQualitymattersmost工商数据分分析应用案案例简介活跃度分析析包括资本本活跃度CRI(CapitalRelativeindex)和主体数数量活跃度度QRI(QuantityRelativeindex)。活跃度指数数是衡量市市场环境的的体检表,,也是实体体经济的晴晴雨表,是是一项重要要的经济先先行指标。。活跃度指指数与企业业生存环境境和市场投投资环境密密切相关,,在市场环环境转好时时,投资踊踊跃,资本本活跃度指指数升高;;反之,指指数下降,,表示投资资人不愿向向经济体注注入资金,,反映市场场环境趋于于恶化。案例一市场主体活活跃度模型型分析案例—市场主体活活跃度模型型活跃度指数数与很多市市场经济指指标有相当当密切的关关系。CRI与财政收入入呈现明显显的相关关关系。CRI与存款准备备金率、CPI等也有明显显相关关系系。案例一市场主体活活跃度模型型案例分享—企业生命周周期企业生命周期是是反映某一一国家或地地区中市场场环境优劣劣的重要指指标,一般般来讲,长长寿企业对对于区域市市场经济秩秩序的稳定定有一定积积极作用,,相对的非非长寿企业业对经济秩秩序的平稳稳有相应的的负面影响响。对不同同维度中的的企业分析析其生命周周期,可以以客观反映映区域细分分市场的经经济秩序,,从而协助助决策者准准确把握影影响区域市市场经济秩秩序的主要要因素。案例二市场主体退退出路径案例分享—企业生命周周期常规统计一般趋势分析生存规律挖掘基于规律的知识发现企业生命周周期的分析析层次基于工商登登记数据分分析企业生生命周期,,一般有两两种常见的的分析层次次:常规统统计、一般般趋势分析析。通过对数数据的深度度分析,还还可以挖掘掘出区域企企业的生存存规律,并并可以根据据生存规律律进一步总总结出直观观的,可用用于实际监监管工作的的“知识””。善于发现数数据背后的的规律与价价值案例二市场主体退退出路径43Chapter#7案例分享—企业生命周周期常规统计一般趋势分分析案例二市场主体退退出路径Chapter#7案例分享—企业生命周周期生存规律挖挖掘基于规律的知识发现死亡高风险险时间段---政府监管介介入的最佳佳时机案例二市场主体退退出路径不同产业,,不同区域域,不同规规模市场主主体存活率率的研究有有助于判别别市场生态态环境发生生了哪些变变化。产业业生命周期期模型对于于政府产业业扶持政策策的出台也也有着较强强的参考意意义。案例二市场主体退退出路径用2000-2007年的数据预预测2001-2007年成立企业业在2008年末的存活活数。预测2001-2007年成立企业业在2008年末的存活活总数为363322,实际存活活个数为364927,误差为-0.44%。开业年开业数存活率预测存活个数实际存活个数误差个数误差200170,5060.419129,55028,8097412.57%200274,1110.462734,29333,5937002.08%200385,3060.510043,50842,6418672.03%200499,4850.569556,66055,4131,2472.25%200596,3560.643461,99763,941-1,944-3.04%200681,6980.749361,21563,288-2,073-3.28%200785,3530.891676,09877,242-1,144-1.48%案例二市场主体退退出路径预预测验验证“偏好”(Preference)一词源自自经济学术术语,反映映用户对某某种物品或或劳务的喜喜爱或不喜喜爱程度,,这种喜爱爱或不喜爱爱与物品或或劳务的价价格及用户户收入无关关。偏好模模型主要用用于分析不不同类型群群体之间的的结构差异异。投资偏好等等于1时,表明没没有显著差差异。当投投资偏好>>1时,表明该该群体有着着显著的比比较优势。。案例三区域产业偏偏好分析模模型案例五波士顿矩阵阵分析洞察察产业变迁迁A类(优势行行业)B类(支柱行行业)C类(潜力行行业)D类(弱势行行业):案例五波士顿矩阵阵分析洞察察产业变迁迁北京市2008、2009年重点行业业产业迁移移情况。如,2009年租赁和商商务服务业业优势地位位近一步增增强;科学研究、、技术服务务行业由支支柱行业向向优势行业业转化;制造业则逐逐步从支柱柱行业向弱弱势行业转转化。案例五智波士顿矩矩阵分析洞洞察产业变变迁案例五智波士顿矩矩阵分析洞洞察产业变变迁利润率%可视化案例例GISofBeijingAdministrationforIndustryandCommerce地理分析系系统-市场主体密密度分析—使分析更加加直观化根据市场主主体GIS信息进行密密度分析。。叠加其他他面数据信信息,可直直观看出主主体的区域域分布热点点。密度分析::根据输入入的点要素素的分布,,计算整个个区域的数数据分布情情况,从而而生成一个个连续的表表面。GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系系统-市场主体密密度分析—使分析更加加直观化GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系系统-市场主体密密度分析—使分析更加加直观化GISforSAICGISofBeijingAdministrationforIndustryandCommerce市场主体密密度分析—叠加网格数数据,点数数据GISforSAICGISofBeijingAdministrationforIndustry
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【越秀区】17-18学年八年级上学期期末语文试卷(含答案)
- 八年级物理期中考试试卷1
- 班主任工作范文九年级班主任工作计划17
- 2024-2025学年江苏省高三(上)联考物理试卷(含答案)
- 《世行贷款项目案例》课件
- 广东2025届高三12月金太阳大联考政治试卷(含答案解析)
- 做品牌就是和消费者做CP-空手
- 质量月活动总结(32篇)
- 疗养人员安全免责协议书
- 连锁企业招商外包合同模板
- 第17课 中国工农红军长征 课件-2024-2025学年统编版八年级历史上册
- DB32T 3616-2019 企业安全操作规程编制指南
- 世界职业院校技能大赛“智能网联汽车技术组”参考试题及答案
- 2024年《内科护理学》考试复习题库(含答案)
- 数据标注合作合同模板
- 福建师范大学《大数据技术原理与应用》2023-2024学年期末试卷
- 语文修辞-【专练02】 修辞手法考点专训(表达效果 主观题1)(教师版)
- 《无人机摄影测量技术与应用》课程教学大纲
- 《实践论》(原文)毛泽东
- 物业与业主补偿协议书
- 2024至2030年中国粉体滤芯数据监测研究报告
评论
0/150
提交评论