版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代:技术与应用杨华博士/副教授中国海洋大学信息科学与工程学院E-mail:大数据营销《纸牌屋》是“大数据”时代下的产物,其制作公司Netflix公司通过对3000万付费用户的收视习惯、剧情评论、演员喜好等数据精准分析定制内容,将全部13集内容一次全部推出而大获成功。现代海洋科技浅蓝
深蓝
透明海洋ToomuchVolume(Ihavetoomuchdata)ToomuchVelocity(It’scomingatmetoofast)ToomuchVariety(It’scomingatmefromtoomanyplacesintoomanyformats)Whatis“BigData”数据爆炸:互联网催生大量数据“COPYRIGHTRESERVED”,“一键分享”1995年,Windows95,MB2004,Google上市,GB2014,大数据,TB,PB大数数据据分分析析字节节(B)、千千字字节节(KB)、兆兆字字节节(MB)、吉吉字字节节(GB)、太太字字节节(TB)、拍拍字字节节(PB)、艾艾字字节节(EB)、泽泽它它字字节节(ZB,又又称称皆皆字字节节)、尧尧它它字字节节(YB)表示示、、千千亿亿亿亿亿亿字字节节(BB)封面面故故事事:利用用海量量数数据据的的最最新新策策略略研究究人人员员怎怎样样才才能能应应对对现现代代方方法法所所产生生的大大量量数数据据流流?大数数据据分分析析不是是随随机机样样本本,,而而是是全全体体数数据据不是是精精确确性性,,而而是是混混杂杂性性不是是因因果果关关系系,,而而是是相相关关关关系系大数数据据分分析析1.AnalyticVisualizations(可可视视化化分分析析))2.DataMiningAlgorithms(数数据据挖挖掘掘算算法法))3.PredictiveAnalyticCapabilities(预测性分析析能力)4.SemanticEngines(语义引擎))5.DataQualityandMasterDataManagement(数据质量和和数据管理))大数据分析可视化:NASA公布全球洋流流图语义搜索引擎擎数据挖掘案例分析:电电子商务领域域大数据之用户行为分析数据挖掘:机机器学习算法法学习方式1、监督式;2、非监督式;;3、半监督式;;4、强化;算法类似性1、回归算法;;2、基于实例的的算法;3、正则化方法法;4、决策树学习习;5、贝叶斯方法法;6、基于核的算算法;7、聚类算法;;8、关联规则学学习;9、人工神经网网络数据挖掘:机机器学习算法法输入数据,被称作“训训练数据”,,并进行标识识。在建模时,将预测结果果和实际结果果进行比较,,不断调整,,直到预期的的准确率。应用:分类、回归归算法:逻辑回归、、反向传递神神经网络等监督式学习非监督式学习习数据不被标识,学学习模型是为为了推断出数数据的内部结结构。应用场景:企业数据,,如关联规则则学习、聚类类半监督学习数据部分被标识,,部分不被标标识。模型先学习数据的的内部结构,,再用于预测测应用场景:图像识别,,回归和分类类算法:对标识数据据进行建模,,然后对未标标识数据进行行预测。强化学习数据:直接作为模型型的反馈模型:必须对数据做做出直接反应应应用场景:动态系统和机机器人控制机器学习算法法学习方式1、监督式;2、非监督式;3、半监督式;4、强化;算法类似性1、回归算法;2、基于实例的的算法;3、正则化方法法;4、决策树学习习;5、贝叶斯方法法;6、基于核的算算法;7、聚类算法;8、关联规则学学习;9、人工神经网网络回归分析RegressionAnalysis物理意义:试图采用对误误差的衡量来描述变量之之间的相关关关系步骤▪确定变量量▪建立预测模型型▪进行相关分析析▪计算预测误差差▪确定预测值回归分析RegressionAnalysisSIM手机的用户满满意度与相关关变量的线性性回归分析因变量量:“用户户满意意度””自变量量:“质量量”、、“形形象””和“价格格”回归方方程::用户满满意度度=0.008××形象+0.645××质量+0.221××价格指标显著性水平意义
R20.89
“质量”和“形象”解释了89%的“用户满意度”的变化程度F248.530.001回归方程的线性关系显著T(形象)0.001.000“形象”变量对回归方程几乎没有贡献T(质量)13.930.001“质量”对回归方程有很大贡献T(价格)5.000.001“价格”对回归方程有很大贡献回归分分析RegressionAnalysis指标显著性水平意义
R0.89
“质量”和“形象”解释了89%的“用户满意度”的变化程度F374.690.001回归方程的线性关系显著T(质量)15.150.001“质量”对回归方程有很大贡献T(价格)5.060.001“价格”对回归方程有很大贡献SIM手机的的用户户满意意度与与相关关变量量的线线性回回归分分析因变量量:“用户户满意意度””自变量量:“质量量”、、“形象象”和“价格格”回归方方程::用户满满意度度=0.008××形象+0.645×质量+0.221××价格决策树树DecisionTree决策树树DecisionTreeEMV(建建大厂厂)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000EMV(中型型厂))=(0.4)*($60,000))+(0.6)*(-$10,000)=+$18,000EMV(建小小厂厂))=(0.4)*($40,000)+(0.6)*(-$5,000)=+$13,000EMV(不不建建厂厂))=$0如果果建一个大厂且市场较较好就可可实现$100,000的利利润。如如果市场场不好则则会导致致$90,000的损损失。但是,如果市市场较好好,建中型厂将会获得得$60,000,,小型厂将会获得得$40,000,市市场不好好则建中中型厂将将会损失失$10,000,小小型厂将将会损失失$5,,000。当然,还有一一个选择择就是什么也不不干。最近的的市场研研究表明明市场好好的概率率是0.4,也也就是说说市场不不好的概概率是0.6。。决策树DecisionTree根据EMV标准公司应该建一一个中型型厂复杂网络络ComplexNetworksAspatialcomplexdynamicalnetworkwithtime-varying(switching)topology复杂网络络ComplexNetworksConsensusCorrectconsensus(Truelearning)ControlManipulationMisinformation复杂网络络ComplexNetworksPOWEROFBIGDATAOFTHEDATAWisdomofcrowdsBYTHEDATAWhatuneedtochangeFORTHEDATAQualitymattersmost工商数据据分析应应用案例例简介活跃度分分析包括括资本活活跃度CRI(CapitalRelativeindex)和主体体数量活活跃度QRI(QuantityRelativeindex)。活跃度指指数是衡衡量市场场环境的的体检表表,也是是实体经经济的晴晴雨表,,是一项项重要的的经济先先行指标标。活跃跃度指数数与企业业生存环环境和市市场投资资环境密密切相关关,在市市场环境境转好时时,投资资踊跃,,资本活活跃度指指数升高高;反之之,指数数下降,,表示投投资人不不愿向经经济体注注入资金金,反映映市场环环境趋于于恶化。。案例一市场主体体活跃度度模型分析案例例—市场主体活活跃度模型型活跃度指数数与很多市市场经济指指标有相当当密切的关关系。CRI与财政收入入呈现明显显的相关关关系。CRI与存款准备备金率、CPI等也有明显显相关关系系。案例一市场主体活活跃度模型型案例分享—企业生命周周期企业生命周期是是反映某一一国家或地地区中市场场环境优劣劣的重要指指标,一般般来讲,长长寿企业对对于区域市市场经济秩秩序的稳定定有一定积积极作用,,相对的非非长寿企业业对经济秩秩序的平稳稳有相应的的负面影响响。对不同同维度中的的企业分析析其生命周周期,可以以客观反映映区域细分分市场的经经济秩序,,从而协助助决策者准准确把握影影响区域市市场经济秩秩序的主要要因素。案例二市场主体退退出路径案例分享—企业生命周周期常规统计一般趋势分析生存规律挖掘基于规律的知识发现企业生命周周期的分析析层次基于工商登登记数据分分析企业生生命周期,,一般有两两种常见的的分析层次次:常规统统计、一般般趋势分析析。通过对数数据的深度度分析,还还可以挖掘掘出区域企企业的生存存规律,并并可以根据据生存规律律进一步总总结出直观观的,可用用于实际监监管工作的的“知识””。善于发现数数据背后的的规律与价价值案例二市场主体退退出路径43Chapter#7案例分享—企业生命周周期常规统计一般趋势分分析案例二市场主体退退出路径Chapter#7案例分享—企业生命周周期生存规律挖挖掘基于规律的知识发现死亡高风险险时间段---政府监管介介入的最佳佳时机案例二市场主体退退出路径不同产业,,不同区域域,不同规规模市场主主体存活率率的研究有有助于判别别市场生态态环境发生生了哪些变变化。产业业生命周期期模型对于于政府产业业扶持政策策的出台也也有着较强强的参考意意义。案例二市场主体退出出路径用2000-2007年的数据预测测2001-2007年成立企业在在2008年末的存活数数。预测2001-2007年成立企业在在2008年末的存活总总数为363322,实际存活个个数为364927,误差为-0.44%。开业年开业数存活率预测存活个数实际存活个数误差个数误差200170,5060.419129,55028,8097412.57%200274,1110.462734,29333,5937002.08%200385,3060.510043,50842,6418672.03%200499,4850.569556,66055,4131,2472.25%200596,3560.643461,99763,941-1,944-3.04%200681,6980.749361,21563,288-2,073-3.28%200785,3530.891676,09877,242-1,144-1.48%案例二市场主体退出出路径预预测验证“偏好”(Preference)一词源自经经济学术语,,反映用户对对某种物品或或劳务的喜爱爱或不喜爱程程度,这种喜喜爱或不喜爱爱与物品或劳劳务的价格及及用户收入无无关。偏好模模型主要用于于分析不同类类型群体之间间的结构差异异。投资偏好等于于1时,表明没有有显著差异。。当投资偏好好>>1时,表明该群群体有着显著著的比较优势势。案例三区域产业偏好好分析模型案例五波士顿矩阵分分析洞察产业业变迁A类(优势行业业)B类(支柱行业业)C类(潜力行业业)D类(弱势行业业):案例五波士顿矩阵分分析洞察产业业变迁北京市2008、2009年重点行业产产业迁移情况况。如,2009年租赁和商务务服务业优势势地位近一步步增强;科学研究、技技术服务行业业由支柱行业业向优势行业业转化;制造业则逐步步从支柱行业业向弱势行业业转化。案例五智波士顿矩阵阵分析洞察产产业变迁案例五智波士顿矩阵阵分析洞察产产业变迁利润率%可视化案例GISofBeijingAdministrationforIndustryandCommerce地理分析系统统-市场主体密度度分析—使分析更加直直观化根据市场主体体GIS信息进行密度度分析。叠加加其他面数据据信息,可直直观看出主体体的区域分布布热点。密度分析:根根据输入的点点要素的分布布,计算整个个区域的数据据分布情况,,从而生成一一个连续的表表面。GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系统统-市场主体密度度分析—使分析更加直直观化GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系统统-市场主体密度度分析—使分析更加直直观化GISforSAICGISofBeijingAdministrationforIndustryandCommerce市场主体密度度分析—叠加网格数据据,点数据GISforSAICGISofBeijingAdminis
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学备课组学期工作计划合集五篇
- 旅馆灭火应急预案(6篇)
- 文化艺术节开幕词(6篇)
- 感恩主题国旗下讲话稿
- 瑜伽椅开肩课程设计
- 总经理年会发言稿
- 2024年版车辆驾驶承揽协议版B版
- 直流潮流法课程设计
- 2025年山东淄博淄川区事业单位青年人才公开招聘50人历年管理单位笔试遴选500模拟题附带答案详解
- 2025年山东济宁孔子国际学校教师招考管理单位笔试遴选500模拟题附带答案详解
- 高考英语词汇3500词-乱序版
- 2024年广告代理合同的广告投放范围与分成比例
- 2024年光伏发电项目融资贷款合同
- E英语教程(第二版)1教学课件Unit-3
- 高铁乘务礼仪培训
- 2022年公务员多省联考《申论》真题(陕西A卷)及答案解析
- 2024-2025学年上学期期中教育学业质量监测八年级生物学试卷
- 文化遗产与自然遗产学习通超星期末考试答案章节答案2024年
- 反向开票政策解读课件
- 保健食品安全事故应急处置管理制度
- 2024部编版语文一年级上册第六单元大单元备课
评论
0/150
提交评论