




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
认识数据数据、信息、知识、智慧01数据的威力02数学基础03探索性数据分析04数据与抽样分布05获取数据06目录CONTENTS什么是数据(Data)数据、信息、知识、智慧DataInformationKnowledgeWisdom数据的威力数据无处不在数据记录无处不在数据的范畴比数字要大得多获得知识数据是文明的基石数学基础探索性数据分析“面对那些我们坚信存在或不存在的事物时,“探索性数据分析”代表了一种态度,一种方法手段的灵活性,更代表了人们寻求真相的强烈愿望。”
——JohnTukey探索性数据分析NBA手球有2种方法理解陌生领域咨询业内人士。去研究一下陌生领域的数据。ExploratoryDataAnalysis|EDA探索性数据分析就是利用各种技术手段(大部分都是利用数据可视化)探索数据内部结构和规律的一种数据分析方法和理念。探索性数据分析的目的是尽可能是洞察数据集、发现数据的内部结构、提取重要的特征、检测异常值、检验基本假设、建立初步的模型。探索性数据分析的3步方法数据分类数据可视化洞察数据第一步:数据分类第一步就是把这些数据进行分类,然后用不同方法来处理不同类型的数据。数据由粗到细可以按照
右图方式来分类StructuredvsUnstructureddata结构化数据:能够用表格来组织的数据都算是结构化的数据。例如:Excel里的数据、MySQL里的数据…非结构化数据:非表格形式组织的都是。例如:文本、图片、视频…QualitativevsQuantitativedata定量数据:数值类型,衡量某样东西的数量。例如:2001定性数据:类别,描述某样东西的性质。例如:00后数据的4个等级定类等级(norminallevel):是数据的第一个等级,其结构最弱。只需要按照名称来分类。例如:血型(A,B,AB,O)、姓名、颜色定序等级(ordinallevel):定序等级在定类等级的基础上加了自然排序,这样我们就可以对不同数据进行比较。例如:餐厅的评星,公司的考核等级定距等级(intervallevel):定距等级一定是数值类型的,并且这些数值不仅可以用来排序,还可以用来加减。例如:华氏度、摄氏度(温度有负数,不可以进行乘除运算)定比等级(ratiolevel):在定距等级的基础上,加入了绝对零点,不但可以做加减的运算,还可以做乘除的运算。例如:金钱、重量第二步:数据可视化数据等级属性描述性统计图表定类离散、无序频率占比、众数条形图、饼图定序有序类别、比较频率、众数、中位数、百分位数条形图、饼图定距数字差别有意义频率、众数、中位数、均值、标准差条形图、饼图、箱线图定比连续均值、标准差条形图、曲线图、饼图、箱线图数据的故事化(Storytelling)数据的故事化(Storytelling)1912年4月14日,“泰坦尼克号”4月14日晚11点40分,泰坦尼克号在北大西洋撞上冰山(41°43'55.66"N49°56'45.02"W附近),2小时40分钟后,4月15日凌晨2点20分沉没,由于只有20艘救生艇,1523人葬身海底。
头等舱乘客:男士:175人,幸存57人,幸存率32.6%女士:144人,幸存140人,幸存率97.2%儿童:6人,幸存5人,幸存率83.3%乘客名单及详细信息如下……第三步:洞察数据哪些数据更重要,不同数据之间可能存在的关系,哪些数据会相互影响…EDA示例2.3.2练习:探索性数据分析数据和抽样分布抽样能够有效地操作一组数据,并且可以最小化偏差。在大数据时代,涌现出了大量质量不一、相关性各异的数据通常也会使用抽样生成并导出预测模型。随机抽样和样本偏差样本大型数据集的一个子集。总体一个大型数据集,或是一个构想的数据集。N(或n)一般用N表示总体的规模,n表示样本的规模。随机抽样从总体中随机抽取元素到样本中。分层抽样对总体分层,并在每层中做随机抽样。简单随机抽样在不对总体分层的情况下,做随机抽样所得到的样本。样本偏差样本对总体做出了错误的解释。datasampling数据质量的影响要大于数据规模的影响。数据质量涉及数据的完整性、格式的一致性、整洁性以及单个数据点的准确性。在统计学中,数据质量还涉及抽样的代表性这一概念。偏差Deviation统计偏差是一些系统性的测量误差或抽样误差,是在测量或抽样过程中产生的。要严格区分由随机选取所导致的误差和由偏差所导致的误差。选择偏差选择偏差是指以一种可导致误导性或短暂性结论的方式,有选择性地选取数据的操作。选择偏差可能是有意而为之,也可能是无意识的。偏差:系统性误差。数据窥探:为得到感兴趣的结果,在数据中做大量的查找。大规模搜索效应:由于重复的数据建模,或使用大量的预测变量对数据建模所导致的偏差或非可重现性。测量标准误差标准误差随样本规模的增大而减小测量标准误差-(1)从总体中抽取一些全新的样本;(2)对于每个新样本,计算统计量,例如均值;(3)对第2步计算得到的统计量,计算其标准偏差,以此作为对标准误差的估计。自助法(1)抽取一个样本值,记录后放回总体。(2)重复n次。(3)记录n个重抽样的均值。(4)重复步骤1~3多次,例如r次。(5)使用r个结果:a.计算它们的标准偏差(估计抽样均值的标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度加装电梯项目工程款支付与结算协议
- 2025年度智能穿戴设备退货及赔偿服务协议
- 2025年度科幻电影合作拍摄合同
- 二零二五年度环境保护资金监管服务协议
- 2025年度老旧住宅产权转让合同协议书
- 2025年度正规解除劳动合同员工离职补偿金发放管理合同
- 二零二五年度劳动合同终止证明书编制与员工关系处理
- 二零二五年度债务融资与债务化解委托合同
- 二零二五年度教育设施租赁定金协议
- 人教版六年级下学期数学期末综合复习强化练习题
- 社会阶层与教育选择行为分析-深度研究
- 社会工作行政(第三版)课件汇 时立荣 第6-11章 项目管理- 社会工作行政的挑战、变革与数字化发展
- 学校小卖部承包合同范文
- 2025年湘潭医卫职业技术学院高职单招职业适应性测试近5年常考版参考题库含答案解析
- 2025年湖南铁道职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- DB 63- T993-2011 三江源生态监测技术规范
- 北京市东城区2025年公开招考539名社区工作者高频重点提升(共500题)附带答案详解
- 2025福建福州地铁集团限公司运营分公司校园招聘高频重点提升(共500题)附带答案详解
- 2025至2030年中国电子护眼台灯数据监测研究报告
- 儿童睡眠障碍治疗
- 2025年浙江省温州乐清市融媒体中心招聘4人历年高频重点提升(共500题)附带答案详解
评论
0/150
提交评论