版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《信息管理概论》——第八章数据分析基础
在大数据时代,让数据说话已经成为一项共识。但是,在实际应用当中,不仅数据本身可能存在一定的片面性(比如,数据不完整,有噪音),而且不恰当的数据分析方法更会导致结果与事实的巨大偏差。因此,充分的了解数据和数据处理方法对数据分析处理极为重要。引言目
录04
数据分析方法概述01
定性分析和定量分析02
数据类型03
数据分析方法分类05复杂数据处理06数据可视化Part1.定性分析与定量分析研究分析的目的在于揭露掩盖在表象后面的本质。01
定性分析-用数量语言描述02
定量分析-用数学语言描述03
定量分析与定性分析的关系定性研究有两个不同的层次:一是没有或缺乏数量分析的纯定性研究,结论往往具有概括性和较浓的推测色彩;二是建立在定量分析的基础上的、更高层次的定性研究。定性分析是对研究对象进行“质”的方面的分析定性研究大多是采用参与观察法和访谈法而获得一手数据,具体的方法主要有参与观察、行动研究、历史研究法等。01
定性分析-用数量语言描述02
定量分析-用数学语言描述03
定量分析与定性分析的关系定量分析是对社会现象的数量特征、数量关系与数量变化的分析,是依据统计数据,建立数学模型,并用数学模型计算出分析对象的各项指标及其数值的一种方法,功能在于揭示和描述社会现象的相互作用和发展趋势。01
定性分析-用数量语言描述02
定量分析-用数学语言描述03
定量分析与定性分析的关系定性分析与定量分析互为补充,相辅相成,定性是定量的依据,定量是定性的具体化,二者结合起来灵活运用才能取得最佳效果。定量分析与定性分析方法一般都是通过比较对照来分析问题和说明问题。定量研究需要寻求一种数据定量表示的模型,并采用一些统计分析方法验证模型假设。一般来说,定量研究之前常常都要以适当的定性研究为开端,定性研究也经常会用于解释由定量分析所得的结果。定量分析相对于定性分析更加客观,很大程度上排除了主观因素的干扰Part2.数据类型进行数据分析的第一步是了解数据。只有在充分了解数据的基础上才能够选取合理的、有效的数据分析方法。01
定类数据02
定序数据03
定距数据04
定比数据定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或是不同类,具有=与≠的数学性质。每类之间的关系是平等的或并列的,没有等级之分。设计定类变量的各个类别时,要注意:一是类与类之间要互相排;二是所有研究对象均有归属,不可遗漏。每类之间的关系是平等的或并列的,没有等级之分。定类数据:也可以称为类别数据、列名数据,根据定性的原则来区分总体各个案类别。在四种计量尺度(定类尺度、定序尺度、定距尺度、定比尺度)中是计量层次最低、最粗略的一种。它只能测度事物之间的类别差,对事物进行平行的分类和分组,其数据表现为“类别”,但各类之间无法进行比较。01
定类数据02
定序数据03
定距数据04
定比数据定序尺度,是对事物之间等级差别和顺序差别的一种测度。它不仅可以测度类别差,还可以测度次序差。所以,相较定类尺度,更加精确。定序尺度并不能测量出类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算。定序数据:也称为顺序数据,是一种区别同一类别个案中等级次序的数据。定序数据可以体现次序关系,即能把研究对象排列高低或大小,具有>与<的数学特质;比定类数据的层次更高,因此也具有定类数据的特质,即区分类别(=,≠)。01
定类数据02
定序数据03
定距数据04
定比数据定距尺度:也可以称为间隔尺度,它对事物能进行准确测度。定距尺度不仅能比较各类事物的优劣,还能计算出事物之间差异的大小,所以其数据表现为“数值”。能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少。定距尺度通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值。计量结果可以进行加减运算(加减运算有意义)。“0”是测量尺度上的一个测量点,并不代表“没有”。定距数据:是由定距尺度计量形成的,具有间距特征的变量,表现为数值,有单位,没有绝对零点,可以进行加、减运算以精确计算数据,但不能做乘除运算。01
定类数据02
定序数据03
定距数据04
定比数据定比尺度:又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限)。与定距尺度属于同一层次,计量结果也表现为数值。具有其他三种计量尺度的全部特点外,还有可计算两个测度值之间比值的特点。“0”表示“没有”,即它有一固定的绝对“零点”,因此它可进行加、减、乘、除运算(而定距尺度只可进行加减运算)定比数据:是由定比尺度计量形成的,表现为数值,可以进行加、减、乘、除运算。没有负数。数据的最高级,既有测量单位,也有绝对零点。Part3.数据分析方法分类常用的数据分析方法可以概括为描述性分析和预测性分析两种。01
描述性分析02预测性分析描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。集中趋势:在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。离散趋势:离散趋势的各测度值是对数据离散程度所做的描述,他反映各变量值远离其中心值的程度,因此也称为离中趋势,可以从另一个侧面说明了集中趋势测度值的代表程度。01
描述性分析02预测性分析预测分析涵盖了各种统计学技术,包括利用预测模型、机器学习、数据挖掘等技术来分析当前及历史数据,从而对未来或其他不确定的事件进行预测。预测分析方法被广泛的应用于保险精算科学、市场营销、金融服务、保险、电信、零售、旅行、保健、制药、能力规划及其他领域。Part4.数据分析方法概述了解数据分析方法和相对应的特性,有助于在遇到实际的问题和数据的时候选择合适的数据分析方法01
回归分析02
监督学习算法03
无监督学习算法回归分析是一种统计学的方法,回归分析是一种测量两个或多个现象之间的联系的方法,回归分析有助于理解当任何一个独立的变量变化时,因变量随着独立的变量如何变化.只有一个自变量的方程成为一元回归分析,具有多个自变量X1,X2,X3,…,Xn,成为n元线性回归。回归分析一般来说是对连续性变量的估计而不是分类中使用的离散型变量。线性回归:通过学习一个线性模型尽可能准确地预测实值输出标记逻辑回归:一个二值分类器,通过sigmoid函数,它的输出值只有“0”和“1”01
回归分析02
监督学习算法03
无监督学习算法监督学习是一种利用有标签的数据来训练模型,使模型达到正确的分类和预测效果SVM:用来对数据进行分类和回归分析,一种二分类模型,含硬间隔支持向量机和软间隔向量机LinearSVM:寻找训练样本中间的划分超平面,解决二分类问题核函数:包括线性核,多项式核,高斯核,Sigmoid核KNN:用于分类和回归的非参数的监督学习方法贝叶斯分类:一种基于统计的分类算法决策树:基于条件做决策,算法思想是由上而下,分而治之,递归的方法来构建树神经网络:模拟人脑神经元的数学基础而建立起来的,由多层神经元组成,神经元之间互相连接01
回归分析02
监督学习算法03
无监督学习算法无监督学习:对无标签数据进行聚类和降维,常见的聚类和降维分别为K-means和PCAK-means:一种聚类算法,它将n个值划
分为k个簇,实现聚类PCA:主成分分析,一种常见的降维方式,
可以对数据的主成分进行分析,
对特征进行降维二维数据压缩至一维K-means分类示意图Part5.复杂数据处理实际应用当中,我们遇到的数据往往并没有“准备好”。需要我们进行预处理,比如半结构化和非结构化数据。01
知识管理的产生复杂数据介绍:结构化数据:指有组织的格式化的存储库(通常是数据库)的数据半结构化数据:结构化数据的一种,它没有关系数据库或者其他形式的数据表相关联的数据模型的正式结构,但包含标记或者其他标记来分隔语义元素。非结构化数据:比较起传统的结构化数据,没有行和列这种具体的结构。02
理论研究渊源常见非结构化处理方法:文本处理数字图像处理图像数字化社交网络分析02
理论研究渊源文本处理:对于文本常用自然语言处理(NaturalLanguageProcessing,NLP)和文本挖掘(文本分析)。文本挖掘(文本分析)是检查大量文本资源以生成新信息,将非结构化数据转换为结构化数据,然后利用机器学习等方法来对文本进行进一步的分析。自然处理(NLP)算法是文本挖掘中使用最广泛的技术,利用NLP的方式可以识别相似的词语概念。文本处理流程图02
理论研究渊源数字图像处理数字图像处理流程图02
理论研究渊源图像数字化将图像进行数字化是计算机处理图像之前的基本步骤,通过取样和量化将真实的图像转变为计算机可以识别的数字形式。图像经过处理被表示为一个矩阵,矩阵的每一个元素称为一个像素。02
理论研究渊源社交网络分析社交网络示例图02
理论研究渊源常用社交网络分析方法中心性分析:个体的中心度测量的是个体处于网络中心的程度,反映了该点在网络中的重要性,常用的中心性分析法:度中心性,接近中心性,中介中心性。凝聚子群分析:当网络中某些点(一般指人)关系特别紧密,形成一个小团体,这样的团体在社交网络中成为凝聚子群,也叫做“小团体分析”。方法有:1.基于子图可达性的方法,2.基于节点聚类的方法,3.基于图分割等方法Part6.数据可视化数据可视化是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并利用数据分析和开发工具发现其中未知信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025高考数学考点剖析精创专题卷八-平面解析几何【含答案】
- 二零二五年度股权转让与关联交易信息披露协议3篇
- 2024年清远职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 二零二五年防水材料企业战略联盟与合作开发合同3篇
- 第一章日本茶道历史概述培训课件
- 人民币系列知识完美版教学提纲
- 三章烯烃教程文件
- 2024年阳高县人民医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2024年阜阳市鼓楼医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 二零二五年度钣金喷漆行业培训与认证合同
- 2024年浙江杭州师范大学附属医院招聘笔试真题
- 学校自习室管理及收费方案
- 2025年护理部护士理论培训计划
- 环保管家管家式管家式一站式服务合同
- 医疗废物污水培训
- 房地产营销策划 -佛山龙湾壹号学区房项目推广策略提案方案
- 2024年执业药师继续教育专业答案
- 产品共同研发合作协议范本5篇
- 2024年6月高考地理真题完全解读(安徽省)
- 新制定《公平竞争审查条例》主题
- 河南省科学技术进步奖提名书
评论
0/150
提交评论