计算机在地质学中的应用复习资料_第1页
计算机在地质学中的应用复习资料_第2页
计算机在地质学中的应用复习资料_第3页
计算机在地质学中的应用复习资料_第4页
计算机在地质学中的应用复习资料_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机在地质学中的应用一、名词解释:1、 定性地学数据:定性说明地学现象的某种属性或者形态而没有数量概念的数据。2、 名义型数据:又称类别数据,特点是没有量的概念,也不具有相对重要性,只有标识作用。其运算方式只能进行统计,不能进行常规的加减比较大小等运算。3、 有序型数据特点是只具有顺序或者等级的概念,不同序级之间没有比例关系,在绝对数量方面也不相等。其运算方式只能对其排序。4、 逻辑型数据特点是只能说明某种地学现象存在与否,不涉及大小和数量。5、 定量地学数据又称数值型数据,这类数据不仅说明地学现象的属性和状态,而且有数量的概念。不仅能比较大小,还能表示差异。6、 空间自相关空间上相邻样品在数值上具有相关关系。7、 区域化变量是介于随机变量和确定性变量之间的变量,它描述的是地理分布现象,这类现象具有空间连续性,又具有空间不确定性。8、 变差函数又叫变程方差函数,或变异函数,是地质统计学所特有的基本工具。它既能描述区域化变量的空间结构性变化,又能描述其随机性变化。9、 变程指区域化变量在空间上具有相关性的范围。在变程范围之内,数据具有相关性;而在变程之外,数据之间互不相关,即在变程以外的观测值不对估计结果产生影响。10、 块金值变差函数与Y轴的交点,在地质统计学中称为“块金方差”,表现为在很短的距离内的空间变异性,即无论h多小,两个随机变量的差异程度。它可以由测量误差引起,也可以来自矿化现象的微观变异性。在数学上,块金值C0相当于变量纯随机性的部分。11、 基台值代表变量在空间上的总变异性大小。即为变差函数在h大于变程时的值,为块金值c0和拱高cc之和。12、 随机取样即按随机性原则,从总体单位中抽取部分单位作为样本进行调査,以其结果推断总体有关指标的一种抽样方法。13、 分层取样将总体中各个个体按某种特征分成若干个互相重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样。14、 系统取样从总体中选取每第k个样品的方法。15、 丛状取样随机抽取总体内的个体集合组成小样本,所有这些小样本合并成一个样本。16、 方便取样在方便的时间和地点取样,又称偶遇取样。代价低,简单易行。17、 判别取样研究者根据自己的知识和经验,主观决定取样总体的某个部位(时间和空间)18、 配额取样:与分层取样类似,也是对总体首先进行分层,并决定各层所占比例,然后与分层取样不同的是在每层中配额取样采用的是非概率取样方法。?19、 滚雪球取样先选取合适的调查对象初步取样分析,根据调查分析结果进一步选取更多的样本,像滚雪球一样不断扩大研究区域。20、 相关分析:相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。21、 因子分析是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。1、 地学数据获取的不确定性有哪些?数据固有的不确定性数据获取过程中引起的不确定性数据处理过程中引起的不确定性数据转换过程中引起的不确定性数据传输过程中引起的不确定性数据提取和分类过程中引起的不确定性数据应用不当引起的不确定性2、 对一元地学变量的描述方法有哪些?(1)一元地学数据的图形展示连续型数据的图形描述频率分布表、频率分布直方图、理论频率分布名义型数据的图形描述柱状图和饼图等(2) 一元地学数据的中心位置度量平均值、中位数、众数(3) 一元地学数据的离散度度量极差、方差和标准差、四分位数间距3、连续型数据中心位置的度量常用的统计量是什么?(1) 平均值(算数平均值、几何平均值、加权平均值)(2) 中位数:一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数(或最中间两个数据的平均数)中位数也可表述为第50百分位数,二者等价。(3) 众数:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。4、 对一元地学数据的离散度度量常用的统计量是什么?(1) 极差:一组数据中的最大数据与最小数据的差。(2) 方差和标准差:方差是实际值与期望值之差平方的期望值。标准差是方差平方根。(3) 四分位数间距:第三四分位数与第一四分位数的差距又称四分位数间距(InterQuartileRange,IQR)IQR=Q—Q15、 什么是标准变换,标准变换后的数据集有什么优点?X-—z二iXiS变换后的数据集,平均值为0,标准差为1。6、 箱线图的功能是什么?A.利用箱线图便于对多个样本数据的形状进行比较B直观明了地识别数据批中的异常值C.利用箱线图判断数据集的偏态和尾重7、 高维点数据的可视化方法有哪些?可变散点图(Scatterplotwithvaryingdots)散点图矩阵(Scatterplotmatrix)多变量轮廓(Multivariateprofiles)星形图(Starpicture)安德斯绘图(Andrews'Fouriertransformations)安德森绘图(Metroglyphs)脸谱法(Chemoffsfaces)8、 高维点数据的可视化方法中的散点图矩阵的特征是什么?Histogramsondiagonal(散点图矩阵的对角线为柱状图)Scatterplotonlowerportion(散点图矩阵的下部分为散点图)Correlationsonupperportion(散点图矩阵的上部分为相关系数)9、 三维域上的标量场可视化方法有哪些?三维域上的标量场的可视化一般称为体可视化,方法:等值面编织图体绘制10、 变量之间的关系可归纳为哪两种大类,分别是什么?函数关系:指变量之间的一种一一对应的关系。相关关系(统计关系):指变量之间客观存在的不严格确定的依存关系(因果关系)相关关系又分为线性相关和非线性相关。11、 相关关系和函数关系的区别和联系是什么?a) 区别1函数关系变量之间存在严格的依存关系,其关系是不对等的(因果关系)相关关系则不确定,可以在一定范围内变动,变量之间的关系完全对等。2函数关系可以用方程表示出来,而相关关系则不能。b) 联系1函数关系是相关关系的特例,函数关系是完全的相关关系。2由于测量误差的存在,函数关系往往通过相关关系表现出来。3相关关系常常借助于函数关系的形式进行描述。12、 相关关系的分类有哪些方法?a) 根据相关因素的多少分为:单相关(两个变量之间的关系)复相关(多个变量之间的关系)和偏相关(在一个变量与多个变量相关时,假定其他变量不变,其中两个变量之间的相关关系)。b) 根据相关的表现形式分为线性相关和非线性相关。c) 根据变量变化的方向分为:正相关和负相关。d) 根据相关的程度分为:完全相关、不完全相关和不相关。13、变量间的非线性相关关系分为哪两类,曲线估计是用来解释哪一类问题的?

(1)绝对距离(q=1)d(1)=艺|x-X|ijk=1ik jk(2)欧氏距离(q=2)d(2)=(艺|x-X 2)l/2j ikk=1jk(3)切比雪夫距离(q=g)d(g)=maxX—Xij 1<k<pik jk1pX-X工 ik jkd(L)=ij~p ~x~~+^~k=1 ik jkd2(M)=(X-X)'S-1(Xd(L)=ij~p ~x~~+^~k=1 ik jkijijij14、Q型聚类分析常用距离来测量样品之间的相似程度,常用的距离有哪些?a) 明考夫斯基距离(绝对距离、欧氏距离、切比雪夫距离)b) 兰氏距离c) 马氏距离15、应用欧氏距离进行聚类分析的缺陷是什么?艺(艺(X-X)(X-X)1)它没有考虑到子体的变异对“距离”远近的影响,一个变异程度大的子体可Ilxxcos0ik jk= h^1—J(艺X2)(Ex2)' ik jk耳 k=1 k=1能与更多样品近些,既使它们的欧氏距离不一定最近;2) 另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的。3) 如果变量之间存在相关性,则会对处理结果带来影响。16、R型聚类分析中变量相似性的度量有哪几种方法?从变量的方向趋同性或“相关性”考察变量间的相似性,从而得到“夹角余弦法”和“相关系数”两种度量方法。1、夹角余弦两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算显然,|cos ij|v=1。2■相关系数相关系数:度量变量间的相似性。变量Xi与Xj的相关系数定义为显然也有,冋|<=1。17、 根据类间距离的不同,系统聚类法可分为哪几种?常用的类间距离定义有8种之多,与之相应的系统聚类法也有8种:最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。18、 因子分析的步骤是什么?)对原始数据进行标准化处理,建立变量的相关矩阵。)利用雅克比行列式方法求解相关矩阵的特征值和特征向量)因子提取,即选取一定的特征值,计算因子载荷以及公共因子方差)因子旋转,为便于对主因子进行解释,一般需要对因子载荷矩阵进行旋转,达到结构简化的目的)计算因子得分19、 因子分析中为什么要对分析结果进行因子旋转?因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。例如,可能有些变量在多个公共因子上都有较大的载荷,有些公共因子对许多变量的载荷也不小,说明它对多个变量都有较明显的影响作用。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小,至多达到中等大小。这时对于每个公共因子而言(即载荷矩阵的每一列),它在部分变量上的载荷较大,在其它变量上的载荷较小,使同一列上的载荷尽可能地向靠近1和靠近0两极分离。这时就突出了每个公共因子和其载荷较大的那些变量的联系,矛盾的主要方面显现出来了,该公共因子的含义也就能通过这些载荷较大变量做出合理的说明,这样也显示了该公共因子的主要性质。20、 使用经典统计学研究地学变量的局限性是什么?a) 经典统计方法在研究地学变量时,不考虑样品的空间分布,由于样品的空间分布不同,尽管其均值、方差都一样,但地学意义则不同。b) 经典统计学的研究对象是纯随机变量,并遵循一定的概率分布,而地学变量既有随机性也有结构性。c) 经典统计学研究的变量要求可以进行多次重复测量和试验,而地学变量难以实现。d) 经典统计学要求每次抽样(试验)是独立进行,相互独立的,而地学变量则并不互相独立,具有空间相关性。21、 区域化变量满足内蕴平稳的条件是什么?三、综述j1、简述趋势面分析方法。⑴趋势面分析,是利用数学曲面模拟地理系统要素在空间上的分布及变化趋势的一种数学方法。⑵它实质上是通过回归分析原理,运用最小二乘法拟合一个二维非线性函数,模拟地理要素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。趋势面分析方法常常被用来模拟资源、环境、人口及经济要素在空间上的分布规律,它是在空间分析方面具有重要的应用价值。趋势面是一种抽象的数学曲面,它抽象并过滤掉了一些局域随机因素的影响,使地理要素的空间分布规律明显化。⑸通常把实际的地理曲面分解为趋势面和剩余面两部分,前者反映地理要素的宏观分布规律,属于确定性因素作用的结果;而后者则对应于微观局域,是随机因素影响的结果。趋势面分析的一个基本要求,就是所选择的趋势面模型应该是剩余值最小,而趋势值最大,这样拟合度精度才能达到足够的准确性。空间趋势面分析,正是从地理要素分布的实际数据中分解出趋势值和剩余值,从而揭示地理要素空间分布的趋势与规律。2、简述聚类分析。(1)聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。(2) 聚类分析是一种无监督的学习方法。在进行聚类前,事先不需要知道所研究的样本分为多少类以及每一类有什么特征,聚类后再总结,再发现共同点。(3) 聚类分析的原理是根据研究对象的特性进行定量分类的一种多元统计方法。又称簇分析、群分析等。聚类依据是类内距离最小,类间距离最大等。(4) 聚类分析的基本思想是根据样品或变量之间的存在的不同程度的相似性,来划分其亲疏关系,实现分类。聚类统计量的选择和计算是聚类分析的关键。常用的聚类统计量有:距离系数和相似系数两类。(5)聚类分析的目的是寻找数据中潜在的自然分组结构和感兴趣的关系。对样品的聚类称为Q型聚类,其目的:对样品分类、利用谱系图显示更加精细和全面的分类结果、找到异常样本和典型样本,进行进一步的分析;对变量的聚类称为R型聚类,其目的:了解变量之间的亲疏关系、对变量分类、根据分类结果,选取重要的或者典型的变量进行进一步的分析。3、简述系统类聚分析法。4、简述K均值聚类分析。K均值算法的基本思想:将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:1■将所有的样品分成K个初始类;2■通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;3■重复步骤2,直到所有的样品都不能再分配时为止。K均值法和系统聚类法的异同点:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。5、简述Surfer的插值方法。(1)用微机绘制等值线,最关键一点的是对原始数据进行格网化插值。格网化是指采用一定的格网化方法(即数学模型)对不规则分布的原始数据点进行插值,生成在原始数据分布范围内规则间距的数据点分布。数学模型是绘制等值线的核心。(3)插值是把以XYZ数据文件格式表示的、通常是不规则分布的原始数据点,经过数学处理,构筑一个规则的空间矩形网格的过程。原始数据的不规则分布,造成缺失数据的“空洞。插值则用外推或内插的算法填充了这些“空洞。(4)大多数情况下,采用加权平均插值算法,即所有其它参数相等的条件下,愈靠近结点(计算出的规则点)的数据(原始数据点),对计算该结点的Z值贡献愈大。(5)插值方法分为两种:精确插值(Exactinterpolators)和平滑插值(Smoothinginterpolators)。视插值所用的数学模型和设定参数的不同,一种插值方法可以属于两种插值方法中的一种或另一种。(6) 精确插值指当网格结点正好位于原始数据点时,该结点的Z值等于此原始数据点的Z值。对于加权平均内插算法,这就意味着此原始数据点的权重为1,而其它数据点对于该结点的权重为0。增加网格密度,就增大了网格结点正好位于原始数据点的可能性。(7) 平滑插值用于并不十分依赖原始数据,只试图了解Z值的总体变化趋势的情况。平滑插值不会给任何数据点以权重1,即使某网格结点正好位于原始数据点。(8) 每一种插值的方法都有自己的一组设置。对于每种方法来说,数据处理和方向性都是类似的。6、简述距离倒数乘插值方法。(1)距离倒数乘方格网化方法是一个加权平均插值法,可以进行精确的或者光滑的方式插值。方次参数控制着权系数如何随着离开一个格网结点距离的增加而下降。对于一个较大的方次,较近的数据点被给定一个较高的权重份额,对于一个较小的方次,权重比较均勻地分配给各数据点。(2) 计算一个格网结点时给予一个特定数据点的权值与指定方次的从结点到观测点的距离倒数成比例。当计算一个格网结点时,配给的权重是一个分数,所有权重的总和等于1。当一个观测点与一个格网结点重合时,该观测点被给予一个实际

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论