版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Y染色体非重组区单倍型系统树染色体非重组区单倍型系统树2019,Stanford University,Peter A. Underhill npnnppyyyyyyyyy212222111211p个特征目的、变量个特征目的、变量 n个个样样本本 nnnnnnccccccccc212222111211样本类似矩阵样本类似矩阵 ppppppsssssssss212222111211特征类似矩阵特征类似矩阵如何计算类似矩阵的矩阵元?如何计算类似矩阵的矩阵元?)(21 ipiiix,x,xX)(21 jpjjjx,x,xX对于样本中的两个同维向量:对于样本中的两个同维向量: 1 、数据的变换处置、数
2、据的变换处置 所谓数据变换,就是将原始数据矩阵中所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变成的每个元素,按照某种特定的运算把它变成为一个新值,而且数值的变化不依赖于原始为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。数据集合中其它数据的新值。 (1) 中心化变换中心化变换中心化变换是一种坐标轴平移处置方法,每列中心化变换是一种坐标轴平移处置方法,每列数据之和为数据之和为0,这是一种很方便地计算方差与协,这是一种很方便地计算方差与协方差的变换。方差的变换。jijijxxx *), 3 , 2 , 1;, 3 , 2 , 1(pjni 2极差规格化变换极
3、差规格化变换jijn ,iij*ijRxxx)(min21 ), 3 , 2 , 1;, 3 , 2 , 1(pjni )(min)(max2121ijn ,iijn ,ijxxR 10* ijx经过规格化变换后,数据矩阵中每列即每个变量的经过规格化变换后,数据矩阵中每列即每个变量的最大数值为最大数值为1,最小数值为,最小数值为0,其他数据取值均在,其他数据取值均在01之间;并且变换后的数据都不再具有量纲,便于不之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。同的变量之间的比较。3规范化变换规范化变换jjij*ijsxxx ), 3 , 2 , 1;, 3 , 2 , 1(pj
4、ni nijijxxnsj122)(11经过规范化变换处置后,每个变量即数据矩阵中每经过规范化变换处置后,每个变量即数据矩阵中每列数据的平均值为列数据的平均值为0,方差为,方差为1,且也不再具有量纲,且也不再具有量纲,同样也便于不同变量之间的比较。同样也便于不同变量之间的比较。 4对数变换对数变换 对数变换是将各个原始数据取对数,将原始数对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。即:据的对数值作为变换后的新值。即: )log(*ijijxx 5指数变换指数变换 ijxijex *用来衡量样本间或特征间类似性关系的用来衡量样本间或特征间类似性关系的两种系数:两种系数:
5、1 类似系数类似系数 2 相异系数相异系数类似系数:衡量全部样本或全部变量中任何类似系数:衡量全部样本或全部变量中任何两部分类似程度的目的。两部分类似程度的目的。 性质越接近的变量或样品,它们的类似系数性质越接近的变量或样品,它们的类似系数越接近于越接近于1或或 l ;而彼此无关的变量或样品;而彼此无关的变量或样品它们的类似系数那么越接近于它们的类似系数那么越接近于0,类似的为,类似的为一类,不类似的为不同类。一类,不类似的为不同类。 pajaiaijxxQ11内积系数:内积系数:适用范围:适用范围: 量纲一样量纲一样 数据相差不大数据相差不大1234567123456789Character
6、istic 2Characteristic 1ABC结论:夹角越小,结论:夹角越小,cos的值越接近的值越接近1,两向量越类似。,两向量越类似。jjiiijpkpkjkikpkjkikijQQQxxxx cos11221 2夹角余弦:夹角余弦:)(1112jjkpkiikijxxxxn jjiiijpkpkjjkiikpkjjkiikijSSSSSSxxxxxxxxr 11221)()()( pkkjkikijsxxpc122)(43exp11 nlklkkxxns122)(11为第为第k个变量的方差个变量的方差 2ks指数类似系数消除了不同变量的单位不同的影响,指数类似系数消除了不同变量的单
7、位不同的影响,也消除了不同变量的本身变异不同的影响。也消除了不同变量的本身变异不同的影响。 gpkgjkikijxxMd11)|()( ),(21ipiiixxxX),(21 jpjjjxxxXg = 1,绝对值间隔,绝对值间隔g = 2,欧氏间隔,欧氏间隔g = ,切比雪夫间隔,切比雪夫间隔(1) 明氏间隔明氏间隔(Minkowski明考夫斯基明考夫斯基distance)(2)杰氏间隔杰氏间隔 这是杰斐瑞和马突斯塔这是杰斐瑞和马突斯塔(Jffreys & Matusita)定义的一种间隔:定义的一种间隔:2112)()( pkjkikijxxJd(3)兰氏间隔兰氏间隔 这是兰思和维廉
8、姆斯这是兰思和维廉姆斯(Lance & Williams)所给定的一种间隔:所给定的一种间隔: 这是一个本身规范化的量,由于它对大这是一个本身规范化的量,由于它对大的奇特值不敏感,这样使得它特别适宜于的奇特值不敏感,这样使得它特别适宜于高度偏倚的数据。没有思索目的之间的相高度偏倚的数据。没有思索目的之间的相关性。关性。 pkjkikjkikijxxxxLd1)()()(1jijiijXXCXXd ppppppcccccccccC212222111211 najajiaiijxxxxnc1)(11,这里这里在实际运用中,假设总体协方差矩阵未知,那么可在实际运用中,假设总体协方差矩阵未知,
9、那么可用样本协方差矩阵作为估计替代计算。用样本协方差矩阵作为估计替代计算。优点:优点: 思索了观测变量之间的相关性。思索了观测变量之间的相关性。消除了各个观测目的不同量纲的影响。消除了各个观测目的不同量纲的影响。 留意:留意: 假设各变量之间相互独立,观测变量的协假设各变量之间相互独立,观测变量的协方差矩阵是对角矩阵。方差矩阵是对角矩阵。 在聚类时用各个类的样本来计算各自的协在聚类时用各个类的样本来计算各自的协方差矩阵。方差矩阵。21112)(1 plpklkjkikjlilijrxxxxpd pkjjkiikijxxxxd12ixjx这里这里 和和 分别是第分别是第 i 样本和第样本和第 j
10、 样样本向量的模。本向量的模。 pkjkikjkikijxxxxpd121 pkjkikjkikijxxxxzpd11z为两事例同一变量的察看值都是为两事例同一变量的察看值都是0的变量数的变量数 2122111ppppppdij p1:两样本的察看值一样的变量数。:两样本的察看值一样的变量数。p2:两事例的察看值不同的变量数。:两事例的察看值不同的变量数。p1p2p:变量总数。:变量总数。不匹配系数:两事例察看值不同的变量占总变量数不匹配系数:两事例察看值不同的变量占总变量数的比重。普通用于目的变量。的比重。普通用于目的变量。 性质:性质:;0成成立立和和对对一一切切的的jidij ;0成成立
11、立当当且且仅仅当当jidij ;成成立立和和对对一一切切的的jiddjiij .成成立立和和对对于于一一切切的的jidddkjikij 2、选择、选择 D(0) 表中最小的非零数,无妨假设表中最小的非零数,无妨假设dpq, 于是将于是将Gp和和Gq合并为一类,记合并为一类,记Gr=Gp , Gq。 3、利用递推公式计算新类与其它类之间的间隔。、利用递推公式计算新类与其它类之间的间隔。 分别删除分别删除D(0)表的第表的第p,q行和第行和第p,q列,并列,并 新增一行和一列添上的结果,产生新增一行和一列添上的结果,产生D(1)表。表。2nC一聚类方法一聚类方法pGqG1G2GnG1G2GnG12
12、dnd121d1nd2ndnd2 1、最长间隔法、最长间隔法 x11x2112dmaxqpijpqGjGidD ,:定定义义距距离离:qplDDDqlplrl,递递推推公公式式: max采用绝对间隔计算间隔矩阵:采用绝对间隔计算间隔矩阵:)0(D1G2G3G4G5G1G2G3G4G5G 0 10 2.51.50 653.50 875.520 【例】【例】 设抽取五个样品,每个样品只需设抽取五个样品,每个样品只需一个变量,它们是一个变量,它们是1,2,3.5,7,9。621GGG被被聚聚为为新新类类与与 0 2.50 63.50 85.5203G5G6G4G5G6G3G4G)1(D1G2G3G4
13、G5G1G2G3G4G5G 0 10 2.51.50 653.50 875.520)0(D 0 2.50 63.50 85.5203G5G6G4G5G6G3G4G621GGG被被聚聚为为新新类类与与)1(D754GGG被聚为新类被聚为新类与与3G6G6G3G7G7G)2(D836GGG被聚为新类被聚为新类与与8G7G7G)3(D8G012345678 G8G7G6G5G4G3G2G1 2、类平均法、类平均法两类间样品的绝对间隔的平均数。两类间样品的绝对间隔的平均数。 pqGiGjijqppqdnnD1qpkqqkpprknnDnDnD 递递推推公公式式:两类间样品的平方间隔的平均数。两类间样品
14、的平方间隔的平均数。 pqGiGjijqppqdnnD221qpkqqkpprknnDnDnD 222递递推推公公式式: x11x21【例】:采用绝对间隔平均计算间隔矩阵:【例】:采用绝对间隔平均计算间隔矩阵:d=e=10/2=5c=19/2=9.5g=c-d=9.5-5=4.5Distance(C,DE)=(18+20)/2=19a=b=22/2=11f1+a=f2+c=40.5/2=20.25f1=9.25 , f2=11.75a=b=22/2=11c=19/2=9.5g=c-d=9.5-5=4.52G3G4G 0 10 6.252.250 362512.250 644930.25401G
15、2G3G5G1G4G5G2)0(D【例】:采用平方间隔平均计算间隔矩阵:【例】:采用平方间隔平均计算间隔矩阵: 0 4.250 30.512.250 56.530.25403G5G6G4G5G6G3G4G621GGG被被聚聚为为新新类类与与2)1(D2G3G4G 0 10 6.252.250 362512.250 644930.25401G2G3G5G1G4G5G2)0(D(6.25+2.25)/2(36+25)/2(64+49)/2 0 4.250 30.512.250 56.530.25403G5G6G4G5G6G3G4G621GGG被被聚聚为为新新类类与与2)1(D754GGG被聚为新类
16、被聚为新类与与3G6G6G3G7G7G2)2(D(12.25+30.25)/2(30.5+56.5)/222222pqrqpqkrqpkrpkrDnnnDnnDnnD 递推公式:递推公式: ppinGxippxnx1两两样样本本的的重重心心分分别别为为: qqinGxiqqxnx1)()(22qpqpxxpqxxxxdDqp 定定义义距距离离:4、 最短间隔法最短间隔法 qjpiijpqGxGxdD ,:定定义义距距离离: min qplDDDqlplrl,递递推推公公式式: min tnitittittqprpqxxxxSSSSSSSSD12)()( 定定义义距距离离:2222 pqlrlqllrlqpllrlprlDnnnDnnnnDnnnnD 递递推推公公式式:以上聚类方法的计算步骤完全一样,仅类与类之间的间以上聚类方法的计算步骤完全一样,仅类与类之间的间隔定义不同。隔定义不同。Lance和和Williams于于1967年将其一致为:年将其一致为:222222LJKJKLLJLKJKMJDDDDDD 三聚类方法选择三聚类方法选择 最短间隔法比较简单,运用较多,但该方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中国黄铜MW外螺纹旋塞阀市场调查研究报告
- 2024年快手智能手机品类营销洞察报告-飞瓜快数-202411
- 2024年中国设备隔震橡胶垫市场调查研究报告
- 2024年苯乙胺项目可行性研究报告
- 2024至2030年越野车备胎支架项目投资价值分析报告
- 2024至2030年组合仪表盘项目投资价值分析报告
- 2024年集线器电源适配器项目可行性研究报告
- 2024年中国手捧式看火镜市场调查研究报告
- 2024年全棉丝光磨毛床单项目可行性研究报告
- 2025届湖南省衡阳县创新实验班高三第一次调研测试数学试卷含解析
- 六年级上册书法《走之底》课件
- 中考体育设备采购投标方案(技术方案)
- 20以内进位加法100题(精心整理6套-可打印A4)
- 医院传染病应急处置预案课件
- 年产xxx套棉花种植机械化设备项目投资计划书
- 消防水带的使用及管理
- 河道保洁服务投标方案
- 手术操作分类代码国家临床版3.0
- 加载减速法标准方法验证报告
- 法律文书校对规定
- 吉林省抗菌药物临床应用分级管理目录(2012年版)
评论
0/150
提交评论