版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
特征选择、学习机器选择和样本选择
大数据与信息时代,我们并不缺少数据,缺少的是对数据深入分析、挖掘、获取知识的能力。数据变现,算法为王大数据与信息时代,我们并不缺少数据,缺少的是Y离散,分类(二分类或多分类);Y连续,回归。任务:从m个自变量中找到m’个保留自变量,建立模型,对待测样本做出可信预测。非纵向数据有监督学习:数据矩阵(Yi,Xij)样本YX1X2…Xj…Xm1Y1X1,1X1,2…X1,j…X1,m2Y2X2,1X2,2…X2,j…X2,m……………………iYiXi,1Xi,2…Xi,j…Xi,m……………………nYnXn,1Xn,2…Xn,j…Xn,mY:因变量(表型、性状等)X:自变量(特征、基因等)行:样本个数,n列:自变量个数,mY离散,分类(二分类或多分类);Y连续,回归。非纵向数据有监经典统计学Y二分类-X连续:t测验,|t|∈(0,∞)Y多分类-X连续:F测验,F∈(0,∞)Y离散-X离散:卡方测验,χ2∈(0,∞)Y连续-X连续:决定系数,R2∈(0,1)一、特征选择(1):两变量关联单变量过滤,即Y与某个X的两变量关联。Y=f(X)非线性显性表达式未知而不可穷尽。缺陷多多!经典统计学一、1±(0~0.5)2±(0~0.5)3±(0~0.5)t-test:P-value=0.82传统两变量关联测度的缺陷:t测验1±(0~0.5)2±(0~0.5)3±(0~0.5)t-tR2不能反映非线性关联,不具普适性。Y=ax2+bx+cR2≈0实际Y与X为完全关联传统两变量关联测度的缺陷:R2R2不能反映非线性关联,不具普适性。Y=ax2+bx+c传统两变量关联新测度-MIC最大信息系数Maximalinformationcoefficient(MIC)Reshelfetal,2011,Science,纯方法学论文源于互信息:I∈[0,+∞]MIC∈[0,1],0完全独立,1完全关联两变量关联新测度-MIC最大信息系数MaximalinfoMIC的普适性(1)任意形式无噪音函数(线性或非线性),得分均为1。圆等非函数关联亦能检测到。MIC的普适性(1)任意形式无噪音函数(线性或非线性),MIC的普适性(2)WHO:不同国家妇女肥胖程度与收入的关系原因:几个太平洋岛国,妇女肥胖程度与社会地位正相关!R2≈0,不显著。MIC=0.26,弱关联但显著见前人之所未见!MIC的普适性(2)WHO:不同国家妇女肥胖程度与收入的关MIC的等价性等噪音强度的不同函数,MIC得分接近。1-R2(y’-y)MIC的等价性等噪音强度的不同函数,MIC得分接近。1-MIC的简单理念:画格子计数不等间隔离散化寻优[频次分布,组距相等]X<0.330.33<X<0.66X>0.66Y>0.55205Y<0.535035X<0.250.25<X<0.75X>0.75Y>0.50500Y<0.525025等间隔均分不等间隔划分MIC的简单理念:画格子计数不等间隔离散化寻优[频次分布,MIC实现算法ApproxMaxMI分多少段?如何分段?强力搜索,计算密集型,动态规划算法划分族(clump)与超族(Superclump)最大分段数
B(n):xy<n^0.6标准化矫正:logmin(x,y)MIC实现算法ApproxMaxMI分多少段?如何分段?MIC的局限MIC统计势低,在小样本时易导致虚假关联。MIC∈[0,1],两个独立变量的MIC趋于0仅在样本无穷大时成立。n=100,两个独立变量的MIC约为0.24。简单情形,分段数要少;复杂情形,分段数可多!不能统一采用最大分段数
B(n):xy<n^0.6
MIC的局限MIC统计势低,在小样本时易导致虚假关联。MICMIC的改进:Chi-MICOurwork核心思想:在动态规划算法中每增加一个分段点实施一次卡方测验,若显著则增加该分段点,否则划分终止。该多则多,该少则少!MIC的改进:Chi-MICOurwork核心思想Chi-MIC的优点(1)对任意无噪音函数ApproxMaxMI-MIC=Chi-MIC=1。Chi-MIC同样具普适性。小样本n=100,最大分段数n0.6,两个独立变量ApproxMaxMI-MIC≈0.24Chi-MIC≈0.06Chi-MIC的优点(1)对任意无噪音函数Chi-MIC的优点(2)对有噪函数,Chi-MIC有效地控制了格点划分过多。Chi-MICApproxMaxMI-MIC无噪函数Chi-MIC的优点(2)对有噪函数,Chi-MIC有效地控Chi-MIC的优点(3)Chi-MIC有更高的统计势,更能发现弱关联。统计势是特定噪音强度下假设测验正确拒绝零假设的比值。Chi-MIC的优点(3)Chi-MIC有更高的统计势,更能双向控制分段后B-chiMIC的统计势更高。对Chi-MIC的再改进-未发表双向控制分段后B-chiMIC的统计势更高。对Chi-MICChi-MIC的优点(4)Chi-MIC能更合理反映不同函数随噪音增加复杂度MCN的变化。MCN是最终划分格子数的对数。Log24=2Log28=3Log26=2.58Chi-MIC的优点(4)Chi-MIC能更合理反映不同函数Chi-MIC的优点(5)四个UCI实例,单变量过滤,前向选择,SVM预测,Chi-MIC可以更少的保留特征获得更高的独立预测精度。Chi-MIC的优点(5)四个UCI实例,单变量过滤,前向选Chi-MIC的优点(6)Chi-MIC的搜索常常提前结束,更快捷,更适用于大数据。Chi-MIC的优点(6)Chi-MIC的搜索常常提前结束,特征选择、学习机器选择和样本选择课件MIC的又一局限:不能反映配对互作两变量关联Y=f(X)三变量关联Y=f(X1,X2):配对互作多变量关联Y=f(X1,X2,…,Xm’)?MICisagreatstepforward,buttherearemanymorestepstotake.Speed.ACorrelationforthe21stCentury.Science,1502(2011)334MIC的又一局限:不能反映配对互作两变量关联Y=f(X)MI一、特征选择(2):考虑配对互作的三变量关联仿真数据:MIC不能检测到配对互作!一、特征选择(2):考虑配对互作的三变量关联仿真数据:MIC真实数据中配对互作:MIC不能检测红色:病人绿色:健康真实数据中配对互作:MIC不能检测红色:病人三变量关联的分解(信息论)Jointeffect联合效应Interaction互作0~+∞三变量关联的分解(信息论)Jointeffect联合效应I三变量关联的分解(最大互信息)NormalizationJointeffect0~1NormalizationInteraction-1~1Normalizationsinglefactoreffect0~1三变量关联的分解(最大互信息)NormalizationJMIC(X1;X2;Y)实现算法:Ourwork?MIC(X1;X2;Y)实现算法:Ourwork?MIC(X1;X2;Y)实现算法MIC(X1;X2;Y)实现算法MIC(X1X2;Y)的普适性(1)X1、X2
均与
Y无关。样本大小
n=200,500次重复互作期望值:MIC(X1;X2;Y)=0互作计算值:MIC(X1;X2;Y)=0.0862±0.0130MIC(X1X2;Y)的普适性(1)X1、X2均与MIC(X1X2;Y)的普适性(2)Y完全由X1
与
X2的增效互作决定。互作期望值:MIC(X1;X2;Y)=1互作计算值:MIC(X1;X2;Y)=1CalculatedMIC(X1;Y)
=0.0379CalculatedMIC(X2;Y)=0.0533MIC(X1X2;Y)的普适性(2)Y完全由X1与Y
是X1
与
X2的无噪函数,且X1
与
X2完全冗余。
如:互作期望值:MIC(X1;X2;Y)=-1互作计算值:MIC(X1;X2;Y)=-1CalculatedMIC(X1;Y)
=MIC(X2;Y)=1MIC(X1X2;Y)的普适性(3)Y是X1与X2的无噪函数,且X1与X2完全冗余。Y
是X1
与X2
的无噪函数联合效应期望值:MIC(X1;X2;Y)+MIC(X1;Y)+MIC(X2;Y)=110个无噪音二元函数
Y=f(X1,X2)MIC(X1X2;Y)的普适性(4)Y是X1与X2的无噪函数MIC(X1X2;Y)的MIC(X1X2;Y)的普适性(5)10个无噪二元函数的联合效应均接近于1MIC(X1X2;Y)的普适性(5)10个无噪二元函数的MIC(X1X2;Y)的等价性等噪音强度的不同Y=f(X1,X2)函数,
联合效应MIC(X1X2;Y)得分接近;近似满足等价性。MIC(X1X2;Y)的等价性等噪音强度的不同Y=f(MIC(X1;X2;Y)发现增效基因:真实数据MIC(X1;X2;Y)发现增效基因:真实数据OverlapsamongMIC(X;Y),mRMR,SVM-RFEandTSGOverlapsamongMIC(X;Y),mRMR,OverlapsamongMIC(X;Y),mRMR,SVM-RFEandTSGOverlapsamongMIC(X;Y),mRMR,OverlapsamongMIC(X;Y),mRMR,SVM-RFEandTSGOverlapsamongMIC(X;Y),mRMR,LittleoverlapsbetweenMIC(X1;X2;Y)andtheothersLungDLBCLProstate俺能找到他们找不到的!LittleoverlapsbetweenMIC(X1增效基因验证-预测表现MIC(X1;X2;Y)选取的增效基因具有与单效应基因可比的预测能力俺找到的也是有用的!
增效基因验证-预测表现MIC(X1;X2;Y)选取的增效基Prostate增效基因与单效应基因具相同或类似的生物学功能.增效基因验证-GO注释俺找到的还算可信!
Prostate增效基因与单效应基因具相同或类似的生物学功能12600genes,Prostate数据集200增效基因,MIC(X1;X2;Y)选择67
增效基因与肿瘤相关,Ougene数据库18
增效基因与prostate相关,PubMed文献增效基因验证-文献报道俺找到的还算可信!
12600genes,Prostate数据集增效基因验证-————————与Dendrogram-based方法比较————————与Dendrogram-based方法比较与Dendrogram-based方法比较
单效应基因增效基因Dendrogram-basedMIC-basedProstate数据集,Top2基因是骡子是马,牵出来溜溜!与Dendrogram-based方法比较单效应基因增效基特征选择、学习机器选择和样本选择课件沃尔玛周末啤酒与尿不湿销量的关联全部数据:关联不明显周末:关联明显原因:年轻爸爸,周末球赛直播组合摆放,销量增加!该三变量关联发现纯属偶然,MIC(X1;X2;Y)可主动发现!沃尔玛周末啤酒与尿不湿销量的关联全部数据:关联不明显Chi-MIC(X;Y),可普适选择单效应特征MIC(X1;X2;Y),可普适选择配对增效特征多变量关联:最优特征子集,?特征选择小结Chi-MIC(X;Y),可普适选择单效应特征特征选择小结二、学习机器选择线性:多元线性回归MLR非线性:人工神经网络ANN归纳演绎:归纳(特殊—一般),演绎(一般—特殊)转导推理:特殊—特殊,支持向量机SVM都需要训练!二、学习机器选择线性:多元线性回归MLRMLR:Y=a+b1*x1+b2*x2,求参过程即训练ANN:权重调整过程即训练SVM:核函数参数C、g、p优化过程即训练二、学习机器选择需要训练:MLR、ANN、SVM不需要训练:直接推理?MLR:Y=a+b1*x1+b2*x2,求参过程即训练二、直接分类器1:TSG直接分类器1:TSG直接分类器2:TSG的改进版,χ2-IRG-DC直接分类器2:TSG的改进版,χ2-IRG-DC直接分类器3:相对简单度,RS-basedDC直接分类器3:相对简单度,RS-basedDC直接分类器决策过程示例YX1<3且X2<5X1<3且X2>5X1>3且X2<5X1>3且X2>5+25224(→25)3-0231(→2)22训练集n=100,保留特征为X1和X2某待测样本(X1,X2)=(4,4)先假定其属于正类,则24→25,得卡方值Chi+;再假定其属于负类,则1→2,得卡方值Chi-;如Chi+>Chi-,则待测样本属于正类,反之属于负类。多分类类推。过程中无任何参数需要调整寻优。直接分类器决策过程示例YX1<3且X2<5X1<3且X2>5mRMR-SVM模型SVM-RFE-SVM模型17.2212.76需要训练分类器泛化性能过拟合!mRMR-SVM模型SVM-RFE-SVM模型17.22125.063.08直接分类:HC-KTSP模型直接分类:TSG模型直接分类器泛化性能有效控制过拟合!5.063.08直接分类:HC-KTSP模型直接分类:TSG3.67直接分类:RS-basedDC模型直接分类器泛化性能有效控制过拟合!需要训练是多数分类器产生过拟合的主要原因。直接分类无任何参数需要优化,可有效控制过拟合!3.67直接分类:RS-basedDC模型直接分类器泛化三、样本选择预测某个待测样本需要所有的训练样本吗?三峡大坝建或不建?全国人民投票,费时费力,未必准确水利部长一人说了算,最近邻,1NN;不稳健若干不同领域专家(水利、发电、国防、生态、移民、泥沙沉积等)决策,K近邻,KNN。K=?K值选择难题如何从全国15亿人口中找出这K1个专家?换一个待测样本,葛洲坝水电站,
K2=K1?个性化预测(个性化医疗)三、样本选择三峡大坝建或不建?基于地统计学GS的个性化预测随机变量:经典统计学区域化随机变量:地统计学a变程C基台C0
块金变程以内的样本被认为是相关的!特征加权:MIC(Y;Xi)高维空间:加权明氏距离基于地统计学GS的个性化预测随机变量:经典统计学a变程C变程a待测样本K1=14K2=10K3=8待测样本变程a待测样本K1=14K2=10K3=8待测样本————————————————————————————————————————————————————20126篇[1]Zhang,H.Y.,Wang,H.Y.,Dai,Z.J.,Chen,M.S.,&Yuan,Z.M.*(2012).Improvingaccuracyforcancerclassificationwithanewalgorithmforgenesselection.BMCBioinformatics,13(1),298.(Highlyaccessed)(SCI,IF=3.02)[2]Zhou,W.,Dai,Z.J.,Chen,Y.,Wang,H.Y.,&Yuan,Z.M.*(2012).High-dimensionaldescriptorselectionandcomputationalQSARmodelingforantitumoractivityofarc-111analoguesbasedonsupportvectorregression(SVR).Internationaljournalofmolecularsciences,13(1),1161-1172.(SCI,IF=2.6)[3]Li,J.L.,Wang,L.F.,Wang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2012).High-accuracysplicesitespredictionbasedonsequencecomponentandpositionfeatures.GeneticsandMolecularResearch,11(3),3432-3451.(SCI)[4]Qian,G.,Wang,H.Y.,Yuan,Z.M.*(2012).UsinghomologyinformationfromPDBtoimprovetheaccuracyofproteinβ-turnpredictionbyNetTurnP.ProgressinBiochemistryandBiophysics,39(5),472-482.(SCI)[5]Wang,L.F.,Tan,X.S.,Bai,L.Y.,&Yuan,Z.M.*(2012).EstablishinganinterpretabilitysystemforsupportvectorregressionanditsapplicationinQSARoforganophosphorusinsecticide.
AsianJournalofChemistry,
24(4),1575-1578.(SCI)[6]Su,M.,Wang,L.F.,Dai,Z.J.,Yuan,Z.M.*,Bai,L.Y.(2012).
PrimarystructuralcharacterizationsofpolypeptideandantimicrobialpeptidesQSAMmodeling.ChemicalJournalOfChineseUniversities,33(11),2526-2531.(SCI)近5年论文20126篇[1]Zhang,H.Y.,Wang20136篇[1]Wang,H.Y.,Zhang,H.Y.,Dai,Z.J.,Chen,M.S.,&Yuan,Z.M.*(2013).TSG:anewalgorithmforbinaryandmulti-classcancerclassificationandinformativegenesselection.BMCmedicalgenomics,6(Suppl1),S3.(SCI,IF=3.47)[2]WANG,Z.M.,HAN,N.,Yuan,Z.M.*,&WU,Z.H.(2013).Featureselectionforhigh-dimensionaldatabasedonridgeregressionandSVManditsapplicationinpeptideQSARmodeling.
ActaPhysico-ChimicaSinica,
29(3),498-507.(SCI)[3]Zhou,W.,Dai,Z.J.,Chen,Y.,&Yuan,Z.M.*(2013).ComputationalQSARmodelswithhigh-dimensionaldescriptorselectionimproveantitumoractivitydesignofARC-111analogues.
MedicinalChemistryResearch,
22(1),278-286.(SCI)[4]Wang,L.F.,Tan,X.S.,Yuan,Z.M.*,&Bai,L.Y.(2013).NovelQSARcombinationforecastmodelforinsectrepellentcouplingsupportvectorregressionandK-nearest-neighbor.JournaloftheChemicalSocietyofPakistan,35(4),1075-1080.(SCI)[5]Han,N.,Yuan,Z.M.*,Chen,Y.,Dai,Z.J.,&Wang,Z.M.(2013).PredictionofHLA-A*0201restrictedcytotoxicTlymphocyteepitopesbasedonhigh-dimensionaldescriptornonlinearscreening.
ActaPhysico-ChimicaSinica,
29(9),1945-1953.(SCI)[6]Xie,Y.G.,Zhang,H.Y.,Wang,H.Y.,Wang,L.F.,Yuan,Z.M.*(2013).PredictionofmultidimensionaltimeseriesbasedonGS-RSR-SVRanditsapplicationinagriculturaleconomy.BulgarianJournalofAgriculturalScience,19(No6),1327-1336.(SCI)20136篇[1]Wang,H.Y.,Zhan20145篇[1]Dai,Z.J.,Wang,L.F.,Chen,Y.,Wang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2014).ApipelineforimprovedQSARanalysisofpeptides:physiochemicalpropertyparameterselectionviaBMSF,near-neighborsampleselectionviasemivariogram,andweightedSVRregressionandprediction.Aminoacids,46:1105-1119.(SCI,IF=3.65)[2]Wang,L.F.,Dai,Z.J.,Zhang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2014).QSAMAnalysisofOligopeptidesCouplinganImprovedHigh‐DimensionFeatureSelectionMethodwithSupportVectorRegression.ChemicalBiology&DrugDesign,83:379-391.(SCI,IF=2.469)[3]ZhangHY,LiLZ,LuoC,SunCW,ChenY,DaiZJ,YuanZM*.(2014).Informativegeneselectionanddirectclassificationoftumorbasedonchi-squaretestofpairwisegeneinteractions.BioMedResearchInternational,/10.1155/2014/589290.(SCI,IF=2.706)[4]LiY,ZhouW,DaiZJ,ChenY,WangZM,YuanZM*.(2014).Predictingtheproteinfoldingratebasedonsequencefeaturescreeningandsupportvectorregression.ActaPhysico-ChimicaSinica,30(6):1091-1098(SCI)[5]KaiWang,Li-FengWang,Zhi-JunDai,Lian-YangBai,Zhe-MingYuan*.(2014).QSARmodelingofE.colipromoterswithparametersselectedbybinarymatrixshufflingfilter.J.IndianChem.Soc.,91:2247-2253(SCI)20145篇[1]Dai,Z.J.,Wang,20154篇[1]ZhouW.,WuS.B.,DaiZ.J.,ChenY.,XiangY.,ChenJ.R.,SunC.Y.,ZhouQ.M.,YuanZ.M.*(2015).NonlinearQSARmodelswithhigh-dimensionaldescriptor
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 口服布洛芬止痛剂项目评价分析报告
- 加湿器产品入市调查研究报告
- 化学加工用烧结机市场洞察报告
- 医用细菌学研究制剂市场发展现状调查及供需格局分析预测报告
- 洗衣机产品入市调查研究报告
- 浴帘杆产品入市调查研究报告
- 浮水板产品入市调查研究报告
- 正畸用橡皮筋市场发展现状调查及供需格局分析预测报告
- 2022庆祝三八妇女节活动方案范文6篇
- 2024年办公室工作总结与2024年镇党政综合办公室工作总结稿范文【2篇】
- 五年级语文上册第七单元【集体备课】
- 一、二星级绿色建筑评价标识申报书
- “生活化”课程的构建与实施策略
- 高压线下管道吊装专项施工方案(1)
- 水质样品管理记录表
- 输煤系统危险源辨识及控制措施
- 荷兰PPT演示课件(PPT 37页)
- 钻孔桩施工组织设计
- 生物质压缩成型.
- 35kV线路工程检测试验项目计划
- 建设工程安全文明综合评价书
评论
0/150
提交评论