自动特征选择和规约_第1页
自动特征选择和规约_第2页
自动特征选择和规约_第3页
自动特征选择和规约_第4页
自动特征选择和规约_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

21/25自动特征选择和规约第一部分自动特征选择的概述 2第二部分滤波式特征选择方法 4第三部分包裹式特征选择方法 6第四部分嵌入式特征选择方法 9第五部分特征规约的必要性和原则 12第六部分基于阈值的特征规约方法 14第七部分基于聚类或相似性的特征规约方法 18第八部分特征选择和规约在机器学习中的应用 21

第一部分自动特征选择的概述关键词关键要点【过滤式方法】:

1.使用统计度量(如相关性、信息增益)来评估特征重要性。

2.从评分较高的特征集中选择子集,丢弃其余特征。

3.优点:计算高效,适用于大数据集。缺点:可能丢弃相关特征,对特征交互作用敏感。

【包装式方法】:

自动特征选择的概述

自动特征选择是机器学习中不可或缺的步骤,通过识别和选择最优特征子集,极大提高模型性能并增强可解释性。

背景

特征选择有助于解决以下问题:

*维度灾难:高维数据集的计算复杂度呈指数级增长。

*噪音和冗余:原始特征可能包含不相关或冗余的信息,阻碍模型学习。

*可解释性:特征过多会影响模型的可解释性和可视化。

自动特征选择方法

自动特征选择方法主要分为三类:

1.过滤式方法

*基于统计检验(如卡方检验、信息增益)评估每个特征与目标变量的相关性。

*优点:高效,适用于大数据集。

*缺点:不考虑特征之间的相互作用。

2.包裹式方法

*将特征选择视为模型优化问题,以性能指标为目标。

*优点:考虑特征之间的交互,可获得更优子集。

*缺点:计算密集,不适用于大数据集。

3.嵌入式方法

*将特征选择融入模型训练过程中。

*优点:兼具过滤式和包裹式方法的优点。

*缺点:对特定机器学习算法依赖性强。

评估和选择特征子集

评估特征子集的性能有以下指标:

*模型性能:子集生成的模型在验证集上的准确性、召回率、F1得分等指标。

*特征子集大小:子集中特征的数量。

*特征可解释性:子集中特征与目标变量的易于理解关系。

选择特征子集的策略包括:

*阈值法:基于预设阈值选择特征。

*递归消除法:逐步移除不重要特征。

*贪婪方法:逐个添加重要特征。

优点

自动特征选择具有以下优点:

*提高模型性能:识别最相关的特征子集,提高预测精度。

*减少计算成本:降低模型训练和推理复杂度。

*增强可解释性:缩小特征集,облегчить解释模型结果。

*发现新的模式:识别先前未知的关系和模式。

应用

自动特征选择广泛应用于各种领域,包括:

*计算机视觉(图像识别、人脸检测)

*自然语言处理(文本分类、情感分析)

*生物信息学(疾病诊断、药物发现)

*金融预测(股票市场分析、欺诈检测)

*异常检测(故障检测、安全威胁识别)

结论

自动特征选择是机器学习中的关键步骤,通过识别最优特征子集,显著提高模型性能、降低计算成本、增强可解释性。根据数据集和建模目标,选择合适的方法和评估指标至关重要。第二部分滤波式特征选择方法关键词关键要点主题名称:信息增益

1.信息增益衡量特征对目标变量区分能力,基于特征出现时目标变量熵的变化。

2.高信息增益的特征表明其与目标变量有强关联,有助于预测。

3.贪心算法通常用于基于信息增益进行特征选择,逐步选择增益最大的特征。

主题名称:卡方检验

过滤式特征选择方法

过滤式特征选择是一种特征选择方法,它根据特征的统计属性或信息增益等度量标准对特征进行评分,然后基于分数阈值或排序选择出最优特征子集。这种方法的优点是计算简单,时间复杂度较低,适合于处理大规模数据集。

以下是过滤式特征选择方法常用的度量标准:

*信息增益(IG):衡量特征与目标变量之间相关性的程度。IG值越大,表示特征对目标变量的区分能力越强。

*卡方统计量(Chi-square):用于检验特征与目标变量之间的独立性。卡方值越大,表示依赖性越强,特征与目标变量的关系越密切。

*互信息(MI):衡量两个特征之间的相互依赖性。MI值越大,表示两个特征之间的关联程度越强。

*相关性系数(Corr):衡量特征与目标变量之间的线性相关性。相关性系数的绝对值越大,表示相关性越强。

*方差(Var):衡量特征值的离散程度。方差越大,表示特征值分布越分散,区分能力越强。

常用的过滤式特征选择算法包括:

*卡方检验法:基于卡方统计量对特征进行评分,选择具有最高卡方值的特征。

*信息增益法:基于信息增益对特征进行评分,选择具有最高信息增益的特征。

*互信息法:基于互信息对特征进行评分,选择具有最高互信息的特征。

*相关系数法:基于相关性系数对特征进行评分,选择具有最高绝对相关性系数的特征。

*方差法:基于方差对特征进行评分,选择具有最高方差的特征。

过滤式特征选择方法在实际应用中具有以下优势:

*计算简单:由于只基于特征的统计属性,因此计算过程简单,时间复杂度较低。

*可扩展性强:适合于处理大规模数据集,能够筛选出海量特征中的最优子集。

*客观性高:基于数学度量标准进行特征选择,避免了主观因素的干扰。

然而,过滤式特征选择方法也存在一定的局限性:

*忽略特征之间的交互作用:无法考虑特征之间的相关性和冗余性,可能会选择出相关性较高的特征,但这些特征的信息可能重叠。

*对异常值敏感:异常值会影响特征的统计分布,进而影响特征选择的结果。

*无法捕捉非线性关系:仅能识别线性关系,对于复杂非线性关系的数据,可能无法有效选择特征。第三部分包裹式特征选择方法关键词关键要点【嵌套式特征选择】:

1.利用模型评估指标(如交叉验证准确率)作为特征子集选择准则,迭代搜索最优特征组合。

2.每次迭代中,包含或排除一个特征,评估新特征子集的性能,并选择性能最佳的子集。

3.递归应用此过程,直到满足预定义的停止标准(例如,达到最大迭代次数或性能达到阈值)。

【贪婪式特征选择】:

包裹式特征选择方法

包裹式特征选择方法将特征选择问题视为一个优化问题,其中目标是找到特征子集,使其在给定的学习算法上产生最佳性能。这些方法被称为“包裹式”,因为它们将特征选择过程与学习算法相结合,并根据学习算法的性能来评估特征子集。

1.最优子集搜索

*该方法枚举所有可能的特征子集,并根据学习算法的性能评估每个子集。

*所选子集是所有评估子集中性能最高的子集。

2.顺序前进选择

*从一个空的特征子集开始,并逐个添加特征。

*在每次迭代中,选择添加到子集中后使学习算法性能得到最大改善的特征。

*该过程一直持续到性能不再得到提高为止。

3.顺序后退选择

*从涉及所有特征的特征子集开始,并逐个删除特征。

*在每次迭代中,选择从子集中删除后使学习算法性能下降最小的特征。

*该过程一直持续到子集中只剩下一个特征为止。

4.浮动搜索

*这是顺序前进选择和顺序后退选择的混合。

*在每次迭代中,可以添加或删除特征。

*该过程一直持续到性能不再得到提高为止。

5.贪婪搜索

*该方法从一个候选特征子集开始,并逐个添加或删除特征,以最大化学习算法的性能。

*该过程一直持续到不再能够进行任何改进为止。

优缺点

优点:

*可以找到最佳特征子集。

*适用于任何学习算法。

*可以处理高维数据集。

缺点:

*计算成本高,尤其是对于大数据集。

*容易过拟合。

*可能陷入局部最优解。

*无法解释特征选择过程。

应用

包裹式特征选择方法广泛应用于各种领域,包括:

*医疗诊断

*人脸识别

*文本分类

*图像处理

*自然语言处理

选择指南

选择包裹式特征选择方法时,需要考虑以下因素:

*数据集大小

*学习算法

*可接受的计算成本

*过拟合的风险

*可解释性的需要第四部分嵌入式特征选择方法关键词关键要点过滤式方法

1.根据统计度量(如方差或互信息)评估特征,并根据预定义阈值删除低分特征。

2.这些方法计算效率高,可以处理大数据集,但可能无法捕捉特征之间的复杂关系。

3.常用的过滤式方法包括方差阈值法、卡方检验和互信息。

包裹式方法

1.将特征选择视为优化问题,其中目标函数是模型性能(如分类精度或回归损失)。

2.反复添加或移除特征,直到找到最优特征子集。

3.包裹式方法准确度较高,但计算成本高,在高维数据集上可能不可行。

递归特征消除方法

1.递归地训练模型并移除对模型性能贡献最小的特征。

2.逐渐减少特征数量,同时保持模型性能。

3.递归特征消除方法稳定性强,可用于自动识别重要特征。

嵌入式特征选择方法

1.在模型训练过程中同时进行特征选择和模型学习。

2.通过正则化项或其他机制惩罚不重要的特征,迫使其权重为零。

3.嵌入式方法计算效率高,可以处理大数据集,并且可以学习特征之间的非线性关系。

群组特征选择方法

1.将特征分组,然后选择代表每个组的最具信息量的特征。

2.减少特征冗余并提高模型可解释性。

3.群组特征选择方法适用于具有结构化或层次化特征的数据集。

集成式特征选择方法

1.结合多种特征选择方法来提高准确性和鲁棒性。

2.使用投票或元学习算法来选择最终特征子集。

3.集成式方法可以弥补单一方法的不足,并产生更可靠的结果。嵌入式特征选择方法

简介

嵌入式特征选择方法将特征选择过程与模型训练阶段结合起来,通过模型训练过程同时实现特征选择和模型训练。与过滤式和包装式特征选择方法不同,嵌入式方法不需要独立的特征选择步骤,而是通过模型本身的内部机制来选择特征。

方法

嵌入式特征选择方法有多种,包括:

*L1正则化(LASSO):通过在模型损失函数中添加一个L1范数惩罚项来实现。L1范数会对模型系数进行稀疏化,从而选择出具有非零系数的重要特征。

*L2正则化(岭回归):使用L2范数惩罚项,会对模型系数进行收缩,但不会将其稀疏化。它倾向于选择多个具有较小系数的特征,而不是仅选择几个具有较大系数的特征。

*树形方法:如决策树和随机森林,通过信息增益、增益率或Gini不纯度等度量标准来选择特征。这些方法基于特征在分裂数据方面的信息量或预测能力。

*深度学习:使用卷积神经网络(CNN)和循环神经网络(RNN)等模型,可以通过训练过程自动学习特征表示。这些模型的特定层或组件可以提取出具有代表性的特征。

优点

*模型无关性:嵌入式方法适用于各种机器学习模型,包括线性回归、逻辑回归、支持向量机和神经网络。

*效率:与过滤式和包装式方法相比,嵌入式方法更有效,因为它不需要单独的特征选择步骤。

*可解释性:由于特征选择过程与模型训练同时进行,因此可以更轻松地理解哪些特征对模型预测做出了重要贡献。

*自动化:嵌入式方法可以自动化特征选择过程,减轻特征工程师的负担。

缺点

*计算成本:对于大型数据集,训练嵌入式模型可能会很耗时。

*超参数选择:嵌入式方法通常需要仔细选择超参数,例如正则化参数或决策树中的分裂标准,以获得最佳性能。

*局部最优:嵌入式方法可能会陷入局部最优,这可能会导致模型性能较差。

应用

嵌入式特征选择方法广泛应用于各种领域,包括:

*图像处理:用于图像分类、目标检测和人脸识别等任务。

*自然语言处理:用于文本分类、情感分析和机器翻译等任务。

*医疗保健:用于疾病诊断、预后预测和治疗推荐等任务。

*金融:用于预测风险、欺诈检测和投资组合优化等任务。

总结

嵌入式特征选择方法提供了一种有效且自动化的特征选择方法,可与模型训练过程相结合。它们适用于各种机器学习模型,并且可以提高模型的可解释性。然而,它们也存在计算成本高、超参数选择和局部最优等挑战。第五部分特征规约的必要性和原则特征规约的必要性和原则

必要性

特征规约是机器学习过程中至关重要的一步,具有以下必要性:

*减少计算成本:规约后的特征集通常更小,可以显著降低模型训练和预测的计算成本。

*提高模型性能:冗余或无关的特征会分散模型对相关特征的关注,导致泛化能力下降。特征规约可以去除这些特征,提高模型的预测准确性。

*增强模型可解释性:规约后的特征集更简洁、更具可解释性,有助于研究人员理解模型的行为和做出决策。

*避免过拟合:高维度的特征空间更容易发生过拟合。特征规约可以减少特征数量,缓解过拟合问题。

原则

特征规约遵循以下原则:

1.相关性:

选择与目标变量高度相关的特征。相关性可以通过相关系数、互信息或其他度量来度量。

2.互补性:

选择彼此互补的特征,而不是冗余的特征。例如,如果一个特征可以从另一个特征中推断,那么第一个特征可以被规约掉。

3.可解释性:

选择的特征应该具有可解释性,研究人员能够理解其与目标变量之间的关系。

4.稳定性:

特征规约的结果应该在不同的数据集上保持稳定。这意味着所选特征应该对数据集的变化具有鲁棒性。

5.渐进性:

特征规约是一个渐进的过程。研究人员应该逐步规约特征,在每个步骤中评估模型的性能,并根据评估结果调整规约策略。

6.领域知识:

在进行特征规约时,考虑领域知识非常重要。研究人员应该利用对问题领域的理解来指导特征选择过程。

7.方法的关注:

特征规约的方法可以分为以下几类:

*基于过滤的方法:使用统计度量(如相关系数或信息增益)对特征进行排名,然后选择得分最高的特征。

*基于包装的方法:使用模型选择技术来评估不同特征子集的性能,并选择性能最佳的子集。

*基于嵌入的方法:在模型训练过程中对特征进行规约,例如L1正则化或特征选择树。

8.评价标准:

评估特征规约效果的标准包括:

*模型性能:特征规约后模型的预测性能,例如准确率、召回率或R方。

*计算成本:特征规约后模型训练和预测的计算成本。

*模型可解释性:特征规约后模型的可解释程度。

*特征稳定性:特征规约后特征在不同数据集上的稳定性。第六部分基于阈值的特征规约方法关键词关键要点基于过滤的阈值方法

*设定一个评估指标的阈值(如卡方检验、信息增益)。

*将特征值低于阈值的特征排除,保留高于阈值的有效特征。

基于包装的阈值方法

*使用分类器或回归模型包装特征子集。

*迭代地评估不同特征子集的性能,并选择最佳子集。

*通过阈值控制特征数量,避免过拟合。

基于嵌入的阈值方法

*将特征选择过程嵌入到机器学习模型中。

*利用模型的正则化项或损失函数对特征进行惩罚,使得不重要的特征权重为零。

*通过阈值选择权重高于阈值的特征。

基于树的阈值方法

*使用决策树或随机森林算法构建特征重要性的度量。

*根据特征重要性得分设定阈值,排除低于阈值的特征。

*树形模型可以处理非线性特征关系。

基于聚类的阈值方法

*将特征聚类成相似组,每个簇代表一个特征概念。

*根据簇间相似度设定阈值,选择具有高相似度的特征。

*聚类方法可以发现隐含特征关系。

基于降维的阈值方法

*通过主成分分析(PCA)或局部线性嵌入(LLE)等降维技术对特征进行变换。

*根据变换后的特征方差设定阈值,选择方差高于阈值的特征。

*降维方法可以去除冗余和噪音特征。基于阈值的特征规约方法

基于阈值的特征规约方法通过设置阈值来确定特征的重要性,然后选择满足阈值要求的特征。这些方法简单易用,在许多实际应用中表现良好。

1.方差阈值选择

方差阈值选择使用特征方差作为特征重要性的度量。它选择方差高于指定阈值的特征。

原理:

*特征方差衡量特征值的变化范围。高方差特征表示特征具有较大的变化幅度,可能对分类或回归任务更具信息性。

*通过设置方差阈值,可以过滤掉方差较低的特征,这些特征通常噪声较大或信息量较少。

优点:

*简单易用,计算时间复杂度低。

*对异常值不敏感,因为方差对异常值的影响较小。

缺点:

*可能过滤掉具有高信息量的低方差特征。

*对特征尺度敏感,需要对特征进行标准化或归一化处理。

2.信息增益阈值选择

信息增益阈值选择使用信息增益作为特征重要性的度量。它选择信息增益高于指定阈值的特征。

原理:

*信息增益衡量特征对目标变量信息量的影响程度。它计算为:

```

信息增益(特征)=信息熵(目标变量)-信息熵(目标变量|特征)

```

*高信息增益特征表示它们对目标变量的区分度较高。

*通过设置信息增益阈值,可以过滤掉信息增益较低的特征,这些特征可能冗余或与目标变量无关。

优点:

*考虑了特征与目标变量之间的关系,而不是单独考虑特征本身的分布。

*对特征尺度不敏感,不需要对特征进行标准化或归一化处理。

缺点:

*计算时间复杂度较高,尤其是对于大量特征的数据集。

*对缺失值敏感,需要处理缺失值。

3.卡方检验阈值选择

卡方检验阈值选择使用卡方检验作为特征重要性的度量。它选择卡方检验p值低于指定阈值的特征。

原理:

*卡方检验是一种统计检验,用于测试两个分类变量之间的独立性。

*在特征规约中,卡方检验用于测试特征与目标变量之间的独立性。

*如果特征与目标变量不独立,则卡方检验p值较低,表明特征具有较高的信息量。

*通过设置卡方检验p值阈值,可以过滤掉卡方检验p值较高的特征,这些特征可能与目标变量无关。

优点:

*适用于离散型特征和连续型特征。

*对特征尺度不敏感,不需要对特征进行标准化或归一化处理。

缺点:

*计算时间复杂度较高,尤其是对于大量特征的数据集。

*对稀疏数据敏感,需要处理稀疏数据。

选择阈值的策略

基于阈值的特征规约方法的关键步骤之一是选择合适的阈值。常用的策略包括:

*经验式阈值:根据经验或领域知识设置阈值。

*交叉验证:使用交叉验证来选择在验证集上性能最佳的阈值。

*启发式算法:使用启发式算法(如贪婪算法)来逐步调整阈值并优化分类或回归模型的性能。第七部分基于聚类或相似性的特征规约方法关键词关键要点基于谱聚类特征规约

1.利用相似性图(例如k近邻图)表示特征之间的相似性。

2.将相似性图转换为拉普拉斯矩阵,并使用特征分解来获得特征向量。

3.选择特征向量与类标签最相关的特征子集。

基于凝聚层次聚类特征规约

1.使用凝聚层次聚类算法将特征聚类为一系列嵌套的树形结构。

2.根据树形结构的自底向上或自顶向下的遍历方法,选择代表性特征或合并特征。

3.优化聚类标准(例如距离度量或连通性度量)来识别最优特征子集。

基于K均值聚类特征规约

1.随机初始化K个聚类中心,并将特征分配到最近的聚类中心。

2.更新聚类中心,使其位于特征点的平均位置。

3.重复步骤1和2,直到收敛或达到最大迭代次数,并选择每个聚类的代表性特征。

基于密度聚类特征规约

1.定义邻域参数和密度阈值来识别高密度区域。

2.发现密度相连的核心点,并通过密度可达性将点连接到这些核心点。

3.选择每个密度相连组件中的代表性特征作为规约后的特征子集。

基于模糊聚类特征规约

1.将特征分配给多个聚类,每个特征都有一个介于0和1之间的隶属度。

2.使用模糊隶属度聚合特征以形成规约后的特征。

3.优化目标函数(例如熵或模糊量)来选择最具判别力的特征。

基于信息论特征规约

1.计算特征之间的互信息或条件熵等信息论度量。

2.贪婪地选择特征,最大化信息增益或最小化信息损失。

3.形成最大信息增益或最小信息损失的特征子集,同时保持特征之间的独立性。基于聚类或相似性的特征规约方法

基于聚类或相似性的特征规约方法将特征根据其相似性或相互依赖性分组,然后选择每个组中具有最高信息或区分力的特征。这些方法对于高维度数据集非常有效,因为它可以显著减少特征数量,同时保留重要信息。

1.层次聚类

层次聚类算法将特征分组为层级结构的集群。该结构可以可视化,称为树状图或дендрограмма。聚类过程从每个特征作为一个单独集群开始,然后迭代地将其合并,直到达到所需的集群数。

合并使用不同的相似性度量,例如欧几里得距离、余弦相似性或相关性。高相似性会导致特征合并到同一个集群中。

2.K均值聚类

K均值聚类算法将特征分配给K个预定义集群。初始集群中心随机选择,然后通过迭代优化更新,以最小化每个特征到其分配集群中心的距离。

K值通常通过肘部法或轮廓系数等技术确定。肘部法寻找簇内距离和簇间距离之间的折点,而轮廓系数衡量特征与其分配簇的关联程度。

3.高斯混合模型(GMM)

GMM将特征建模为多个正态分布的混合。每个分布代表一个潜在的簇,而特征分配给具有最高后验概率的簇。

GMM比K均值聚类更灵活,因为它允许簇具有协方差矩阵,这可以捕获特征之间的复杂关系。

4.特征选择权重

一旦特征聚类,就可以计算每个簇内特征的权重。这些权重通常基于特征的信息增益、互信息或方差。

权重较高的特征对于区分簇更重要,因此更有可能被选中。

优点

*有效减少特征数量,同时保留重要信息

*不受特征缩放或非线性关系的影响

*允许考虑特征之间的相互依赖性

*可视化聚类结构可以帮助理解特征之间的关系

缺点

*聚类算法的选择和超参数设置可能会影响结果

*可能难以确定最佳集群数

*计算成本可能很高,尤其对于大型数据集第八部分特征选择和规约在机器学习中的应用特征选择和规约在机器学习中的应用

简介

特征选择和规约是机器学习中至关重要的技术,旨在识别和选择与目标变量最相关的特征,同时去除冗余或不相关的特征。通过减少特征的数量,机器学习模型可以变得更加高效、准确和可解释。

特征选择

特征选择是指从数据集选择最相关的特征子集的过程。有两种主要的特征选择方法:

*过滤式特征选择:评估每个特征的单独重要性,并根据预定义的标准选择特征。常见的过滤式方法包括卡方检验、互信息和信息增益。

*包裹式特征选择:通过迭代评估特征组合来选择特征。包裹式方法通常比过滤式方法更准确,但计算成本也更高。

特征规约

特征规约是一种将高维特征转换为低维特征表示的技术。与特征选择不同,特征规约保留所有特征,但以更紧凑的形式。常用的特征规约方法包括:

*主成分分析(PCA):通过寻找原始特征的线性组合来创建新的、不相关的特征。PCA以方差最大化的原则选择特征。

*单值分解(SVD):类似于PCA,但适用于具有缺失值的数据集。SVD分解原始特征矩阵为多个奇异值。

*线性判别分析(LDA):在分类问题中使用,LDA寻找能够最大化类间差异和最小化类内差异的线性组合。

应用

特征选择和规约在机器学习中广泛应用,包括:

*数据预处理:通过识别和删除不相关的特征来提高机器学习算法的效率和准确性。

*模型选择:帮助确定最佳的特征子集,以构建性能最优的机器学习模型。

*特征工程:通过将原始特征转换为新的表示来创建更有意义和可解释的特征。

*维度缩减:减少输入特征的数量,从而加快模型训练和预测的速度。

*可解释性:通过仅选择最相关的特征,特征选择和规约可以增强机器学习模型的可解释性。

优点

*减少过拟合:通过消除与目标变量无关的特征,特征选择和规约可以帮助防止机器学习模型过拟合。

*提高效率:减少特征的数量可以提高模型训练和预测的效率。

*增强可解释性:选择最相关的特征可以使机器学习模型更容易理解和解释。

*提升准确性:通过仅使用与目标变量相关的特征,特征选择和规约可以提高机器学习模型的预测准确性。

结论

特征选择和规约是机器学习中强大的技术,可以提高机器学习模型的效率、准确性和可解释性。通过仔细选择和规约特征,可以开发出更有效的模型,更好地理解数据,并做出更明智的决策。关键词关键要点特征规约的必要性和原则

主题名称:数据高维性

关键要点:

1.现代数据通常具有高维性,包含大量冗余和无关特征。

2.高维数据会给机器学习模型带来“维度灾难”,导致计算开销过大、模型泛化性能下降。

主题名称:特征冗余和相关性

关键要点:

1.特征之间可能存在冗余或相关性,从而导致信息重复。

2.冗余特征会增加模型复杂性,提高过拟合风险。

主题名称:噪声和不相关特征

关键要点:

1.数据中可能包含噪声或与任务无关的特征。

2.这些特征会混淆模型,降低其预测准确性。

主题名称:计算复杂性

关键要点:

1.高维数据和冗余特征会显著

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论