




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
固定长度文本由于只需要定义每个字段的长度,因此能够避免由于特殊字符造成的窜行 前版本 行记录数限制;Excel2007后版本数据响应时间较长字段内容可能由于Excel格式问题,导致非预期输出,特别是日关系型数据库可以使用 PushBack来提高数据处理性能,推荐的数据导入方需要在流设置中设置“优化SQL生成常用数据处理功能简介常用数据处理功删删减字段/字段改排顺关键字:内部连接、完全外部连接、部分外部连接、反连接条条件:内部连接、完全外部连接、部分外部连接、反连接条条件:主要用于和地理数据进行匹汇总统区导填重新分占客户 客户 类额1A1B1D1G1C2A2B2D2F2C通过@OFFSET实现上下条记录计算/条件计基于客户月数据,计算客户每个月最近3个月客户号1年客户号1年月1额121415162122232426客户号年 最近3个 11121301415162122232425026IBM预测分类模型建模简介预测分析标准化步数据理解,分析整体数据集的数据质量根据数据质量报告,拟定数据前处理的方式(最关键的步骤利用筛选属性后的训练数据集,训练分类器模型。使用分类器模型预测测试数据集中每笔数据的类别,并评估其效能IBM1.数据说1.数据说(7数值,13分类申请人分为“信用良好”(700例)(300例)
2.段介绍Attribute1分类变量CheckingstatusA11:<0A12:0<=...<200A13:>=200DEMA14 nocheckingAttribute2:(连续变量Duration-月清(财力较佳),因此借款期间会较短;借款期间较长的客2.字段介绍Attribute3:(分类2.字段介绍Attribute3:(分类变量Credithistory-信用历A30: 均按期偿A31:该银 均按期偿A32当前A33:过去有不按期偿还的记A34特殊账实际业务中,过去还款正常者A0A32),通常信用评等较好,而目前已经是边际账户(34)者,通常信用评2.字段介绍Attribute4:(分类变量Purpose-目 新 :二手 家 :收音机/电视 :家用电器 :装修 教 :度假(资料中不存在) :培训 商业投A410其(A40&A41),而好客户中有3成的人是为了买音响,电视2.字段介绍Attribute5:(连续变量2.字段介绍Attribute5:(连续变量Creditamount-金实际业务中,信用评等较好的客户,通常较不会2.字段介绍Attribute6:(分类变量Savingsstatus-客户活期存款账户或公债余A61:<100A62:100<=...<500DEMA63:500<=...<1000DEMA64:>=1000DEMA65:不知道/无存款账户或公&A64),代表有一定的财力,通常信用评等较好。代2.字段介绍Attribute7:(分类变量2.字段介绍Attribute7:(分类变量Employment-目前工作持续时A71待A72:<1A73:1<=...<4yearsA74:4<=...<7A75:>=72.字段介绍Attribute8:(连续变量Installmentcommitment-分期付款占可支配收入的比代2.字段介绍Attribute9:(分类2.字段介绍Attribute9:(分类变量 alstatus-及状A91 A92:female:离婚或分居或已婚A93:male :单身A94 A95female2.字段介绍Attribute10:分类变量OtherpartiesA101A102A103代2.字段介绍Attribute11:2.字段介绍Attribute11:续变Residencesince是否客户在固所居住的时间越长,其信用情况越好Attribute12:类变Propertymagnitude2.字段介绍Attribute13:连续变量实际业务中,较大的客户,越有稳定的收入来源或Attribute14:分类变量Otherpaymentns-是否还有其他的分期付A141A142A143实际业务中,同时拥有不同地方的借款者(A141&A142),代其代2.字段介绍Attribute15:类变2.字段介绍Attribute15:类变HousingA151A152A1532.字段介绍Attribute16:连续变量Existingcredits-该银行现有的数代2.字段介绍Attribute17:类变2.字段介绍Attribute17:类变Job-工A171失业/劳力非固A172劳力-固A173:技术人员/A174:管理人员//高级白领2.字段介绍Attribute18:连续变量Numberdependents扶养亲属人代2.字段介绍Attribute19:类变2.字段介绍Attribute19:类变Ownephone-是否A191A192:有本人开通 2.字段介绍Attribute20:分类变量Foreignworker-是否外国A201A202代数据理数据理1.导1.导入和初步查看数据选择“源节点”- 可在源节点“过滤”选项卡中设定需要过滤的字.)表节点源节数据理数据理2.“类型节点”初步理解数据22.“类型节点”初步理解数据指定字段类型、方向和缺为建立模型,指定字段的指定缺失值以及如何处理缺变量值检查保证字段值满足一定类型节 代数据理数据理2.“类型节点”初步理解数据22.“类型节点”初步理解数据数据实例化何时在类型节点实例数据集较大,而且流在类型节点前就过数据在流中被数据在流中被合并在处理过程中导出新的数据类型节 代数据理数据理2.“类型节点”初步理解数据22.“类型节点”初步理解数据测量-字段类型连续型于描述数值,如0.75-1.25的连续值名义型–用于描述分类数据(黄、绿、蓝有序型–用于描述带有等级差别的分类数据(、二等、三等标志型于只取两个具体值的数据(真、假无类型用于不符合上述任一种类型的数据或者含字段ID色改为“连续字 mitment角色改为“名义字段existing_creadits角色改为“名字段residence_since角色改为“名义字段num_dependents角色改为“名义类型节 代数据理数据理22.“类型节点”初步理解数据角色方向(字段方向设置只有在建模时才起作用输入:输入或者预目标:输出或者被预测字段两者:既是输入又是输出,只在关联规无:建模过程中不使用该分区:将数据拆分为训练、测试(验证)分割:为每个不同的值建立不同操作将字段ID角色改为“记录将字段class角色改为“目标其他字段的角色都统一为“输入“类型节点”初步理解数据类型节 代3.3.分布节点查看离散型字段分布情况操作如果结合目标字段进行分析,则需要在颜色菜单,择目标字段分布节点查看离散型字段分布情况代分布节数据理数据理3.分布节点查看离散型字段分布情况代Checkingstatus-支票存款帐户当前余Credithistory–信用历 代Purpose-目一般分类变量的取值最好不超过6-8种,分的种类太多,不利于数据结果的说明,根据字段pupose和Class的不同取值的分布情况,对字段prpse进行重新分类,根据业务和数据分布,可将purpose的取值A0、A45、A49进行合并为A459,将A42、44合并为A42(。Savingsstatus-客户活期存款账户或代Employment-目前工作持续时alstatus–及状代Otherparties-是否有共同负债人或Propertymagnitude-其他资代Otherpaymentns-是否还有其他的分期付Housing-住房状代JobOwnephone-是否数据理
分布节点查看离散型字段分布情况代Foreignworker-是否外国数据理数据理4.直方图节点查看连续型字段分布情况44.直方图节点查看连续型字段分布情况操作如果结合目标字段进行分析,则需要在颜色菜单择目标字段代直方图 5.均值节点5.均值节点查看连续型字段分组均值情况操作将分组字段,选择目标字段5.值节点查看连续型字段分组均值情况(1)代5.均值节点查看连续型字段分组均值情况5.均值节点查看连续型字段分组均值情况Duration-月Creditamount-金5.均值节点查看连续型字段分组均值情况Installmentcommitment-分期付款占可支配收入的比例Residencesince数据理数据理均值节点查看连续型字段分组均值情况Existingcredits-该银行现有的数Numberdependents扶养亲属人使用“统计量节点使用“统计量节点”查看每个字段的平均值、最大最、方差等数值统计6.统计量节点查看数据分布 操作在“统计量”选项选择需要进行结果展现的统代6.统计量节点查看数据分布数据理数据理代7.数据审核节点代7.数据审核节点查看数据质量7.数据审核节点查看数据质量数据理数据理7.数据审核节点查看数据质量数据审核节代操作在“审核”菜单下,双击字段duration对应的“图形”,查看duration的完整的直方图数据理
7.数据审核节点查看数据质量数据审核节代操作使用“质量”菜单下,查看每个字段的数据分布、缺失值及数据预数据预处理11.数据审核技术_替换离群值下列操作可用于处理离群值和极丢弃:丢弃含指定字段的离群值或极值使无效:将离群值和极值替换为Null值或系统缺失强制离群值/丢弃极值:只丢弃极值强制离群值/使极值无效:仅使极操作:通过“数据审核节点”的“操作”菜单,duration、credit_history、age字段,选择“强制”操,生成“离群值和极值”填补的的超节1.数据审核技术_替换离群值代1.数据审核技术_替换离群值操作:将“离群值和极值”填补的的超节点到流中1.数据审核技术_替换离群值2.数据审核技术_替换无效值2.数据审核技术_替换无效值、num_dependents存在无效值和2.数据审核技术_替换无效值2.数据审核技术_替换无效值2.数据审核技术_替换无效值操作:对填充之后的purpose字段再一次利用“数据审核节点”和“分布节点”查看填充之后的purpose的分布和取值情况,发现字段purpose含有3个缺失值,2个无效值。下一步,考虑对字段urtion、prpse、numdeenens失值填补的原因及缺失的比例太高,例占总体50%,则该字段需要2.数据审核技术_替换无效值3.处理缺失值_利用建模的3.处理缺失值_利用建模的方式进行缺失值的填充3.处理缺失值_利用建模的方式进行缺失值的填充如果如果人工不能进行填充,通过众数|均值的方式填充,缺点:不够通过分群的方式求众数|均值进行多出了“$R-duration”“$RC-num_dependents”字段数据预数据预处理3.处理缺失值3.处理缺失值_利用建模的方式进行缺失值的填充3.处理缺失值_利用建模的方式进行缺失值的填充3.处理缺失值_利用建模的方式进行缺失值的填充 ”数据摊平_字段purpose重分类连接“类型节点”和“分布节点”查看字段purposeClass的不同取值的分布情从分布图形得出:字段purpose的取值有10种,取值过去分散,利用数据摊平的方式,将一个字段扩展为10个字段,用来减少字段purpose的取值种类注:一般分类变量的取值最好不超过6-8种,分的种类太,不利于数据结果的说数据预处理
数据摊平_字段Newpurpose的摊平字段ewuroe的取值有8种,取值过于分散,利用“设为标志节点”将ewurose数据摊平,由一个字段扩展为8个Nepupoe
使用“字段重排节点”将新生成的字段进行重新利用“过滤节点”将purpose字段过滤5.数据摊平_字段Newpurpose的5.数据摊平_字段Newpurpose的摊平6.重新编码_字段duration的重新编码利用利用“表节点”查看字段Newpurpose平摊后的数据,字Newpurpose扩展8个字段将对字段purpose数据平摊处理的操作节点合并为“数据处理”的超级节点使用“导出节点”连续型字段duration进行重新编码散型字段利用“字段重排节点”将新生成的字段进行重新利用“过滤节点”将duration字段过滤数据预处理
重新编码_字段duration的重新编码利用“类型节点”查看new_duration字段为名义变量,并且离散化取将对字段duration重新编码的操作节点合并为“重新编码”的超级节点数据分
分类技术的数据分数据分40%训练数据→在训练数据上可做任何的40%测试数据→在测试数据上遏制模型迭20%验证数据→在验证数据上不做任何分全部数1000笔数据(Bad:Good=300:训练数据集:800笔数测试数据集:400验证数据集:200笔数全部数1000笔数据(Bad:Good=300:数据分
数据分割在类型节点中确保分区节点角色为“分设置训练分区大小为设置测试分区大小为设置验证分区大小为训练分区+测试分区+验证分区数据分
2.数据分割利用“特征选择class节点”,从所有字段中,选择有效的字段,特征选择节点的设置为默数据分
数据分割cas“css1个。建立预测分类
自动分类器节点Modeler提供了一组标准整体建模节点,如自动分类器节点、自动聚类节建立预建立预测分类1.自动分类器节点要求目标字段:测量级别可以是名义可能不适合一些模型类型。例如,在C&R树、CHAID和QUEST模型中用作输入的有序字段必须是数字类型(而不是字符串),频数和字段:频数和用于增强某些记录的重要性,以超过其他记录,原因可能是用户知道构建数据集省略(频数字段:用于C&R、CHAID、QUEST、决策列表和字段:用于C&RT、CHAID和C5.0模型。其他模型类型1.自动分类器节点模型菜模型名称:用户可根据目标或ID段自动生成模型名称(未指定此使用分区数据果定义了分区字段,则此选项可确保仅训练分区的单独模型。性、ROC曲线下的区域、利润、提升和字段的数量。请注意,无论在1.自动分类器节点“专家”选项卡,使用的模是否使用:复选框选择要在比较中包括的模型类型。选择的多,创建的模型就会越多,且处理的时间就会越模型类型:列出可用的算模型数:列出基于当前设置为每个算法生成的模型数。当组合选限制单模型最长构建时间。(仅K-Means、Kohonen、TwoStep、SVM、KNN、BayesNet决策列表模型)为任意一个模型设置最长建立预测分类1.自动分类器节点“丢弃”选项卡,使用的模可以为总准确性指定最小阈值,为模型中使用的变量数指建立预测分类1.自动分类器节点项板。使用缩略图图形可以快速而直观地评估每个模型类排序标准与“自动分类器”建模节点中的选项匹 ©2016IBM建立预建立预测分类自动分类器节点性能。从“生成”菜单中,选择评估图表。1.自动分类器节点“设置”选项卡整体方法:对于目标,可以从以下整体方法选置信度投原始倾向投票(仅适用于标志目标赢得最高置信平均原始倾向(仅适用于标志目如果约束投票:根据投票方法,可以指定解决投票同数的方随机选择。随机选择其中一个同()数值,其中绝对倾向的计算方法如下:abs(0.5-propensity)*2建立预测建立预测分类2分类技术—C5.0和C5.0节点设置输出类型:决策树组符号:将所有输出字段格式相似的字符值合并(字段Color包含3red、green、blue,默认创建三项拆分。如果Color=redColor=green的记录非常相似,则创建二项拆分。)。代C5.0节点设置使用ootig(推进):可以提高精确性(第一个模型用通常的方式建立决策树,第二个模型针对第一个模型的错误分类记录建立,第三个模型针对第二个模型的错误)。建立预测分类
分类技术—C5.0和决策树生成规则代模型评
模型评估分析之初很难清晰定义哪种算法拟合效果最好;准确性不是衡量不同模型效果的唯一标准;需要多角度去评估模型(准确性、查全率、纯度、提升度等使用分析节点创建含预测值的模型准确性评估使用矩阵节点比较训练/测试/验证数据集预测值和真值:行表示实际值,列表示预测值(以培训数据集举例查全率纯度模型评
模型评估使用评估图节点生成收益选择包括最优从增益图上得知,用该模型进行建立预测分类
测试数通过之前的建模,将模型训练作业流到生产数据客户细分模型建模简介筛选合适的客户细分变共线性分共线性分析1.共线性分析共线性分析
共线性分析聚类模
SPSSModeler中K-means聚类节K-MeansinSPSS指定要生成的聚类数,默认为
停止:默认停止标准为20次迭代或差异<以先满足的标准为准;也可“自定义”,指定训练模型时要使用的停止标准。聚类模
K-means示对某超市的15种液体饮料,根据5中微量元素的含量(毫升/克)进行聚类分数据:饮料聚类数:指定生成聚类个数,默认值为生成距离字段:生成模型将包括一个具有每个记录与其所属类群中心距离停止默认值:是迭代20或者差异<0.000001,达到任一标准就终最大迭代次数:允许在迭代指定次数后终止差 度:允许在一次迭代中,聚类中心之间的最大差异小于指定水平时终止训聚类模
K-means输出结果模型聚类变量的重要性及聚类比聚类模聚类模K-means输出结果输出结$KM-K-Means:表示所属$KMD-K-Means:表示到质心的距SPSSModeler中Two-Step聚类节Two-StepTwo-StepinSPSS“两步聚类”会对所有数值输入字段进行标准化,使它们具有相同的尺度,即均值为0且方差为1选中“排除离群值”,会将相对于其他子聚类具有较少记录的子聚类视为潜在离群值,且重新构建不包括这些记录的子聚类树。通过设置最大聚类数和最小聚类数指定要尝试的聚类解决方案的范围如果知道模型中要包括的聚类数,请选中此选项并输入聚类Two-Step示操作数据及基本流同K-输出结$ST-两步:表示所属聚类概要聚类变量的重要聚类模
SPSSModeler中Kohonen聚类节KohoneninSPSS停止标准:默认停止标准会基于内部参数停止训练, 指定为二维图上每个维上的输出单元数可以指定时间作为停止标 阶段1是粗略估计阶段,用于捕获数据中的大致模式 阶段2是调整阶段,用于调整图以便为数据更精细的特 聚类模操作数据及基本流同K-输出结$KX-Kohonen:网络层上X轴的坐$KY-Kohonen:网络层上Y轴的坐$KXY-Kohonen:网络层上X、Y轴的聚类(0,0)包含4个样聚类(1,0)包含6个样聚类(2,0)包含5个样
Kohonen聚类示菜篮子分析模型建模简介关联分析模型
SPSSModeler中的Apriori节点AprioriinSPSS选择字段设置方式,其中定制方式可使用事务处理格式(型)的数据Apriori算法可指定字段为前项或关联分析模型
SPSSModeler中的Apriori节点AprioriinSPSS设置最低支持度、最小规则置信度、最大前项通过选择该选项,可以仅对标志字段的真值分
选择其他评估度量设置评估度量的下限值关联分析模型
Apriori关联分析示对购物数据(shop.txt),是 某种商品进行关联分类型节点中设置商品字段的测量设置为“标志商品字段的角色设人口统计字段角色 ©2016IBM关联分析模型
Apriori节点设Apriori节点中设置最低条件支持度:定义最小支持度阈值,指的是规则前向支持度(规则后向支持度/事务总数),如果得到的规则是数据集中很小的一部分子集,则提高该设置。最小规则置信度:定义最小置信度阈值,比该阈值小的规则将被丢弃。为了创建规则,可以降低规则置信度的最大前项数:任意规则的最大前仅包含变质变量的真值:只有真值出现关联分析模型
Apriori结果输出浏览生成的关联规规则ID:规则的编实例:数据集中显示规则前项的事务数量,例MilkandFrozenfoods=>Bakerygoods的实例为85,表示有85个事务包含规则的前项{Milk,Frozenfoods}支持度:规则前项的支持度,即“包含规则前项的事务数量”占全事物数量的比例,MilkandFrozenfoods=>Bakery规则支持度:“同时包含规则前项和后项的事务数量占全事务数量的比MilkandFrozenfoods=>Bakerygoods的规则支持度为9.033%,数据集中有9.033%的事务包含{Milk,Frozenfoods,Bakerygoods}关联分析模型
Apriori结果输出浏览生成的关联规置信度:显示规则支持度和前项支持度的比值,MilkandFrozenfoods=>Bakerygoods的置信度为83.529%=9.033%/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省临沂市兰陵县第一中学2025届高三第三次适物理试题含解析
- 湘潭医卫职业技术学院《分子生物学韩》2023-2024学年第二学期期末试卷
- 山东省菏泽市第一中学2024-2025学年高三“零诊”考试物理试题含解析
- 山西水利职业技术学院《钢琴即兴伴奏(2)》2023-2024学年第二学期期末试卷
- 四川省成都市青羊区石室教育集团2025年初三期末物理试题含解析
- 四川师范大学《智能信息处理》2023-2024学年第二学期期末试卷
- 井陉矿区2025届数学三下期末质量检测试题含解析
- 四川铁道职业学院《大学体育(4)》2023-2024学年第二学期期末试卷
- 江西信息应用职业技术学院《电机学》2023-2024学年第二学期期末试卷
- 山西警官职业学院《小学数学课程标准与教材研究》2023-2024学年第二学期期末试卷
- 2025至2031年中国电机芯片行业投资前景及策略咨询研究报告
- 2025年学校五一跨学科主题实践活动方案
- 2025国核铀业发展有限责任公司社会招聘47人笔试参考题库附带答案详解
- 2024年华中科技大学招聘职员笔试真题
- 1号卷·A10联盟2025届高三4月质检考物理试题及答案
- 《腹部创伤的急救》课件
- 机电自动化试题及答案
- 四川广播电视台招聘笔试真题2024
- 甘肃省2025年甘肃高三月考试卷(四4月)(甘肃二诊)(数学试题+答案)
- 2025年中小学教师资格考试的重要试题及答案
- 微训练 一文多考 备考高效之诗歌《苏幕遮・燎沉香》教师版
评论
0/150
提交评论