版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Clementine数据的读入数据的读入Clementine数据的读入数据的读入nClementine数据挖掘是通过数据流方式实现的数据挖掘是通过数据流方式实现的n数据流的核心是数据数据流的核心是数据n数据流都是从数据的读入开始,然后是数据的加工数据流都是从数据的读入开始,然后是数据的加工管理,继而是数据的建模,最后以模型评价结束。管理,继而是数据的建模,最后以模型评价结束。2.1 变量的类型变量的类型n变量是数据读入和分析的基本单位变量是数据读入和分析的基本单位n明确变量的类型是数据管理和挖掘的第一步,是实明确变量的类型是数据管理和挖掘的第一步,是实现数据正确加工和分析的前提现数据正确加工和
2、分析的前提n变量类型可以从变量类型可以从数据挖掘数据挖掘和和数据存储数据存储两个角度划分两个角度划分2.1.1 从数据挖掘角度看变量类型从数据挖掘角度看变量类型n从数据挖掘角度看,变量类型反映了其代表事物的从数据挖掘角度看,变量类型反映了其代表事物的某种特征的类型。某种特征的类型。n从计量层次方面归纳,变量通常包括以下类型,即从计量层次方面归纳,变量通常包括以下类型,即数值型变量数值型变量、定类型变量定类型变量和和定序型变量定序型变量,后两个类,后两个类型也统称为型也统称为分类型变量分类型变量。n例如例如n表示客户年龄、家庭人口数的变量是数值型变量表示客户年龄、家庭人口数的变量是数值型变量n表
3、示性别、职业的变量是定类型变量表示性别、职业的变量是定类型变量n表示学历和收入水平的变量是定序型变量表示学历和收入水平的变量是定序型变量2.1.1 从数据挖掘角度看变量类型从数据挖掘角度看变量类型n为更细致地反映事物类型,为更细致地反映事物类型,Clementine将变量类将变量类型进一步细分为:型进一步细分为:n连续数值型连续数值型(Range),如年龄,如年龄n离散数值型离散数值型( Discrete),如家庭人口数,如家庭人口数n二分类型二分类型( Flag),如性别,如性别n多分类型多分类型( 集合,集合,Set),如职业,如职业n定序型定序型( Ordered Sets),如学历和收
4、入水平,如学历和收入水平n缺省型缺省型( Default):缺省型是一种尚未明确的变:缺省型是一种尚未明确的变量类型量类型2.1.1 从数据挖掘角度看变量类型从数据挖掘角度看变量类型n缺省型:缺省型:用户定义变量时,用户定义变量时,如仅指定了变量名称而如仅指定了变量名称而没有输入或读入具体的变量值,此时系统并不能确没有输入或读入具体的变量值,此时系统并不能确定该变量的具体类型定该变量的具体类型,于是默认其为,于是默认其为缺省型缺省型。n系统称这样的变量为系统称这样的变量为非实例化变量非实例化变量。n当用户输入或读入变量值后,系统将根据所输入数当用户输入或读入变量值后,系统将根据所输入数据自动将
5、缺省型改为上述其他类型据自动将缺省型改为上述其他类型,此时称变量,此时称变量已已被实例化被实例化。2.1.1 从数据挖掘角度看变量类型从数据挖掘角度看变量类型n无类型型无类型型( Typeless):对变量值为文字等复杂数:对变量值为文字等复杂数据的变量,系统无法将其归到上述前五种类型中,据的变量,系统无法将其归到上述前五种类型中,所以指定为无类型型。所以指定为无类型型。n无类型型变量通常不参与数据建模。无类型型变量通常不参与数据建模。2.1.2从数据存储角度看变量类型从数据存储角度看变量类型n从数据存储角度看,变量类型反映了数据在计算机从数据存储角度看,变量类型反映了数据在计算机中的存储方式
6、。中的存储方式。n从存储所占用字节上归纳,变量通常包括以下类型从存储所占用字节上归纳,变量通常包括以下类型n整数型(整数型(Interger)n实数型实数型( Real)n字符串型字符串型(String)n时间型时间型(Time)n日期型日期型(Date)n时间戳型(时间戳型(Time Stamp)2.1.2从数据存储角度看变量类型从数据存储角度看变量类型n时间型时间型和和时间戳型时间戳型的数据表示形式相同,如的数据表示形式相同,如01:25:30,但含义不同。,但含义不同。n时间型时间型表示所持续的时间,如时间持续了表示所持续的时间,如时间持续了1小时小时25分分30秒秒n时间戳型时间戳型则
7、表示某个时刻,如某人登录服务器的则表示某个时刻,如某人登录服务器的时间是时间是1点点25分分30秒。秒。2.2读入数据读入数据n数据挖掘中数据量通常较为庞大,一般存储在数据数据挖掘中数据量通常较为庞大,一般存储在数据库中,或者以文本或其他类型的文件形式存储。库中,或者以文本或其他类型的文件形式存储。n数据流都是以从外部读入数据开始的,数据读入的数据流都是以从外部读入数据开始的,数据读入的节点放置在节点工具箱的数据节点放置在节点工具箱的数据源源选项卡中,支持选项卡中,支持n自由格式自由格式的文本文件的文本文件n固定格式固定格式的文本文件的文本文件nSPSS数据文件、数据文件、SAS数据集数据集n
8、Excel电子表格电子表格n数据库文件数据库文件读自由格式的文本文件读自由格式的文本文件n自由格式自由格式n通常一行数据为一个样本通常一行数据为一个样本n每行数据有相同的列,分别依次对应不同的变量每行数据有相同的列,分别依次对应不同的变量n列之间以逗号等分隔符分隔列之间以逗号等分隔符分隔n变量名一般存储在文件的第一行上变量名一般存储在文件的第一行上n读自由格式的文本文件应通过源选项卡中的读自由格式的文本文件应通过源选项卡中的可变文可变文件件节点实现节点实现读自由格式的文本文件读自由格式的文本文件n下面以药物研究数据为例,该数据是自由格式的文下面以药物研究数据为例,该数据是自由格式的文本,文件名
9、为本,文件名为DRUG.txt。n首先,选择首先,选择源源选项卡中的选项卡中的可变文件可变文件选项节点并将其选项节点并将其放置到数据流编辑区域中,右击鼠标,选择弹出菜放置到数据流编辑区域中,右击鼠标,选择弹出菜单中的单中的编辑编辑选项,显示的参数设置窗口如下图所示选项,显示的参数设置窗口如下图所示读自由格式的文本文件读自由格式的文本文件n可变文件节点的参数设置窗口包含可变文件节点的参数设置窗口包含文件、数据、筛文件、数据、筛选、类型选、类型和和注释注释五个选项卡。五个选项卡。n文件文件选项卡:指定所读入数据的基本格式。主要参选项卡:指定所读入数据的基本格式。主要参数的含义如下。数的含义如下。n
10、文件文件:指定读入文本文件所在的文件夹和文件名:指定读入文本文件所在的文件夹和文件名读自由格式的文本文件读自由格式的文本文件n文件选项卡:指定所读入数据的基本格式。其中主文件选项卡:指定所读入数据的基本格式。其中主要参数的含义如下。要参数的含义如下。n读取文件中的字段名读取文件中的字段名:如果文件中的第一行是变:如果文件中的第一行是变量名,则选择该项;否则不选。量名,则选择该项;否则不选。n指定字段数指定字段数:指定文件中包含几个变量列。由于:指定文件中包含几个变量列。由于文件中的列是以分隔符分隔的,系统可依此自动文件中的列是以分隔符分隔的,系统可依此自动判断列数,该选项通常忽略。判断列数,该
11、选项通常忽略。读自由格式的文本文件读自由格式的文本文件n文件选项卡:指定所读入数据的基本格式。文件选项卡:指定所读入数据的基本格式。n在在定界符定界符中指定文件中的列分隔符中指定文件中的列分隔符(一般为一般为逗号逗号)和行分隔符和行分隔符(通常为通常为新行新行)。读自由格式的文本文件读自由格式的文本文件n其余参数包括其余参数包括n指定文件中数据开始前是否有几个说明性的字符,指定文件中数据开始前是否有几个说明性的字符,读入数据时应跳过读入数据时应跳过n指定压缩各列的前置空格和后置空格指定压缩各列的前置空格和后置空格n对无效数据是忽略处理还是替换为指定的数值等对无效数据是忽略处理还是替换为指定的数
12、值等数据选项卡数据选项卡n指定所读入数据的基本类型等。指定所读入数据的基本类型等。数据选项卡数据选项卡n显示将读入数据的变量名,以及系统根据数据判断显示将读入数据的变量名,以及系统根据数据判断出的变量存储类型。出的变量存储类型。n如需修改,先在某变量行的如需修改,先在某变量行的覆盖覆盖项上画勾,然后下项上画勾,然后下拉拉存储存储框,选择所需的存储类型。框,选择所需的存储类型。过滤选项卡过滤选项卡n过滤选项卡:指定读数据时不读哪些变量并可重新过滤选项卡:指定读数据时不读哪些变量并可重新修改变量名。修改变量名。n如不希望读入某变量,只需单击相应行的过滤项,如不希望读入某变量,只需单击相应行的过滤项
13、,打打即可。即可。类型选项卡类型选项卡n指定所读数据的变量类型、变量取值范围等信息指定所读数据的变量类型、变量取值范围等信息n允许指定允许指定变量缺省值变量缺省值,对取值合理性进行,对取值合理性进行检查检查,以,以及指定及指定变量角色变量角色等等类型选项卡类型选项卡n数据尚未读入时,系统粗略的判读变量的计量类型数据尚未读入时,系统粗略的判读变量的计量类型n通过通过读取值读取值按钮读入数据,得到变量的准确类型和按钮读入数据,得到变量的准确类型和变量取值范围,称为对节点进行变量取值范围,称为对节点进行实例化实例化处理处理实例化与重新实例化实例化与重新实例化n实例化后,如用户重新修改文本文件中的数据
14、,实例化后,如用户重新修改文本文件中的数据,类类型选项卡型选项卡窗口中的变量值范围并不随之动态更新窗口中的变量值范围并不随之动态更新n后续节点处理的数据并非更新后的新数据后续节点处理的数据并非更新后的新数据n系统称系统称实例化后的数据是静态数据实例化后的数据是静态数据n为保持数据流中的数据与文本文件相一致,需重新为保持数据流中的数据与文本文件相一致,需重新从头执行数据流。从头执行数据流。n此时流中的数据已更新,但用户仍无法在此时流中的数据已更新,但用户仍无法在类型选类型选项卡项卡的窗口中看到正确的变量取值范围,无疑会的窗口中看到正确的变量取值范围,无疑会影响用户对变量值合理性检查的操作。影响用
15、户对变量值合理性检查的操作。实例化与重新实例化实例化与重新实例化n解决方法是解决方法是重新实例化重新实例化n第一步,按第一步,按清除值清除值或或清除所有值清除所有值钮取消当前的实钮取消当前的实例化,所有变量的例化,所有变量的值值项自动改为项自动改为读取读取n第二步,按第二步,按读取值读取值钮再次实例化钮再次实例化实例化与重新实例化实例化与重新实例化n如果文件中数据的更新只集中在某个变量上,只要如果文件中数据的更新只集中在某个变量上,只要对某个变量重新实例化即可。对某个变量重新实例化即可。n操作时应略去上述第一步,只在相应变量行的值操作时应略去上述第一步,只在相应变量行的值下拉框中手工选择下拉框
16、中手工选择Read或或Read+,执行,执行读取读取n值值下拉框中的下拉框中的当前当前表示保持当前的实例化不变,此表示保持当前的实例化不变,此时按时按读取值读取值钮无效;钮无效;Pass表示取消当前变量的实表示取消当前变量的实例化(中文版中翻译为例化(中文版中翻译为传递传递)。)。实例化与重新实例化实例化与重新实例化注解选项卡注解选项卡n给节点命名和添加注释性文字给节点命名和添加注释性文字n名称:自动,自定义名称:自动,自定义注解选项卡注解选项卡n工具提示文本工具提示文本n当鼠标指到数据流编辑区中的某个节点时,如希当鼠标指到数据流编辑区中的某个节点时,如希望随之显示关于该节点的简短说明信息,可
17、在此望随之显示关于该节点的简短说明信息,可在此处输入相关说明文字处输入相关说明文字n大段说明应在窗口中间的空白区域中输入大段说明应在窗口中间的空白区域中输入注解选项卡注解选项卡n注解选项卡几乎出现在注解选项卡几乎出现在Clementine的所有节点中,的所有节点中,含义相同,以后不再赘述。含义相同,以后不再赘述。n注意:注意:可变文件可变文件节点只是一个数据读入节点,节点只是一个数据读入节点,没有没有数据展示功能数据展示功能。n若希望浏览数据内容,应选择输出选项卡中的表节若希望浏览数据内容,应选择输出选项卡中的表节点并与该节点连接。执行数据流,系统生成数据表点并与该节点连接。执行数据流,系统生
18、成数据表格,自动打开数据表,并将表名列在流管理器的输格,自动打开数据表,并将表名列在流管理器的输出选项卡中。出选项卡中。2.2.2读读Excel电子表格数据电子表格数据n以一份学生参与某次社会公益活动的样本数据为例以一份学生参与某次社会公益活动的样本数据为例n数据文件名为数据文件名为Students.xls,变量包括,变量包括n学生编号学生编号n是否无偿献血是否无偿献血n家庭人均年收入家庭人均年收入n在校综合评价指数在校综合评价指数n家长是否鼓励学生参与社会公益活动家长是否鼓励学生参与社会公益活动n学生是否参与某活动学生是否参与某活动2.2.2读读Excel电子表格数据电子表格数据n选择选择源
19、源选项卡中的选项卡中的Excel节点并将其放置到数据流节点并将其放置到数据流编辑区域中,打开节点的参数设置页面编辑区域中,打开节点的参数设置页面2.2.2读读Excel电子表格数据电子表格数据n在导入文件中输入在导入文件中输入Excel电子表格文件所在的路径电子表格文件所在的路径n如果如果Excel中有多张工作表,要读其中某张表的数中有多张工作表,要读其中某张表的数据,应在据,应在工作表工作表的的索引索引框中输入工作表编号(从框中输入工作表编号(从0开始)或在名称框中输入工作表名开始)或在名称框中输入工作表名2.2.2读读Excel电子表格数据电子表格数据n如只读工作表中某特定区域,如如只读工
20、作表中某特定区域,如A1:B10中的数据,中的数据,应在数据范围的明确范围后的两个框中分别输入应在数据范围的明确范围后的两个框中分别输入A1和和B10,字母应大写字母应大写。nExcel节点的参数设置窗口中还包括过滤选项卡和节点的参数设置窗口中还包括过滤选项卡和类型选项卡,含义同前。类型选项卡,含义同前。2.2.3读读SPSS格式文件格式文件nSPSS数据文件扩展名为数据文件扩展名为.sav,通过,通过源源卡中的卡中的SPSS 文件文件节点实现节点实现SPSS格式数据的读入。格式数据的读入。n虚拟的电信客户数据,虚拟的电信客户数据,Telephone.sav,变量包括,变量包括n居住地、年龄、
21、婚姻状况、家庭月收入(百元)居住地、年龄、婚姻状况、家庭月收入(百元)n受教育水平、性别、家庭人口受教育水平、性别、家庭人口n基本服务累计开通月数、是否申请无线转移服务、基本服务累计开通月数、是否申请无线转移服务、上月基本费用、上月限制性免费服务项目的费用、上月基本费用、上月限制性免费服务项目的费用、无线服务费用无线服务费用n是否电子支付、客户所申请的服务套餐类型、是是否电子支付、客户所申请的服务套餐类型、是否流失否流失(共共15个变量个变量)2.2.3读读SPSS格式文件格式文件n选择选择源源选项卡中的选项卡中的SPSS文件文件节点并将其放置到数节点并将其放置到数据流编辑区域中,在据流编辑区
22、域中,在SPSS文件文件节点的界面上的导节点的界面上的导入文件中输入入文件中输入SPSS文件的路径文件的路径2.2.3读读SPSS格式文件格式文件n变量名称选项:变量名称选项:n读取名称和标签读取名称和标签表示同时读入表示同时读入SPSS文件的文件的变量变量名名和和变量名标签变量名标签n读取标签作为名称读取标签作为名称表示以表示以SPSS文件中的文件中的变量名变量名标签标签作为作为Clementine数据的变量名数据的变量名nSPSS文件中的文件中的变量名标签变量名标签是对字段的说明文字是对字段的说明文字2.2.3读读SPSS格式文件格式文件n值值选项选项n读取数据和标签读取数据和标签表示同时
23、读入表示同时读入SPSS文件的变量文件的变量值和变量值标签值和变量值标签n读取标签作为数据读取标签作为数据表示以表示以SPSS文件中的变量值文件中的变量值标签作为系统的变量值。标签作为系统的变量值。nSPSS文件中的变量值标签类似于用文件中的变量值标签类似于用“男男”、“女女”解释实际的解释实际的0、1取值的文本取值的文本2.2.4读数据库文件读数据库文件n商业数据库种类繁多,但不同数据库产品都遵循了商业数据库种类繁多,但不同数据库产品都遵循了开放式数据互联开放式数据互联( ODBC ,Open DataBase Connectivity)标准,并通过)标准,并通过ODBC实现数据库的实现数据
24、库的互访。互访。nClementine通过通过ODBC方式访问数据库,需经过方式访问数据库,需经过两个步骤完成:两个步骤完成:n第一步,建立数据源第一步,建立数据源n第二步,通过数据源访问数据库第二步,通过数据源访问数据库2.2.4读数据库文件读数据库文件n以一份记录客户浏览网页的历史记录的以一份记录客户浏览网页的历史记录的Access数数据库文件据库文件WebData.mdb为例。为例。n包括三张数据表:包括三张数据表:Custmer1、Customer2、ClickPath。nCusterm1:记录客户基本信息,包括客户编号、:记录客户基本信息,包括客户编号、年龄、性别、婚姻状况、受教育水
25、平、平均每天在年龄、性别、婚姻状况、受教育水平、平均每天在线时间、居住区域线时间、居住区域2.2.4读数据库文件读数据库文件nCusterm2:记录客户上网的基本情况,包括客户:记录客户上网的基本情况,包括客户编号、平均日在线时间、平均夜在线时间、浏览器编号、平均日在线时间、平均夜在线时间、浏览器类型、平均收发邮件时间、平均网聊时间等:类型、平均收发邮件时间、平均网聊时间等:nClickPath:记录客户浏览网页类型的数据。:记录客户浏览网页类型的数据。2.2.4读数据库文件读数据库文件n第一步,在利用第一步,在利用Clementine读数据库之前,应首读数据库之前,应首先通过先通过Windo
26、ws“控制面板控制面板”,依次选择,依次选择“管理工管理工具具”和和“数据源数据源ODBC”,添加一个关于客户访问,添加一个关于客户访问网页的数据源。网页的数据源。n注意,本例的数据源驱动是注意,本例的数据源驱动是Microsoft Access Driver(*.mdb),数据源命名为,数据源命名为“网页访问数据网页访问数据”。2.2.4读数据库文件读数据库文件n第二步,选择第二步,选择源源选项卡中的选项卡中的数据库数据库节点并将其放置节点并将其放置到数据流编辑区域中,打开参数设置窗口如图。到数据流编辑区域中,打开参数设置窗口如图。2.2.4读数据库文件读数据库文件n在在数据源数据源框中,在
27、已添加的数据源中选择框中,在已添加的数据源中选择“网页访网页访问数据问数据”,并通过,并通过选择选择钮选择数据库中数据表钮选择数据库中数据表2.4.1 数据的纵向合并数据的纵向合并n数据的纵向合并是在数据尾部不断追加样本的过程数据的纵向合并是在数据尾部不断追加样本的过程n通过通过记录记录选项卡中的选项卡中的追加追加节点实现节点实现n以学生参与某次社会公益活动的数据以学生参与某次社会公益活动的数据Students.xls为例,文件中包含两张工作表,分别是老生和新生为例,文件中包含两张工作表,分别是老生和新生的数据的数据n由于分析是针对所有学生的,需要向合并成一份新由于分析是针对所有学生的,需要向
28、合并成一份新数据。建立的数据流如后图所示数据。建立的数据流如后图所示2.4.1 数据的纵向合并数据的纵向合并n首先建立两个首先建立两个Excel节点,读入两张工作表数据节点,读入两张工作表数据n然后,选择源选项卡中的追加节点并将其连接到然后,选择源选项卡中的追加节点并将其连接到Excel节点的后面,右击鼠标,选择弹出菜单中的节点的后面,右击鼠标,选择弹出菜单中的编辑选项,所显示的参数设置窗口如后图所示编辑选项,所显示的参数设置窗口如后图所示2.4.1 数据的纵向合并数据的纵向合并n下图显示了两个数据源节点的标记、名称以及所包下图显示了两个数据源节点的标记、名称以及所包含的字段个数。含的字段个数
29、。2.4.1 数据的纵向合并数据的纵向合并n合并后样本的排列顺序将依据合并后样本的排列顺序将依据标记标记值,值,标记标记值最小值最小的表其数据排在最前,的表其数据排在最前,标记标记值最大的表其数据排在值最大的表其数据排在最后。可通过右边的上下按钮调控这个顺序。最后。可通过右边的上下按钮调控这个顺序。n系统默认标记值为系统默认标记值为1的表为的表为主数据集主数据集,意味着,意味着如果如果两份数据中的变量名不同或变量个数不一致,则默两份数据中的变量名不同或变量个数不一致,则默认合并后新数据的变量名与主数据集相同认合并后新数据的变量名与主数据集相同。追加选项卡追加选项卡追加选项卡追加选项卡n包含字段
30、来源包含字段来源选项中,选项中,仅主数据集仅主数据集表示合并后新数表示合并后新数据的变量名只来自主数据集;据的变量名只来自主数据集;所有数据集所有数据集则表示来则表示来自所有表,是各表变量名的并集。自所有表,是各表变量名的并集。n字段匹配依据字段匹配依据选项中,选项中,位置位置表示按两张表列的顺序表示按两张表列的顺序依次头尾连接样本,依次头尾连接样本,名称名称表示按变量名对接。表示按变量名对接。n如果不能够保证两份数据的变量排列顺序完全一致,如果不能够保证两份数据的变量排列顺序完全一致,应选择应选择名称名称顼。顼。追加选项卡追加选项卡n通过在字段中包含源数据集来标志记录通过在字段中包含源数据集
31、来标志记录表示在新数表示在新数据中自动增加一个变量名默认为据中自动增加一个变量名默认为输入输入的变量,存储的变量,存储标记标记值以说明样本来自哪个数据源。值以说明样本来自哪个数据源。追加选项卡追加选项卡n注意:数据的纵向合,应确保两份或多份数据的合注意:数据的纵向合,应确保两份或多份数据的合并是有实际意义的,相同含义的变量应取相同的变并是有实际意义的,相同含义的变量应取相同的变量名,且变量的类型要一致。量名,且变量的类型要一致。n为方便数据流的管理和浏览,可将纵向合并过程做为方便数据流的管理和浏览,可将纵向合并过程做成一个超节点。成一个超节点。2.4.2数据的横向合并数据的横向合并n数据的横向
32、合并是在数据的右侧不断添加变量的过数据的横向合并是在数据的右侧不断添加变量的过程。实现该功能的节点是程。实现该功能的节点是记录选项记录选项卡中的卡中的合并合并节点节点n以客户浏览网页的历史记录数据以客户浏览网页的历史记录数据WebData.mdb为为例,说明数据的纵向合并方法例,说明数据的纵向合并方法2.4.2数据的横向合并数据的横向合并nWebData.mdbnCustmerl1表(表(客户编号客户编号、年龄、性别、婚姻状、年龄、性别、婚姻状况、受教育水平、平均每天在线时间、居住区域)况、受教育水平、平均每天在线时间、居住区域)nCustmer2表(表(客户编号客户编号、平均日在线时间、平、
33、平均日在线时间、平均夜在线时间、浏览器类型、平均收发邮件时间、均夜在线时间、浏览器类型、平均收发邮件时间、平均网聊时间)平均网聊时间)n将这两张表横向合并在一起,为分析诸如不同受教将这两张表横向合并在一起,为分析诸如不同受教育水平的客户的平均收发邮件时间是否有差异,网育水平的客户的平均收发邮件时间是否有差异,网聊时间是否与性别、婚姻状况相关等问题做准备。聊时间是否与性别、婚姻状况相关等问题做准备。2.4.2数据的横向合并数据的横向合并n首先按读入数据库的操首先按读入数据库的操作方法建立两个作方法建立两个数据库数据库源节点,分别读入两张源节点,分别读入两张数据库表数据库表n选择选择记录记录选项卡
34、中的选项卡中的合合并并节点并将其连接到节点并将其连接到数数据库据库节点的后面节点的后面2.4.2数据的横向合并数据的横向合并n右击鼠标,选择弹出菜单中的编辑选项,显示参数右击鼠标,选择弹出菜单中的编辑选项,显示参数设置窗口如图所示设置窗口如图所示2.4.2数据的横向合并数据的横向合并n图中显示源节点的图中显示源节点的标记标记、名称及所包含的、名称及所包含的字段字段个数个数n合并后样本的排列顺序将依据标记值,合并后样本的排列顺序将依据标记值,标记值最小标记值最小的表其数据排在最左,标记值最大的表其数据排在的表其数据排在最左,标记值最大的表其数据排在最右最右。可通过右边的上下按钮调整这个顺序。可通
35、过右边的上下按钮调整这个顺序。n系统默认标记值为系统默认标记值为1的表为主数据集。的表为主数据集。合并选项卡合并选项卡合并选项卡合并选项卡n合并方法:顺序合并方法:顺序表示两份数据按样本的前后顺序一表示两份数据按样本的前后顺序一一左右对接,一左右对接,关键字关键字表示按关键字合并。表示按关键字合并。n如两份数据样本排列顺不一致,应选择如两份数据样本排列顺不一致,应选择关键字关键字项。项。n可能的关键字可能的关键字区域显示了两份数据中的同名变量,区域显示了两份数据中的同名变量,本例中为本例中为CustomerGud和和 GeoLocation,这些,这些变量名可能成为横向合并的关键字。变量名可能
36、成为横向合并的关键字。合并选项卡合并选项卡n用于合并的关键字用于合并的关键字区域显示用户指定的关键字,即区域显示用户指定的关键字,即如果依据关键字合并,则只有该关键字取值相同的如果依据关键字合并,则只有该关键字取值相同的样本才可左右对接。样本才可左右对接。n本例指定本例指定CustomerGuid为关键字。为关键字。合并选项卡合并选项卡n指定按关键字合并后,还需指定新表数据的来源,指定按关键字合并后,还需指定新表数据的来源,包括包括内部连接内部连接、全外连接全外连接、局部外连接局部外连接、相反连接相反连接四种。四种。n内部连接内部连接:表示如果对表:表示如果对表A、B、C进行内连接,则进行内连
37、接,则合并结果是那些关键字值在表合并结果是那些关键字值在表A、B、C中均出现样中均出现样本,即各表的交集本,即各表的交集合并选项卡合并选项卡n指定按关键字合并后,还需指定新表数据的来源,指定按关键字合并后,还需指定新表数据的来源,包括包括内部连接内部连接、全外连接全外连接、局部外连接局部外连接、相反连接相反连接四种。四种。 n完全外部连接完全外部连接:表示如果对表:表示如果对表A、B、C全外连接,全外连接,则合并结果是表则合并结果是表A、B、C的并集的并集合并选项卡合并选项卡n部分外部连接部分外部连接:表示如果表:表示如果表A和和B与表与表C局部外连接,局部外连接,则合并结果一定包含表则合并结
38、果一定包含表A、B中的所有样本,同时中的所有样本,同时还包括还包括C表中那些关键字值也出现在表中那些关键字值也出现在A、B中的样本,中的样本,表表C中的样本通常不能全部进入新表。中的样本通常不能全部进入新表。n可通过可通过选择选择按钮,选择样本不能全部进入新表的表,按钮,选择样本不能全部进入新表的表,如图所示。如图所示。合并选项卡合并选项卡n可通过可通过选择选择按钮,选择样本不能全部进入新表的表,按钮,选择样本不能全部进入新表的表,如图所示。如图所示。nA partial outer join includes all records matched using the key field a
39、s well as unmatched records from specified tables. (Or, to put it another way, all records from some tables and only matching records from others.)nTables (such as A and B shown here) can be selected for inclusion in the outer join using the Select button on the Merge tab. nPartial joins are also ca
40、lled left or right outer joins when only two tables are being merged. Since Clementine allows the merging of more than two tables, we refer to this as a partial outer join. 合并选项卡合并选项卡n反连接:如果表反连接:如果表A与表与表B、C反连接,则合并结果是反连接,则合并结果是表表A中与其余表关键字值不相同的样本。(中与其余表关键字值不相同的样本。(A对于对于B与与C的差集)的差集)合并选项卡合并选项卡n两份数据中均有两份数据中均有CustomerGuid和和GeoLocation变量,而合并结果中只能保留一个变量,而合并结果中只能保留一个CustomerGuid和一个和一个GeoLocation变量。变量。n由于已指定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件工程师劳动合同样本
- 2024医院托管合作经营合同
- 2024家电产品配送合同书模板
- 2024标准委托代理合同格式
- 2024下载装饰工程承包合同书
- 2024年纸张产品购买合同
- 员工试用期间工作表现评估
- 2024年劳务派遣服务合作协议
- 600字代办委托协议范本
- 创业孵化基地租赁协议案例
- 二年级数学上册第七单元认识时间-学习任务单-第一课时
- 普通话课件(完整版)
- 家长教育心得课件
- 肝胆外科科室现状调研总结与三年发展规划汇报
- 人工智能介绍英文版【优质PPT】
- 全国市政金杯示范工程评选办法及实施细则
- 有理数运算说课
- 小学数学教师职称评审答辩题(高段)
- 葫芦岛鹏翔生物科技(集团)有限公司年产农药系列产品3700吨、年产胡椒环2000吨建设项目环评报告
- 民营医院职称岗位工资级岗位招聘分级表
- 《堤防工程施工规范》(SL260-2014)
评论
0/150
提交评论