版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS,尽管Clementine 是一个数据挖掘工具,但是在数据处理等方面的功能很强大,在几 十万到几百万甚至几千万数据处理上,都能够应付,而Excel 仅仅处理在一百万左右的数据。使用 Clementine 有一段时间了,就从基本的开始说起吧,先说说源节点是什么?的造成了有时候数据的格式会有很多种,为此作为一个好的数据,首要的就是要支持很多的数据格式,这样避免的大数据转换格式耗费的时间和成本。在 Clementine 中就有源节点来完成这个工作,源节点顾名思义,就是数据来源的节点。对应在 Clementine 中有一个源选项版来完成这个工作,如下所示:企业视图有关信息这里不解释,目前暂无应
2、用。数据库源节点Cle 中使用 ODBC 将数据导入,支持 Oracle、SQLServer、DB2、 等。但是这种方式导入数据,就必须首先配置 ODBC 数据源,有关如何配置该数据源,这里不再累述。可以自行参考网上的很多。Cle 对于数据库的支持有三层:1) 所有可能的 SQL 回送都可用,并具有数据库特定的 SQL 优化2) 多数 SQL 回送可用,具有非数据库特定的 SQL 优化3) 没有 SQL 回送或优化,只能向数据库和写入数据使用下列一般步骤数据库中的数据:为要使用的数据库安装 ODBC 驱动程序并配置数据源;在数据库节点框中,使用表模式或 SQL 查询模式连接到数据库;从数据库中
3、选择表;使用数据库节点框中的选项卡,可以更改使用类型和过滤数据字段;现在已经完成了 ODBC 安装和配置数据源的工作。下面要在 Cle 中连接数据库,进行查询,双击数据库图标,进入数据流工作区域,右键单击编辑,弹出如下的框:每一个数据处理工具,都需要支持很多种数据格式,由于数据形式,或者Clementine 是一个很有用的工具,在网游日常数据的处理中,其应用程度不低于 Excel 和上图为数据选项卡的选项,用于获取数据库和选定要进行操作的表。模式可以通过框连接到指定的表上,也可以通过 SQL 查询查询使用的数据库。数据源此处指定需要的数据源,可以手动填写,也可以通过下拉菜单进行添加,此处铜鼓下
4、拉菜单添加,如下图:在弹出的框中,选择 test 数据源。数据源列出目前可用的数据源,如果是刚刚添加的,单击刷新,选择数据源,输入用户名和密码就 OK 了。表名通过选择按钮选择进行操作的表,如下图所示:给表名和列名加上引号在数据库中进行查询时,指定是否要将表名和列名括入引号内(例如,这些名称是否可包含空格或标点)去除开头和结尾的空格选中选项以丢弃字符串中开头和结尾的空格。可变文件节点相当于 Excel 分列操作使用分隔符的模式可以使用可变文件节点从字段文本文件(其包含的字段数不变,但包含的字符数可改变)中数据,该文件又称为分隔文本文件。此类型的节点也可用于具有固定长度的页眉文本和特定类型的注解
5、的文件。每次一条,并将这些传递到流中,直到读完整个文件。定界文本数据时的注意事项必须在每行末尾处用换行符分隔;必须使用逗号或其他字符(最好是仅用作分隔符,即该字符不能出现在字段名称或字段值中)分隔字段;每一行(包括标题行)都应包含相同的字段数;第一行应包含字段名称;第二行必须包含数据的第一条;数字值不能包括千位分隔符或分组符号,例如,3,000.00 中不能使用逗号;日期值和时间值应该采用“流选项”框中可识别的的格式之一,例如 DD/MM/YYYY 或HH:MM:SS。导入一个文件,单击可变文件,右键编辑,弹出如下的框:文件中的字段名默认是选中的,此时把文件的第一行看作是列表前,即变量名。每个
6、字段也能被分配一个名字,当然了,如果第一行没有列时,就可以取消选中。指定字段数指定每个中的字段数。只要以新行结束,就可以自动检测字段数。也可以手动设置字段数。跳过标题字符指定要忽略第一个的开头处的多少个字符。EOL 注解字符指定字符(例如 # 或 !)以表示数据中的注解。无论这些字符之一出现在数据文件的何处,从该字符起直到下一个新行字符(不包括)之前的所有字符都将被忽略。去除开头和结尾丢弃导入字符串中开头和结尾的空格。无效字符空字符或者指定编码中不存在的的字符,通过丢弃进而删除了,或者替换成其他字符。小数符号选择在数据源中使用的小数分隔符类型。定界符选择将将数据进行分列的符号,也可以自己指定符
7、号,此处是复选,也就是说可以使一个以上的分列,这点和 Excel 的分列大同小异。类型的扫描行数对于指定的数据类型要扫描的行数引号如何处理导入数据的单引号和双引号问题在此框中操作任何时刻,都可单击刷新以从数据源重新载入字段。在更改到源节点的数据连接时,或在框的选项卡之间进行操作时,此操作都非常有用。固定文件相当于 Excel 分列操作的固定长度模式段格式。使用固定文件节点的“文件”选项卡,可以轻松地指定数据中列的位置和长度。选择固定文件,右键单击编辑,选择一个文件,如下所示:所谓固定文件是相对可变文件而言,使用固定文件节点从固定字段文本文件(其字段没有被分隔,但开始位置相同且长度固定)中导入数
8、据。机器生成的数据或遗存数据通常以固定字数据预览窗格可用来指定列的位置和长度。预览窗口顶部的标尺有助于测量变量的长度并指定变量间的断点。通过单击字段上方的标尺区域可以指定断点线。通过拖动可移动断点,而将其拖动到数据预览区域之外则可丢弃断点。面向行如果要跳过每个末尾的新行字符,可选中此选项。跳过标题行指定要忽略第一个的开头处的行数。这对忽略列标题非常有用。长度指定每个中的字符数。字段已为此数据文件定义的所有字段都在此处列出。有以下两种定义字段的方式: 移动标尺,进行控制指定字段; 通过向下面的表添加空字段行手动指定字段。单击字段窗格右侧的按钮添加新字段。然后 在空字段中输入字段名、开始位置和长度
9、。这些选项会自动在数据预览窗格中添加箭头,并且可以轻松地调整这些箭头。SAS 源节点&SPSS 源节点SPSS 文件导入框SAS 文件导入框SAS 导入支持四种文件格式,如上图所示。导入数据时,所有变量都将保留且不更改任何变量类型。SPSS 和 SAS 中需明的内容:名称和选中此选项将变量名称和同时读入。默认情况下将选中此选项,并且变量名称将显示在类型节点中。根据流属性框中指定的选项,将显示在表达式构建器、图表、模型浏览器和其他类型的输出中。用作名称的而不是短字段名,并将这些作为变量名称在 Cle选择从文件中说明性的变量中使用。Excel 源节点Excel 的数据导入相对来说不是很麻烦,作为经常使用的工具,有必要介绍一下,下图为导入数据的框:工作表索引或者名称指定要导入的工作表。索引指定要导入的工作表的索引值,开头的 0 表示第一个工作表,1 表示第二个工作表,依此类推。名称指定要导入的工作表的名称。单击省略按钮 (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中国智能跟踪高速球摄像机市场调查研究报告
- 2024年中国数显转速蠕动泵市场调查研究报告
- 2024年离婚合同:夫妻双方同意放弃孩子抚养权及妊娠版B版
- 2025版无人驾驶技术合作研究协议书3篇
- 2024年03月重庆重庆渝北银座村镇银行春季校园招考笔试历年参考题库附带答案详解
- 2025年度海底光缆安装工劳务合同范本3篇
- 2024年特色水果采摘园租赁合作与市场拓展合同3篇
- 2025版幼儿园教师就业保障服务合同细则3篇
- 焊接技术课程设计
- 2025版物流信息安全合伙保障协议
- 用友U8操作教程2
- 电话卡营销策划方案
- 风险企业监测方案
- 基础团务知识培训
- 工作失误汇报
- 11054-国家开放大学2023年春期末统一考试《流通概论》答案
- 晋江物流行业分析
- 临床研究的重要性与培训推动医疗行业不断创新
- 国家开放大学2023年7月期末统一试《11132卫生管理》试题及答案-开放本科
- 戴炜栋语言学练习题
- 英汉互译单词练习打印纸
评论
0/150
提交评论