创建 SA S 数据集的技巧-_第1页
创建 SA S 数据集的技巧-_第2页
创建 SA S 数据集的技巧-_第3页
创建 SA S 数据集的技巧-_第4页
创建 SA S 数据集的技巧-_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文章编号:100424337(20030120074202中图分类号:T P 319文献标识码:A创建SA S 数据集的技巧张尔强(中国医科大学计算中心沈阳110001SA S (Statistical A nalysis System 是当今国际上最著名的统计分析软件。SA S 采用模块结构,统计分析分为数据步和过程步。数据步准备数据集,每个过程步完成相应的分析。SA S 有各种各样的过程,足以满足各种统计分析要求。数据集的建立有非常灵活的方式,既可以使用外部数据文件,也可以在SA S 作业流中实现。下面仅就创建SA S 数据集的技巧简单介绍如下。1使用外部数据如果数据已经用其它软件以文件的

2、形式存在磁盘上(即所谓利用已有资料,在下列情况下可以直接转换成SA S 数据集。111EXCEL 文件人们常用EXCEL 整理数据,甚至可以进行简单的统计分析。如果要用SA S 进行更复杂的统计分析,可以直接转换成SA S 数据集,但必须注意以下几点:必须保证数据从第1行A 列开始存放,否则将出现多余的变量和空观测;如果第1行有栏头,则每列的栏头将成为SA S 数据集中的变量名。由于SA S 是纯英文软件,不能接受汉字为变量名,因此必须把栏头改为英文,而且必须是8个以内的字符;如果第1行没有栏头,而是直接写入数据,那么第一行数据将丢失,并且变量名将自动为F 1,F 2,;因为EXCEL 有各种

3、不同的版本,因此在转换时要注意版本的指定;进入SA S 后,依次点击菜单F I L E I M POR T ,然后在对话框中选择外部文件类型(EXCEL 2000或EXCEL 6.0、浏览文件名,并为新数据集命名即可;成功与否的信息将出现在LO G 窗口,也可以用PR I N T 过程显示。112A CCESS 文件A CCESS 文件是一种数据库文件,字段名必须是英文字母、下划线或数字,否则不能识别。字段名将变成SA S 数据集的变量名。113LO TU S 文件因为LO TU S 和EXCEL 都是电子表格文件,因此转换方法完全相同。114DBF 文件DBA SE 、FOXBA SE 、F

4、OXPRO 、V ISUAL FOXPRO 等数据库文件(扩展名为DBF 都可以转换成SA S 数据集,这对以DBF 形式存放的数据文件的分析带来了方便。但必须注意以下几点:由于数据库的字段名将直接变成SA S 中的变量名,SA S 是纯英文软件,不能接受汉字为变量名,因此转换前必须把字段名改为英文;DBF 中的字符型、数值型、日期型字段转换成同类型的SA S 变量,而逻辑型的将转换成字符型(SA S 中无逻辑型变量;进入SA S 后,依次点击菜单F I L E I M POR T ,然后在对话框中选择外部文件类型(DBF 、浏览文件名,并为新数据集命名即可。115以逗号为间隔符的纯文本文件(

5、扩展名为CSV 116制表符(T ab 键为间隔符的纯文本文件(扩展名为TXT 无论哪种情况,都必须保证文件是在关闭状态下,否则转换将失败。2数据步中建立数据集的技巧除了直接利用外部数据外,也可以利用SA S 数据步建立数据集。一般来说很简单,但是如果一个观测由2行或以上数据组成,或者一行上有多个观测就需要一些技巧。在大型实验中,常常对一个观测对象测定较多的数据项,因此写成数据文件时一个观测对应原始数据的多行,例如某体育训练中心有关运动前后生理指标的影响的研究中对运动前后各测定20项数据,形式如下:001F -002M -解决的办法有以下三种:(1I N PU T NUM BER SEX $A

6、 12A 10 B 12B 10这里的 表示下跳一行,如果一条记录由三行组成,可以再加上一个 去读下一行;47Jou rnal of M athem aticalM edicine V o l.16NO .120033广州市荔湾区中西医结合医院(2I N PU T NUM BER SEX $A 12A 10#2B 12B 10这里#2表示到第二行去读,同样也适用于多行的情况;(3I N PU T NUM BER SEX $A 12A 10;I N PU T B 12B 10即一个记录由几行组成,就使用几个I N PU T 语句。如果每个观测变量很少,则可以把多个观测写在一行上。例如对某地100

7、名7岁儿童身高数据进行分析,数据步可以写成如下形式:DA TA A ;I N PU T H E IGH T ;CA RD S ;-这里为续读符号,可以从一行上读取多个观测。收稿日期:2002-05-17文章编号:100424337(20030120075202中图分类号:T P 392文献标识码:A用SQL Server 2000构建数据仓库的尝试周怡周卫平李燕茹3(广东药学院计算中心广州510224摘要:介绍了作者采用SQL server 2000构建对广州市死亡状况数据仓库的尝试,探讨了在目前国内医药业的信息系统环境下,构建数据仓库可能会遇到的问题以及正在尝试的解决方案。关键词:数据仓库;

8、数据挖掘;数据净化当我们在查看医药信息系统数据库中成千上万的记录时,所有的决策层领导都知道这些信息非常有价值。将计算机中存储的堆积如山的数据转化成有用的信息,已经成为当今决策层十分关注的问题。数据挖掘已成为IT 领域中的新热点。数据挖掘是一个“数据驱动”的过程,目的是发掘以前没有被发现或是容易被忽略的有意义的数据模式。数据挖掘的一个显著特点是,它依靠计算机而不是人力来做那些用来建立预测模型的复杂的数学运算。大量原始数据的分析需要深层次的归纳推理,这部分工作也是由计算机来完成。推理过程结束之后,计算机再按照能为人所理解的格式输出分析结果。数据仓库作为一种高效的解决数据收集和使用的技术,正在越来越

9、多地应用到传统的数据库技术领域,数据挖掘则在数据库和数据仓库的支持下进行高效率的知识挖掘工作1。将分布在广州各区的人口死亡情况登记进行电脑整合,尝试构建死亡人口的数据仓库,我们希望这个数据仓库能为医学研究、政府管理决策和智能信息系统的数据挖掘工作奠定一个基础。1数据挖掘物理结构和数据仓库设计数据挖掘的物理结构描述了客户应用程序是如何与数据挖掘模型相互作用的,结构的选择是根据待挖掘数据源的大小以及对该数据挖掘模型发布的预测查询频率来选择的。根据“死亡人口数据仓库”的应用特点,我们拟使用由两层体系结构向三层体系结构过渡的方案。在数据仓库开始服务时,先选用两层体系结构。因为两层体系结构的物理结构不太复杂,能够在合理高效的服务器上挖掘数百万的记录。服务器中一并存放着数据挖掘引擎和数据仓库,在本地运行所有处理过程。通过一个OL EDB 连接,客户机可以简单调用引擎执行所有必要的数据挖掘处理,并在需要时接受预测结果集。当数据挖掘任务进一步增加,客户机选用挖掘结果需求量增大时,拟选用三层体系结构。这个结构总体上需要一个专用的高性能服务器在中间层来运作数据挖掘引擎,数据仓库被置于后端,中间层负责挖掘其数据。中间层从后端载入数据并挖掘它,挖掘结果被传到客户机。到客户机的过程与两层体系结构是相同的。在众多的数据仓库产品中,我们选择SQL server 2000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论