面向非结构化企业指标信息的智能处理和可视分析---毕业论文_第1页
面向非结构化企业指标信息的智能处理和可视分析---毕业论文_第2页
面向非结构化企业指标信息的智能处理和可视分析---毕业论文_第3页
面向非结构化企业指标信息的智能处理和可视分析---毕业论文_第4页
面向非结构化企业指标信息的智能处理和可视分析---毕业论文_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本 科 毕 业 论 文面向非结构化企业指标信息的智能处理和可视分析Indicators of the Unstructured Enterprise Information for Intelligence Processing and Visualization姓 名: 学 号:学 院:软件学院系:软件工程专 业:软件工程年 级:校外指导教师: 校内指导教师: 年 月摘要随着信息的发展,出现了越来越多的非结构化信息。并且非结构化信息在政府和企业等的决策中扮演着重要的角色。如何将非结构化数据有效的管理起来,能够进行数据和知识挖掘,提取当中的隐含信息,提供一种形象的可视分析,为政府和企业决策提供支持成为当今亟待解决的主要问题。以国家科技支撑计划项目课题“面向服务的智能化制造技术及示范应用”(课题编号2006BAF01A17)为项目背景,我们开发了企业信息库管理系统。主要是为了解决北京市科委的企业指标信息的统计分析问题,而企业的指标信息是以Word形式保存的,属于非结构化信息。为了实现对指标信息的统计分析,对指标进行提取,将非结构化信息结构化是可行的方案。然而,从信息抽取效率上看,人工读取显然已经不能满足现实需求,而必须要利用计算机相关技术;从准确抽取的可行性上看,根据半结构化文本的特征和文本信息抽取技术,如正则表达式匹配、关联性分析、统计等方法可以使抽取结果满足实际需要,即实现机器智能化识别是可行的1。本文以北京市科委的指数统计文档为研究对象,主要任务是针对以北京市科委的指数统计文档为代表的非结构化信息的抽取和企业指标信息的可视分析。主要工作包括三个方面:第一,设计了一套以北京市科委的指数统计文档编写规范为标准的确实可行的信息抽取算法;第二,针对抽取出来的指标信息,借助于Dundas可视化工具进行可视分析;第三,完成了一个满足客户需求的企业信息库管理系统。论文从项目背景出发,介绍了系统开发的背景和研究价值。然后,详细介绍了企业指标信息智能处理的可行性和算法设计,以及企业指标信息可视分析的原理及其实现。再次,论文详细阐述了系统的需求,具体介绍了企业信息库管理系统的设计及其实现,最后论文针对企业信息库管理系统进行了分析和评价,并指明了下一步的改进计划。关键词:非结构化信息;半结构化信息;信息抽取;信息可视化;可视分析AbstractWith the development of information, there has been an increasing number of unstructured information. And it plays an important role in decision of government and enterprise, etc. How to manage the unstructured information efficiently, mine the data and knowledge, extract the implicit information, provide a visual image analysis, and then support the government and enterprises decision have become the main issues to be settled urgently. As the background to the Service-oriented Model of Intelligent Manufacturing Technology and Application Subject (Issue No. 2006BAF01A17) which is a National Science and Technology Support Projects, we develop the Enterprise Information Management Systems. Mainly to solve the enterprise information indicators statistical problems in Beijing Science and Technology Commission, and information on these indicators is based on the Word form, are unstructured information. To achieve this goal, extract the indicators information, and then structure to unstructured information is the only option. However, text analysis more dependent on computers rather than artificial because of the Huge quantity of the Semi-structured text; On the other hand, we are able to get the accurate result according to the feature of Semi-structured text and lots of skills about text analysis, such as regulation match,relation analysis,statistics and so onIn this question for discussion, we mainly have a research in indicator of enterprise documents from the Beijing Science and Technology Commission and try to obtain the indicators of the unstructured information, and then provide a visual image analysis. It includes three aspects: First, to design a set of practical information extraction algorithm; second, through the use of the Dundas Chart toolbox, providing visual analysis; third, completed Enterprise Information Management System which meet customers requirement.The beginning of the paper introduced the background of the project, introduced the background of the system and research value. Second, detailing information extraction algorithms and principles of Information Visualization. Third, the paper elaborated the systems requirement, specifically introduced the system design and implementation. Finally, some possible improvements and future works were presented.Key words: Unstructured Information; Sime-structured Information; Information Extraction; Information Visualization; Visual Analysis.目 录第一章 绪论11.1 引言11.2 论文组织结构2第二章 系统相关技术概述42.1 非结构化信息处理42.1.1 非结构化信息管理概述42.1.2信息抽取技术52.2 信息可视化72.3 其它系统技术介绍82.3.1 ASP.NET简介82.3.2 ASP.NET AJAX简介92.3.3 ASP.NET Ajax Control Toolkit组件112.3.4 Dundas Chart工具箱简介122.4 本章小结14第三章 非结构化信息处理和可视分析163.1 企业指标信息统计分析设计方案163.2 企业指标信息的智能处理173.2.1企业指标信息文档的结构分析173.2.2指标信息的提取算法设计243.2.3指标值的提取算法设计333.3 信息可视化的设计方案343.3.1信息可视分析过程模型343.3.2基于Dundas的信息可视分析设计363.4 本章小结38第四章 企业信息库管理系统的实现394.1 系统概述及功能394.1.1开发背景与系统目标394.1.2 系统功能和模块划分404.2 系统的框架设计424.3 指数统计模块的实现434.3.1统计分析模块的实现434.3.2问卷管理模块的实现454.4 文档资源库模块的实现464.5 系统维护模块的实现484.5.1用户管理子模块的实现484.5.2角色管理子模块的实现494.5.3文档类型定义子模块的实现494.5.4数据库备份&还原的实现494.7 本章小结49第五章 系统测试及运行结果505.1 系统测试505.2 运行结果505.2.1统计分析模块的运行结果505.2.2问卷管理模块的运行结果525.2.3文档资源库模块的运行结果545.2.4用户管理子模块的运行结果555.2.5角色管理子模块的运行结果565.2.6文档类型定义子模块的运行结果575.2.7数据库备份&还原的运行结果585.2.8 改善用户体验的工作595.3 本章小结60第六章 总结与展望616.1 论文总结616.2 工作展望62参考文献63致 谢64ContentChart 1 Preface11.1 Introduction11.2 The structure of this paper2Chart 2 System related technologies outline42.1 Unstructured information management42.1.1 Introduction of unstructured information42.1.2 Information extraction52.2 Information visualization72.3 Other related technologies introduce82.3.1 Introduction of ASP.NET82.3.2 Introduction of ASP.NET AJAX92.3.3 ASP.NET Ajax Control Toolkit112.3.4 Dundas Chart Toolkit122.4 Summary14Chart 3 Unstructured information management and visulization163.1 The design philosophy of enterprise indicators163.2 The design philosophy of enterprise indicators extraction173.2.1 The statistics documents structure analysis173.2.2 The statistics information extraction algorithm243.2.3 The value of statistic extraction algorithm333.3 The design philosophy of information visualization353.3.1 Information visualization model353.3.2 Information visualization base on Dundas Chart Toolkit363.4 Summary38Chart 4 Implementation of Enterprise Infromation Management394.1 System profiler and function394.1.1 Development background and overall objective394.1.2 Functional requirements and module division404.2 System architecture424.3 Indicators of statistics module design434.3.1 Statistical Analysis module design 434.3.2 Questionnaire management module design454.4 Document management module design464.5 System maintenance module design484.5.1 User management sub-module design484.5.2 Role management sub-module design494.5.3 Document attribute management sub-module design494.5.4 Database backup and restore494.7 Summary49Chart 5 System testing and the running results505.1 System testion505.2 Running results505.2.1 Statistical Analysis module running results505.2.2 Questionnaire management module running results525.2.3 Document management module running results545.2.4 User management module running results555.2.5 Role management module running results565.2.6 Document attribute management module running results575.2.7 Database backup and restore running results585.2.8 Improve the system-experience595.3 Summary60Chart 6 Summary and future works616.1 Summary of this paper616.2 Improvements and future works62References63Acknowledgements 64V致 谢第一章 绪论1.1引言随着计算机技术的发展,使海量信息得以存在并迅猛发展。尤其是信息技术的日益普及其应用以后,随着各个行业的信息系统的规模的日益扩大,信息系统在长年累月的运转过程中,积累了庞大的数据资源。然而决策者却很难利用这些数据资源,为企业和政府的决策提供确实有效的帮助。这是因为一方面,在这庞大的数据资源中,非结构化信息占据了主要部分。Gartner的一项调查显示,在今天的社会中,有80% 以上的商业行为依赖于非结构化信息;我们所存储的数据中,85%以上是非结构化信息;每过三个月,我们周围的非结构化信息就会增加一倍。这些数据充分说明,我们周围信息的形态是以非结构化信息为绝对主体的,也可以说我们接触到的信息中绝大部分是非结构化信息。因此对非结构化信息进行管理,能够进行数据和知识挖掘,提取当中的隐含信息,对决策进行支持成为当今亟待解决的主要问题2。另一方面,随着信息技术的发展,信息结构越来越复杂,信息更新越来越快,信息规模越来越大,给人们获取信息、理解信息、掌握信息带来了沉重的负担,常常导致“认知过载”、“视而不见”34。北京市科学技术委员会在企业指标信息统计分析工作上就存在这两方面的问题。每年北京市科委都要对北京市企业进行企业指标信息的调查,在长年累月的积累过程中,北京市科委积累了大量的企业指标调查表、项目立项、执行、验收等文档。这些调查表以word形式保存起来,并且调查指标的方式也呈现多样化,存在选择、填空、表格、问答以及这些题目的复合等形式。而且企业指标的调查涵盖范围也很广泛,从企业性质及登记情况到企业财务及信息化投入状况,再到人力状况及信息化支撑状况,到企业信息化基础设施建设状况、企业信息化应用情况,甚至涉及到企业对信息化工程的满意程度的调查。面对海量的非结构化企业指标信息,北京市科委每年都要投入大量的人力、物力、精力,将企业指标信息从word文档中手工提取出来,形成计算机可以识别的结构化的表格信息,再对企业指标信息进行统计分析。即使是这样,仍然存在许多问题:第一,手工抽取企业信息调查表耗时较长,工作强度大。第二,手工抽取数据信息容易出现错误,准确性不能得到有效保证,而且一旦出错,就有可能导致整个统计分析结果的错误,进行核对非常困难。第三,即使是将企业指标信息全部准确转成计算机可以识别的表格数据以后,由于数据的多样性,缺少形象的对企业指标信息的统计分析工具。 针对北京市科委的企业指标信息统计分析问题,我的毕业设计结合北京市科委的业务需求,开发了企业信息库管理系统。这个项目来源于国家科技支撑计划项目课题“面向服务的智能化制造技术及示范应用”(课题编号2006BAF01A17)。该项目主要是为了解决北京市科委的指标信息统计分析过程中,存在指数统计困难和文档管理困难两个问题,以业务为主线,主要包括科委文档的管理、企业指标信息的智能处理、企业指标信息的可视分析三个方面的内容。通过为科委中存在的大量信息文档实体构建基础信息模型,来方便用户的日常管理和提高文档的利用率。通过构建应用数据模型,将企业指标信息文档中的非结构化信息智能抽取出来,并存储于数据库当中,将非结构化信息结构化,用成熟的结构化数据管理理论来管理非结构化数据。通过对指标信息的查询,构建信息可视分析模型,使用户可以对知识进行挖掘,提供形象的可视分析,提高北京市科委的企业指标信息的统计分析效率。本项目完成后将会在北京市科委投入使用。1.2论文组织结构本论文共分为六章,论文首先分析了政府和企业在信息化过程中遇到的两个问题:非结构化信息管理和“认知过载”。并结合北京市科委的企业指标统计分析问题,介绍了毕业设计项目的背景和研究价值,引出了论文所做的主要工作内容。紧接着论文简单概述了毕业设计项目中所用到的各项技术,并针对北京市科委的业务要求提出了信息抽取和基于Dundas Chart信息可视化的解决方案。然后论文就项目中的两个技术难点非结构化信息处理和信息可视分析,详细阐述了信息抽取技术的算法设计和信息可视分析技术的模型设计。在系统实现方面,论文详细介绍了企业信息库管理系统所使用的技术要点:基于A的三层结构(USL-BLL-DAL)的框架设计;在用户体验方面,采用了A Ajax改善用户的体验。论文具体安排如下:第一章 简单介绍了企业和政府在信息化过程中遇到的非结构化信息管理困难和“认知过载”问题。针对北京市科委的指标统计分析问题,提出了毕业设计的背景、目标和研究价值。第二章 概述系统中所使用的各项技术及各项技术的国内外发展现状。第三章 详细介绍了针对北京市科委企业指标信息文档的信息抽取技术的算法设计和信息可视分析的模型设计。第四章 介绍了企业信息库管理系统的实现。详细阐述了系统的背景和总体目标,基于表示层(USL)-业务逻辑层(BLL)-数据访问层(DAL)的三层结构的框架设计和功能模块介绍及其实现。第五章 介绍了企业信息库管理系统的系统测试和运行结果。第六章 最后论文总结了毕业设计所做的工作,并且指明了下一步的改进计划。主要是在信息抽取算法的改进,以及在用户体验方面的改进计划。第二章 系统相关技术概述2.1 非结构化信息处理2.1.1 非结构化信息管理概述在引言中,我们提到过“在当今的社会中,我们周围信息的形态是以非结构化信息为绝对主体的, 也可以说我们接触到的信息中绝大部分是非结构化信息。”,那么什么是非结构化信息?非结构化信息具有什么特点?如何管理非结构化信息?信息可以分为三类:结构化信息,非结构化信息和半结构化信息。(1)结构化信息经过严格标引后的数据,一般以二维表的形式存在。如数据库中的表、各种票据信息等等。(2)非结构化信息没有经过人为处理的不规整的信息。这些信息更加符合人类交流的方式。如新闻报道、科技文献、散文等等。(3)半结构化信息介于结构化信息和非结构化信息之间的。有一定格式约束,这不同于非结构化信息,但局部上,又按人类自然语法组织信息,与结构化信息又有所区别,例如电报报文,通知、公告、指数统计表等等。非结构化信息具有如下特点:第一,其格式非常多样,第二,标准是多样性的,不像我们结构化的数据一目了然。第三,在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的计算机技术。基于非结构化信息的特点,将非结构化信息结构化,转化为结构化信息进行管理是一个可行的管理方案,而构建的面向用户的企业非结构化信息管理系统必须具备以下特征5:(1)必须对非结构化信息资源的获取、转换、分析、管理、应用全过程进行分析,提供基于标准工作过程的支持环境。(2)必须提供标准的对外接口、信息描述方法和定制规范降低定制分析机组件和信息应用组件的复杂性。(3)必须提供灵活的信息描述资源模式简化信息结构化信息资源库的构建。(4)采用自然资源技术以支持高质量的“拉式”信息服务和知识抽取。(5)提供对外的标准的接口以支持非结构化信息资源管理系统与企业其他应用系统的集成。(6)提供界面友好的工具方便用户系统管理和应用。(7)其本身应具有易于扩充、动态发展的能力。图2.1为基于UIMA(Unstructured Information Management Architecture)的非结构化信息管理的架构图,具有一定的指导意义:图2.1 企业非结构化信息管理系统应用模式52.1.2信息抽取技术在上一节非结构化信息的管理概述中,我们提到将非结构化信息结构化,利用结构化信息对非结构化信息进行管理是一个可行的方案,而将非结构信息结构化,就要用到信息抽取技术。信息抽取技术(Information Extraction)主要功能是从文本中抽取出特定的事实信息(Factual Information)6。它和信息检索技术有本质的不同6:(1) 功能:信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。 (2) 处理技术:信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(Bags of Words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 (3) 适用领域:由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。但是,信息抽取技术和信息检索技术又是互补的。信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。Hobbs曾提出一个信息抽取系统的通用体系结构 7 ,他将信息抽取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”。(1) 文本分块:将输入文本分割为不同的部分块。(2) 预处理:将得到的文本块转换为句子序列,每个句子由词汇项(词或特定类型短语)及相关的属性(如词类)组成。 (3) 过滤:过滤掉不相关的句子。 (4) 预分析:在词汇项(Lexical Items)序列中识别确定的小型结构,如名词短语、动词短语、并列结构等。 (5) 分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或分析树片段集合。 (6) 片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合成整句的一棵分析树或其他逻辑表示形式。(7) 语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑形式。 (8) 词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。 (9) 共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中。 (10) 模板生成:由文本的语义结构表示生成最终的模板。 并不是所有的信息抽取系统都明确包含所有这些模块,并且也未必完全遵循以上的处理顺序,比如(6)、(7)两个模块执行顺序可能就相反。但一个信息抽取系统应当包含以上模块中描述的功能。 图2.2为纽约大学PROTEUS信息抽取系统体系结构,具有一定的代表性:图2.2 纽约大学PROTEUS信息抽取系统体系结构2.2 信息可视化信息可视化(Information Visualization)是在1989年Robertson等的ACM“用户界面软件与技术”(USIT)会议中首次提出的,它主要通过抽象信息提供计算机支持的、交互式的、可视化的表示形式,不断增强人们对于日益增长的复杂信息的认知能力,成为人们解释现象、发现规律、辅助决策的强有力的工具。信息可视化结合了科学可视化、人机交互、数据挖掘、图像技术、计算机图形学、认知心理学等诸多学科的理论和方法。8与古典统计分析(Classical Statistics)和数据挖掘(Data Mining)通过使用现有的数据模型或者构建新的已经得到验证的数据模型来帮助人们管理和挖掘海量数据信息当中的隐含的知识不同。而信息可视化则是一个探索性的任务(Exploratory Tasks),可以描述为用计算机支持的(Computer-Supported)、交互式的可视化展示数据(Interactive Visual Representation of Data)来提高人们的认知水平。信息可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。也就是说,用户在使用信息可视化系统之前往往是没有明确的目标。9信息可视化为人们提供了一个快速检索信息的工具。然而,简单地检索和获取信息并不是目的,人们需要的是快速理解信息、掌握信息、发现信息中隐藏的特征,并从中获取知识。信息可视化技术将为人们发现规律、增强认知、辅助决策、解释现象提供强有力的工具。信息可视化能够帮助人们增强认知能力,具体体现为:(1) 信息可视化能够扩大对存储资源的利用;(2) 信息可视化能够提高对信息的搜索能力;(3) 信息可视化能够提高模式识别;(4) 信息可视化能够帮助感知推理;(5) 信息可视化能够利用感知来实现监控;(6) 信息可视化能够增强用户的操作;与静态图表不同,信息可视化能够动态地设置或修改参数以进一步理解和掌握信息。2.3其它相关技术介绍2.3.1 ASP.NET简介ASP.NET不仅仅是 Active Server Page (ASP) 的下一个版本,而且是一种建立在通用语言上的程序构架,能被用于一台Web服务器来建立强大的Web应用程序。ASP.NET提供许多比现在的Web开发模式强大的优势。10(1) 执行效率大幅提高。ASP.NET是把基于通用语言的程序在服务器上运行。不像以前的ASP即时解释程序,而是将程序在服务器端第一次运行时进行编译。(2) 世界级的工具支持。ASP.NET构架是可以用Microsoft(R)公司最新的产品 Visual Studio.NET开发环境进行开发。(3) 强大性和适应性。因为ASP.NET是基于通用语言的编译运行的程序,所以它的强大性和适应性,可以使它运行在Web应用软件开发者的几乎全部的平台上。(4) 简单性和易学性。ASP.NET使运行一些很平常的任务如表单的提交客户端的身份验证、分布系统和网站配置变得非常简单。2.3.2 ASP.NET AJAX简介所谓Ajax是Asynchronous JavaScript and XML的缩写,是由JavaScript、XML、XSLT、CSS、DOM和XMLHttpRequest等多项技术组成的。其中,XMLHttpRequest对象是Ajax的核心,该对象由浏览器中的JavaScript创建,负责在后台以异步的方式让客户端连接到服务器。使用Ajax具有如下特征:11(1)一个页面就是一个应用程序。(2)基于标准技术构建。(3)迅速、平滑、友好的服务器交互过程。(4)充分重视用户的体验。(5)高级UI功能支持。使用Ajax技术,Web页面就不用打断交互流程进行重新加裁,就可以动态地更新。使用Ajax,可以创建接近本地桌面应用的、直接的、高可用的、更丰富的、更动态的Web用户接口界面。最重要的是,用户甚至不知道浏览器正在与服务器通信:Web站点看起来是即时响应的12。 Ajax的交互基本流程如下:图2.3 Ajax应用程序的一次与服务器交互流程微软公司的ASP.NET AJAX框架是迄今为止对Ajax技术最完备且功能最强大的封装。它包括完善的对客户端面向对象编程的支持、丰富的客户端/服务器端组件、客户端/服务器端类型的自动转换、自动将服务器端页面方法或Web Service方法暴露给客户端、为远程Web Service提供本地客户端代理等非常强大的功能。而且,ASP.NET AJAX并不仅仅是一个封装了Ajax操作的框架,它还对JavaScript进行了非常精巧的面向对象方面的扩展,为我们提供了坚实的面向对象的开发基础。12因此,使用ASP.NET AJAX可以开发更高效率、更具个性化的Web应用,并且他提供的框架,可以在任何流行的浏览器中正常运行,不需要在手动判断浏览器的类型。使用ASP.NET AJAX具备以下优势:13 (1) 非常轻松的扩展可复用的组件。(2) 提高现有网页对所有流行浏览器的支持。(3) 使用它与Visual Studio 2005结合的方式可以增强ASP.NET 2.0站点的设计和应用。(4) 从浏览器获取远程服务或者数据,不再需要编写复杂的脚本。这是Ajax应用中最关键的部分。(5) 它属于免费的部分,拥有专门的ASP.NET AJAX论坛的支持。图2.4 ASP.NET Ajax的组成122.3.3 ASP.NET Ajax Control Toolkit组件ASP.NET AJAX Control Toolkit是一个免费的、开源的ASP.NET服务器控件包,其中包含了数十种基于ASP.NET AJAX的、组件化的、提供某种专一功能的ASP.NET服务器端控件和ASP.NET AJAX扩展控件。在30多种控件中,可以分为3大类:样式扩展控件、功能扩展器控件、独立控件。11在使用ASP.NET AJAX Control Toolkit中的控件之前,系统必须满足以下要求:(1) Windows XP、Windows Vista或Windows Server 2003以上的操作系统;(2) .NET Framework 2.0;(3) Internet Information Service(IIS);(4) 至少一种流行的浏览器:IE6.0或FireFox 1.5;(5) 最新版本的ASP.NET AJAX;图2.5 ASP.NET AJAX Control Toolkit的目录结构由于ASP.NET AJAX Control Toolkit技术对Ajax进行了封装和组件的提供,使得构造一个Ajax流程变得简单,使程序员把精力放在Ajax事务的处理和业务逻辑上。2.3.4 Dundas Chart工具箱简介Dundas Chart for .NET是一款处于行业领先地位的.NET图表处理控件,它提供了全面的图表功能、最完整的图表架构示例、以及最好的在线技术支持。包含Windows Forms 和 ASP.NET两个方面的服务。使用该图表控件,开发者能够容易地实现高级的图表展示,使企业更加直观的有效的管理和分析数据,大量提高企业的工作效率。14使用Dundas进行开发,具有如下特征:(1) Dundas Chart and Data Wizard - 利用高级的Chart and Data Wizard,可以用很容易地创建所需要的图表并绑定数据。图2.6 Dundas Chart and Data Wizard(2) 完整的图表列表 大量的不同图表类型的分类,包括:标准类型(Pie, Bar, Column等)和许多高级类型(Radar, Box, Range等)。图2.7 各种Dundas图表(3) 高效率的设计时支持。许多属性能够在设计时设定来代替编写运行时代码。图2.8 Dundas设计时的界面(4) 高级数据分析和处理能力。图2.9 Dundas数据处理能力15(5) 提供完备的支持资料。Dundas Chart Toolkit为程序员提供了完备的开发文档和使用说明。因此使用Dundas Chart Toolkit开发相当的方便。图2.10 Dundas Chart文档随着Dundas Chart for .NET V5.5版本的推出,它又对Dundas Chart的功能进行了扩展。使它能够支持Ajax交互技术,这样Dundas Chart就具有了信息可视化的交互能力。2.4 本章小结在绪论中,我们介绍了北京市科委在企业指标统计分析方面存在的两个方面的问题:大量非结构化的企业指标信息表的处理和企业指标信息的统计。就北京市科委存在的问题,我们提出了要建设企业信息库管理系统来解决目前存在的各项难题。本章就企业信息库管理系统中所使用到的各项技术做了简单的介绍,并概述系统中所使用的各项技术的国内外发展现状。首先,我们概述了非结构化信息处理,简单介绍了目前信息存在着的三种形式:非结构化信息、结构化信息和半结构化信息。然后我们讲述了针对像北京市科委这样的非结构化信息的国内外处理方法,并提出了我们的解决方案,将非结构化信息结构化,利用成熟的结构化信息的管理方案来管理非结构化信息。并阐述了非结构信息管理系统的应有的特征和一个简单的框架模型。紧接着,我们概述性介绍了非结构信息结构化过程中信息抽取技术,并与信息检索技术进行比较得出信息抽取技术的本身的特征,然后我们介绍了Hobbs曾提出一个信息抽取系统的通用体系结构,并介绍了信息抽取系统的典范纽约大学PROTEUS信息抽取系统的体系结构。其次,我们就企业信息库管理系统的另外一个核心技术信息可视化做了简单的概述。介绍了信息可视化国内外发展现状,并将信息可视化与统计学和数据挖掘进行比较,提出了信息可视化的价值和研究意义。最后,本章简单介绍系统所使用的ASP.NET平台及Microsoft专门为ASP.NET开发的ASP.NET AJAX。并介绍了使用ASP.NET Ajax Control Toolkit工具箱可以帮助我们更加关注于系统业务层的设计。然后我们概述了企业信息库管理系统中在信息可视分析方面所使用到的Dundas工具箱,介绍了Dundas工具箱的主要特征和优点。下一章中我们将详细介绍针对北京市科委企业指标信息文档的信息抽取技术的算法思想和信息可视分析的模型设计思想。第三章 非结构化信息处理和可视分析3.1 企业指标信息统计分析设计方案在上一章中介绍非结构化信息管理时候,我们提到过将非结构化信息结构化,利用成熟的结构化信息管理方案来管理结构化信息是一个可行方案,也介绍了基于UIMA的非结构化信息的管理体系结构。然而,北京市科委的企业指标信息统计分析,并不是简单的对企业指标信息表的信息检索和文档管理,它还包括对指标信息的抽取、指标信息的统计、指标信息的可视分析。因此我们参考UIMA的非结构化信息的管理体系结构,并结合北京市科委的实际业务要求,提出了自己的非结构化企业指标信息的管理模型。图3.1 企业指标信息统计分析设计体系结构图文件管理系统:负责管理北京市科委中的文档,包括企业指标信息表、立项报告、执行报告、验收报告等文档。企业指标信息抽取系统:负责抽取企业指标信息文档中的指标信息。并将抽取结果存储在数据库当中。数据库管理系统:与文件管理系统协同合作,负责管理企业指标信息数据库,主要对企业的指标信息进行有效性验证,指标信息的规范化、清除和修改无效数据等工作。指标信息可视分析系统:从数据库中查找相关的指标,并对企业信息的指标进行统计分析,并形象的展示分析结果,为企业的决策提供帮助。文件管理系统和数据库管理系统相对比较简单,我们将在下一章企业信息库管理系统的实现中详细介绍。本章接下来的两节,将详细阐述企业指标信息处理和信息可视化的设计思想。3.2 企业指标信息的智能处理3.2.1企业指标信息文档的结构分析管理非结构化的企业指标信息的第一步就是将非结构化信息结构化,即对企业指标信息的提取。然而,就信息抽取难度而言,结构化文本的信息抽取最容易,其中格式信息很明确,借助格式信息我们能够很容易的判断相应文本的具体内容,甚至不需要对文本本身进行分析;非结构化信息抽取最难,大多数文本都是以这种形式出现的,但是以目前的技术尚不能完全实现对此类文本的精确分析;半结构化文本的信息抽取难度介于二者之间,该类文本具有一定的格式信息,但是仅凭格式信息无法实现对其的准确把握,所以还必须借助语义理解从而实现对该类文本的信息抽取15。因此我们需要对企业指数信息文档的结构进行分析,如果他是没有任何规律,仅仅是自然语言的文本,那对它进行信息的抽取将是非常的困难的,而且即使是在现在,所有的国内外的信息抽取技术都不能实现对文本的精确分析和抽取,那么针对提取出来的不准确的指标信息进行统计也是没有任何意义的。然而幸运的是,在分析了科委2001年到2007年的指数统计表以后中,我们发现指数统计信息表并不是没有规律可循的,而是有一定的规律和规则的。图3.2为部分的2001年北京市科委的指数信息统计表:图3.2 部分2001年企业指数统计信息文档的截图我们对2001年到2007年的企业指标信息文档进行抽象和分析,提取出下面五条规则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论