




已阅读5页,还剩50页未读, 继续免费阅读
(产业经济学专业论文)个人征信数据仓库系统的设计研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
对外经济贸易大学硕十论文 摘要 建立、健全个人征信体系是我国金融信息化建设的重要内容。有效可靠的征信体系, 有助于降低银行对个人资信的调查成本,推动个人信贷业务健康持续发展,降低信贷 风险,稳定金融秩序。建立个人征信基础数据库是个人征信体系建设的重中之重。衡 量一个人的信用程度,离不开信用数据。我国的个人征信基础数据库于2 0 0 6 年1 月正 式运行,有1 6 家全国性商业银行,1 1 5 家城市商业银行,1 2 9 家城市和农村信用社已 经顺利接入数据库,目前系统已经收集了4 0 0 0 万人的信息,囊括的个人贷款金额达到 2 2 3 万亿元人民币。下一目标就是要在现有数据库的基础上进行数据仓库的构建。在 美国、英国、芬兰这些发达的征信国家,都无一例外的建立了覆盖全国范围的征信数 据仓库系统。 数据仓库是数据库发展的必经之路,尤其是像需要存储上亿人口的信用数据的征信 系统数据库,就更要升级为数据仓库,并利用数据挖掘、o l a p 等技术,对数据深度分 析,提供各种信用产品和增值服务。 本文首先阐述了国内外个人征信发展的概况,介绍了我国个人征信基础数据库的建 设情况以及存在的问题,如何充分利用存储的海量个人信用数据、建立数据仓库是征 信数据库下一步建设的重点。 随后介绍了数据仓库的基本理论知识,分析了个人征信基础数据库的现状,着重讨 论个人征信的4 部分业务处理:数据采集、异议处理、信用报告查询和运行管理的业 务流程和特点,提出了个人征信数据仓库系统的架构层次、对数据仓库进行存储分区: 分析并进行数据模型的建立,以核心业务信用报告查询为主题进行逻辑维度建模。 关键字:个人征信、数据仓库、架构设计、维度建模 对外经济贸易大学硕七论文 a b s t r a e t e s t a b l i s h i n ga n ds t r e n g t h e n i n gc o n s u m e rc r e d i tr e p o r t i n gs y s t e mi st h ei m p o r t a n tp a r to f f i n a n c i a li n f o r m a t i o n i z a t i o no fo u rc o n n t r y e f f e c f i v ea n dc r e d i b l ec r e d i tr e p o r t i n gs y s t e m h e l p sr e d u c et h ec o s to f i n v e s t i g a t i n gc o n s u m e rc r e d i to f b a n k s ,i m p u l s et h ed e v e l o p m e n to f c o n s q n l l c rc r e d i tb u s i n e s sh e a l t h i l ya n d p e r s i s t e n t l y , r e d u c et h ev e n t u r eo f c r e d i ta n ds t a b i l i z e t h eo r d e ro f f i n a n c ei n d u s t r y e s t a b l i s h i n gt h ec o n s l l f f l e rc r e d i tr e p o r t i n gd a t a b a s ei st h em o s t i m p o r t a n tc o n t e n to fc o n s u m e rc r e d i tr e p o r t i n gs y s t e m sc o n s t r u c t i o n e s t i m a t i n gp e r s o n a l c r e d i tc a n n o tb es e p a r a t e df r o md a t ao fc r e d i t i nj a n u a r y , 2 0 0 6 ,c h i n a sc o l :l s u n l e a rc r e d i t r e p o r t i n gd a t a b a s er u nf o r m a l l y , 1 6n a t i o n a lc o m m e r c i a lb a n k s ,1 1 5c i t yc o m m e r c i a lb a n k s , 1 2 9c i t ya n dc o u n u y s i d ec r e d i tc o m m u n i t i e sh a dc o n n e c t e dt ot h ed a t a b a s e b yf a r , t l l e d a t a b a s eh a sc o l l e c t e d4 0m i l l i o np e o p l e sc r e d i td a t a , c o n t a i n i n gt h es l n no f p e r s o n a lc r e d i t , 2 2 3 0b i l l i o nr m b t h en e x ts t e po ft h ec o n s t r u c t i o no fc o n s u e a e rc r e d i tr e p o r t i n gs y s t e mi s t ob u i l dd a t aw a r e h o u s e ,o nt h ef o u n d a t i o no fc o n s i l r n e rc r e d i tr e p o r t i n gd a t a b a s e t h e d e v e l o p e dc r e d i tr e p o r t i n gc o u n t r i e s ,s u c ha sa m e r i c a ,b r i t a i na n df i n l a n d ,a l le s t a b l i s h e d c o n s u n l e rc r e d i tr e p o r t i n gd a t aw a r e h o u s eo v e rt h ec o u n t r y d a t aw a r e h o u s ei st h ep r o c e s sw h i c hd a t a b a s eh a st op a s st h r o u 曲,e s p e c i a l l yf o rt h e c r e d i tr e p o r t i n gd a t a b a s et h a ts t o r e sh u n d r e d so fm i l l i o n sc r e d i td a t a , i tn e e dt ou p g r a d et o d a t aw a r e h o u s e , u s i n gt h et e c h n o l o g yo f d a t a - m i n i n ga n do l a pt od e e p l ya n a l y z et h ed a t a , i no r d e rt op r o v i d em a n ys o r t so f c r e d i tp r o d u c t sa n di n c r e m e n ts e r v i c e s f i r s t l y , t h ep a p e re x p o u n d st h ed e v e l o p m e n to f c o n s u m e rc r e d i tr e p o r t i n gi n t r o d u c e st h e s t a t u sa n dp r o b l e mo fo u rc o u n t r y sc o n s u m e rc r e d i tr e p o r t i n gd a t a b a s e , h o wt os u f f i c i e n t l y u t i l i z et h ev a s tc o n s a n l e rc r e d i td a t a , b u i l d i n gt h ed a t aw a r e h o u s ei st h ek e yp o i n to fn e x t s t e po f c o n s u m e rc r e d i tr e p o r t i n gs y s t e m sc o n s t r u c t i o n t h e n ,t h ep a p e ri n t r o d u c e st h eb a s i ct h e o r yo fd a t aw a r e h o u s e ,a n a l y z e st h ec o n s u m e r c r e d i tr e p o r t i n gd a t a b a s e ss t a t u s ,e m p h a s i z e st h ef o u rp a r t so fc o n s a r t l e rc r e d i tr e p o r t i n g s o p e r a t i o np r o c e s s :d a t ac o l l e c t i o n , d i s s i d e n c et r a n s a c t i o n ,q u e r yo fc r e d i tr e p o r t s ,f u n c t i o n m a n a g e n l e n t ,d i s c u s s e st h ef l o wa n dc h a r a c t e r i s t i co ft h ef o u ro p e r a t i o np r o c e s s ,p u t s f o r w a r dt h es t r u c t u r eo fc o n s u m e rc r e d i tr e p o r t i n gd a t aw a r e h o u s e ,m a k e ss t o r a g ep a r t i t i o n ; d o e st h ed e s i g no fd a t am o d e l i n ga n ds e t st h ec o r eo p e r a t i o nc r e d i tr e p o r t s q u e r ya st h e s u b j e c t ,a n dd o e st h ed i m e n s i o n a lm o d e l i n g k e yw o r d s :c o n s u m e rc r e d i tr e p o r t i n g ,d a t aw a r e h o u s e ,s t r u c t u r ed e s i g n ,d i m e n s i o n a l m o d e l i n g 2 对外经济贸易大学硕士论文 第一章个人信用征信的发展简介 信用在经济生活中越来越重要,它已成为个人经济能力不可缺少的标识。 个人信用征信,是指征信机构经过与商业银行及其他提供信息单位的约定,把分散 在各商业银行和社会有关方面的个人信用信息,进行采集、储存,形成个人信用信息 数据库的活动回。通过该数据库存储海量个人信用数据,以此为基础,在全国范围内的 商业银行等金融机构间实现共享,提高信用透明度,促进金融改革的发展。 1 1 征信相关概念 ( 一) 征信机构,是指依照征信管理办法批准成立,征集个人信用信息,向商业银 行及其他个人信用信息使用人提供个人信用信息咨询及评级服务的法人单位; ( 二) 个人信用评级,是指征信机构对征集到的个人信用信息依据征信机构的信用 评级标准进行个人信用等级评定的活动; ( 三) 个人信用信息,是指个人的商业信用记录及对判断个人信用状况可能有影响 的其他信息; ( 四) 个人征信基础数据库:由央行组织商业银行建设的全国统一个人征信基础数 据库,是各商业银行的信用数据信息共享平台,主要采集和保存个人在商业银行的借 还款、信用卡、担保以及相关身份识别等信用信息。为保护个人和商业银行合法权益, 商业银行目前只有在审核个人贷款、信用卡申请或个人信贷等业务时,并必须经过当 事人书面授权才能查询个人征信基础数据库。圆 世界上很多国家都已建立征信体制,发展、形成了征信行业,建立了征信系统,从 而提高了整个社会的信用水平。 1 2 国外个人征信发展概况介绍 1 2 1 美国征信发展概况 美国的征信服务业经过1 0 0 多年的发展,已经高度集中,征信企业大体可分为三类 第一类:资本市场上的信用评估机构,现在只剩下三家公司,穆迪、标准普尔和菲 企业和个人征信体系建设参考资料,中国人民银行统计司,2 0 0 2 年版,p 5 0 。 企业和个人征信体系建设参考资料,中国人民银行统计司,2 0 0 2 年版,p 5 1 。 姜磊,中国个人征信体系对美国经验借鉴研究,商业研究,2 0 0 5 年版p 9 8 。 对外经济贸易大学硕十论文 奇公司,这也是世界上三家最大的信用评级公司。主要对国家、银行、证券公司、基 金、债券及上市大企业的信用进行评级。据国际清算银行( b i s ) 的报告,在世界上所 有参加信用评级的银行和公司中,穆迪涵盖了8 0 9 6 的银行和7 8 的公司,标准普尔涵盖 了3 7 的银行和6 6 的公司,菲奇公司涵盖了2 7 的银行和8 的公司。 第二类:商业市场上的信用评估机构。其中最有名的是邓白氏集团。主要是对各类 企业进行信用调查、评级。邓白氏集团公司进行信用评估业务主要有两种模式,一种 是在企业之间进行交易时对企业所做的信用评级,一种是企业向银行贷款对对企业所 做的信用评级。邓白氏集团公司所做的企业资信调查报告的版式在全球影响最大,世 界上其他信用服务公司的信用报告与之大同小异。 第三类:消费者信用评估机构,也就是个人征信机构,在美国通常被称为信用局。 所谓信用局,是向需求者提供消费者个人信用调查报告的供应商。其中最著名的大公 司有全联公司( t r a n su n i o n ) 、e q u i f a x 公司和益百利公司 。它们合法的收集消费者 个人的信用记录,制作信用调查报告,并向符合法律规定的使用者提供。信用局收集 消费者个人信用信息的工作方式是主动的,不需要向被记录者打招呼。而且,大多数 授信机构都会将消费者的不良记录主动提供给信用局,使失信消费者的信用记录增加 负面信息,今后无法成功地申请其它信用工具。它们数据库覆盖全美所有消费者的全 部信用活动记录,包含有超过1 ,7 亿消费者的相关信息,每年发布超过1 0 亿份信用报 告,每月进行2 0 多亿份信用数据的处理工作,是美国私营部门中数据处理最密集的行 业。 在美国,几乎每个成年人都离不开信用消费,要申请信用卡、分期付款、抵押贷款 等,都需要对消费者的信用资格、信用状态和信用能力进行评价,这种评价集中表现 为信用报告。全联等消费信用报告机构提供的信用产品,就是向授信机构提供消费者 个人的信用调查报告,或向雇主提供求职者的报告。全联等信用局出具的信用报告, 使用的都是由美国信用报告协会( a c b ) 设计的一种标准信用报告格式。该格式的报告 要求信用局的信用报告提供如下信息:( 1 ) 消费者信用交易的记录:( 2 ) 公共信息记 录:( 3 ) 就业信息记录;( 4 ) 人口统计信息记录;( 5 ) 信用局查询记录。 1 2 2 日本个人征信发展概况 日本的个人征信制度产业的发展与只本的个人信用消费发展是同步的,行业协会在 其中发挥了很大作用,目前日本个人征信制度产业也是呈现“三足鼎立”的局面,即 全国银行个人信用信息中心、株式会社日本信息中心( 3 i c ) 和株式会社信用信息中心 ( c i c ) ,除此之外,还有跨越各行业系统的横向个人征信机构c c b 、株式会社t e r a n e t 等。 郑牟丹,征信体系的美、臼模式,西安金融,2 0 0 2 年第7 期,p 1 2 对外经济贸易大学硕上论文 全国银行个人信用信息中心是日本个人征信制度产业中个人征信规模最大的组织, 它的成立于1 9 7 3 年,当时第一个个人信用信息中心由东京银行协会建立,其按地区范 围提供会员服务。后来随着消费者融资市场的快速发展,其它2 4 个银行协会也逐渐加 入。最终于1 9 8 8 年成立了整个日本银行个人信用信息中心,信息数据库也实现了统一 运作与管理。 株式会社日本信息中心( j t c ) 是由日本信用信息中心联合会管理,而该联合会是 由作为其股东的全国3 3 所信息中心组成,每个信息中心都是独立的公司,都是由各地 区的消费金融公司作为其会员股东。 株式会社信用信息中心( t i c ) 的业务量在日本个人征信制度产业中是最大的,2 0 0 2 年销售收入8 6 9 2 亿日元,实现利润3 0 6 亿日元,总资产为3 4 2 9 亿日元9 。株式会 社信用信息中心( t i c ) 的前身包括以汽车系统和流通系统的信用卡公司为中心的“信 用信息交换所”和阻家电系统的信用公司为中心建立的“日本信用信息中心”等。因 此目前其会员主要是由各信用销售公司和信用卡公司等组成。 在成熟的征信国家,一般都建有地域上覆盖全国、信息上包括各个方面的主干信息 系统,形成对其他类型征信机构的信息支持。在整个征信体系中,主干信息系统的特 点是全面,由一个或几个大公司运作;其他类型的数量众多的征信机构利用主干系统 的信息提供各类资信评级服务,形成市场竞争格局。在许多发达国家,征信公司自己 建立并经营企业资信和消费者个人征信基础数据库,并通过数据的组合等方式扩大某 些数据库容量,虽终在全国范围内形成为数不多的大型征信数据仓库。例如,美国邓 白氏公司的企业资信数据库内动态存储全球5 7 0 0 万个企业的完整资信档案,t r a n s u n i o n 公司的消费者个人信用数据库中存储有2 亿多消费者的个人信用档案。 1 3 我国个人征信发展状况简介 我国个人信用评估事业是随着刺激消费、拉动内需等宏观政策的出台及银行职能的 转变发展起来的。到2 0 世纪8 0 年代中后期,信用卡这一金融工具开始在我国沿海城 市兴起,使我国的个人信用评估工作逐步向规范化发展。上海个人征信发展最早、最 快,也最具有代表性。 1 9 9 5 年开始,上海成为个人消费贷款发展最快的城市。鉴于每次发放贷款费时费 力,1 9 9 9 年7 月,上海市信息中心、上海信投公司等四家机构联合投资成立上海资信 有限公司,这是我国历史上第一家专门开展个人信用联合征信的中介机构。2 0 0 0 年7 月1 日,上海率先开始个人信用联合征信试点工作,l o o 多万市民成为首批拥有个人信 用记录的中国人。负责这项工作的上海资信公司成为新中国历史上第一家专门开展个 人信用联合征信的机构,为中国银行界无个人信用记录的历史划上了句号。 郑牟丹,征信体系的美、日模式,西安金融,2 0 0 2 年第7 期,p 1 2 0 。 ( 刁筻洪德,范南,世界发达国家个人征信产业比较及我国的实践问题,深圳金融,2 0 0 4 年第1 0 期p 3 7 3 对外经济贸易人学硕士论文 上海资信公司通过与全市1 5 家商业银行,3 0 0 多家支行营业部的网络联通,建立 了上海个人信用档案数据中心。进入资信公司数据库的个人资料为三大类:一是个人 基本资料,包括姓名、年龄、职业等;二是个人的银行信用,包括各商业银行提供的 个人信贷记录、信用卡使用情况等:三是个人的社会信用和特别记录,包括曾经发生 的金融诈骗等不良记录。而后信息库的内容不断增加,涉及个人司法、税务等方面的 信息。恶意透支、赊账不还、偷逃税或者受到公安部门处罚等不良行为,都作为不良 信用收录在案。 各商业银行利用该系统查询后,有效地促进了个人信贷业务的发展。随着上海市个 人信用联合征信系统的不断完善,各商业银行使用该系统的频率也不断提高。到2 0 0 5 年底,该数据库的个人数据已经超过5 4 0 万份,同比增长近五成。累计出具个人信用 报告2 7 8 万份,同比增长了近1 倍,日均出具报告约5 5 0 0 份,征信评估数据直接或间 接地影响上海市每天发放的数千笔消费贷款的授信决定。 由中国人民银行组织建设的个人征信基础数据库于2 0 0 4 年底在北京等全国7 个城 市的商业银行问试运行,经过1 年多的发展和建设,2 0 0 6 年1 月在全国正式开通运行。 到目前为止,该系统收集了信贷自然人身份信息4 1 0 0 万个,个人信贷账户的数量接近 5 0 0 0 万个,其中个人贷款账户2 1 ,4 4 7 ,9 4 6 个,信用卡账户3 0 8 6 1 ,6 5 8 个画。 覆盖全国的信用信息数据库是整个征信体系的基础。根据央行的征信数据库的建设 目标,下一阶段的重点是数据仓库的构建,以及提供多种征信产品和增值服务。 1 4 个人征信系统建立数据仓库的研究背景和研究意义 市场经济是信用经济,信用的缺失不仅严重阻碍经济的发展,使人们信用意识淡薄, 还会引起社会风气的败坏和道德水平的下降。信用监管的不健全,往往会导致连环骗 贷、信贷欺诈等严重的金融案件的发生。建立全国范围的个人信用信息数据仓库系统, 不仅是银行业推动个人信贷业务健康发展,降低信贷风险的重要举措,也是我国社会、 经济发展的当务之急。 从商业银行角度看,一方面,个人征信基础数据库在商业银行个人信贷风险防范中 的作用e t 趋重要。自2 0 0 4 年底该系统试运行以来,商业银行和农信社争相加入该系统, 并迅速建立了依托该系统的个人信用风险审查制度,将查询申请人信用报告作为消费 信贷审查的固定程序。据一些商业银行反映,通过查询个人征信基础数据库而拒绝贷 款的客户,约占申请客户的1 0 左右;另一方面,个人征信基础数据库建设对于商业银 行的业务发展也将发挥促进作用。如前一阶段,由于汽车价格下降等因素造成车贷坏 账率高,致使银行不敢发放汽车贷款;而国家助学贷款发放也由于银行难以在借款学 生毕业后找到当事人,造成不良贷款率比较高等问题,极大地影响了银行从事上述业 芟洪德、范南世界发达国家个人征信产业比较及我国的实践嗣题,深圳金融,2 0 0 4 年第1 0 期,p 9 6 。 中国人民银行征信局内部资料,2 0 0 6 年3 月,p 1 2 3 。 d 对外经济贸易大学硕上论文 务的积极性。而在个人征信基础数据库建成以后,通过促进公众提高诚信水平,将有 利于解决上述问题,并为商业银行发展此类业务创造良好的诚信环境。 从央行角度看,个人征信基础数据库也将成为央行提高金融监管水平的重要工具。 依托该系统的统计功能而进行的经济金融结构分析,将为宏观调控与货币政策提供有 效的依据,提高宏观政策的针对性。 从企业和个人来看,具有良好的信用记录不仅有利于获得银行贷款,还可以获得比 较优惠的贷款条件。企业、个人征信基础数据库提供的个人信用记录,为商业银行实 行贷款风险定价提供了条件。对于信用记录良好的个人,可以享受比较低的下浮贷款 利率,对于有不良记录的个人,不仅申请贷款比较困难,而且还会面临比较高的上浮 贷款利率。 在征信体制健全、成熟的国家,一般都建有覆盖全国范围的大型数据仓库,利用数 据仓库中存储的海量个人信用数据,提供信用评级、发布个人信用报告等相关增值服 务毋。2 0 0 6 年1 月在全国范围联网的个人征信基础数据库,是个人信贷信用数据的信息 共享平台,采用集中模式存储数据,直接面向全国采集数据,统一进行数据整合。个 人征信基础信息系统的信用交易数据和身份信息数据初期来源于商业银行,未来可扩 展到其它社会机构。 在个人征信基础数据库的基础上建立数据仓库,能够满足数据存储量逐步扩大的要 求,整合分散在各个商业银行的信用数据;在数据仓库基础上便于实施数据挖掘、0 l a p 等技术,进行深度数据分析,提供多种信用服务,辅助决策。 通过建立个人信用信息数据仓库系统和提供个人信用报告服务,减少金融交易中的 信息不对称,降低交易成本,切实防范信贷风险,维护经济金融安全,促进社会主义 市场经济持续、快速、健康发展。 商业银行利用个人信用信息数据仓库系统提供的信用报告查询服务,能够准确地鉴 别客户的信用等级,并据此进行信贷风险预警,实现控制信用风险的目标;通过比较 个人的个人身份信息和部分自然属性,达到一定的防欺诈目的。其它征信机构可通过 个人信用信息数据仓库系统这个信用信息共享平台,提供各种资信评分服务,社会个 人可通过个人信用信息数据仓库系统提供的个人异议处理功能来修改系统中的与自己 信用有关的错误数据,维护自己的权益。 郑牟丹征信体系的美、u 模式,西安金融,2 0 0 2 年第7 期,p 1 2 0 。 5 对外经济贸易大学硕士论文 第二章数据仓库的基础理论 数据仓库的概念始于二十世纪八十年代中期,由“数据仓库之父”的w i l l i a m h i n m o n 在建立数据仓库一书中提出的。书中提出的定义是,数据仓库a t a w a r e h o u s e ) 是一个面向主题的f s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e d ) 、相对稳定的 o n v o l a t i l c ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合 数据仓库中的数据面向主题与传统数据库面向应用相对应。主题是一个在较高层次 上将数据归类的标准,每一个主题对应一个宏观的分析领域;数据仓库的集成特性是 指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步 骤,除了要统一原始数据中的矛盾之外,还要将原始数据做一个从面向应用到面向主 题的转变:数据仓库的稳定性是指数据仓库反映的是历史的内容,而不是日常事务处 理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的:数据仓库 是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足决策分析的需要, 而且数据仓库中的数据都要表明该数据的历史时期。 数据仓库是基于传统的数据库业务应用系统之上的。传统的数据库业务应用系统在 企业中承担的是日常基础业务的处理任务,是数据仓库的数据来源,而数据仓库在企 业中承担的是分桥和决策的任务,是对传统的数据库业务应用系统数据的应用。 数据库系统作为数据管理手段,主要用于事务管理,而市场竞争要求捕获和分析业 务数据,对决策提供支持,传统的数据库业务应用系统无法达到这一要求,企业中现 有的数据库系统主要面向日常的操作和管理,其数据一般由d b m s 管理,可以反映一 个企业当前的运营状况。而市场竞争的加剧要求企业能够及时、正确的做出决策,但 直接在传统数据库上建立d s s ( 决策支持系统) 是不合适的。数据仓库则是把分析型 数据从事务处理环境中提取出来,按照d s s 处理的需要进行重新组织,建立的专为决 策服务的数据库系统,主要功能就是可以提高分析和决策的效率和有效性。 2 1 数据仓库的产生与发展 2 1 1 数据仓库的产生背景 随着计算机技术的1 毛速发展,传统的数据库正受到新型数据仓库的挑战。 在企业外部及内部环境的复杂化的同时,企业的数据量急剧增大,用户的需求也越 来越多样化,不仅要能查询或操作数据,还要进行数据分析和信息综合,可以说以多 对外经济贸易大学硕士论文 维数据为核心的数据分析己经成为决策的主要内容。基于传统数据库的决策支持系统 d s s 无法较好的满足需要,出现了诸多问题。 ( 1 ) 存储海量数据。在数字化、信息化的时代,企业在生产过程中产生着越来越多 的数据,因而要求现代数据库的容量能以指数的方式增长,数据仓库的海量存 储技术可以用经济的方式存储大量的数据。传统决策支持系统中的数据库仅仅 局限于简单的查询、统计和打印报表,而在数据仓库基础上进行的数据挖掘能 够为企业提供更加智能化的决策支持。 ( 2 ) 数据结构不一致性。各种业务数据分散在异构的分布式环境中,关系数据库实 际相互并不兼容,许多数据库没有统一标准的查询语言。 ( 3 ) 数据利用效率低下。在传统业务数据库中的业务数据本身大多以原始的形式存 储,未经过加工过滤,难以转化为有用的信息,效率低下。 ( 4 ) 另外,d s s 常常需要经过段历史时期的数据来分析趋势,而数据库中一般只存 储短期数据,且各个应用领域的保存期限也不一样,在分析时难以满足d s s 的 需要。 由于以上原因,人们开始尝试对数据库中的原始数据进行蘑新组织,再加工、利用, 形成一个综合的砸向分析的环境,最终提供给高层进行决策,因此数据仓库思想逐渐 形成。 2 1 2 国内外数据仓库的应用与发展 目前国内企业大多是在企业内部实现了局部信息化,如何把分散在企业组织中互不 相关的异质数据库连接起来,既能充分发挥决策支持的作用,又能合理降低成本是企 业当前l t 技术发展的一大方向。数据仓库技术是企业从粗放型经营向集约型经营转变 的必然结果。从传统的粗放型经营转向集约型经营,要求能够对管理的各种内容进行 细化,并将经营决策建立在理性分析的基础上。为了细化管理内容,就需要收集企业 内部运营的各种数据,包括市场数据、生产数据、管理数据等反映企业运转真实情况 的数据,通过对这些数据的分析,可以发现企业经营过程中的各种问题,并进行处理。 o l a p 和数据挖掘技术的不断成熟,为数据仓库应用市场的开拓打下了良好的基础。 在欧美发达国家,以数据仓库为基础的在线分析处理和数据挖掘首先在金融、电信等 数据密集型行业取得成功。近年来随着电子商务和i n t e r n e t 的发展,各大数据仓库产 品提供商纷纷把目光投向电子商务市场,并且通过数据仓库技术来构造商务智能 ( b u s i n e s si n t e l l i g e n c e ) 平台。 在国内,经过多年的数据应用,金融、保险、电信等传统数据密集型企业积累了大 量的数据,为数据仓库打下了基础。随着入世承诺的履行,诸多行业要逐步对外开放, 国内企业将面临越来越严峻的竞争,迫使企业决策者改变原有的经营习惯,通过科学 的决策手段来降低经营风险,提高生产、管理效率,创造更高的利润。同时,电子商 对外经济贸易大学硕上论文 务的迅猛发展,要求商家为用户提供更优质的服务,这必将促进数据仓库应用的发展。 目前,一些大型企业相继实施了数据仓库计划,涌现出了一些成功的应用范例。 从数据仓库的概念提出至今,数据仓库技术已经相对成熟,众多公司都退出了自己 的数据仓库解决方案。例如i b m 、o r a c l e 、s y b a s e 、c a 、n c r 、微软、s a s 等知名公司, 此外,b o 和b r i o 等专业软件公司也在前端在线分析处理工具市场上占有一席之地。 2 2 构建数据仓库的需求分析 需求分析的成败直接影响到数据仓库的成败实施。构建数据仓库的目的是为数据分 析者和决策者提供更好的决策支持手段,在了解数据仓库的使用范围以后才能对数据 仓库进行构建。 首先对系统业务流程以及这一过程中产生的数据和原有信息系统的数据库进行分 析,对各层数据库用户及其它数据分析者进行调查,发现和确定企业对数据分析的要 求,确定数据分析的各主题范围。 在确定了企业各层用户对数据的需求范围以后,由系统分析人员和用户共同对各种 查询所需的信息进行分析,如果系统原有的业务关系数据库中已经存在的数据记录不 能满足查询分析要求,那么就需要对该请求进行分解细化,使得所有查询分析请求所 需要的信息都能落实到系统业务关系数据库中存在的数据上。 在对信息需求进行分解细化以后,根据面向主题的数据组织方式把各个数据库中的 数据项组织成主题域,采取面向对象的数据组织方式对各个业务数据库中的相关数据 进行抽取。抽取的数据在进入数据仓库之前要按照系统预先规定的统一规则进行数据 的转换,主要是根据查询分析请求所需要的数据概括程度进行聚集和概括,得到各种 详细程度的数据,然后以多维数据或关系数据的组织方式存储在数据仓库中。 2 3 数据仓库的数据来源 数据仓库中的数据来源非常复杂,包括来自业务系统的内部或外部不同数据库或从 其它数据源录入的数据,按照其来源可划分为以下几种: ( 1 ) 随机产生的业务数据。这部分数据来源于和数据仓库相连的业务数据库, 绝大部分是关于瞬时发生的业务记录,如刚刚发生的这笔交易的单价、数 量、交易物、买方、卖方等。 ( 2 ) 原系统遗留数据。它是整个企业系统在建立数据仓库以前产生的,已经脱 机保存的企业系统产生的数据。 ( 3 ) 办公系统产生的日常管理数据。它是企业在日常的业务及办公室中随机产 生的管理数据,如日常办公费用等。 ( 4 ) 运行产生的综合数据。它是数据仓库以原始的基本数据为材料,在运行应 对外经济贸易大学颂士论文 用程序的过程中产生的粒度较大的综合性数据,系统存储这类数据的主要 目的是为了避免以后大规模检索和查询。 ( 5 ) 外部数据源数据。它是数据仓库系统从企业外部获得的一些数据,如近期 原材料价格、股票指数等。 数据仓库作为存储数据的一种组织方式,从数据源抽取原始数据后先按辅助决策的 主题要求,形成当前的基本数据层,再按综合决策的要求,形成综合数据层,综合数 据层又可分为轻度和高度综合层。随着时间的推移,时间控制机制将当前的基本数据 层转为历史数据层“,从基本数据层到综合数据层有许多详细的信息被过滤掉,留下的 是对数据整体趋势的描述,在数据仓库中被称为数据的粒度增大。 通常人们把数据仓库中数据组织方式分为两种情况”: ( 1 ) 按横向对数据分类进行存储。数据仓库存储的信息是按照面向专题来组织 的,根据需要信息分为不同类、不同角度等专题,把数据整理之后存储起 来,若有必要还可细分为多个子专题; ( 2 ) 按纵向对数据进行分类存储。数据仓库中要有一处专门用来存储5 1 0 年 或更久的历史数据,以满足分析预测之用的数据需求。 数据仓库中的数据不论其出自何处,都需要经过统一的设计和转换方能进入数据仓 库,数据仓库的设计和转换包括:数据结构、关键字、编码等,经过处理取得一致性, 一旦进入数据仓库这些数据便不能再随意改动,只能由数据转换按一定的规则定时刷 新。 2 4 数据仓库的数据模型 设计一个能够真正支持用户进行决策分析的数据仓库,并非是一件轻而易举的事 情。这需要经历一个从现实环境到抽象模型,从抽象模型到具体实现的过程。要完成 这一过程,必须依靠各种不同的数据模型。在从现实到抽象的过程中需要依靠概念模 型的支持,将现实的决策分析环境抽象成一个概念数据模型。然后,将此概念模型逻 辑化。最后,还要将逻辑模型向数据仓库物理模型转化:一旦完成数据仓库的物理模 型,就可以说数据仓库的实现有了具体、可靠的设计方案。 作为数据仓库的灵魂元数据模型则自始至终伴随着数据仓库的开发、成长与使 用。元数据模型的构建、实施与使用不可能脱离数据仓库的概念模型、逻辑模型与物 理模型的设计与实施。数据粒度模型也在数据仓库的创建中发挥着指导者的作用,指 导着数据仓库的具体实现。 i 舒勇,胡建华,数据仓库对决策支持技术的支持,昆明理工大学学报,1 9 9 9 年2 月,p 2 8 。 2 刘卫东,王诚周立柱,大型信息系统的翅织,计算机研究与发展鼽1 9 9 7 年6 月,v o l 3 4 ,p 2 3 9 , q 对外绎济贸易大学硕上论文 2 4 1 概念模型 概念模型是客观世界到机器世界的一个中间层次,是从现实世界抽取信息以数据的 形式存储到数据库中,是收集信息的工具,其最常用的表示方法是e r 图法和空间模 型。 e r 模型的主要要素是:实体、关系、属性,这些都是传统m i s 和d s s 设计中经常 用到的,在此不再详述。 a ) 空间模型的基本要素是事实、维、粒度。”“ ( 1 ) 事实( f a c t s ) ,如销售量、销售额、应收账款等,这些是实际分析的基础数 据,它们日积月累、数量越来越大。 ( 2 ) 维( d i m e n s i o n s ) ,事实信息的属性,如销售发生时间、客户、部门,销售 何种产品、何种规格等,它们一般变化不大,数据量相对较小。 ( 3 ) 粒度( u n i t s ) ,它是维划分的单位,如时间维可按日计,也可按旬、月、年 计;如产品维可明细到规格或颜色,也可按款式、原材料等较粗的单位来统 计,这些信息一般没有变化。 下图说明了事实、维、粒度信息的关系,图中时间维的粒度是日,客户维的粒度是 地区,产品维的粒度是产品种类,每个交点是事实;实际销售情况,即某日某地区某 商品的销售数据。 图2 1 事实、维、粒度的关系 资料来源:张忠能、尤毅等,设计数据仓库, 上海交大学报,1 9 9 8 年,v o l 3 2 ,n o l 0 b ) 空间模型中粒度的划分“ 粒度指数据单元的详细程度,数据越详细,粒度越小级别就越低;数据综合度越高, 粒度越大级别就越高。在数据仓库环境中主要是分析型处理,粒度的划分将直接影响 3 张忠能、尤毅等,设计数据仓库,上海交大学报,1 9 9 8 年,v o l 3 2 ,n 0 1 0 。 4 尤毅、方云安,多维数据仓库的设计,系统工程理论方法与应用,1 9 9 9 年v o l l 8 ,n 0 2 。 5 千珊,数据仓库技术与联机分析处理,p 2 5 ,8 7 - - 8 8 ,1 1 4 ,1 1 6 。 1 0 对外经济贸易太学硕上论文 数据仓库中的数据量以及所适合的查询模型,一般将数据划分为详细数据、轻度总结、 高度总结三级或更多级粒度。 2 4 2 逻辑模型 当前比较成熟的数据库产品都是基于关系模型,因此在数据仓库设计中采用的逻辑 模型也是关系模型无论是主题还是主题之间的联系都用关系来表示,它简化了数据仓 库的开发设计工作。它是对数据的重新优化组合。 逻辑模型是进行关系数据到多维数据转换时的重点考虑对象,它关系到转换后的多 维数据的性能。当前流行的逻辑模型有以下几种: a ) 星型模式“ 星型模式是一种建模范例,它中间有一个单一对象,沿半径向外连接到多个对象, 如果2 2 所示。星型模式反映了最终用户对商务查询的看法,销售事实、赔偿、付款 和货物的托运都用一维来描述( 按月、按产品、按地理位置) ,星型模式中心的对象为 “事实表”,相连的对象称为“维表”。 图2 2 星型模式图 资料来源:本研究整理 b ) 雪花模式 雪花模式是对星型模式的扩展,每一点都沿半径向外连接到多个点,如图2 3 所示。 雪花模式是对星型模式的进一步标准化,其优点是通过最大限度减少数据存储量以及 把较小的标准化表( 而不是大的非标准化表) 联合起来改善查询性能。由于采取了标 准化及较低的维粒度,雪花模式增加了应用程序的灵活性。 1 6h 嘶i n d e r g i | | 等著,王仲谋、刘书舟等译,数据仓库客户,服务器计算指南,清华大学出版杜,p 8 8 9 0 ,1 1 1 一1 1 2 ,1 8 4 。 l l 对外经济贸易大学硕十论文 图2 3 雪花模式 资料来源:沈秋云、张寅生。浅论数据仓库技术,计算机与通信,1 9 9 9 年第5 期 2 4 3 物理模型 物理模型是逻辑模型在数据仓库中的实现,如物理存取方式、数据存储结构、数据 存放位置等,物理模型是在逻辑模型的基础之上实现的,是逻辑模型在物理世界的存 放,本部分讨论物理模型中的存储方式和数据的组织形式。 a ) 数据存储方式( 物理模型) 按照数据的存储方式可把数据分为虚拟存储方式、基于关系表的存储方式和多维数据 库存储方式三种1 。 ( 1 ) 虚拟存储方式 虚拟数据仓库的组织形式,它没有专门的数据仓库数据存储,数据仓库中的数据仍 然在源数据库中,只是根据用户的多维需求形成的多维视图,临时在数据库中找出所 需要的数据,完成多维分析,这种组织方式称为虚拟存储方式。优点是较简单、花费 少、使用灵活,但同时存在一个巨大弱点,即只有当源数据库的数据组织比较规范, 没有数据不完备及冗余,同时又比较接近多维数据模型时,虚拟的多维语义层才容易 定义。但一般数据库的组织关系都比较复杂,数据又存在许多冗余和冲突的地方,实 际应用中虚拟存储方式很难建立其有效的决策服务支持。 ( 2 ) 基于关系表的存储方式 基于关系表的存储方式是将数据仓库的数据存储在关系型数据库的表结构中,在元 数据的管理下完成数据仓库的功能,这种组织方式在建库时有两个主要过程用以完成 数据的抽取。首先要提供一种图形化的点击操作界面,使分析员能对源数据库的内容 进行选择,定义多维数据模型。然后再编制程序把数据库中的数据抽取到数据仓库的 数据库中,该方式的主要问题是,在多维数据模型定义好后,从数据库抽取数据往往 要编制独立、复杂的程序,因此通用性差,很难维护。 7 沈秋云、张寅生,浅论数据仓库技术计算机与通信,1 9 9 9 年第5 期,p 2 0 7 1 2 对外经济贸易大学硕士论文 ( 3 ) 多维数据库的存储” 多维数据库存储是直接面向o l a p 分析操作的数据组织形式,这种数据库产品也比 较多,其实现方法不尽相同,数据组织采用多维数据结构文件进行数据存储,并有维 索引及相应的元数据管理文件与数据相对应。 数据仓库中的数据大致分为细节数据和综合数据,细节数据一般用关系数据库r d b ( r e l a t i o n a ld a t ab a s e ) 系统年管理,而对于综合性数据有两种方式:一是建立专 用的多维数据库系统进行管理;二是利用现有的r d b 技术来模拟多维数据。有很多人 认为多维数据库更适于建立数据仓库。 多维数据库m d d b ( m u l t i p l ed i m e n s i o n a ld a t ab a s e ) 在数据存储及综合方面都 有着r d b 不可比拟的优点,实现比r d b 简明、对开发人员的经验及技术要求不高,维 护工作量也比较小。m d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高考历史总复习必修二重难点知识复习梳理
- 2024融合大语言模型DeepSeek技术新人音版音乐一年级下册(赵季平主编)《第五单元 可爱的家》(唱歌 小宝宝睡着了 江西童谣 士达曲 我是一个甜果果 黄淑子词 晓洪曲)(计划一课时)教学设计2022课标
- 一年级体育下册 第三十五课攀爬教学设计(图片版)
- 衣服破了我会补(教案)-2024-2025学年劳动五年级北师大版
- 高中语文课内古诗文(新教材统编版)《屈原列传》知识点+专项练习(原卷版)
- 不可撤销委托合同模板
- 市场监管培训讲义
- 股东一致行动合同书
- 公众消防安全培训
- 小小音乐家《法国号》(教学设计)-2023-2024学年人音版(2012)音乐一年级上册
- 八年级劳动教育国家测试题及答案
- HJ25-4-2014 污染场地土壤修复技术导则
- 房地产 -JGJT46-2024《施工现场临时用电安全技术标准》条文解读
- 中医护理方案的应用
- GB/T 44709-2024旅游景区雷电灾害防御技术规范
- 北京理工大学《物理化学》2022-2023学年第一学期期末试卷
- 一例慢性心衰患者双下肢重度水肿伴左下肢重度溃疡的个案护理课件
- 《马克思主义原理》课件
- 结直肠癌的治疗与护理
- 新生儿常见导管护理
- 男生穿搭技巧学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论