银行业CRM软件技术_第1页
银行业CRM软件技术_第2页
银行业CRM软件技术_第3页
银行业CRM软件技术_第4页
银行业CRM软件技术_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、银行业CRRM软件技技术本章对涉及及建设银行行CRM系统统的核心软软件技术进进行慨要讲讲解,并对对一些功能能进行了比比较分析,有有助于银行行进行软件件选型。XML技术术 XML技术术作为互联联网的种子子技术是建建设CRMM的一个重重要支撑技技术。XML介绍绍 XML是EExtennsiblle Maarkupp Lannguagge的简称称,即“可可扩展标记记语言”,是是由 W3C组织于于19988年 2月制定定的一种通通用语言规规范,是专专为Webb应用而设设计的 SSGML 2 (Stanndardd Gennerallizedd Marrkup Langguagee)的一个个优化子集集。

2、同SGMLL类似, XXML是一一种元标记记语言,使使用者可按按需创建新新的标记, XML的可扩展性就在于此。这些标记通过 XML DTD(Document Type Defi n ition,文挡类型定义)来加以定义。DTD是一系列关于元素类型(Element Type),属性(Attributes), 实体(Entities)和符号(Notations)的定义。它定义了文档所需的标记,比如可在文档里使用的元素类型,这些元素之间的可能的联系,还可能声明元素的属性,属性是元素的“元数据”,而不是元素包含的内容。另外,一个实体就像是一个缩写,被当做一些文本或一些数据的缩写来使用。而符号描述某一类

3、事物(例如图像)的数据内容,它定义怎样翻译某类对像的比特流。XML文档可以在它的文档类型声明(Document Type Oeclaration)里声明该文档遵循某个XMLDTD。XML语法法 XML文档档的组成 XML文档档包含由XXML标记记和字符数数据组成的的文本。它它是一个有有固定长度度的有序字字节的集合合,并遵守守特定的约约束。它可可能是或者者不是一个个文件。例例如,XMML文档可可能。存储在数据据库中由CGI程程序在内存存中瞬间创创建由几个相互互嵌套的不不同文件组组合而成不存在于自自身的文件件中但是如果把把一个XMML文档看看做一个文文件也是可可以的,只只要记住它它可能并不不是存在

4、于于硬盘上的的真实文件件。XMLL由称为“实体”的的存储单元元组成,每每个实体包包含文本或或者二进制制数据,但但不能同时时存在。文文本数据由由字符组成成,二进制制数据用于于图片和小小程序等类类内容。用用一个具体体的示例说说明就是,一一个含有标记的原原始HTMML文件是是一个实体体而不是文文挡。一个个HTM文件件加上所有有使用标标记嵌入的的图片就组组成一个文文档。在本本章和后续续几章中我我们只针对对由一个实实体构成的的简单的XXML文档档,即文档档本身。而而且这些文文档只包含含文本数据据,不包含含诸如图片片小程序一一类的二进进制数据。这些文档档能够完全全独立被, 理解而而无须读取取其他文件件。换

5、句话话说,它们们是独立存存在的。这这种文档通通常在它的的XML标头头中含有一一个值为yyes的stanndaloone属性性,如下所所示。? xmll verrsionn =“1.0” staandallone=“yes”? 外部实体和和实体引用用用于组合合多个文件件和其他数数据源以创创建一个独独立的XMML文挡。这样的文文挡如果不不引用其他他文件就不不能进行句句法分析。这些文档档通常在XXML声明明中含有一一个属性值值为no的stanndaloone属性性。? xmll verrsionn =“1.0” staandallone=“no”? 实体引用实体引用是是指分析文文档时会被被字符数据据

6、取代的置置标。XMML预先定定义了5个实体引引用,列在在表 6-1中。实实体引用用用于XMLL文档中的的特殊字符符,否则这这些字符将将被解释为为置标的组组成部分。例如,实实体引用<;代代表小于号号(),否则则会被解释释为一个标标记的起始始部分。表 6-11 XMLL预定义的的实体引用用实体引用所代表字符符&;<;"t;“&qposs;XML中的的实体引用用与 HTTML中不不同,必须须以一个分分号结束。因此 >;是是正确的实实体引用写写法, >是不不正确的。未经处理的的小予号()同表示“和”的符号(&)在一般的 XML文本中往往被分别解释为起始标记和实体引用(特殊

7、文本是指 CDATA段,将在后面讨论)。因此,小于号同“和”号必须分别编码为 <;和 &;。例如,短语语“Benn & erryy s NNew YYork Supeer Fuudge Chunnk Icce Crream”应当写成成 Benn &ammp;errry s New Yorkk Supper FFudgee Chuunk IIce CCreamm。大于号号、双引号号和撇号在在它们可能能会被解释释成为置标标的一部分分时也必须须编码。但但是,养成成全部编码码的习惯要要比努力推推测一个特特定的应用用是否会被被解释为置置标容易得得多。实体引用也也能用于属属性值中。例如。 CDA

8、TAA 在大多数情情况下,出出现在一对对尖括号()中的是置标,不在尖括号中的是字符数据。但是有一种情况例外,在 CDATA段中所有文本都是纯字符数据。看起来与标记或者实体相似的仅仅是它们各自相应的文本。XML处理器无论如何是不会解释它们的。CDATAA段用于需需要把整个个文本解释释为纯字符符数据而并并不是置标标的情况。当有一个个包含许多多、&或”字符而非非置标的庞庞大文本时时,这是非非常有用的的。对于大大部分C和Javaa源代码,正正是这种情情况。如果想使用用 XMLL写有关 XXML的简简介, CCDATAA段同样非非常有效。例如,在在一个文本本中包含许许多小的 XML代代码块,而而正在使用

9、用的字处理理器又不能能顾及这些些情况。但但是如果把把本书转换换为 XMML,用户户将不得不不很辛苦地地用 &llt;代替替全部小于于号, &;代替所有有“和”字字符。如下下所示。<;?xml verssion = “1.0” staandallone = “yes”? >t;<;GGREETTING>;Helloo XMLL! <;/ GREEETINNG>t;为了避免这这种麻烦,可可以使用一一个CDAATA段表表示一个不不需要翻译译的文本块块。CDAATA段以以结束,例例如。! CCDATAA “ Helloo XMLL! 惟一不许出出现在CDDATA段段中的文

10、本本是CDAATA的结结束界定符符 。注释可可能会出现现在CDAATA段中中,但不再再扮演注释释的角色。也就是说说两个注释释标记和包包含在它们们之间的全全部文本都都将显示出出来。因为不能出现现在CDAATA段中中,所以CCDATAA段不能嵌嵌套。这使使得使用XXML写有有关的CDDATA段段相对困难难些。如果果需要的话话,必须去去掉项目符符号,并使使用 &llt;、&ammp;和实实体引用。CDATAA段不常需需要,一旦旦需要时,它它是非常有有用的。标己标记能够区区分XMLL文件与无无格式文本本文件。标标记在XMML文档中中以结束,而而且不包含含在注释或或者CDAATA段中中。因此, XML标

11、记有与HTML标记相同的形式。开始或打开标记?1t;开始,后面跟有标记名。终止或结束标记以该标记结束。1.标记名名每个标记都都有一个名名称。标记记名必须以以字母或下下划线 CC)开始,名名称中后续续字符可以以包含字母母、数字、下划线、连字符和和句号。其其中不能含含有空格(经经常用下划划线替代空空格)。下下面是一些些合法的XXML标记记。 以下是句法法不正确的的XML标记记。 结束标记与与起始标记记同名,只只是在起始始尖括号后后加了一个个/。例如,如如果起始标标记是,那那么结束标标记是。下面是是前面所提提到的合法法起始标记记所对应的的结束标记记。 XML名称称是大小写写敏感的。在HTMML中的和

12、是同同一个标记记,可以结结束一个标记记,但在XXML中却却不行。下下面所示的的并不是我我们讨论过过的合法起起始标记所所对应的结结束标记。 2.空标记记许多不含数数据的HTTML标记记没有结束束标记。例例如,有、或标记。一些页面面作者在所所列的项目目后面确实实会包含标记,一一些HTMML工具也也使用标标记。但是是HTMLL4.0标标准特别否否认了这一一点的必要要性。同HHTML中中所有没有有被公认的的标记一样样,一个不不必要的的出现对对交付的输输出没有任任何影响。这在XMLL中不是问问题。XMML的总体体观点就是是在分析文文档时允许许发现新的的标记。因因此没有识识别的标记记就不会被被简单地忽忽略

13、。而且且XML处理理器一定能能够判明以以前从没出出现过的一一个标记有有没有结束束标记。XML区分分带有结束束标记的标标记,而不不带结束标标记的标记记称为空标标记。空标标记以斜杠杠和一个结结束尖括号号(/)结束束。例如,或。目前的Web浏览器处理这种标记的方法不一致,如果希望保持向后的兼容性,可以用结束标记来代替,只要在两个标记之间不包含任何文本。例如。 属性在前面内容容中讨论过过,起始标标记和空标标记可以随随意地包含含属性。属属性是用等等号(=)分隔开开的名称一一数值对。例如。Helloo XMLL!在此标标记有一个个LANGGUAGEE属性,其其属性值是是Engllish。标标记有一个个SR

14、C属性性,其属性性值为WaavinggHandd.movv。1.属性名名属性名是宇宇符串,遵遵循与标记记名同样的的规则。这这就是,属属性名必须须以字母或或下划线(_)开始,名称中后续字符可以包含字母、数字、下划线、连字符和句号。其中不能含有空格(经常用下划线替代空格)。同一个标记记不能有两两个同名的的属性。例例如,下面面的例子是是不合法的的。 属性名是区区分大小写写的。SIIDE属性性与sidde或Sidee属性不是是同一个属属性,因此此以下例子子是合法的的。 2.属性值值属性值也是是字符串。如下面所所示的 LLENGTTH属性,即即使字符串串表示的是是一个数,但但还是两个个宇符7和2,不是十

15、十进制数的的72。 如果编写处处理XMLL的代码,在在对字符串串执行算术术运算之前前必须把它它们转换为为一个数。与属性名不不同,对属属性值包含含的内容没没有任何限限制。属性性值可以包包含空格,可可以以一个个数字或任任何标点符符号(有时时单括号和和双括号除除外)开头头。XML 属属性值由引引号界定。与HTMML 属性性不同, XML 属性值必必须加引号号。大多数数情况下使使用双引号号,但是如如果属性值值本身含有有个引号号,就需要要使用单引引号。例如如:如果属性值值中含有两两种引号,那那么其中不不用于界定定字符串的的一个必须须用合适的的实体引用用代替。通通常替换两两个,这种种方法很管管用。例如如:

16、XML 文文档规则尽管可以根根据需要编编写标记,但但XML 文档为了了保持结构构完整必须须遵循定定的规则。如果一个个文挡不是是结构完整整的,大部部分读取和和显示操作作都会失败败。事实上,XXML规范范严格禁止止XML句法法分析器分分析和解释释结构欠妥妥的文档。正在执行行操作的分分析器惟能做的是是报告出错错。它不会会修改错误误,不会做做最大的努努力显示作作者想要的的东西,也也不会忽略略不当的结结构欠妥的的标记。它它所能做的的是报告错错误和退出出。这样做的目目的是为了了避免对错错误的兼容容性的竞争争。这种竞争争已使得编编写HTMML 语法分析程程序和显示示程序变得得非常困难难。因为WWe浏览器器承

17、认畸形形的HTMML,而Webb页面设计计者不会特特别尽力确确保他们的的HTMLL正确无误误。事实上上,他们甚甚至利用个个别浏览器器中的错误误达到特殊殊的效果。为了正确确显示被大大量安装的的HTMLL页面,每每个新的 Web浏浏览器必须须支持已有有的 Weeb浏览器器的每一个个细微差别别和各自的的属性。用用户将放弃弃任何一种种严格执行行 HTMML标准的的浏览器。正是为了了避免这种种遗憾,XXML处理理器才只接接受结构完完整的XMML。为了使一个个文档结构构完整,XXML文档档中的所有有置标和字字符数据必必须遵守前前几节中给给出的规则则。而且有有几条关于于如何把置置标和字符符数据相互互联系起来

18、来的规则。这些规则则总结如下下:(1)文挡挡的开始必必须是XMML声明。(2)含有有数据的元元素必须有有起始标记记和结束标标记。(3)不含含数据并且且仅使用一一个标记的的元素必须须以/结束。(4)文档档只能包含含一个能够够包含全部部其他元素素的元素。(5)元素素只能嵌套套不能重叠叠。(6)属性性值必须加加引号。(7)字符符和&只能用于于起始标记记和实体引引用。(8)出现现的实体引引用只有&;、<t;、>t;、&appos;和和&quoot;。这 8条规规则稍加调调整就能适适用于含有有一个DTTD的文档档,现在请请仔细看这这些用于没没有 DTTD文挡的的规则。1文档必必须以 XXM

19、L声明明开始下面是 XXML1.0中独立立文档的 XML声声明。如果声明出出现,它绝绝对是该文文件最开头头部分,因因为 XMML处理器器会读取文文件最先的的几个字节节并将它与与字符串? XMLL的不同编编码做比较较来确定正正在使用的的字符串集集( UTTF-8、大头(高高字节先传传格式)或或者小头(低低字节先传传格式 )。除除去看不见见的字节顺顺序记号,在在它之前不不能有任何何东西,包包括空格。例如,下下面一行用用于 XMML的开始始是不能接接受的,因因为在该行行的前面有有多余的空空白。 XML确实实允许完全全省略 XXML声明明。通常不不推荐这样样做,但这这样做有特特殊的用途途。例如,省省略

20、 XMML声明,通通过连接其其他结构完完整的XMML文档有有助于重新新建立一个个结构完整整的 XMML文档。2.在非空空标记中使使用起始和和结束标记记如果忘了结结束 HTTML的标标记,Weeb浏览器器并不严格格追究。例例如,如果果文档包含含一个标记却却没有相应应的 标记记,在标记之之后的全部部文档将变变为粗体。但文档仍仍然能显示示。XML不会会如此宽松松,每个起起始标记必必须以相应应的结束标标记结束。如果一个个文档未能能结束一个个标记,浏浏览器或移移交器将报报告一个错错误信息,并并且不会以以任何形式式显示任何何文档的内内容。3.用”/“结束束空标记不包含数据据的标记,例例如 HTTML的、和

21、,不不需要结束束标记。但但是 XMML空标记记必须由 /结束束,而不是是。例如、和的XML等价价物是、和。当前的 WWeb浏览览器处理这这种标记的的方法不一一致。但是是如果想保保持向后的的兼容性,可可以使用结结束标记来来代替,而而且不能在在其间包含含任何文本本。例如。 即使这样,Netscape处理 也有困难(它把这两个标记解释为行间距,而不是前面所讲的)。因此,在HTML中包含结构完整的空标记也并非总是可行的。4.让一个个元素完全全包含其他他所有元素素一个 XMML文档包包含一个根根元素,它它完全包含含了文档中中其他所有有元素。有有时候这种种元素被称称做文档元元素。假设设根元素是是非空的(通

22、通常都是如如此),它它肯定有起起始标记和和结束标记记。这些标标记可能使使用但不是是必须使用用roott或DOCUUMENTT命名。例例如,在下下面的文档档中根元素素是 GRREETIING: Helloo XMLL! XML声明明不是一个个元素,它它更像是一一个处理指指令,因此此不必包含含在根元素素中。类似似地,在一一个 XMML文档中中的其他非非元素数据据,诸如其其他处理指指令、DTTD和注释释也不必包包含在根元元素中。但但是所有实实际的元素素(除根元元素本身)必必须包含在在根元素中中。5.不能重重叠元素元素可以包包含别的元元素(大多多数情况下下),但是是元素不能能重叠。事事实上是指指,如果

23、一一个元素含含有一个起起始标记,则则必须同时时含有相应应的结束标标记。同样样,一个元元素不能只只含有一个个结束标记记而没有相相应的起始始标记。例例如,下面面的 XMML是允许许的: nn =n +1; 下面所示的的 XMLL是非法的的,因为结结束标记 放在在了结束标标记之前。 n = n +11; 大部分HTTML浏览览器容易处处理这种情情况,但是是XML浏览览器会因为为这种结构构而报告出出错。空标标记可随处处出现。例例如。 Osccar WWildeeJJoe OOrtonn 本规则与规规则 4联系在在一起有如如下含义 :对于所所有非根元元素,只能能有一个元元素包含某某一非根元元素,但是是元

24、素不能能包含其中中含有非根根元素的元元素。这个个直接含有有者称为非非根元素的的父元素,非非根元素被被认为是父父元素的子子元素。因因此,每个个非根元素素只有一个个父元素。但是一个个单独的元元素可以有有任意数目目的子元素素或不含有有子元素。请分析如下下所示的清清单。根元元素是 DDOCUMMENT元元素,它含含有两个元元素。第一一个 STTATE元元素含有 4个子元元素。NAAME、TREEE、FLOWWER和 CAPPITOLL。第二个个 STAATE元素素含有 33个子元素素。NAMME、TREEE和 CAPPITOLL。这些里里层的子元元素只包含含字符数据据,没有子子元素。父元素和子子元素

25、Loouisiiana Balld Cyypresss Maggnoliia Batton RRougee Miississsipppi Maagnollia Jaccksonn 6.属性值值必须加引引号 XML要求求所有的属属性值必须须加引号,不不管属性值值是否包括括空白。例例如。HTML的的要求则不不是这样。比如,HHTML允允许标记含含有不带引引号的属性性。例如,下下面是一个个合法的HHTML标记记。 惟一的要求求是属性值值不能嵌有有空格。如果一个属属性值本身身含有双引引号,可以以使用属性性值加单引引号来代替替。例如。如果一个属属性值包含含有单引号号和双引号号,可以使使用实体引引用 &a

26、apos;代替单引引号,&qquot;代替双引引号。例如如。7只在开开始标记和和实体引用用中使用和&XML假定定最先的是一个标标记的开始始,&是一个实实体引用的的开始(HHTML也也是如此,如如果省略它它们,大部部分浏览器器会假定有有一个分号号)。例如如。 A Hoomagee to Ben &Jerrry ssNew YYork Supeer Fuudge Chunnk Icce Crream Web浏览览器会正确确地显示该该标记,但但是为了最最大限度的的安全,应应当避免使使用&,用 &aamp;来来代替,像像下面这样样。 A Hoomagee to Ben &p;Jerrry s N

27、ew Yorkk Supper FFudgee Chuunk Ice CCreamm 开尖括号()的情况也类似。请看下面很普通的一行 Java代码。 foor(int i = 0;i = arrgs.llengtth;i + +)1XMML与 HTMML都会把把。因此该该行会表示示成。for(iint ii = 00;而不是。for(iint ii =0;i =arggs.eengthh;i+ +)“= arrgs.lenggth;i + +)|”被解释成成一个不能能识别的标标记的一部部分。把小于号写写成 &llt;可以出现现在 XMML和 HTMML文本中中。例如。 foor(int i =

28、 0;i &llt;= arrgs.llengtth;i + +)| 结构完整的的XML要求求把&写成&ammp;,把把B,A称为前提提和左部(LHS),B称为后续或右部(RHS)。如关联规则“买锤子的人也会买钉子”,左部是“买锤子”,右部是“买钉子”。要计算包含含某个特定定项或几个个项的事务务在数据库库中出现的的概率只要要在数据库库中直接统统计即可。某一特定定关联(“锤子和钉钉子”)在在数据库中中出现的频频率称为支支持度。比比如在总共共10000个事务中中有15个事务务同时包含含了“锤子子和钉子”,则此关关联的支持持度为1.5 %。非常低的的支持度(比比如1百万个事事务中只有有一个)可可能意

29、味着着此关联不不是很重要要,或出现现了错误数数据(如,“男性和怀怀孕”)。要找到有意意义的规则则,还要考考察规则中中项及其组组合出现的的相对频率率。当己有有A时, B发生的的概率是多多少?也即即概率论中中的条件概概率。回到到我们的例例子,也就就是问“当当一个人已已经买了锤锤子,那他他有多大的的可能也会会买钉子?”这个条条件概率在在数据挖掘掘中也称为为可信度,计计算方法是是求百分比比:(A与B同时出现现的频率)/(A出现的频率)。预测型数据据挖据数据挖掘的的目的是生生成可以据据其所示的的含义采取取行动的知知识,也就就是建立一一个现实世世界的模型型。建立这这个模型可可能需要各各种各样的的源数据,包

30、包括交易记记录、顾客客历史数据据、人口统统计信息、进程控制制数据和市市场相关的的外部数据据等,比如如:信用卡卡公司提供供的数据、天气数据据等。模型型是模式和和数据间相相关性的形形式化描述述。为了防止混混淆,把数数据挖掘概概念划分为为几个层次次。(1)商业业目标;(2)预言言的种类;(3)模型型的类型;(4)算法法;(5)产品品。最高层是商商业目标:数据挖掘掘的最终目目的是什么么 ?比如:希望用数数据挖掘技技术留住用用户的有价价值的客户户,用户可可能先要建建立一个模模型来预测测每个客户户所能带来来的利润,然然后再建立立一个模型型来确定哪哪些客户可可能会离开开。充分了了解用户所所在企业的的需求和目

31、目标有助于于用户建立立这样的目目标。下一步是决决定最合适适的预言的的种类。分类:预预测一个特特定的客户户或事件属属于哪一类类;回归归( reegresssionn):预测测一个变量量的值(如如果此变量量随事件变变化,可成成为时间序序列预测)。在上面的的例子中用用户可以用用回归来预预测利润的的大小,用用分类预测测哪些客户户会离开。后面我们们会详细讨讨论。现在用户可可以选择模模型的类型型:用神经经网络来做做回归,决决策树做分分类,还是是用统计模模型,如:逻辑回归归,偏差分分析,普通通线性模型型等。每种种模型都可可以用不同同的算法来来实现,比比如,可以以用回馈函函数或 rradiaal baasis

32、函函数来建立立神经网络络;决策树树有巳ARRT,C5.00, QUUEST, CHAAID等。在选择数据据挖掘软件件产品时,要要注意这些些软件所采采用的算法法虽然名称称可能完全全一样,但但他们的实实现方法通通常都是不不一样的。这些对算算法的不同同实现影响响了软件对对内存、硬硬盘的需求求的不同及及性能上的的差异。大部分的商商业目标都都可以用各各种不同的的模型及相相异的算法法来解决。通常在用用户还没有有试过任何何数据挖掘掘算法之前前,很难决决定哪种对对用户来说说是最好的的。1.一些术术语在预测模型型中,把我我们要预测测的值或所所属类别称称为响应变变量、依赖赖变量或目目标变量 ;用于预预测的输入入变

33、量是预预测变量或或独立变量量。一些预测模模型是通过过那些已知知目标变量量值的历史史数据训练练出来的。这种训练练有时也称称为带指导导的学习,因因为是通过过给出一些些已知答案案的问题(已已知结果的的数据)来来让他“学学习”。相相对应地,还还有不带指指导的学习习,如上面面提到的描描述型数据据挖掘(在在运行之前前,算法对对数据一无无所知)。2.分类分类要解决决的问题是是为一个事事件或对像像归类。在在使用上,既既可以用此此模型分析析己有的数数据,也可可以用它来来预测未来来的数据。例如,用用分类来预预测哪些客客户最倾向向于对直接接邮件推销销做出回应应,又有哪哪些客户可可能会换他他的手机服服务提供商商,或在

34、医医疗领域当当遇到一个个病例时用用分类来判判断一下从从哪些药品品着手比较较好。数据挖掘算算法的工作作方法是通通过分析已已知分类信信息的历史史数据总结结出一个预预测模型。这里用于于建立模型型的数据称称为训练集集,通常是是已经掌握握的历史数数据。如,已已经不再接接受服务的的用户,用用户很可能能还保存了了他们在接接受服务时时的历史记记录。训练练集也可以以是通过实实际的实验验得到的数数据。比如如用户从包包含公司所所有顾客的的数据库中中取出一部部分数据做做实验,向向他们发送送介绍新产产品的推销销信,然后后搜集对此此做出回应应的客户名名单,然后后用户就可可以用这些些推销回应应记录建立立一个预测测哪些用户户

35、会对新产产品感兴趣趣的模型,最最后把这个个模型应用用到公司的的所有客户户上。3.回归回归是通过过具有已知知值的变量量来预测其其他变量的的值。在最最简单的情情况下,回回归采用的的是像线性性回归这样样的标准统统计技术。但在大多多数现实世世界中的问问题是不能能用简单的的线性回归归所能预测测的。如商商品的销售售量、股票票价格、产产品合格率率等,很难难找到简单单有效的方方法来预测测,因为要要描述这些些事件的变变化所需的的变量以上上百计,且且这些变量量本身往往往都是非线线性的。为为此人们又又发明了许许多新的手手段来试图图解决这个个问题,如如逻辑回归归、决策树树、神经网网络等。一般同一个个模型既可可用于回归

36、归也可用于于分类。如如CARTT决策树算算法既可以以用于建立立分类树,也也可建立回回归树。神神经网络也也一样。4.时间序序列时间序列是是用变量过过去的值来来预测未来来的值。与与回归一样样,它也是是用已知的的值来预测测未来的值值,只不过过这些值的的区别是变变量所处时时间的不同同。时间序序列采用的的方法一般般是在连续续的时间流流中截取一一个时间窗窗口(一个个时间段),窗窗口内的数数据作为一一个数据单单元,然后后让这个时时间窗口在在时间流上上滑动,以以获得建立立模型所需需要的训练练集。比如如用户可以以银行业CCRM理论论与实务用用前6天的数据据来预测第第7天的值,这这样就建立立了一个区区间大小为为7

37、的窗口。数据挖掘算算法下面主要介介绍在数据据挖掘中最最常见的和和应用最广广泛的算法法:神经网网络方法和和决策树方方法。其他他的一些算算法,例如如 Bayyesiaan方法,遗遗传算法,粗粗糙集算法法等可以参参照相应的的文献。应注意的是是大部分算算法都不是是专为解决决某个问题题而特制的的,算法之之间也并不不互相排斥斥。不能说说一个问题题一定要采采用某种算算法,别的的就不行。一般来说说并不存在在所谓的最最好的算法法,在最终终决定选取取哪种模型型或算法之之前,用户户可能各种种模型都试试一下,然然后再选取取一个较好好的。神经网络神经网络近近来越来越越受到人们们的关注,因因为它为解解决大复杂杂度问题提提

38、供了一种种相对来说说比较有效效的简单方方法。神经经网络可以以很容易地地解决具有有上百个参参数的问题题(当然实实际生物体体中存在的的神经网络络要比我们们这里所说说的程序模模拟的神经经网络要复复杂得多)。神经网络络常用于两两类问题:分类和回回归。图4-9 一个神经经元网络在结构上,可可以把一个个神经网络络划分为输输入层、输输出隐含层层层和隐含含层(见图图 4-99)。输入入层的每个个节点对应应一个个的的图 4-9一个神神经元网络络预测变量量。输出层层的节点对对应目标变变量,可有有多个。在在输入层和和输出层之之间是隐含含层(对神神经网络使使用者来说说不可见),隐隐含层的层层数和每层层节点的个个数决定

39、了了神经网络络的复杂度度。除了输入层层的节点,神神经网络的的每个节点点都与很多多它前面的的节点(称称为此节点点的输入节节点)连接接在一起,每每个连接对对应一个权权重Wxyy,此节点点的值就是是通过它所所有输入节节点的值与与对应连接接权重乘积积的和作为为一个函数数的输入而而得到的,我我们把这个个函数称为为活动函数数或挤压函函数。如图图 4-110中节点点 4输出到到节点 66的值可通通过如下计计算得到。W14 XX节 J点1的值+W224 X节节点 2的值图4-100 权重计计算神经网络的的每个节点点都可表示示成预测变变量图4-10权重重计算(节节点1,2)的值或或值的组合合(节点33-6)。注

40、意节点点6的值已经经不再是节节点1,2的线性组组合,因为为数据在隐隐含层中传传递时使用用了活动函函数。实际际上如果没没有活动函函数的话,神神经元网络络就等价于于一个线性性回归函数数,如果此此活动函数数是某种特特定的非线线性函数,那那么神经网网络又等价价于逻辑回回归。调整节点间间连接的权权重就是在在建立(也也称训练)神神经网络时时要做的工工作。最早早的也是最最基本的权权重调整方方法是错误误回馈法,现现在较新的的有变化坡坡度法、类类牛顿法、Leveen-beerg-MMarquuardtt法和遗传传算法等。无论采用用哪种训练练方法,都都需要有一一些参数来来控制训练练的过程,如如防止训练练过度和控控

41、制训练的的速度。决定神经网网络拓扑结结构(或体体系结构)的的是隐含层层及其所含含节点的个个数,以及及节点之间间的连接方方式。要从从头开始设设计一个神神经网络,必必须要决定定隐含层和和节点的数数目,活动动函数的形形式,以及及对权重做做那些限制制等,当然然如果采用用成熟软件件工具的话话,它会帮帮你决定这这些事情。在诸多类型型的神经网网络中,最最常用的是是前向传播播式神经网网络,也就就是如图 4-100中所描绘绘的那种。为讨论方方便假定只只含有一层层隐含节点点。可以认为错错误回馈式式训练法是是变化坡度度法的简化化,其过程程如下。前向传播:数据从输输入到输出出的过程是是一个从前前向后的传传播过程,后后

42、一节点的的值通过它它前面相连连的节点传传过来,然然后把值按按照各个连连接权重的的大小加权权输入活动动函数再得得到新的值值,进一步步传播到下下一个节点点。回馈:当节节点的输出出值与预期期的值不同同时,也就就是发生错错误时,神神经网络就就要“学习习”(从错错误中学习习)。可以以把节点间间连接的权权重看成后后一节点对对前一节点点的“信任任”程度(它它自己向下下一节点的的输出更容容易它前面面哪个节点点输入的影影响)。学学习的方法法是采用惩惩罚的方法法,过程如如下:如果果一节点输输出发生错错误,那么么它看它的的错误是受受哪个(些些)输入节节点的影响响而造成的的,是不是是它最信任任的节点(权权重最高的的节

43、点)陆陆害了它(使使它出错),如如果是则要要降低它的的信任值(降降低权重),惩惩罚它们,同同时升高那那些做出正正确建议节节点的信任任值。对那那些收到惩惩罚的节点点来说,它它也需要用用同样的方方法来进一一步惩罚它它前面的节节点。就这这样把惩罚罚一步步向向前传播直直到输入节节点为止。对训练集中中的每一条条记录都要要重复这个个步骤,用用前向传播播得到输出出值,如果果发生错误误,则用回回馈法进行行学习。当当把训练集集中的每一一条记录都都运行过一一遍之后,称称完成一个个训练周期期。要完成成神经网络络的训练可可能需要很很多个训练练周期,经经常是几百百个。训练练完成之后后得到的神神经网络就就是在通过过训练集

44、发发现的模型型,描述了了训练集中中响应变量量受预测变变量影响的的变化规律律。决策树决策树提供供了一种展展示类似在在什么条件件下会得到到什么值这这类规则的的方法。比比如,在贷贷款申请中中,要对申申请的风险险大小做出出判断,图图 4-111是为了了解决这个个问题而建建立的一棵棵决策树,从从中我们可可以看到决决策树的基基本组成部部分:决策策节点、分分支和叶子子。图 4-111一棵简简单的决策策树决策树中最最上面的节节点称为根根节点,是是整个决策策树的开始始。本例中中根节点是是“收入¥400000”,对此问问题的不同同回答产生生了“是”和“否”两个分支支。决策树的每每个节点子子节点的个个数与决策策树所

45、用的的算法有关关。如 CCART算算法得到的的决策树每每个节点有有两个分支支,这种树树称为二叉叉树。允许许节点含有有多于两个个子节点的的树称为多多叉树。每个分支要要么是一个个新的决策策节点,要要么是树的的结尾,称称为叶子。在沿着决决策树从上上到下遍历历的过程中中,在每个个节点都会会遇到一个个问题,对对每个节点点上问题的的不同回答答导致不同同的分支,最最后会到达达一个叶子子节点。这这个过程就就是利用决决策树进行行分类的过过程,利用用几个变量量(每个变变量对应一一个问题)来来判断所属属的类别(最最后每个叶叶子会对应应一个类别别)。假如负责借借贷的银行行官员利用用上面这棵棵决策树来来决定支持持哪些贷

46、款款和拒绝哪哪些贷款,那那么他就可可以用贷款款申请表来来运行这棵棵决策树,用用决策树来来判断风险险的大小。“年收入入¥400000”和“高负负债”的用用户被认为为是“高风风险”,同同时“收入入5年”的的申请,则则被认为“低风险”而建议贷贷款给他/她。数据据挖掘中决决策树是一一种经常要要用到的技技术,可以以用于分析析数据,同同样也可以以用来做预预测(就像像上面的银银行官员用用它来预测测贷款风险险)。常用用的算法有有 CHAAID、CARTT、Quesst和 C5.0。数据挖掘过过程在实施数据据挖掘之前前,先制定定采取什么么样的步骤骤,每一步步都做什么么,达到什什么样的目目标是必要要的,有了了好的

47、计划划才能保证证数据挖掘掘有条不紊紊地实施并并取得成功功。很多软软件供应商商和数据挖挖掘顾问公公司提供了了一些数据据挖掘过程程模型,来来指导他们们的用户一一步步地进进行数据挖挖掘工作。CRISPP-DM(Crosss Inndusttry SStanddard Proccess for Dataa Minning)是是数据挖掘掘界公认的的规范标准准,是由SSPSS、NCR、DaimmlerCChryssler等等世界知名名公司根据据其实际经经验与理论论基础共同同设计的数数据挖掘流流程。它以以企业(组组织)所面面临的问题题为出发点点,以能实实际解决企企业(组织织)的问题题并找出新新的商机为为终极

48、目标标,所以CCRISPP-DM就就是以数据据为主轴,不不断地寻找找并有效地地发掘出隐隐藏模式(Hidden Pattern)以及其内涵的整体流程。换言之,如何能在大量数据中不断地寻找出其宝藏即是CRISP-DM的精髓所在,如图 4-12所示。图 4-112 CRRISP-DM方法法一个数据挖挖掘项目的的生命周期期包括6个阶段,上上图显示了了该流程的的各个阶段段,包括商商业理解、数据理解解、数据准准备、建立立模型、模模型评估、模型发布布,各个阶阶段的顺序序不是僵硬硬不变的,通通常需要在在不同阶段段之间向前前和向后移移动,这取取决于每个个阶段的结结果和接下下来将要实实施的阶段段或者一个个阶段的具

49、具体任务。箭头指出出了各个阶阶段间最为为重要和频频繁的关联联。CRIISP-DDM通过这这6个阶段来来保证完成成一个成功功的数据挖挖掘流程。上图最外面面的循环表表示数据挖挖掘本身的的循环特征征。数据挖挖掘并非是是一旦得到到一个解决决方案就结结束了。在在流程及解解决方案中中得到的教教训可能引引发新的、常常是更更为集中的的商业问题题。后面的的数据挖掘掘过程将从从前几次的的经验中获获益。每个阶段的的要点如下下。 1.商商业理解(Business understanding)这一初始阶阶段集中在在从商业角角度理解项项目的目标标和要求,然然后把理解解转化为数数据挖掘问问题,并制制定出一个个旨在实现现目标

50、的初初步计划。2.数据理理解(Daata uunderrstanndingg)数据理解阶阶段开始于于原始数据据的搜集,接接下来进行行的活动是是熟悉数据据、识别数数据质量问问题、探索索对数据的的第一认识识,或挖掘掘有深层含含义的数据据子集来形形成对隐藏藏信息的假假设。3.数据准准备(Daata pprepaaratiion)数据准备阶阶段包括所所有从原始始未加工的的数据构造造最终数据据集的活动动(这些数数据集是指指将要嵌入入建模工具具中的数据据)。数据据准备任务务可能实施施多次,而而且不按任任何规定的的顺.序。这些些任务包括括表格、记记录和属性性选择以及及对建模工工具中数据据的转换和和清理。4.

51、建立模模型( MModelling)在此阶段,主主要是选择择各种建模模技术,同同时对它们们的参数进进行校准以以达到最优优值。通常常对于同一一个数据挖挖掘问题类类型,会有有多种方法法。一些方方法在数据据形式上会会有具体的的要求。因因此,常常常必须返回回到数据准准备阶段。5模型评估估( Evvaluaationn)进入项目中中的这个阶阶段,你已已经建立了了一个模型型(或者多多个),从从数据分析析的角度来来看,该模模型似乎有有很高的质质量。在进进行到模型型的最后发发布前,有有一点是很很重要的更为彻彻底地评估估模型和检检查建立模模型的各个个步骤,从从而确定它它完全地达达到了商业业目标。一一个关键目目标

52、为决定定是否存在在一些重要要的商业问问题仍未得得到充分地地考虑。关关于数据挖挖掘结果的的使用决定定应该在此此阶段结束束时确定下下来。6.模型发发布( DDeplooymennt)模型的创建建通常并不不是项目的的结尾。即即使模型的的目的是增增加对数据据的了解,所所获得的了了解也需要要进行组织织并以一种种客户能够够使用的方方式呈现。这常常包包括在一个个组织的决决策过程中中应用“现现场”模型型,如在网网页的实时时个人化中中或营销数数据的重复复得分中。不过,根根据需要,发发布过程可可以简单到到产生一个个报告,也也可以复杂杂到在整个个企业中执执行一个可可重复的数数据挖掘过过程。在大大部分情况况下,是由由

53、客户来实实施发布的的,而非数数据分析师师本身。尽尽管如此,即即使分析师师并不执行行发布,这这对客户也也是十分重重要的提前理解解需要采取取什么行动动来实际利利用产生的的模型。CRISPP-DM有有效管理商商业问题处处理的生命命周期。如如上图所示示,生命周周期的6个状态存存在很强的的相互依赖赖的关系,其其中任何一一个环节的的质量关系系着所有环环节的成败败。6个环节之之间并无严严格的顺序序关系,可可以根据需需要从任何何环节开始始数据挖掘掘过程。深刻理解 CRISSP-DMM方法可以以有助于用用户更好地地解决商业业问题。从从提出一个个粗糙的商商业问题,历历经若干个个生命周期期不断地完完善它,并并提供最

54、佳佳的解决方方案。数字证书技技术数字证书技技术提供了了互联网通通信的一种种安全技术术。数字证书介介绍 数字证书就就是互联网网通信中标标志通信各各方身份信信息的一系系列数据,提提供了一种种在Intterneet上验证证用户身份份的方式,其其作用类似似于司机的的驾驶执照照或日常生生活中的身身份证。它它是由一个个由权威机机构CCA机构,又又称为证书书授权(CCertiificaate AAuthoorityy)中心发发行的,人人们可以在在网上用它它来识别对对方的身份份。数字证证书是一个个经证书授授权中心数数字签名的的包含公开开密钥拥有有者信息以以及公开密密钥的文件件。最简单单的证书包包含一个公公开密

55、钥、名称以及及证书授权权中心的数数字签名。一般情况况下证书中中还包括密密钥的有效效时间,发发证机关(证证书授权中中心)的名名称,该证证书的序列列号等信息息,证书的的格式遵循循ITUTT X.5509国际际标准。一个标准的的X.5009数字证证书包含以以下一些内内容:(1)证书书的序列号号,每个证证书都有一一个惟一的的证书序列列号;(2)证书书所使用的的签名算法法;(3)证书书的发行机机构名称,命命名规则一一般采用XX.5000格式;(4)证书书的有效期期,现在通通用的证书书一般采用用UTC时间间格式,它它的计时范范围为19950-22049;(5)证书书所有人的的名称,命命名规则一一般采用XX

56、.5000格式;(6)证书书所有人的的公开密钥钥;(7)证书书发行者对对证书的签签名。为什么要用用数字证书书基于因特网网的电子商商务系统技技术使在网网上购物的的顾客能够够极其方便便轻松地获获得商家和和企业的信信息,但同同时也增加加了对某些些敏感或有有价值的数数据被滥用用的风险。买方和卖卖方对于在在因特网上上进行的一一切金融交交易运作必必须是真实实可靠的,并并且要使顾顾客、商家家和企业等等交易各方方都具有绝绝对的信心心,因而因因特网(因因特网)电电子商务系系统必须保保证具有十十分可靠的的安全保密密技术,也也就是说,必必须保证网网络安全的的四大要素素,即信息息传输的保保密性、数数据交换的的完整性、

57、发送信息息的不可否否认性、交交易者身份份的确定性性。信息的保密密性交易中的商商务信息均均有保密的的要求。如如信用卡的的账号和用用户名被人人知悉,就就可能被盗盗用,订货货和付款的的信息被竞竞争对手获获悉,就可可能丧失商商机。因此此在电子商商务的信息息传播中一一般均有加加密的要求求。交易者身份份的确定性性 网上交易的的双方很可可能素昧平平生,相隔隔千里。要要使交易成成功首先要要能确认对对方的身份份,对商家家要考虑客客户端不能能是骗子,而而客户也会会担心网上上的商店是是不是一个个玩弄欺诈诈的黑店。因此能方方便而可靠靠地确认对对方身份是是交易的前前提。对于于为顾客或或用户开展展服务的银银行、信用用卡公

58、司和和销售商店店,为了做做到安全、保密、可可靠地开展展服务活动动,都要进进行身份认认证的工作作。对有关关的销售商商店来说,他他们对顾客客所用的信信用卡的号号码是不知知道的,商商店只能把把信用卡的的确认工作作完全交给给银行来完完成。银行行和信用卡卡公司可以以采用各种种保密与识识别方法,确确认顾客的的身份是否否合法,同同时还要防防止发生拒拒付款问题题以及确认认订货和订订货收据信信息等。不可否认性性.由于商商情的千变变万化,交交易一旦达达成是不能能被否认的的,否则必必然会损害害一方的利利益。例如如订购黄金金,订货时时金价较低低,但收到到订单后,金金价上涨了了,如收单单方能否认认受到订单单的实际时时间,甚至至否认收到到订单的事事实,则订订货方就会会蒙受损失失。因此电电子交易通通信过程的的各个环节节都必须是是不可否认认的。不可修改性性交易的文件件是不可被被修改的,如如上例所举举的订购黄黄金。供货货单位在收收到订单后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论