已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于数据挖掘技术的电信客户识别 莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄袈膇薈袃袇芀莀蝿袇莂薆蚅袆肁荿薁羅膄薄蒇羄芆莇螆羃羆薂螂羂膈蒅蚈羁芀蚁薄羁莃蒄袂羀肂芆螈罿膅蒂蚄肈芇芅薀肇羇蒀蒆肆聿芃袅肅芁薈螁肅莄莁蚇肄肃薇薃肃膅莀袁膂芈薅螇膁莀莈蚃膀肀薃蕿螇节莆薅螆莄蚂袄螅肄蒄螀螄膆蚀蚆螃艿蒃薂螃莁芆袁袂肁蒁螇袁膃芄蚂袀莅葿蚈衿肅莂薄 摘 要本文在对电信客户数据和业务深刻了解的基础上,对数据挖掘技术进行了深入的研究。基本按照crisp-dm(跨行业数据挖掘标准流程)的前提下,在matlab 2011b平台上使用了bp神经网络、cart决策树等分类算法建立了一个准确、高效的电信客户识别模型。并结合第十届pakdd (亚太知识发现与数据挖掘国际会议)提供的电信客户数据进行了分类实验和分析。为电信运营商发展3g客户提出了一些参考意见。最后对本文做了系统的总结并对下一步的工作提出展望。关键词 :数据挖掘,电信, 3g,客户识别,神经网络,决策树abstractbased on a deep understanding of the telecommunication customer data and business, the paper makes deep research on data mining technology. under the premise of the basic standard processes according to the crisp-dm (cross-industry data mining), this paper uses the bp neural network and the cart decision tree classifier of matlab 2011 to establish an accurate, efficient 3g customers identify model. also, this paper uses the customer data provided by the tenth pakdd (asia pacific knowledge discovery and data mining international conference) to make testing and analysis. and then the paper put forward some suggestions for the telecom operators on how to develop 3g customers. at last, the paper makes a conclusion and looks into the next step of the study.key words :data mining, 3g, customer identification, neural network, decision tree目录第1章绪论11.1 选题背景和意义11.2 论文主要工作1第2章数据挖掘原理22.1 数据挖掘起源与发展22.2 数据挖掘的基本概念22.3 数据挖掘的任务32.4 数据挖掘系统的结构32.5 数据挖掘流程42.6 数据挖掘的应用领域5第3章数据挖掘算法63.1 常用数据挖掘算法63.2 本文采用的数据挖掘算法83.2.1 bp人工神经网络算法83.2.2 cart决策树算法12第4章3g客户识别系统的建立与应用144.1 3g客户识别系统的建立的背景和意义144.1.1 中国3g现状144.1.2 建立3g客户识别系统的意义154.2 3g客户识别系统的建立154.2.1 系统平台154.2.2 系统采用的分类模型164.2.3 系统应用184.3 给电信运营商的一点建议26第5章总结与展望275.1 论文总结275.1.1研究工作275.1.2实际实施的工作275.2 下一步工作27附 录29参考文献36致 谢37第1章 绪论1.1 选题背景和意义 第三代移动通信技术(3rd-generation,3g),是指支持高速数据传输的蜂窝移动通讯技术。其服务速率一般在几百kbps以上。目前3g存在四种标准:中国电信的cdma2000,中国联通的wcdma,中国移动的td-scdma,wimax。3g时代已经来临,随着3g技术的不断提高,3g应用成本的不断下降,3g已经成为众多移动客户的选择。虽然3g已经家喻户晓,然而3g市场仍然呈现一种复杂不明朗的状态。哪些客户正在使用3g,哪些客户将要使用3g,哪些客户对3g有兴趣,使用怎样的营销策略才能高效低成本地发展更多3g客户,这些都是电信运营商所面临的问题。然而3g应用在某些地区并不普及,这反映了电信运营商对客户的分析还不够透彻。主要原因是3g客户数据庞大,不完整,而且挖掘技术起步较晚,缺少相关的经验和方法。 本文基于上述背景下开展相关研究工作,使用数据挖掘技术,在matlab平台上对大量的电信客户信息进行挖掘,提取有用信息,加以分析研究,得出具有实践意义的结论,为电信运营商发展3g客户提供一种参考方法。1.2 论文主要工作 本文在matlab平台上进行了电信客户识别实验,主要完成以下几个工作。(1) 研究数据挖掘技术原理包括数据挖掘的应用范围,实践步骤,和各种挖掘算法的机理。(2) 研究matlab实现数据挖掘的方法matlab的统计工具箱和神经网络工具箱都提供了一些实现数据挖掘的工具和函数,简化了底层编程的,让我们的注意力可以放在其他更重要的问题上。(3) 电信客户数据的获取,理解,及挖掘预处理一般的客户数据都具有量大、缺失数据多、类型多样的特点。成功的预处理不仅能提高挖掘的效率,更能提高挖掘结果的正确率。预处理包括缺失数据填补,异常数据剔除,数据离散化,数据类型转换,属性筛选等。 (4) 建立3g客户识别系统分别用神经网络、决策树分类理论建立分类模型。该再将模型应用到现实的数据上。(5) 对分类模型进行评价,得出结论 主要从分类的正确率和算法效率两方面对各模型进行评价。并向电信运营商发展3g客户提出了一些建议。第2章 数据挖掘原理2.1 数据挖掘起源与发展自60年代以来,文件处理系统已经进化到复杂,功能强大的数据库系统。自70年代以来,数据库系统又发展到关系数据库系统、数据建模工具和数据组织技术。用户可以通过查询语言(如sql)、用户界面(表单、报告等)方便灵活地访问数据。自80年代以来,人们偏好开发更强大的数据库系统,使用更先进的数据模型。包括空间的、时间的、多媒体的、科学的数据库、知识库和办公信息库的各种数据库系统纷纷面世。80年代后期出现了一种数据库结构叫数据仓库,它是一种多个数据源在单个数据库站点统一存储组织的技术,以此支持管理决策。此后的30年,随着数据越来越丰富,有用信息却非常贫乏,人们被埋没在大量信息中,耗费了大量的资源来处理数据,却得不得有用的知识。因此人们对强而有力的数据分析工具的需求日益迫切。数据挖掘起源于人们对海量数据转换成有用信息的需求。数据挖掘技术能把大量看似杂乱无用的数据转换成巨大的商业利益。数据挖掘由此产生,并被人们用在各种问题的解决方法之上。2.2 数据挖掘的基本概念 数据挖掘(dm,data mining),指从大量数据中提取隐含的,未知的,对生产实践具有帮助的信息和知识的过程,是统计学,数据库技术和人工智能技术的综合。在人工领域,数据挖掘是数据库中知识发现的一个基本步骤。知识发现过程由以下三个阶段组成:数据准备、数据挖掘、结果表达和解释。数据挖掘是知识发现过程的重要阶段。在技术领域,数据挖掘是一种发现有用知识并指导实践生产的一种重要方法。在21世纪,信息爆炸的时代,获得信息已经不再困难,真正有用的是蕴含在大量信息里的有用知识。这些有用知识单靠人脑和人力是不能轻易获取的,但随着电脑技术的飞速发展,电脑代替人脑进行高速运算已经变得可行,这也使数据挖掘技术得到了技术上的支持。在商业领域,数据挖掘技术是一种崭新的商业信息处理技术。它给各大企业带来了巨大的商业利益。现代企业利用数据挖掘技术,分析客户相关信息,并制定针对性较强的营销和经营策略,以此提高销售效率。也有的企业把数据挖掘应用到节能减排或者更多新领域中去,以进一步降低生产成本。2.3 数据挖掘的任务数据挖掘的任务主要有六个(1) 分类 (classification) 用已分好类的数据集进行训练,得出分类模型,以此模型对未分类的数据进行分类。(2) 估计(estimation) 估计和分类相似,但分类输出离散的值,而估计输出连续的值。分类的输出的类确定。而估计输出的值不确定。如根据某个电信客户的消费数据估计其年龄。(3) 预测(prediction) 对某一变量时间序列前若干取值进行训练,以获得时间序列后若干项的预测值。(4) 关联规则(affinity grouping or association rules) 从数据中发现隐含的相关规则,关联规则一般包含若干项,其中一项出现时,其它各项也可能出现。这种关系称为关联规则。(5) 聚类(clustering) 聚类与分类不同,分类是分类数目已知,而聚类是分类数目未知,算法通过比较各项数据在向量空间的距离,根据一定的归类方法将数据聚成若干类。分类需要进行训练,而聚类则不需要。(6) 描述和可视化(description and visualization) 对数据挖掘的结果进行描述和可视化,以将结果进一步转化为人们容易理解的形式。2.4 数据挖掘系统的结构图2.1 数据挖掘系统结构(1)数据库或其他信息库 一个或多个数据表、数据库或者其他形式的信息库,是用来存放大量的信息,以供数据挖掘之用。(2)数据库服务器 根据用户的挖掘需求,数据库服务器提取相关的数据集进行挖掘。(3)知识库 指某一领域的知识的集合,用于指导数据挖掘走向人们感兴趣的方向,并对挖掘结果进行评价。(4)数据挖掘引擎 数据挖掘的核心组成部分,它的功能包括数据预处理,利用挖掘算法对数据进行挖掘。并把挖掘结果返回到用户界面。(5)评估模块 对数据挖掘引擎创建的挖掘模型进行评估,以使挖掘引擎尽量工作在人们感兴趣的方向上。并对挖掘结果进行评价,指导挖掘模型的修正。(6)用户界面 提供人机交互信息的平台,接受用户的挖掘需求,提交挖掘请求,并返回挖掘结果和相关图表信息或相关决策信息。2.5 数据挖掘流程 目前数据挖掘系统流程标准多采用crisp-dm (cross-industry standard process for data mining), 即为跨行业数据挖掘过程标准。此过程模型创于1999年欧盟。通过近几年的发展,crisp-dm 模型在各种数据过程模型中占据领先位置。它的特点是从数据挖掘技术应用的角度划分数据挖掘任务,使挖掘与应用紧密结合。crisp-dm 将数据挖掘流程划分成六个环节:(1) 商业理解(business understanding)首先我们必须从商业的角度上面了解我们要挖掘什么样的信息,要发现何种知识,要求是什么和最终目的是什么。如要进行3g客户的识别,首先要对3g技术有一定的了解,对3g客户具备的一些基本特征有和3g应用的大环境有一定的认识。并且我们要清楚对3g客户的识别对电信运营商有何种指导作用。(2) 数据的理解(data understanding)此过程包括数据的收集和理解,首先我们要知道从哪里获取数据信息,数据可以来自现有的事务处理系统,也可以从数据库中取得。接着我们要对所收集的数据有一定的了解,要清楚数据的各项属性的意义,数据的取值和各值所代表的意义。(3) 数据的准备(data preparation)即数据预处理,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求。具体操作包括数据的转换,属性筛选,异常值剔除,缺失值填补,连续数据离散化等。(4) 建立模型(modeling)即应用数据挖掘工具,如专门用于统计的spss、sas或者功能多样的matlab,结合相应的数据挖掘算法进行编程,建立挖掘引擎或挖掘模型并设置各项参数以符合挖掘需求的过程。(5) 模型进行评估(evaluation)对建立的模型的性能作评价,评价内容包括多个方面,重点考虑得出的结果是否符合第一步的商业目的。(6) 部署(deployment)即将数据挖掘发现的结果以及过程组织成为友好的界面和文字,使挖掘结果更好地被人们所理解。2.6 数据挖掘的应用领域数据挖掘的生命力也来源于对各种不同领域的适用性。其主要应用领域有:(1) 移动通信主要应用在客户获取、客户保持、客户流失分析、交叉销售、一对一销售,如对不同的客户应向其推销不同的优惠政策,对年轻的客户可以推销一些时下潮流的业务,对一些低消费客户可以推销预存返还的优惠。若无差别地向所有客户推销,则要花费巨大的人力和物力,却得不到相应的回报。(2) 金融和银行 主要应用在金融市场的分析和预测,客户发掘,账户分类和信用评估。(3) 营销策划 购物中心、超市、商业区的经营。主要用在营销策划,优惠政策的策划,活动的策划等。(4) 工业生产 多用在工业设备的维护,节能减排,质量控制。以此为企业节省大量的额外花费。(5) 生物医学 如研究人脑构造,基因排列,生物进化,药物研制等。第3章 数据挖掘算法3.1 常用数据挖掘算法数据挖掘算法在传统的统计算法和数学思想上发展出多种不同的大类。本文先对各类数据挖掘算法作简要的介绍。(1) 基于概率统计的贝叶斯分析通常,事件a在事件b(发生)的条件下的概率,与事件b在事件a的条件下的概率是不一样的,然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。贝叶斯定理由英国数学家贝叶斯 (thomas bayes) 提出,用来描述两个条件概率之间的关系。按照乘法法则:,可以立刻导出贝叶斯定理公式:利用这个定理,可以结合已知的数据得出近似概率分布,以此来预测一个未知事物的发展情况或者所属的类别。具体的算法有朴素贝叶斯决策,基于最小风险的贝叶斯决策和基于最小错误率的贝叶斯决策。(2) 人工神经网络算法生物神经网络由大量神经元构成,神经元,又称神经细胞,是构成神经系统结构和功能的基本单位。神经元是具有长突起的细胞,它由细胞体和细胞突起构成。细胞体位于脑、脊髓和神经节中,细胞突起可延伸至全身各器官和组织中。细胞体是含细胞核的部分。细胞突起是由细胞体延伸出来的细长部分,又可分为树突和轴突。每个神经元可以有一或多个树突,可以接受刺激并将兴奋传入细胞体。每个神经元只有一个轴突,可以把兴奋从胞体传送到另一个神经元。人工神经元模型是生物神经元的模拟和抽象。这里说的抽象是从数学角度而言,所谓模拟是以神经元的结构和功能而言的。如图是一个典型的人工神经元模型,它模拟了生物神经元的细胞体、树突、轴突等主要部分。人工神经网络结构和工作机理基本上是以人脑结构(大脑神经元网络)和活动规律为背景的,它反映了人脑的某些基本特征,但不是对人脑部分的真实再现,可以说它是某种抽象、简化和模仿。神经网络具有自学习能力,这个网络可以通过训练来调整神经元之间连接的权值以不断向某个模型逼近。训练好的神经网络可以用作预测或分类。常用的神经网络有bp(back propagation)神经网络、rbf(radical basis function)神经网络、自组织竞争神经网络、概率神经网络等。(3) 决策树算法决策树又称判定树,是用于分类和预测的一种树结构。决策树一般都是自上而下生产的。每个决策或事件(枝节点)都可能引出两个或多个事件,导致不同的结果(叶节点),把这种决策分支画成图形很像一棵树的枝干,故称决策树。常用的决策树算法有id3决策树、c4.5决策树、chaid决策树、cart决策树等。(4) 关联规则算法 关联规则是形如x包含于y的蕴含式。它揭示了数据与数据间的未知关系,它的任务是给定一个事务数据库,在基于支持度和-置信度的原则上,发现数据之间有趣的关联,生产所有的关联规则必须满足支持度和置信度大于用户设定的阀值。支持度就是所以事务中同时包含x和y的百分比。置信度是包含x的事务中又包含y的百分比,即条件概率。(5) 聚类分析算法聚类分析算法指事先不了解一批样品中的每一个样品的类别或其他的先验知识,而唯一的聚类依据是样品的特征,利用某种相似性度量方法把特征相近的样品归成一类,最终把数据聚成若干类,而之前各类的描述和数量我们是不清楚的。常用的聚类算法有基于距离的层次距离算法和k均值、迭代自组织分析等动态聚类算法。(6) 模糊集算法 在传统集合理论中,一个元素或者属于一个集合,或者不属于一个集合。而对于模糊集来说,每一个元素都是以一定的程度属于某个集合,也可以同时以不同的程度属于几个集合。如“年轻”、“年老”、“高”、“矮”都是带有模糊性的描述。人类大多用这些模糊的词语来交流思想,互相通信然后进行推理分析,综合判断,最后做出决策。就像是描述某个人只要描述他的高矮、胖瘦、穿戴、习惯就可以让人分辨出来。把这些利用模糊信息进行决策的思想用计算机加以实现就是模糊集算法。3.2 本文采用的数据挖掘算法本文采用了两种数据挖掘算法分别建立了电信客户识别模型,它们是bp人工神经网络分类算法和cart决策树分类算法。3.2.1 bp人工神经网络算法3.2.1.1 bp神经网络的结构本文设计的神经网络分类模型使用的是bp神经网络(back propagation artificial neural networks)。它是一种具有三层或三层以上的多层神经网络。每一层都由若干个神经元组成。如图所示,它的左、右各层间的神经元实现全连接,即左层的每一个神经元与右层的每一个神经元都有连接,而上下神经元之间无连接。图3.1 bp神经网络结构每一个神经元有许多输入量,而对每一个输入量都相应有一个相关联的权重。处理单元将输入量经过加权求和,并通过传递函数的作用得到输出量,再传给下一层的神经元。任意神经元输出量的数学表达式如下:式中,为神经元单元的阈值,为连接权系数(对于激发状态,取正值,对于抑制状态,取负值),n为输入信号数目,为神经元输出,t为时间,为输出变换函数,有时叫做激励函数,往往采用0和1阶跃函数或形函数。3.2.1.2 bp神经网络的自学习原理bp神经网络按有导师学习方式进行训练,当一对学习模式提供给网络后,其神经元的激活值将从输入层经各隐含层向输出层传播,在输出层的各神经元输出结果对应于输入模式的网络响应。然后,按减少希望输出与实际输出误差的原则,从输出层经各隐含层、最后回到输入层逐层修正各连接权值。由于这种修正过程是从输出到输入逐层进行的,所以称它为bp算法或“误差逆传播算法”。下面将分两个步骤讲述bp神经网络算法的基本原理。(1)信号的前向传播过程:隐含层第个节点的输入:隐含层第个节点的输出: 输出层第个节点的输入:输出层第个节点的输出:(2)误差的反向传播过程误差的反向传播,即首先由输出层开始,从输出到隐含层,再从隐含层到输入层,逐层计算各层神经元的输出误差,然后根据误差梯度下降法来调节各层的权值和阈值,使修改后的网络的最终输出能接近期望值。 bp神经网络算法流程图如图3.2所示。图3.2 bp神经网络算法流程图3.2.1.3 使用bp神经网络分类使用bp神经网络进行分类的步骤如下:步骤1:建立bp神经网络模型:设定神经网络的隐含层层数,输入、输出、隐含层各层的神经元数量。设定学习速率,最大学习次数。设定目标误差精度和最小梯度。输入一组输入输出对应的数据对网络进行训练。步骤2:利用训练好的bp神经网络进行分类。对于输入的待测样品,它每一个属性作为输入层的一个神经元的输入,经过隐含层在输出层得到对应的数值结果,即待测样品所在的分类。3.2.1.4 bp神经网络的特点bp神经网络是目前应用最多的一种神经网络形式,其优缺点如下所述:(1)bp神经网络的优点:优点1:网络实质上实现了一个从输入到输出的映射功能,而数学理论已证明它具有实现任何复杂非线性映射的功能。这使得它特别适合于求解内部机制复杂的问题。优点2:网络能通过学习带正确答案的实例集自动提取“合理的”求解规则,即具有自学习能力。(2)bp神经网络的缺点:缺点1:bp算法的学习速度很慢由于bp算法本质上为梯度下降法,而它所要优化的目标函数又非常复杂,因此,必然会出现“锯齿形现象”,这使得bp算法低效。缺点2:网络训练失败的可能性较大从数学角度看,bp算法为一种局部搜索的优化方法,但它要解决的问题为求解复杂非线性函数的全局极值,因此,算法很有可能陷入局部极值,使训练失败。缺点3:受训练集的影响大网络的逼近、推广能力同学习样本的典型性密切相关,而从问题中选取典型样本实例组成训练集是一个很困难的问题。缺点4:网络结构的选择无标准供参考网络结构的选择尚无一种统一而完整的理论指导,一般只能由经验选定。而网络的结构直接影响网络的逼近能力及推广性质。因此,应用中如何选择合适的网络结构是一个重要的问题。缺点5:网络的训练能力和预测能力矛盾一般情况下,训练能力差时,预测能力也差,并且一定程度上,随训练能力地提高,预测能力也提高。但这种趋势有一个极限,当达到此极限时,随训练能力的提高,预测能力反而下降,即出现所谓“过拟合”现象。此时,网络学习了过多的样本细节,而不能反映样本内含的规律。3.2.2 cart决策树算法3.2.2.1 决策树的基本原理决策树又称判定树,是用于分类和预测的一种树结构。决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支,最后在决策树的叶节点得到结论。所以从根节点开始对应着一个规则,整棵树就对应一组表达式规则。构造决策树采用自上而下的构造方法。以多叉树为例,构造思路是:如果训练集中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《立定跳远》的教学反思
- 《快乐英语》第三册教案
- 体育场馆电缆网络顶管施工协议
- 城市绿化钻孔桩施工合同
- 环保产业园项目招投标资料
- 建筑工人休息室空调节能办法
- 公共交通枢纽防火门招投标资料
- 物业公司医疗保健人员合同模板
- 招投标合同变更法律风险
- 研发项目招投标实施细则
- Module1 Unit3 Period 3 A thirsty bird (教学设计)-2024-2025学年沪教牛津版(深圳用)英语四年级上册
- 《心系国防 强国有我》 课件-2024-2025学年高一上学期开学第一课国防教育主题班会
- Unit1 单元整体教学设计 2024-2025学年人教版(2024)七年级英语上册
- 2024年秋季新华师大版七年级上册数学教学课件 4.1.1对顶角
- 《创伤失血性休克中国急诊专家共识(2023)》解读课件
- 论网络交易违法行为监管地域管辖权的确定
- 酒店连锁突发事件处理考核试卷
- 2024发电企业安全风险分级管控和隐患排查治理管理办法
- 2024-2030年中国甲硫基乙醛肟行业市场行情监测及发展前景研判报告
- 运用PBL教学法探讨如何教会患者正确使用吸入剂
- 第四章运动和力的关系单元教学设计
评论
0/150
提交评论