《征信理论与技术》第八章征信信息采集_第1页
《征信理论与技术》第八章征信信息采集_第2页
《征信理论与技术》第八章征信信息采集_第3页
《征信理论与技术》第八章征信信息采集_第4页
《征信理论与技术》第八章征信信息采集_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章征信信息采集第八章征信信息采集

第一节征信信息概况第二节征信信息采集标准第三节征信信息采集方法第四节数据采集器的运用第八章征信信息采集

第一节征信信息概况一、征信信息来源

(一)个人征信信息源1.授信机构主要是商业银行、农村信用社、小额贷款公司等专业化的提供贷款的机构,以及支付宝、京东金融等互联网金融机构。授信机构主要提供个人信用交易的记录,包括交易类型、账户的开户日期、最高信贷额度、账户类型(开放式信用、循环式信用、分期付款等)、担保情况、还款情况等。一、征信信息来源

(一)个人征信信息源2.行政机构主要包括税务、海关、法院、社保、公积金中心等行政和司法部门。行政机构提供了部分个人识别信息,包括身份证信息、住址、需要抚养的人数、住所是个人拥有还是租赁、婚姻状况、就业信息、教育程度、个人职称、政治面貌等。一、征信信息来源

(一)个人征信信息源3.公用事业单位主要是电信企业,水、电、燃气等公共事业单位,上述单位提供个人缴纳电话费、水费、电费、燃气费等信息。芝麻信用采集数据范围主要包括用户的:身份特征、行为偏好、信用历史、履约能力和人脉关系五个维度芝麻信用分信用信息采集渠道主要源于:阿里巴巴系网商平台的消费记录、第三方支付机构支付宝的交易信息、移动终端使用的基本行为数据。一、征信信息来源企业征信信息源1.直接来源直接来源是指企业征信机构直接从目标企业获取的信息,常用于企业资信调查业务,包括直接面向被调查企业的面谈访问、实地调查、电话调研等。一、征信信息来源企业征信信息源2.间接来源政府掌握的企业征信大数据。(征信机构大约40%的企业征信信息来源于税务、统计、海关、法院等行政和司法部门)

非官方的企业信用信息。(非官方的企业信用信息的主要来源是商业银行、行会商会、公用事业单位、企业的供应商、租赁公司和新闻媒体等)二、征信信息分类

(一)结构化数据与非结构化数据1.结构化数据是指可以由二维表结构来逻辑表达的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。id姓名性别电话地址1张一男3337899湖北省武汉市2田二男3337888广东省深圳市二、征信信息分类

(一)结构化数据与非结构化数据2.非结构化数据非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的Word、PDF、PPT、Excel、图片、Html、各类报表、图像和音频信息等。二、征信信息分类

(一)结构化数据与非结构化数据2.半结构化数据半结构化数据,是结构化数据的一种形式,虽不符合关系型数据库或其他数据表关联形式的数据结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。常见的半结构数据有Xml、Email等。二、征信信息分类

(二)硬信息与软信息1.硬信息“硬信息”是指可量化的信息,比如企业征信中的财务报表信息和个人征信中的支付交易类信息等。2.软信息“软信息”又称是指非量化的质性信息,在企业征信中,包括企业经营情况及业主个人情况,比如企业的所属行业、所有者组织结构、业主的行业管理经验等;在个人征信中,包括业主的文化技能、家庭背景、社会评价等。第八章征信信息采集

第二节征信信息采集标准第二节征信信息采集标准

一、国外征信数据采集的行业标准

美国消费者数据行业协会制定的《数据报送资源指南》设计了数据采集与报送格式——Metro2统一了数据采集的格式要求数据提供机构以消费者账户为单位报送消费者信用交易数据,包括基本数据和账户交易数据。账户分类账户属性典型业务分期贷款账户按相同的时间间隔分期支付、有固定的支付金额和还款日期汽车贷款、农业贷款、商业分期贷款、汽车租赁贷款抵押贷款以房地产所有权为抵押的贷款房产抵押贷款循环贷款该账户有最大使用额度、最低还款金额且额度可循环商业银行发送的信用卡和一些百货公司发放的赊销卡额度授信与循环贷款不同,消费者对额度的使用比较灵活,不仅可以通过贷款形式使用,也可以开支票、转账、取现等中小企业为解决流动性申请的此类账户开放账户还款周期不固定,还款金额不固定,既可以一次性还款,也可以根据与信贷机构的约定按需还款债务催收机构报送的账户数据、学生贷款,公用事业机构的还款账户第二节征信信息采集标准

二、国内征信数据采集的行业标准央行征信系统的数据采集框架主要根据商业银行开展的信贷业务进行设计个人信贷交易数据按贷款和信用卡采集企业信贷交易数据按照贷款、保理、票据贴现、信用证、保函等8种业务采集第八章征信信息采集

第三节征信信息采集方法一、征信信息采集概述

以国家信用体系建设中的区县级信用信息平台为例,征信信息采集分以下几种情况:(一)无信息系统的接入单位

开发相应的信用信息直报系统、信用信息填报系统。(二)有信息系统的接入单位

部署部门前置机(三)有独立网络系统的接入单位

直接以文件导入的方式进行采集。二、结构化数据采集

(一)数据库数据交换(数据交换软件)针对已建业务数据库、信息量较大、更新频繁的业务部门,征信机构为各信源单位配置了数据交换软件。(二)数据文件上传在前置服务器或中心交换服务器上为各信源单位提供专用的系统用户和文件存放目录。信源单位通过FTP(文件传输协议)等工具,定期或实时地将既定格式的数据文件上传到服务器。二、结构化数据采集

(三)接口数据采集根据各信源单位业务部门的实际情况,定制数据接口,完成各部门信用信息的对接。建立接口管理系统,对WebService接口进行规范,加强身份认证和信息安全管理,接口配置、开通、注销以及监控都通过这个系统完成。三、半结构化数据与非结构化数据采集

采集工具:

半结构化数据与非结构化数据采集通过专用的数据采集器完成。采集器会将不同类型的非结构化数据转换成标准格式的结构化数据,并传送至数据处理层进行进一步加工。采集流程:

半结构化、非结构化数据格式复杂,往往在采集时就要对数据进行预处理。第八章征信信息采集

第四节数据采集器的运用一、数据采集器简介

网页信息数据采集器:火车头采集器、八爪鱼采集器一、数据采集器简介

网页信息数据采集器功能:

简单快速地将网页数据转化为结构化数据,存储于Excel、SQL、TXT、MySQL等多种格式,实现输入网址全自动化导出数据。

市面上98%的网页,或者说网页源码中有的文本信息几乎都能采集。

满足产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种职业的工作需求二、采集器采集方式

本地采集

即单机采集,采集程序负责对网页进行打开、抓取和采集数据,通过程序语言(正则表达式等)进行修正,除了可以实现绝大多数网页数据的爬取,还可以在采集过程中实现对数据的初步清洗。二、采集器采集方式

云采集

除了具有本地采集的全部功能之外,还可以实现定时采集,实时监控,数据自动去重,增量采集,自动识别验证码,API接口多元化导出数据以及修改参数。

采集速度将远超于本地采集,实现采集数据的最大化。三、采集器采集原理

(一)模拟人的思维去浏览网页

记录人工操作流程

将人工的采集动作转化为程序语言

形成采集规则(二)通过设计工作流程完成自动化数据采集

对网页源码中各个数据的源代码与路径进行准确定位四、采集流程步骤

基本步骤1.打开网页。2.循环。3.点击元素。4.提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论