CN111125531A-数仓模型的分值确定方法、装置、设备及存储介质_第1页
CN111125531A-数仓模型的分值确定方法、装置、设备及存储介质_第2页
CN111125531A-数仓模型的分值确定方法、装置、设备及存储介质_第3页
CN111125531A-数仓模型的分值确定方法、装置、设备及存储介质_第4页
CN111125531A-数仓模型的分值确定方法、装置、设备及存储介质_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号CN111125531A

HP申请公布日

(43)2020.05.08

(21)申请号201911353069.1

(22)申请日2019.12.25

(71)申请人北京每日优鲜电子商务有限公司

地址100102北京市朝阳区创远路34号院7

号楼08层801室

(72)发明人蔡光龙宋威康伟伟

(74)专利代理机构北京三高永信知识产权代理

有限责任公司11138

代理人宁立存

(51)Int.CI.

G06F16/9535(2019.01)

G06F16/2458(2019.01)

G06K9/62(2006.01)

权利要求书2页说明书18页附图10页

(54)发明名称

数仓模型的分值确定方法、装置、设备及存

储介质

(57)摘要

本申请公开了一种数仓模型的分值确定方

法、装置、设备及存储介质,属于大数据技术领

域。本实施例提供了一种对数仓模型智能评分的

方法,通过利用机器学习技术,提取数仓模型的

与分值关联的特征,通过分值预测模型将特征映

射为分值,从而自动化地对模型进行打分,通过

该方法,免去了人工进行打分的繁琐操作,从而

极大地节省了人力成本和时间开销,因而提高了

数仓模型评分的效率,并且,由于综合统计多个

维度的数据对数仓模型进行自动评分,可以提供

统一、客观的标准,从而提高数仓模型评分的准

确性。

CN111125531A权利要求书1/2页

1.一种数仓模型的分值确定方法,其特征在于,所述方法包括:

获取数仓模型的目标特征,所述目标特征包括热度、属性维护数量、标签数量、报警数

量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一项;

将所述目标特征输入分值预测模型,所述分值预测模型根据样本数仓模型的目标特征

以及所述样本数仓模型的分值训练得到;

通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值。

2.根据权利要求1所述的方法,其特征在于,所述分值预测模型包括极端梯度提升

XGBoost模型,所述XGBoost模型包括多个回归树,所述通过所述分值预测模型对所述目标

特征进行处理,输出所述数仓模型的分值,包括:

通过所述XGBoost模型的每个回归树对所述目标特征进行处理,得到每个回归树为所

述数仓模型预测的分值;

获取所述多个回归树预测的分值之和,作为所述数仓模型的分值。

3.根据权利要求2所述的方法,其特征在于,所述XGBoost模型中的每个回归树包括一

个或多个非叶子节点、多个分支以及多个叶子节点,所述非叶子节点包括热度节点、属性维

护数量节点、标签数量节点、报警数量节点、使用方式维护完善值节点、生命周期维护完善

值节点、事故次数节点中的至少一项;

所述热度节点用于根据数仓模型的热度进行分类,所述热度节点的每个分支表示热度

的一个取值范围;

所述属性维护数量节点用于根据属性维护数量进行分类,所述属性维护数量节点的每

个分支表示属性维护数量的一个取值范围;

所述标签数量节点用于根据标签数量进行分类,所述标签数量节点的每个分支表示标

签数量的一个取值范围;

所述报警数量节点用于根据报警数量进行分类,所述报警数量节点的每个分支表示报

警数量的一个取值范围;

所述使用方式维护完善值节点用于根据使用方式维护完善值进行分类,所述使用方式

维护完善值节点的每个分支表示使用方式维护完善值的一个取值范围;

所述通过所述XGBoost模型的每个回归树对所述目标特征进行处理,得到每个回归树

为所述数仓模型预测的分值,包括:

对于所述多个回归树中的每个回归树,根据所述目标特征在所述回归树中经过的目标

非叶子节点以及目标分支,确定所述目标特征对应的目标叶子节点;

将所述目标叶子节点表示的分值,获取为所述回归树为所述数仓模型预测的分值。

4.根据权利要求1所述的方法,其特征在于,所述通过所述分值预测模型对所述目标特

征进行处理,输出所述数仓模型的分值之后,所述方法包括:

根据所述数仓模型的分值,向用户推荐所述数仓模型。

5.根据权利要求4所述的方法,所述根据所述数仓模型的分值,向用户推荐所述数仓模

型,包括:

按照分值从高到低的顺序,对数据仓库的每个数仓模型进行排序,得到排序结果;

若所述数仓模型的分值在排序结果中排在前预设位数,向所述用户推荐所述数仓模

型。

2

CN111125531A权利要求书2/2页

6.根据权利要求1所述的方法,其特征在于,所述通过所述分值预测模型对所述目标特

征进行处理,输出所述数仓模型的分值之后,所述方法包括:

接收搜索指令;

响应于所述搜索指令,根据所述数仓模型的分值,确定所述数仓模型的标识在搜索结

果中的排列顺序;

输出携带有所述数仓模型的标识的搜索结果。

7.根据权利要求1所述的方法,其特征在于,所述通过所述分值预测模型对所述目标特

征进行处理,输出所述数仓模型的分值之后,所述方法包括:

根据所述数仓模型的分值,生成数据质量报告,所述数据质量报告包括所述数仓模型

的分值。

8.一种数仓模型的分值确定装置,其特征在于,所述装置包括:

获取模块,用于获取数仓模型的目标特征,所述目标特征包括热度、属性维护数量、标

签数量、报警数量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一项;

输入模块,用于将所述目标特征输入分值预测模型,所述分值预测模型根据样本数仓

模型的目标特征以及所述样本数仓模型的分值训练得到;

处理模块,用于通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型

的分值。

9.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存

储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多

个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的数仓模型的分值确定

方法所执行的操作。

10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所

述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的数仓

模型的分值确定方法所执行的操作。

3

CN111125531A说明书1/18页

数仓模型的分值确定方法、装置、设备及存储介质

技术领域

[0001]本申请涉及大数据技术领域,特别涉及一种数仓模型的分值确定方法、装置、设备

及存储介质。

背景技术

L0002J数据仓库简称数仓,是指面向主题的、集成的、相对稳定的、反映历史变化的数据

集合。数仓模型是指按照一定的数据模型,对企业的数据进行采集、整理后,按照各个业务

的需要,提供跨部门的、一致的业务报表数据。通过数仓模型,能够对业务进行指导,为决策

提供数据支持。由于系统的数仓模型往往数量繁多,为了帮助用户选择模型,可以为每个数

仓模型进行评分,用户可以根据数仓模型的分值,确定应用哪一个数仓模型进行分析和决

策。

L0003J时下,数仓模型都是人工打分的。具体而言,用户会根据自己对模型的理解,对模

型进行评分。

[0004]然而,人工评分的方式太过于主观,无法有统一的标准,而且,需要耗费大量的时

间成本和人力资源,导致成本过高,效率低下。

发明内容

[0005]本申请实施例提供了一种数仓模型的分值确定方法、装置、设备及存储介质,能够

提高数仓模型评分的效率和准确性。所述技术方案如下:

[0006]一方面,提供了一种数仓模型的分值确定方法,所述方法包括:

10007J获取数仓模型的目标特征,所述目标特征包括热度、属性维护数量、标签数量、报

警数量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一项;

[0008]将所述目标特征输入分值预测模型,所述分值预测模型根据样本数仓模型的目标

特征以及所述样本数仓模型的分值训练得到;

[0009]通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值。

10010)可选地,所述分值预测模型包括极端梯度提升XGBoost模型,所述XGBoost模型包

括多个回归树,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型

的分值,包括:

[0011]通过所述XGBoost模型的每个回归树对所述目标特征进行处理,得到每个回归树

为所述数仓模型预测的分值;

[0012]获取所述多个回归树预测的分值之和,作为所述数仓模型的分值。

10013)可选地,所述XGBoost模型中的每个回归树包括一个或多个非叶子节点、多个分支

以及多个叶子节点,所述非叶子节点包括热度节点、属性维护数量节点、标签数量节点、报

警数量节点、使用方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的至少

一项;

[0014]所述热度节点用于根据数仓模型的热度进行分类,所述热度节点的每个分支表示

4

CN111125531A说明书2/18页

热度的一个取值范围;

[0015]所述属性维护数量节点用于根据属性维护数量进行分类,所述属性维护数量节点

的每个分支表示属性维护数量的一个取值范围;

[0016]所述标签数量节点用于根据标签数量进行分类,所述标签数量节点的每个分支表

示标签数量的一个取值范围;

[0017]所述报警数量节点用于根据报警数量进行分类,所述报警数量节点的每个分支表

示报警数量的一个取值范围;

[00网所述使用方式维护完善值节点用于根据使用方式维护完善值进行分类,所述使用

方式维护完善值节点的每个分支表示使用方式维护完善值的一个取值范围;

[0019]所述通过所述XGBoost模型的每个回归树对所述目标特征进行处理,得到每个回

归树为所述数仓模型预测的分值,包括:

[0020]对于所述多个回归树中的每个回归树,根据所述目标特征在所述回归树中经过的

目标非叶子节点以及目标分支,确定所述目标特征对应的目标叶子节点;

L0021]将所述目标叶子节点表示的分值,获取为所述回归树为所述数仓模型预测的分

值。

10022J可选地,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模

型的分值之后,所述方法包括:

10023]根据所述数仓模型的分值,向用户推荐所述数仓模型。

[0024]可选地,所述根据所述数仓模型的分值,向用户推荐所述数仓模型,包括:

[0025]按照分值从高到低的顺序,对数据仓库的每个数仓模型进行排序,得到排序结果;

[0026]若所述数仓模型的分值在排序结果中排在前预设位数,向所述用户推荐所述数仓

模型。

10027J可选地,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模

型的分值之后,所述方法包括:

[0028]接收搜索指令;

10029]响应于所述搜索指令,根据所述数仓模型的分值,确定所述数仓模型的标识在搜

索结果中的排列顺序;

[0030]输出携带有所述数仓模型的标识的搜索结果。

10031)可选地,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模

型的分值之后,所述方法包括:

[0032]根据所述数仓模型的分值,生成数据质量报告,所述数据质量报告包括所述数仓

模型的分值。

[0033]另一方面,提供了一种数仓模型的分值确定装置,所述装置包括:

10034)获取模块,用于获取数仓模型的目标特征,所述目标特征包括热度、属性维护数

量、标签数量、报警数量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一

项;

[0035]输入模块,用于将所述目标特征输入分值预测模型,所述分值预测模型根据样本

数仓模型的目标特征以及所述样本数仓模型的分值训练得到;

[0036]处理模块,用于通过所述分值预测模型对所述目标特征进行处理,输出所述数仓

5

CN111125531A说明书3/18页

模型的分值。

[0037]可选地,所述分值预测模型包括极端梯度提升XGBoost模型,所述XGBoost模型包

括多个回归树,所述处理模块,用于:通过所述XGBoost模型的每个回归树对所述目标特征

进行处理,得到每个回归树为所述数仓模型预测的分值;获取所述多个回归树预测的分值

之和,作为所述数仓模型的分值。

[0038]可选地,所述XGBoost模型中的每个回归树包括一个或多个非叶子节点、多个分支

以及多个叶子节点,所述非叶子节点包括热度节点、属性维护数量节点、标签数量节点、报

警数量节点、使用方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的至少

一项;

[0039]所述热度节点用于根据数仓模型的热度进行分类,所述热度节点的每个分支表示

热度的一个取值范围;

[0040]所述属性维护数量节点用于根据属性维护数量进行分类,所述属性维护数量节点

的每个分支表示属性维护数量的一个取值范围;

L0041]所述标签数量节点用于根据标签数量进行分类,所述标签数量节点的每个分支表

示标签数量的一个取值范围;

10042J所述报警数量节点用于根据报警数量进行分类,所述报警数量节点的每个分支表

示报警数量的一个取值范围;

10043)所述使用方式维护完善值节点用于根据使用方式维护完善值进行分类,所述使用

方式维护完善值节点的每个分支表示使用方式维护完善值的一个取值范围;

10044]所述处理模块,用于对于所述多个回归树中的每个回归树,根据所述目标特征在

所述回归树中经过的目标非叶子节点以及目标分支,确定所述目标特征对应的目标叶子节

点;将所述目标叶子节点表示的分值,获取为所述回归树为所述数仓模型预测的分值。

10045J可选地,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模

型的分值之后,所述装置包括:

10046)推荐模块,用于根据所述数仓模型的分值,向用户推荐所述数仓模型。

[0047]可选地,所述推荐模块,用于:按照分值从高到低的顺序,对数据仓库的每个数仓

模型进行排序,得到排序结果;若所述数仓模型的分值在排序结果中排在前预设位数,向所

述用户推荐所述数仓模型。

10048]可选地,所述装置还包括:

10049J接收模块,用于接收搜索指令;

[0050]确定模块,用于响应于所述搜索指令,根据所述数仓模型的分值,确定所述数仓模

型的标识在搜索结果中的排列顺序;

[0051]输出模块,用于输出携带有所述数仓模型的标识的搜索结果。

[0052]可选地,所述装置包括:生成模块,用于根据所述数仓模型的分值,生成数据质量

报告,所述数据质量报告包括所述数仓模型的分值。

[0053]另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或

多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一

个或多个处理器加载并执行以实现上述数仓模型的分值确定方法所执行的操作。

[0054]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指

6

CN111125531A说明书4/18页

令,所述至少一条指令由处理器加载并执行以实现上述数仓模型的分值确定方法所执行的

操作。

[0055]本申请实施例提供的技术方案带来的有益效果至少包括:

[0056]本实施例提供了一种对数仓模型智能评分的方法,通过利用机器学习技术,提取

数仓模型的与分值关联的特征,通过分值预测模型将特征映射为分值,从而自动化地对模

型进行打分,通过该方法,免去了人工进行打分的繁琐操作,从而极大地节省了人力成本和

时间开销,因而提高了数仓模型评分的效率,并且,由于综合统计多个维度的数据对数仓模

型进行自动评分,可以提供统一、客观的标准,从而提高数仓模型评分的准确性。

附图说明

10057J为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使

用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于

本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他

的附图。

[0058]图1是本申请实施例提供的一种数仓模型的分值确定方法的实施环境的示意图;

[0059]图2是本申请实施例提供的一种分值预测模型的训练方法的流程图;

[0060]图3是本申请实施例提供的一种数仓模型的分值确定方法的流程图;

[0061]图4是本申请实施例提供的一种模型评分界面的示意图;

[0062]图5是本申请实施例提供的一种数仓模型的推荐方法的流程图;

[0063]图6是本申请实施例提供的一种模型推荐界面的示意图;

[0064]图7是本申请实施例提供的一种数仓模型的搜索方法的流程图;

[0065]图8是本申请实施例提供的一种数仓模型的搜索界面的示意图;

[0066]图9是本申请实施例提供的一种数仓模型的搜索方法的流程图;

[0067]图10是本申请实施例提供的一种数仓模型的智能评分系统的架构图;

10068]图11是本申请实施例提供的一种数仓模型的分值确定装置的结构示意图;

10069]图12是本申请实施例提供的一种终端的结构示意图;

10070]图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

[0071]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方

式作进一步地详细描述。

[0072]本申请中术语“第一”第二”等字样用于对作用和功能基本相同的相同项或相似

项进行区分,应理解,,第一"第二"、第n”之间不具有逻辑或时序上的依赖关系,也不对

数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元

素,但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例

如,在不脱离各种示例的范围的情况下,第一图像可以被称为第二图像,并且类似地,第二

图像可以被称为第一图像。第一图像和第二图像都可以是图像,并且在某些情况下,可以是

单独且不同的图像。

[0073]本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是

7

CN111125531A说明书5/18页

指两个或两个以上,例如,多个数据包是指两个或两个以上的数据包。

[0074]应理解,在本文中对各种示例的描述中所使用的术语只是为了描述特定示例,而

并非旨在进行限制。如在对各种示例的描述和所附权利要求书中所使用的那样,单数形式

“一个(“a"加和“该”旨在也包括复数形式,除非上下文另外明确地指示。

[0075]还应理解,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中

的一个或多个项目的任何和全部可能的组合。术语“和/或”,是一种描述关联对象的关联关

系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在

B这三种情况。另外,本申请中的字符“尸,一般表示前后关联对象是一种"或''的关系。

10076J还应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺

序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施

过程构成任何限定。

[0077]还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息

确定B。

[0078]还应理解,术语“包括”(也称“includes"、including"、Comprises”和/或

“Comprising")当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/

或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/

或其分组。

[0079]还应理解,术语“如果”可被解释为意指“当…时”(“when”或“upon”)或“响应于确

定,,或“响应于检测到,,。类似地,根据上下文,短语“如果确定…”或“如果检测到[所陈述的

条件或事件厂可被解释为意指“在确定…时”或“响应于确定…”或“在检测到[所陈述的

条件或事件]时,,或“响应于检测到[所陈述的条件或事件广。

[0080]以下,示例性介绍本申请的硬件环境。

[0081]图1是本申请实施例提供的一种数仓模型的分值确定方法的实施环境的示意图。

该实施环境包括:终端101和智能评分系统102。终端101通过无线网络或有线网络与智能评

分系统102相连。

[0082]终端101可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3

(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)

播放器或MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准

音频层面4)播放器和膝上型便携计算机中的至少一种。终端101安装和运行有支持应用程

序,例如,该应用程序可以具有数仓模型推荐功能、数仓模型搜索功能、数据质量报告生成

功能的至少一种。

[0083]智能评分系统102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至

少一种。智能评分系统102用于为应用程序提供后台服务。可选地,智能评分系统102承担主

要处理工作,终端101承担次要处理工作;或者,智能评分系统102承担次要处理工作,终端

101承担主要处理工作;或者,智能评分系统102或终端101分别可以单独承担处理工作。或

者,智能评分系统102和终端101两者之间采用分布式计算架构进行协同计算。

[0084]可选地,智能评分系统102包括:服务器1021和数据库1022。服务器1021用于提供

数仓模型打分有关的后台服务。服务器1021可以是一台或多台。当服务器1021是多台时,存

在至少两台服务器1021用于提供不同的服务,和/或,存在至少两台服务器1021用于提供相

8

CN111125531A说明书6/18页

同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。数据库

1022存储有确定数仓模型的分值所需的数据,例如数仓模型的数据、数仓模型的目标特征、

分值预测模型等,当服务器1021需要数据时,可以访问数据库1022,读取数据库1022存储的

数据。当服务器得到计算结果时,可以将计算结果写入至数据库1022,从而通过数据库1022

对计算结果进行持久化存储。其中,该计算结果包括而不限于已训练的分值预测模型、已提

取的数仓模型的目标特征等等。

[0085]本领域技术人员可以知晓,上述终端101、服务器1021的数量可以更多或更少。比

如上述终端101、服务器1021可以仅为一个,或者上述终端101、服务器1021为几十个或几百

个,或者更多数量,此时虽然图中未示出,上述实施环境还包括其他终端,本申请实施例对

终端或服务器的数量和设备类型不加以限定。

[0086]本实施例提供了一种能够对数仓模型进行智能评分的方法,可以提供为基于数仓

元数据的智能评分系统。该方法的应用前景较为广阔,例如,可以应用到数仓模型的搜索排

序、数仓模型的智能推荐、数据质量白皮书的自动生成等场景。以下,结合图2实施例至图10

实施例,对实现数仓模型智能评分的方案进行介绍。

L0087]图2是本申请实施例提供的一种数仓模型的分值预测模型的训练方法的流程图。

参见图2,该方法包括:

100881201、电子设备对样本数仓模型进行数据采集,得到数据集。

[0089]数据仓库在流转数据的过程中,会积累大量的数据,例如人工对数仓模型的评分、

数仓模型的热度、数仓模型监控指标值、数仓模型监控任务、数仓模型的使用方式、数仓模

型的生命周期、数仓模型的标签、数仓模型列标签等等。为了从大量的数据中,找到与评分

存在关联关系的数据,可以定期通过调度系统,将这些数据同步至电子设备,可以对同步的

数据进行清洗,根据清洗后的数据生成以下步骤202所需的数据集。其中,生成的数据集包

括而不限于训练(train)数据集、测试(test)数据集及合集(trainval)数据集。

100901202、电子设备根据数据集,提取样本数仓模型的目标特征。

10091)目标特征为分值预测模型的输入特征,数仓模型的目标特征与数仓模型的分值具

有关联关系。本实施例中,能够在机器学习的特征工程阶段,对数据进行分析及挖掘,选择

与数仓模型的分值存在关联关系的特征,作为目标特征。由于选中的目标特征是影响数仓

模型评分结果的特征,分值预测模型能够利用样本数仓模型的目标特征以及分值,学习出

目标特征与分值之间的关联关系,从而在模型预测阶段,依据待预测的数仓模型的目标特

征,自动化地进行准确打分。

[0092]目标特征的提取过程可以包括以下步骤2021至步骤2024:

10093J步骤2021、对数据的缺失值进行处理。

10094)对于存在缺失值的数据而言,可以将缺失值设置为预先设定的默认值,或者剔除

缺失值,或者对缺失值进行插补。其中,插补的方式可以包括计算缺失值所在的列的平均值

或中位数,将缺失值设置为该平均值或中位数。其中,可以根据特征的类别和影响范围确定

具体的处理方法。

[0095]步骤2022、对连续数据进行离散化处理。

10096]连续数据是统计学中的概念,又称连续变量,例如,连续数据可以是数仓模型的热

度。本实施例中,可以将连续数据映射为离散数据,从而提高数据对模型评分的影响程度,

9

CN111125531A说明书7/18页

那么通过根据离散化后的数据进行训练,可以提高模型进行评分的准确性。例如,如果数仓

模型的热度为(XI、X2…Xn),可以对(XI、X2…Xn)进行离散化处理,得到(KI、K2...Km),其中,

X表示离散化处理前的热度,K表示离散化处理后的热度,m和n为正整数,且m远小于n。

[0097]步骤2023、对特征值为字符串的数据进行处理。

[0098]很多数据的特征值包含字符,或者很多数据本身就是字符串类型,可以将这些数

据的特征值从字符转换为数值。例如,可以采取正则提取或数值转换等方式,对字符串进行

计算,得到字符串对应的数值。

10099J步骤2024、从样本数仓模型的多个维度的特征中,选择目标特征。

[0100]机器学习模型通常可以视为一个函数,机器学习模型的特征选择过程可以理解成

为计算每个特征变量对响应变量的影响,以找到对响应变量影响大、与响应变量强相关的

特征变量。应用在数仓模型评估的场景下,可以通过对数仓模型的数据进行分析及挖掘,找

出所有可能会影响数仓模型评分结果的特征,对这些特征进行统计,计算每个特征对人工

标注的分值的影响,从而根据影响的强弱,选择机器学习模型的输入特征,并确定特征的值

域对模型的影响。

L0101J在一些实施例中,选择的目标特征可以包括数仓模型的热度、数仓模型的属性维

护数量、数仓模型的标签数量、数仓模型的报警数量、数仓模型的使用方式维护完善值、数

仓模型的生命周期维护完善值、数仓模型的事故次数中的至少一项。其中,数仓模型的报警

数量可以是距离当前时间点最近的统计周期的报警数量,例如近3个月的报警数量。数仓模

型的报警数量可以分为多个等级的报警数量,例如可以包括近三个月红色报警个数、数仓

模型近三个月橙色报警个数、数仓模型近三个月蓝色报警个数。数仓模型的事故次数可以

是距离当前时间点最近的统计周期的事故次数,例如数仓模型最近一个月事故次数。

L0102]203、电子设备使用样本数仓模型的目标特征以及样本数仓模型的分值进行模型

训练,得到分值预测模型。

10103J分值预测模型是指用于预测数仓模型的分值的机器学习模型。可以将样本数仓模

型的目标特征作为模型训练的输入特征,将分值作为模型训练的标签(label),构建训练

集,采用机器学习算法,对多个样本数仓模型的目标特征以及分值进行模型训练,得到该分

值预测模型。其中,该机器学习算法可以包括多种,例如可以是集成学习算法,具体可以是

提高(boosting)算法、引导聚合(bagging)算法、堆叠(stacking)算法等。相应地,训练得出

的分值预测模型可以是集成学习模型,该集成学习模型可以包括多个子模型,每个子模型

均可以根据样本数仓模型的目标特征进行预测,通过结合多个子模型的预测结果,可以让

分值预测模型自动得出的分值更加准确。

[0104]在一些实施例中,在训练分值预测模型的过程中,可以采用极端梯度提升

(eXtremeGradientBoosting,XGBoost)算法,使用样本数仓模型的目标特征以及样本数

仓模型的分值进行模型训练,得到的XGBoost模型,该XGBoost模型即为分值预测模型。根据

结果调整XGBoost的学习速率、迭代次数、梯度下降等参数,选择合适的参数并验证模型,经

过验证数据集的结果分析,继续迭代,直到验证数据集结果达到预期的效果。

[0105]例如,使用XGBoost算法进行训练的过程可以包括:不断地生成回归树,通过将许

多弱监督的回归树集成在一起,形成一个强监督的机器学习模型,以避免单个回归树预测

时容易出现过拟合的情况。具体地,会参考第1个回归树进行预测时产生的误差,生成第2个

10

CN111125531A说明书8/18页

回归树,参考第1个回归树以及第2个回归树的组合进行预测时产生的误差,生成第3个回归

树,依次类推,参考n-1个回归树组合而成的模型进行预测时产生的误差,生成第n个回归

树,从而得到n个回归树;其中n为正整数。在生成回归树的过程中,每当新增一个回归树,模

型整体的损失会不断降低。其中,应用在对数仓模型智能评估的场景,误差可以是模型预测

的分值与人工标注的分值之间的残差。

[0106]XGBoost模型可以包括多个回归树。每个回归树可以包括一个或多个非叶子节点、

多个分支以及多个叶子节点。每个非叶子节点可以视为一个分类器,每个非叶子节点用于

根据目标特征的一个维度行分类。每个非叶子节点连接多个分支,每个分支可以视为一个

分类结果,该分类结果可以是目标特征的一种取值范围。

10107]示例性地,XGBoost模型中的回归树上的非叶子节点包括热度节点、属性维护数量

节点、标签数量节点、报警数量节点、使用方式维护完善值节点、生命周期维护完善值节点、

事故次数节点中的至少一项;热度节点用于根据数仓模型的热度进行分类,热度节点的每

个分支表示热度的一个取值范围;属性维护数量节点用于根据属性维护数量进行分类,属

性维护数量节点的每个分支表示属性维护数量的一个取值范围;标签数量节点用于根据标

签数量进行分类,标签数量节点的每个分支表示标签数量的一个取值范围;报警数量节点

用于根据报警数量进行分类,报警数量节点的每个分支表示报警数量的一个取值范围;使

用方式维护完善值节点用于根据使用方式维护完善值进行分类,使用方式维护完善值节点

的每个分支表示使用方式维护完善值的一个取值范围。

10108]以热度节点为例,XGBoost模型基于非叶子节点的计算过程可以包括:热度节点可

以连接2个分支,第一个分支表示热度<kl,第二个分支表示热度次1,那么如果该样本数

仓模型的热度为a,且a<kl,则将该样本数仓模型的热度输入至热度节点后,热度会输出至

第一个分支,落入左子树。其中,kl和a均K),如果对热度进行了归一化,则kl和a均加,且

kl和a均勺。

10109J应理解,上面这个例子中,非叶子节点具有两个分支仅是举例说明,在一些可能的

实施例中,非叶子节点可以具有三个或三个以上的分支,本实施例对非叶子节点具有的分

支数量并不做限定。例如,热度节点可以连接3个分支,第一个分支表示热度Vkl,第二个分

支表示klW热度生2,第三个分支表示热度>k2,热度节点会根据样本数仓模型的热度,将

热度目标特征输入至三个分支中的一个分支。其中,k2>0,如果对热度进行了归一化,则k2

>0,且k2Q

[0110]还应理解,上面这个例子中,每个分支对应的取值范围仅是举例说明,每个分支对

应的取值范围可以是开区间、闭区间或半开半闭区间中的任一种,本实施例对分支对应的

取值范围是否包含端点值不做限定。

[0111]XGBoost模型中每个叶子节点表示数仓模型的分值的一种取值,将样本数仓模型

的目标特征输入至任一个回归树后,该目标特征会经过非叶子节点和分支,落入至多个叶

子节点中的一个叶子节点,该叶子节点表示的分值即为这个回归树预测的分值。例如,第一

个回归树的每个叶子节点可以表示数仓模型的基础分值。第二个回归树的每个叶子节点可

以表示第一个回归树的误差,例如可以表示数仓模型的基础分值与数仓模型的标注分值之

间的偏差。第三个回归树的每个叶子节点可以表示第一个回归树与第二个回归树的误差之

和,第四个回归树的每个叶子节点可以表示第一个回归树、第二个回归树至第三个回归树

11

CN111125531A说明书9/18页

的误差之和,依次类推,第n个回归树的叶子节点可以表示分值的预测误差,预测误差为第1

个回归树至第n-l个回归树的误差之和,n为大于1的正整数。

[0112]应理解,模型训练时采用XGBoost算法,分值预测模型为XGBoost是举例说明,在另

一些可能的实施例中,也可以采用XGBoost算法之外的其他集成学习算法来进行模型训练,

相应地,机器学习模型可以是其他集成学习模型,比如可以采用随机森林算法进行模型训

练,则机器学习模型可以是随机森林。应理解,也可以采用集成学习算法之外的机器学习算

法进行模型训练,比如采用神经网络算法、支持向量机算法、贝叶斯算法、逻辑回归算法进

行模型训练,相应地,机器学习模型可以是深度神经网络、支持向量机、贝叶斯网络、逻辑回

归模型等。

10H3J本实施例提供的方法,通过使用样本数仓模型的目标特征以及样本数仓模型的分

值进行模型训练,在训练过程中,可以根据分值预测模型每次预测的分值与标注的分值之

间的差异,不断调整分值预测模型的参数,使得分值预测模型的准确性得以提升,使得下一

次预测时预测的分值与标注的分值之间的差距得以减小。当训练结束时,分值预测模型学

习出了目标特征与分值之间的关联关系,从而具备了自动对数仓模型进行打分的功能。

10114]上述图2实施例提供了一种基于机器学习训练出分值预测模型的流程,以下对应

用该分值预测模型对数仓模型自动评分的流程进行介绍。

10115J参见图3,图3是本申请实施例提供的一种数仓模型的分值确定方法的流程图,该

方法包括:

10H6J301、电子设备获取数仓模型的目标特征。

[0H7]该电子设备可以为图1所示系统架构中的智能评分系统102,比如是服务器1021。

执行图3实施例的电子设备和执行图2实施例的电子设备可以是同一个电子设备,也可以是

不同的电子设备。如果执行图3实施例的电子设备和执行图2实施例的电子设备不同,两个

方法实施例中的电子设备可以进行交互,协同完成数仓模型自动打分的任务。比如说,分值

预测模型的训练步骤可以由服务器执行,利用分值预测模型进行打分的步骤可以由终端执

行。当然,预测模型的训练步骤和预测步骤也可以均在终端侧执行,或者均在服务器侧执

行。还应理解,图3实施例侧重描述与图2实施例的区别之处,而与图2实施例同理的步骤还

请参见图2实施例,在图3实施例中不做赘述。

9网302、电子设备将目标特征输入分值预测模型。

[0H9]303、电子设备通过分值预测模型对目标特征进行处理,输出数仓模型的分值。

[0120]例如,可以在模型评分界面中输出数仓模型的分值。参见图4,图4为模型评分界面

的示意图,该模型评分界面包括模型名称区域以及模型分值区域,该模型名称区域包括至

少一个数仓模型的名称,该模型分值区域包括至少一个数仓模型的分值,同一个数仓模型

的名称和分值在模型评分界面中的位置相互对应,例如在列表的同一行中。比如在图4中的

表中,表头之后的第一行为fact_material_supply_demand(物质供给与需求)和86.00,表

示名称为fact_material_supply_demand的数仓模型的分值为86分。表头之后的第一行为

fact_material_supply_demand_test(材料供需测试)和74.25,表示名称为fact_

material_supply_demand_test的数仓模型的分值为74.25分。表头之后的第三行为fact一

material_supp]y_demand_tmp2(临时物质供给与需求)和74.25,表示名称为fact_

material_supply_demand_tmp2的数仓模型的分值为74.25分。

12

CN111125531A说明书10/18页

[0121]示例性地,分值预测模型可以为XGBoost模型,XGBoost模型内部运算的过程具体

可以包括以下步骤:

[0122]步骤3031、通过XGBoost模型的每个回归树对数仓模型的目标特征进行处理,得到

每个回归树为数仓模型预测的分值。

[0123]例如,对于多个回归树中的每个回归树;可以根据目标特征在回归树中经过的目

标非叶子节点以及目标分支,确定目标特征对应的目标叶子节点;将目标叶子节点表示的

预测结果,获取为回归树预测的分值。

10124]以XGBoost模型中的一颗回归树为例,该回归树计算数仓模型的分值的流程可以

包括以下步骤3031A至步骤3031Bo

101251步骤3031A、电子设备根据数仓模型的目标特征在回归树中经过的目标非叶子节

点以及目标分支,确定数仓模型对应的目标叶子节点。

[0126]目标非叶子节点是指回归树的所有非叶子节点中目标特征经过的非叶子节点,目

标非叶子节点可以是为热度节点、属性维护数量节点、标签数量节点、报警数量节点、使用

方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的任意一种。目标分支是

指回归树的所有分支中目标特征经过的分支,目标分支可以是目标非叶子节点的分支。目

标叶子节点是指回归树的所有叶子节点中目标特征到达的叶子节点。

10127]具体地,将数仓模型的目标特征输入回归树后,会首先到达回归树的根节点,根节

点会对目标特征进行分类,判断目标特征落入第一个目标非叶子节点的哪个分支的取值范

围,得出目标特征所属的目标分支,将该目标特征输入该目标分支连接的子节点,则该目标

分支连接的子节点为第二个目标非叶子节点;第二个目标非叶子节点也会对目标特征进行

分类,判断目标特征落入第二个目标非叶子节点的哪个分支的取值范围,将该目标特征输

入该目标分支连接的子节点,则该目标分支连接的子节点为第三个目标非叶子节点,依次

类推,数仓模型的目标特征会经过一个或多个目标非叶子节点以及一个或多个目标分支,

到达目标叶子节点。

[0128]结合目标非叶子节点的具体类型,如果目标非叶子节点为热度节点,则该目标非

叶子节点会根据数仓模型的热度,对数仓模型的目标特征进行分类,判断目标特征中的热

度属于哪个分支对应的热度的取值范围,得出数仓模型的目标特征所属的目标分支。

[0129]如果目标非叶子节点为属性维护数量节点,则该目标非叶子节点会根据数仓模型

的属性维护数量,对数仓模型的目标特征进行分类,判断目标特征中的属性维护数量属于

哪个分支对应的属性维护数量的取值范围,得出数仓模型的目标特征所属的目标分支。

[0130]如果目标非叶子节点为标签数量节点,则该目标非叶子节点会根据数仓模型的标

签数量,对数仓模型的目标特征进行分类,判断目标特征中的标签数量属于哪个分支对应

的标签数量的取值范围,得出数仓模型的目标特征所属的目标分支。

[0131]如果目标非叶子节点为报警数量节点,则该目标非叶子节点会根据数仓模型的报

警数量,对数仓模型的目标特征进行分类,判断目标特征中的报警数量属于哪个分支对应

的报警数量的取值范围,得出数仓模型的目标特征所属的目标分支。

[0132]如果目标非叶子节点为使用方式维护完善值节点,则该目标非叶子节点会根据数

仓模型的使用方式维护完善值,对数仓模型的目标特征进行分类,判断目标特征中的使用

方式维护完善值属于哪个分支对应的使用方式维护完善值的取值范围,得出数仓模型的目

13

CN111125531A说明书11/18页

标特征所属的目标分支。

[0133]如果目标非叶子节点为生命周期维护完善值节点,则该目标非叶子节点会根据数

仓模型的生命周期维护完善值,对数仓模型的目标特征进行分类,判断目标特征中的生命

周期维护完善值属于哪个分支对应的生命周期维护完善值的取值范围,得出数仓模型的目

标特征所属的目标分支。

[0134]如果目标非叶子节点为事故次数节点,则该目标非叶子节点会根据数仓模型的事

故次数,对数仓模型的目标特征进行分类,判断目标特征中的事故次数属于哪个分支对应

的事故次数的取值范围,得出数仓模型的目标特征所属的目标分支。

[0135]步骤3O31B、电子设备将目标叶子节点表示的分值,获取为回归树为数仓模型预测

的分值。

[0136]在一种可能的实现中,XGBoost模型可以包括回归树、叶子节点与预测结果之间的

对应关系,每个回归树的每个叶子节点可以对应一个分值。电子设备可以从该对应关系中,

获取该回归树以及该目标非叶子节点均对应的分值,得到目标叶子节点表示的分值。

10137)步骤3032、电子设备获取多个回归树预测的分值之和,作为数仓模型的分值。

[0138]具体地,如果XGBoost模型包括n个回归树,则n个回归树中的每个回归树可以得出

一个预测的分值,共计得到n个分值,可以将n个预测结果累加起来,将得到的和值作为数仓

模型的分值。

10139]示例性地,XGBoost模型中第一个回归树的预测结果可以表示数仓模型的基础分

值,第二个回归树的预测结果可以表示第一个回归树的误差,第三个回归树的预测结果可

以表示第一个回归树和第二个回归树的误差之和,以此类推,第n个回归树的预测结果可以

表示分值的预测误差,预测误差为第1个回归树至第n-l个回归树的误差之和,n为大于1的

正整数。

10140]例如,第一个回归树得出80,表示基础分值为80;第二个回归树得出3,表示第一个

回归树少预测了3分,则将第一个回归树和第二个回归树的预测结果相加后,预测结果之和

为83,从而修正了第一个回归树的误差;第三个回归树得出-1,表示第一个回归树和第二个

回归树总计多预测了1分,则第一个回归树和第二个回归树的预测结果相加后,预测结果之

和为82分,从而修正了第一个回归树和第二个回归树总计的误差;以此类推,每当加上一个

回归树的预测结果,可以修正该回归树之前的所有回归树的总计预测的分值,从而让模型

打出的分值通过累加得以不断优化。

[0141]本实施例提供了一种对数仓模型智能评分的方法,通过利用机器学习技术,提取

数仓模型的与分值关联的特征,通过分值预测模型将特征映射为分值,从而自动化地对模

型进行打分,通过该方法,免去了人工进行打分的繁琐操作,从而极大地节省了人力成本和

时间开销,因而提高了数仓模型评分的效率,并且,由于综合统计多个维度的数据对数仓模

型进行自动评分,可以提供统一、客观的标准,从而提高数仓模型评分的准确性。

[0142]上述方法可以封装为数仓模型的分值获取接口,当任一业务需要获取数仓模型的

分值时,可以调用该分值获取接口,触发上述方法流程,自动得出数仓模型的分值,将分值

返回给该分值获取接口的调用方,从而快捷地应用在各种需要对数仓模型评分的场景。

[0143]以下通过图5实施例至图9实施例,对该智能评分方案的具体应用场景进行示例性

说明。还应理解,图5实施例至图9实施例侧重描述与图3实施例的区别之处,而与图3实施例

14

CN111125531A说明书12/18页

同理的步骤还请参见图3实施例,在图5实施例至图9实施例中不做赘述。

[0144]图5是本申请实施例提供的一种数仓模型的推荐方法的流程图。参见图5,该方法

包括:

[0145]501、电子设备接收用户的推荐请求,推荐请求用于请求为用户推荐数仓模型。

[0146]例如,终端可以响应于用户的操作,调用分值获取接口,生成推荐请求,向电子设

备发送推荐请求,以触发电子设备执行本实施例的方法流程。

10147]502、电子设备获取数据仓库中多个数仓模型的目标特征。

[0148]503、对于多个数仓模型中的每个数仓模型,电子设备将数仓模型的目标特征输入

分值预测模型,通过分值预测模型对数仓模型的目标特征进行处理,输出数仓模型的分值。

101491504、电子设备按照分值从高到低的顺序,对数据仓库的每个数仓模型进行排序,

得到排序结果。

10150)505、电子设备根据排序结果,向用户推荐数仓模型。

[0151]例如,对于数据仓库中的某个数仓模型而言,若该数仓模型的分值在排序结果中

排在前预设位数,可以向用户推荐数仓模型。例如,可以将排序结果中排在第一位的数仓模

型推荐给用户。

[0152]示例性地,参见图6,可以提供图6所示的模型推荐界面,该模型推荐界面包括模型

分值显示区域,该模型分值显示区域包括模型的分值。其中,数仓模型的分值可以作为数仓

模型的推荐度呈现给用户。例如,参见图5,模型分值显示区域可以包括推荐度、10个星星符

号以及8分,其中有8个星星符号是实心的,表示数仓模型被打了8分。

[0153]本实施例提供了一种对数仓模型智能推荐的方法,通过利用机器学习技术,使用

分值预测模型对数仓模型进行自动打分,根据数仓模型的分值来向用户推荐合适的数仓模

型,由于使用的数仓模型的分值更加客观、准确,因此根据分值进行推荐时,能够保证推荐

结果的准确性。

[0154]图7是本申请实施例提供的一种数仓模型的搜索方法的流程图。参见图7,该方法

包括:

[0155]701、电子设备接收搜索指令。

L0156J例如,参见图8,可以在界面中显示搜索选项,当对该搜索选项进行操作时,可以触

发搜索指令。该搜索指令用于指示搜索数仓模型。例如,终端可以响应于用户对搜索选项的

点击操作,调用电子设备提供的分值获取接口,向电子设备发送搜索指令,以触发电子设备

执行本实施例的方法流程。

[0157]702、电子设备响应于搜索指令,获取数据仓库中多个数仓模型的目标特征。

[0158]703、对于多个数仓模型中的每个数仓模型,电子设备将数仓模型的目标特征输入

分值预测模型,通过分值预测模型对数仓模型的目标特征进行处理,输出数仓模型的分值。

[0159]704、电子设备根据数仓模型的分值,确定搜索结果。

[0160]电子设备可以按照分值从高到低的顺序,对每个候选数仓模型进行排序,得到排

序结果,从排序结果中选择排在前预设位数的候选数仓模型,作为搜索结果。其中,对于任

一个数仓模型而言,可以根据数仓模型的分值,确定数仓模型的标识在搜索结果中的排列

顺序;例如,对于相同指标的数仓模型而言,分值越高,则该数仓模型的标识在排序结果中

的位置越靠前,从而为使用方的决策提供依据。

15

CN111125531A说明书13/18页

[0161]705、电子设备输出携带有数仓模型的标识的搜索结果。

[0162]本实施例提供了一种对数仓模型搜索排序的方法,通过利用机器学习技术,使用

分值预测模型对数仓模型进行自动打分,根据数仓模型的分值来向用户推荐合适的数仓模

型,由于使用的数仓模型的分值更加客观、准确,因此根据分值进行搜索时,能够保证搜索

结果的准确性。经实验测试,本实施例提供的数仓模型的搜索方法的准确率提高了10%。

[0163]图9是本申请实施例提供的一种数据质量报告的获取方法的流程图。参见图9,该

方法包括:

101641901、电子设备接收用户的数据质量报告获取请求,数据质量报告获取请求用于请

求获取数据质量报告。

10165]例如,终端可以响应于用户对报告获取选项的点击操作,调用电子设备提供的分

值获取接口,向电子设备发送数据质量报告获取请求,以触发电子设备执行本实施例的方

法流程。

101661902、电子设备获取数仓模型的目标特征。

[0167]在一些实施例中,数据质量报告获取请求可以包括用户账号,电子设备可以从数

据质量报告获取请求中,获取用户账号,查询该用户账号对应的数仓模型的数仓模型的目

标特征。

10168J903、电子设备将目标特征输入分值预测模型。

[0169]904、电子设备通过分值预测模型对目标特征进行处理,输出数仓模型的分值。

[0170]905、电子设备根据数仓模型的分值,生成数据质量报告。

[0171]电子设备可以将数仓模型的分值写入至数据质量报告,以使数据质量报告携带数

仓模型的分值。其中,该数据质量报告可以为个人数据质量白皮书,数据质量报告包括数仓

模型的分值,可以通过分值指明数据仓库的数据质量。

10172J906、电子设备输出数据质量报告。

[0173]本实施例提供了一种对数据质量报告的自动生成方法,通过利用机器学习技术,

使用分值预测模型对数仓模型进行自动打分,数仓模型的分值来向用户推荐合适的数仓模

型,由于使用的数仓模型的分值更加客观、准确,因此根据分值可以准确有效地反映数据质

量,保证数据质量报告的科学性。

[0174]综合上述各个方法实施例,参见图10,本申请提供了一种数仓模型的智能评分系

统,该智能评分系统的逻辑功能架构包括:

[0175]一、数据搜集模块1001

10176]数据搜集模块1001可以用于获取模型下游使用热度、模型监控指标、模型使用方

式、模型属性信息维度以及各类型告警信息,可以根据上述各个维度的信息构建测试数据

集以及数据合集,根据上述各个维度的信息构建人工标记训练数据集,将人工标记训练数

据集、测试数据集以及数据合集输出至特征工程模块1002。

[0177]二、特征工程模块1002

101781特征工程模块1002可以根据人工标记训练数据集、测试数据集以及数据合集,进

行缺失值处理、连续特征值处理、字符串特征处理以及预测模型特征选择,将结果输出至智

能评分模块1003。

[0179]三、智能评分模块1003

16

CN111125531A说明书14/18页

[0180]智能评分模块1003可以进行模型特征选择、模型训练,通过数据搜集模块1001得

到的测试数据集,对训练的模型进行验证,依据验证的结果对模型的参数进行调整,该参数

调整的过程可以是一个循环迭代的过程,经过多次迭代后,得到已训练的模型,可以使用已

训练的模型进行系统评估,例如进行模型推荐、搜索排序以及个人数据质量白皮书的自动

生成。

[0181]本实施例提供的系统,将数仓生成过程中产生及维护的元数据信息和XGBoost机

器学习算法相结合,对数仓模型进行智能评估,可以提高元数据维护完善程度。经实验,本

实施例提供的系统可以将元数据维护完善程度提高了20%。

L0182J图11是本申请实施例提供的一种数仓模型的分值确定装置的结构示意图。参见图

11,该装置包括:

[0183]获取模块1101,用于获取数仓模型的目标特征,目标特征包括热度、属性维护数

量、标签数量、报警数量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一

项;

L0184)输入模块1102,用于将目标特征输入分值预测模型,分值预测模型根据样本数仓

模型的目标特征以及样本数仓模型的分值训练得到;

10185J处理模块1103,用于通过分值预测模型对目标特征进行处理,输出数仓模型的分

值。

10186)可选地,分值预测模型包括XGBoost模型,XGBoost模型包括多个回归树,处理模块

1103,用于:通过XGBoost模型的每个回归树对目标特征进行处理,得到每个回归树为数仓

模型预测的分值;获取多个回归树预测的分值之和,作为数仓模型的分值。

[0187]可选地,XGBoost模型中的每个回归树包括一个或多个非叶子节点、多个分支以及

多个叶子节点,非叶子节点包括热度节点、属性维护数量节点、标签数量节点、报警数量节

点、使用方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的至少一项;

[0188]热度节点用于根据数仓模型的热度进行分类,热度节点的每个分支表示热度的一

个取值范围;属性维护数量节点用于根据属性维护数量进行分类,属性维护数量节点的每

个分支表示属性维护数量的一个取值范围;标签数量节点用于根据标签数量进行分类,标

签数量节点的每个分支表示标签数量的一个取值范围;报警数量节点用于根据报警数量进

行分类,报警数量节点的每个分支表示报警数量的一个取值范围;使用方式维护完善值节

点用于根据使用方式维护完善值进行分类,使用方式维护完善值节点的每个分支表示使用

方式维护完善值的一个取值范围;

[0189]处理模块1103,用于对于多个回归树中的每个回归树,根据目标特征在回归树中

经过的目标非叶子节点以及目标分支,确定目标特征对应的目标叶子节点;将目标叶子节

点表示的分值,获取为回归树为数仓模型预测的分值。

[0190]可选地,通过分值预测模型对目标特征进行处理,输出数仓模型的分值之后,装置

包括:

[0191]推荐模块,用于根据数仓模型的分值,向用户推荐数仓模型。

[0192]可选地,推荐模块,用于:按照分值从高到低的顺序,对数据仓库的每个数仓模型

进行排序,得到排序结果;若数仓模型的分值在排序结果中排在前预设位数,向用户推荐数

仓模型。

17

CN111125531A说明书15/18页

[0193]可选地,装置还包括:接收模块,用于接收搜索指令;确定模块,用于响应于搜索指

令,根据数仓模型的分值,确定数仓模型的标识在搜索结果中的排列顺序;输出模块,用于

输出携带有数仓模型的标识的搜索结果。

[0194]可选地,装置包括:生成模块,用于根据数仓模型的分值,生成数据质量报告,数据

质量报告包括数仓模型的分值。

[0195]上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再

---赘述。

10196J需要说明的是:上述实施例提供的数仓模型的分值确定装置在确定数仓模型的分

值时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能

分配由不同的功能模块完成,即将数仓模型的分值确定装置的内部结构划分成不同的功能

模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数仓模型的分值确定

装置与数仓模型的分值确定方法实施例属于同一构思,其具体实现过程详见方法实施例,

这里不再赘述。

[0197]上述方法实施例中的电子设备可以实现为终端。例如,图12示出了本申请一个示

例性实施例提供的终端1200的结构框图。该终端1200可以是:智能手机、平板电脑、MP3

(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)

播放器、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音

频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、

膝上型终端、台式终端等其他名称。

10198]通常,终端1200包括有:一个或多个处理器1201和一个或多个存储器1202。

[0199]处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处

理器1201可以采用DSP(Digital

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论