诺仪文秘网 - www.zhuhainuoyiwuye.com 2024年05月20日 23:58 星期一
  • 热门搜索:
  • 当前位置 首页 >专题范文 > 公文范文 >

    2023年度企业大数据治理平台技术白皮书 【通用文档】

    浏览数: 发布时间:2023-02-17 15:10:04

    企业大数据治理平台技术白皮书 目录1.大数据治理平台整体介绍.................................................................下面是小编为大家整理的企业大数据治理平台技术白皮书 ,供大家参考。

    企业大数据治理平台技术白皮书

      目录

      1.

      大数据治理平台整体介绍...............................................................................................31.1概述

      ...........................................................................................................................................................31.2特色功能....................................................................................................................................................41.2.1元数据版本控制

      ..............................................................................................................................41.2.2元数据的全生命周期管理.............................................................................................................41.2.3智能规范的数据字典标准.............................................................................................................51.2.4数据权限的精准控制

      ......................................................................................................................51.2.5精确到字段级的数据血缘.............................................................................................................51.3适用场景..................................................................................................................................................52.

      系统组成与功能

      ...................................................................................................................52.1元数据系统...............................................................................................................................................52.1.1元数据服务......................................................................................................................................62.1.1.1通用

      ..........................................................................................................................................62.1.1.2支持的数据源

      .........................................................................................................................62.1.1.3Namespace............................................................................................................................62.1.1.4变更策略..................................................................................................................................62.1.1.5版本控制..................................................................................................................................2.1.2元数据采集程序Agent.................................................................................................................2.2数据字典....................................................................................................................................................2.3数据目录....................................................................................................................................................2.3.1数据目录...........................................................................................................................................2.3.2数据资产云图

      ..................................................................................................................................2.4数据血缘....................................................................................................................................................2.4.1血缘分析和影响性分析..................................................................................................................2.4.2链路分析...........................................................................................................................................2.5数据安全....................................................................................................................................................2.4.1权限控制...........................................................................................................................................2.4.2ApiGateway....................................................................................................................................3.

      部署.......................................................................................................................................3.1通用

      ............................................................................................................................................................3.2应用服务....................................................................................................................................................3.3存储

      ............................................................................................................................................................1.大数据治理平台整体介绍

      1.1概述

      近年来,随着企业的信息化数据沉淀,内部各业务线的数据仓库建立完成,如何将数据统一管理,提升数据价值成为了企业关注的重点,有效的数据资产管理是大数据与实体经济深度融合的必经之路。数据成为资产的概念逐渐深入人心。

      数据治理在衔接大数据治理平台和数据应用中起着重要的作用。对上支持以价值挖掘为导向的数据应用开发,最大化利用数据,对下依托大数据治理平台实现数据全生命周期的管理。因此,越来越多的企业逐渐意识到数据治理工作的重要性,并将其作为数据应用建设的第一环节。

      在这样的需求下,基于元数据驱动的企业数据治理产品大数据治理平台应运而生。大数据治理平台涵盖了元数据的采集,数据字典标准的智能规范,数据的生命周期管理,数据安全的精准控制,数据资产的流通与监控,数据血缘的回溯和影响等功能,一站式解决数据治理的难题。并在此基础上,做到全面化、自动化和智能化地开发、管理、共享和使用数据,大大节约时间,减少人力成本。

      大数据治理平台在大数据应用体系中的定位如图1:

      图1大数据治理平台的定位

      大数据治理平台的整体架构如图2,整体上分为接入层、服务层、接口层。接入层包含元数据采集和血缘关系采集,服务层包含元数据、数据目录、数据关系、数据申请、权限等5个服务,接口层提供元数据检索查询、数据关系查询等通用接口。

      图2大数据治理平台整体架构

      1.2特色功能

      1.2.1元数据版本控制

      采集接入的元数据支持多版本控制,历史版本会做备份,用于数据恢复或回滚。同时,每次接入时会做版本比对,支持自定义的版本比对控制策略。当出现不兼容等策略限制时,会禁止接入。

      1.2.2元数据的全生命周期管理

      元数据的状态从接入到平台后,演化为未发布、发布、发布后更新、再发布、取消发布等,即从初始到消亡的全生命周期。数据还存在冷热程度变化的隐性状态,借助于数据热度分析,辅助业务数据仓库制定合理的冷热存储资源策略。

      1.2.3智能规范的数据字典标准

      数据字典标准可以通过人为采集录入,也可通过自动化扫描全域元数据,智能感知相似数据进行聚类处理,初步提炼标准数据,减少人力成本。

      1.2.4数据权限的精准控制

      数据权限的申请和赋权都可以精确到字段级,申请到的权限可以用在数据拖取、跨数据源查询、权限下发等统一出口(几大能力在开发中,后续提供)。同时,通用的权限模型可快速适配绝大多数数据处理工具。

      1.2.5精确到字段级的数据血缘

      基于数据关系的血缘分析,大数据治理平台支持精确到字段级别的元数据血缘关系处理,为元数据的追溯和影响分析提供更精确的数据支撑。

      1.3适用场景

      1.各业务数据仓库独立,各自实现复杂,互相无通信,数据不流通,数据价值无法发挥,缺乏整体统一数据管理平台。

      2.权限各自独立实现,无统一出口,数据交换不可控,数据安全无法保证,缺乏统一数据处理平台。

      2.系统组成与功能

      2.1元数据系统

      元数据系统主要由两部分组成,元数据管理系统和元数据采集程序Agent。架构图如图3.

      图3元数据系统架构图

      2.1.1元数据服务

      2.1.1.1通用

      元数据系统属于无状态服务,可直接弹性扩容缩容,支持高可用。提供通用Rest接口,接收元数据推送。

      元数据存储能力在百万级,包括分区等数据存储相关信息。采用MySQL作为元数据存储方案,一主多从,支持高可用。

      由于服务和存储可线性扩展,元数据同步具备高吞吐、低延迟等特点。未来会引入消息系统,增加高峰请求的并发处理能力。

      2.1.1.2支持的数据源

      目前支持Hive、MySQL通用关系型数据库。我们做了大量调研以及和多个客户沟通后,确定这两大类型能够覆盖到业务数据仓库场景80%以上。同时,文件、ES、MongoDB等多种数据源类型在持续开发中。

      2.1.1.3Namespace

      大数据治理平台对于元数据的定义,除了通常理解的数据库和表,新增了Namespace的概念。可以管理来自于多个业务数据仓库的元数据,避免database重名及其他问题,增加了元数据管理的灵活性和扩展能力。

      2.1.1.4变更策略

      业务数仓的元数据存在更新情况。元数据的更新接入受变更允许策略的控制,这个策略配置基本取决于数仓的选型,各种数仓的变更策略可能会不同,总体原则都是元数据变更后,不能影响访问历史数据。比如,Hive不支持删除字段,不支持类型长度精度的向下变化等。

      2.1.1.5版本控制

      元数据更新后,不会对历史数据修改,而是版本上的递增,历史版本会做备份。同时提供版本对比的能力,确定版本的变化,为数据资产层面的历史追溯做支持。另外,从数据使用层面,比如数据查询或数据拖取,元数据的历史备份也会在出现问题时及时回滚,不影响上层业务应用的正常执行。

      2.1.2元数据采集程序Agent采集程序Agent是开源的,部署在数据仓库侧,根据配置中指定的库表白名单,定时分钟级采集业务数据仓库中的元数据,推送到元数据系统中。

      Agent支持检测是否存活,当异常中断或退出时,会自动拉起。

      Agent可以二次开发,目前支持采集Hive和MySQL,后续可根据数据仓库类型定制开发。同时,采集策略后续也可在现有定时采集的基础上扩展到元数据变更主动触发式采集,减少变更延迟。

      2.2数据字典

      数据字典是多业务数仓之间统一的数据规范和标准。

      大数据治理平台可以在系统初始部署后,对接入平台的各业务数仓的全部元数据进行扫描,智能感知相似数据进行聚类处理,初步提炼标准数据,减少人力成本。相似数据的定义支持自定义,比如模糊匹配、同义词匹配或其他自定义配置规则。在智能处理后,再人为介入处理,大幅提升效率。

      2.3数据目录

      2.3.1数据目录

      接入到大数据治理平台平台后,数据在各种状态下流转。同时一份数据可能在发布后持续更新,通过采用读写分离方案,保证一份数据在多种状态下互相不冲突。

      大数据治理平台支持灵活可配置的全文检索方案,包括索引字段可配置、检索权重策略、可扩展的中英文分词策略等。默认情况下,会对主要字段建立索引用于检索,在元数据属性扩展后,用户可自行定义索引字段。同时,大数据治理平台会根据数据的价值等指标自动调整检索结果权重,使高价值数据更容易被发现。可扩展的分词策略支持业务级别补充,使更符合业务场景的数据被精准检索到。

      2.3.2数据资产云图

      通过对历史数据的备份处理以及完善的日志审计,大数据治理平台支持对数据资产进行TOP分析、趋势分析、分布分析,提升资产价值回归和数据风险防控能力。

      2.4数据血缘

      通过下发到业务数据处理系统的采集程序Agent,大数据治理平台可以采集并处理精确到字段级别的元数据血缘关系,为元数据的追溯和影响分析提供更精确的数据支撑。

      2.4.1血缘分析和影响性分析

      大数据治理平台自主研发的元数据关系解析系统,将收集到元数据关系解析成一张关联所有元数据的逻辑数据关系网,可以从某一数据节点出发向前向后寻找多级关系链路。关系解析系统支持高吞吐高并发的关系数据收集,达到实时更新。同时对于复杂的多层级过滤的血缘分析和影响分析,支持秒级快速响应。

      对于同一条数据关系(血缘关系,节点-关系-节点),会以时间为节点记录版本信息。

      2.4.2链路分析

      元数据关系系统在设计上和各业务数据处理系统打通,在全网数据血缘链路上对调度任务的动态运行情况进行实时监控告警,对全域数据处理任务整体把握。

      2.5数据安全

      2.4.1权限控制

      大数据治理平台提供基于RBAC的通用权限模型,支持字段级别的精细化鉴权赋权能力,同时权限模型可适配绝大多数数据处理工具。

      2.4.2ApiGateway

      统一的数据安全网关(ApiGateway)功能在开发中,ApiGateway通过下发到业务数据仓库中的Agent,提供统一的数据访问控制策略,打通从数据接入到数据融合使用的全闭环场景,未来会包含权限下发、数据脱敏加密、数据访问行为审计以及访问流量阻断控制等组件能力。此功能在开发中。

      3.部署

      3.1通用

      所有应用服务均部署在Linux上,版本CentOS6.5及以上。均依赖于JVM运行环境,版本1.8及以上。

      3.2应用服务

      目前大数据治理平台整体上包含元数据、数据目录、数据关系、数据申请、权限等5个服务,各服务之间采用http接口调用。均为无状态服务,可交叉部署,最简可使用两台机器,互为主备服务。

      3.3存储

      采用ES作为索引服务,支持HA,版本6.1.3及以上。

      采用MySQL作为元数据、血缘等数据存储,一主多从支持高可用,版本5.5.59及以上。

      采用Redis作为缓存服务,Sentinal模式支持高可用,版本4.0.0及以上。

    推荐访问:大数据治理平台调研报告 企业大数据治理平台技术白皮书 白皮书 治理 数据

    相关文章:

    Top