400-0380-010
申请试用
免费预约演示
让我们的咨询顾问用最短 20分钟 的讲解,来帮助您
更高效的评估大数据+RPA
数据智能图谱应用-数据迁移
发布时间:2021-06-07 浏览:1

数据迁移中存在的问题


数据中台被誉为大数据的下一站。 数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。


鉴于数据中台的优点,越来越多的企业选择搭建数据中台,把大量的,跨平台的企业数据接入中台进行统一管理。我们需要将原有数仓的数据以及逻辑迁入到中台。


迁移过程中不可避免的会产生一些难以解决的问题,如何确保数据迁移逻辑的正确性?如何又好又快的进行迁移?如何在迁移前后减少数据冗余缩减成本?


什么是数据智能图谱


目前市场上有种类繁多的数据管理软件,包括数据目录、数据地图、数据资产管理等,大多数只做表面文章,把它建设成为一个相对固化的为数据资产仪表盘服务的 MIS 系统,关注的数据只到系统级或应用级,稍为好一些的能够到表级,很少有平台可以到字段级的数据血缘分析,而且不少是用手工梳理的简单映射关系,无法理清数据间的计算逻辑和业务关系。


尤其是沉淀在各类系统中的程序与脚本中的计算逻辑,比如数据库中的存储过程、从传统大机上的 COBOL 代码到目前机器学习中广泛应用的 Java、Python 语言,对于这些的程序、算法的数据资产,往往对于很多企业就是个黑盒。如何能够将复杂而繁多的程序代码变成有序的业务逻辑或计算逻辑,对于数据的迁移、升级,审计和追溯都至关重要。


数据图谱是新一代的企业数据资产化的基石,它是以元数据管理为核心,利用自动化、机器学习/人工智能技术实现的企业数据资产管理与分析平台

640

1.超强的元数据采集器除了能够全方位的元数据自动化采集,包括:从传统数据库到大数据到云端数据、从数据集成工具到报表可视化平台、从 COBOL、Java 到数据科学的 Python 和 R 等,不仅可以实现字段级的血缘分析,而且可以解析其中代码的数据计算逻辑

2.利用人工智能和机器学习将数据血缘自动化关联起来,同时导入数据质量、系统日志等信息,实现活动元数据的全链路分析;

3.将组织结构、数据目录、业务术语及数据血缘结合起来,让企业容易定位数据资产,了解数据资产在企业内部是如何流转和变化的。

4.数据图谱不仅可以布署在云端,也可以实现企业内部私有化部署

下图是从SPARK SQL到数据图谱的解析样例

图片

640

有了数据图谱,理清了数据间的血缘关系和影响关系,同时透视其间的计算逻辑和业务逻辑,为后续的大数据协同创新及数据资产变现打下了坚实的基础。业务用户可以通过数据目录快速定位到自己所需的数据,了解其的真实含义及来龙去脉,通过数据API服务平台实现资产服务化,对内可实现资产重用和激发创新,对外实现企业间数据资源的快速交换,实现企业的数据生态圈。

640 

采用数据智能图谱解决方案的数据迁移优势


传统数仓例如oracle,sql server, mysql等和脚本例如java,P/L等,在数据信息化的进程中越来越难承担起原来应有的作用,存储管理、综合搜索、分析挖掘和实时处理等能力都无法与中台相比。我们要把原有在传统数仓或脚本的数据脚本平移到数据中台上,由于架构的不同,数据脚本和ETL通常无法直接平移,需要转换成中台所认知的语言。而在企业中,这些成千上百的脚本或ETL往往是存在了很长时间,很难找到一个完全了解它们逻辑与血缘的技术团队。迁移团队完全不清楚其中的逻辑或仅仅是一知半解,需要大量的人工去确认每一段脚本或ETL的逻辑以及表与表之间的血缘,迁移周期无限期延长。 


采用数据智能图谱解决方案,能够提供所有企业数据信息资产的完整可视化视图,能够清楚的看到在ETL每一步中的逻辑,并且可以细化到字段级别,解放大量的人力资源,避免迁移项目持续时间过长,能够很快速的完成从传统ETL和脚本到数据中台的迁移


例如,我们有一段大约 500 行的存储过程,我们需要了解目标表的某个字段是从源头如何得到的,其中涉及什么逻辑,如果是人工发现,可能需要观察很久,大约两到三天才能整理完成,并无法保证正确性,且需要反复验证。


而采用数据智能图谱解决方案,只需要将这段存储过程一键导入,就能够很直观的看到字段级的血缘关系,并将脚本中的语句标亮,提示逻辑,方便技术人员进行整理,无需费力的人工观察。数据智能图谱经过大量脚本和ETL解析的验证,能够保证其解析逻辑的正确性。

    

另外,由于企业业务系统繁多,接口混乱,有可能存在很多冗余的数据,表,数仓等等。我们如何发现这些重复性的数据以节省迁移成本呢?数据智能图谱解决方案提供了数据的相似度,能够从不同的层级(Table,system等)快速的发现相似并提供相似比分,能够让技术人员很方便的辨别数据是否冗余,快速高效节省成本。

   

总结

企业在数据资产化的过程中,不可避免的要进行数据的迁移动作,对于存在大量脚本和ETL并且没有技术人员清楚逻辑的情况,采取人工辨别极其的消耗资源。数据智能图谱能够对程序脚本,存储过程,各种 ETL 进行字段级的逻辑解析,节省 迁移成本,支持 50 余的接口,是企业数据资产化的不二选择!