问答集锦 | 高校数据质量管理思考与实践
我们将每期线上沙龙中,老师们最关注的问题做了摘录,供大家交流探讨。本期是关于2020年4月9日“高校数据质量管理思考与实践”一期的精彩问答回顾。
01数据质量评价的六个维度具体是怎么打分的,每个维度的评分规则是什么,有文档吗?
数据质量评分参考了DAMA体系定义的数据质量评估维度而形成,在这个理论上针对高校行业进行深化,形成一套计算模型,分别从完整性、一致性、准确性、有效性、时效性、正确性六个维度总体评价学校所有数据的整体质量情况,并进行评分。具体的评价模型方法,如:每一个表都由若干个字段组成,每一个库由若干个表组成。先从字段上围绕六个维度赋予不同权重,计算出单表质量的评分,再根据学校数据的重要性,比如说从数据的体量(数据的行数)、还有结合我们开放平台有记录的每一张数据表的调用次数,赋予合理的权重,对所有表进行整体评价。值得注意的是,上述权重的配置都是软件自动平均配置的。如果在某些字段、某些表、或者某时期的数据管理重点维度需要变化,这些权重也可以手动调整,且手调整后其他内容的权重也会基于剩余权重之和进行自动平均分配。总体来说,希嘉数据质量评价体系基于科学、精准、便捷的配置与计算评价,可以从多个角度(分维度、分部门、分时段)、从宏观到微观量化的了解学校、部门、单表、单字段的数据质量问题,从而有的放矢的持续关注并解决数据质量问题。如果想详细了解产品的功能,也可以在产品里面去体验一下这一块内容。
02希嘉的数据纠错填报系统(一表通)和之前的数据填报工具系统(ExData)有什么区别?数据纠错填报系统(一表通)的数据能否直接写入业务系统?有一些数据是需要经过审核确认之后才能够核准的,这部分数据补录流程上是怎么考虑的?
1) 数据填报工具系统(ExData)是数据填报工具,主要用于学校信息中心,作用是将电子表格数据一次性批量导入数据库,并在后期进行线上的维护和更新。
数据纠错填报系统(一表通)是面向师生个人进行数据收集的线上交互式工具。由需要收集数据的管理部门设计表单,师生个人在线填表,填表完成后,数据库中将形成一张汇总表格,填表数据便可以像其他数据表一样成为可用的数据资源。
2) 数据纠错填报系统(一表通)的数据在技术层面上,我们可以直接写入业务系统。工作机制:数据纠错填报系统(一表通)的纠错、补录界面,都会关联一张数据库的表。只要该数据库拥有写入权限,纠错流程走到最后,把数据写入数据库即可。但是实际操作中这种情形比较少,有几个原因:
业务系统是由此前服务各个业务部门的数字化校园厂商建设的,不太可能让一个第三方程序从后台直接改写数据库的数据,这样极有可能导致业务上的数据不一致,或者是流程出错等问题。
从学校管理上来讲,数据直接写入业务系统,有可能导致审批过程不够严谨,大部分是通过老师对数据进行审核后,手动修改原业务系统,再进行纠错的回复。
如果业务系统确实能够提供数据库的写入接口,或者提供功能化的API接口让我们回写数据,老师可以在数据纠错填报系统(一表通)中点击同意纠错或者是补录,我们可以调用数据接口将数据写入业务系统,这个技术层面能够实现,需要对方业务系统提供数据库或者API的入口即可。
3) 我们的数据纠错填报系统(一表通)关于审核流程方面有两种设计:
第一,内置简单的流程引擎,可以实现多个节点之间的审核批准动作。
第二,如果学校已经有自己成熟的流程平台,我们也可以将一表通和流程平台对接,调用学校现有的流程引擎去启动审核流程,完成线上化的审核批准动作。
03能否梳理一下,要做这样一套数据治理体系应该是什么样的建设思路、建设顺序?比如,数据中心建立、业务平台互通、数据处理。
因不同学校建设情况不同,这个问题无法遵循一套答案,但基本可以归纳成两种不同的情形:
1、 现状是,学校的信息化建设当前比较完善,各个部门的业务系统都能够正确运行,各个系统的数据也比较健全。则建设顺序是,可以先启动大规模的数据中心建设,将学校的数据进行全量采集。与此同时,上线为全校各个部门提供综合服务的业务平台,让全量数据和业务平台充分打通充分互动,这是一种大张旗鼓的建设方式。
2、 现状是,学校当前很多系统本身都还不够健全,这时候即使是想做全量数据中心,现实条件也不允许。但是即便如此,学校也有业务管理的需求,希望能够通过类似于一站式服务平台、一网通办的模式给师生提供高效的信息化服务。则建设方式是,可以采取分步骤、分阶段、交互式建设方案。将学校的核心数据进行相应梳理,建设一个以主数据为主的数据中心,基于这个数据中心支撑一部分业务流程的运行,当然该阶段上线的业务流程是相对重要和核心的业务。在这两个中心建设起来之后,利用业务运行过程中产生的新数据逐渐丰富数据中心的数据资源。在业务运行的过程中,会暴露出很多原先数据的漏洞缺失,或者没有注意到的数据的问题,之后再进行数据治理,逐渐完善数据的内容,并利用丰富和完善之后的数据不断支持更加多样化的业务流程内容,形成轮动式发展。
而至于数据处理,则是弥漫在整个数据建设和业务管理过程中都会涉及的活动,是一个分布式的、日常性的工作,所以谈不上顺序,是一个必须要做的工作。