建设目标
(1)建设全生命周期数据治理体系
通过实现对数据资源的全生命周期管理,包括数据标准、数据采集、数据仓库管理、数据质量监测、数据接口开放、数据资源发布、服务状态呈现、数据应用分析等各方面,建设全生命周期数据治理体系。
(2)提供全功能的数据接口
使用安全、先进、便捷的技术手段提供数据接口,包括编程接口、数据库接口、消息接口、文件接口等多种在线、离线方式,为数据应用场景提供服务。
(3)为全方位业务场景提供数据支撑
全域数据中心建成后,需要为信息门户、微服务、决策支持、软件开发、数据共享、数据填报等各种场景提供数据服务,通过准确详实的数据保障各项业务顺利进行,减少数据协调所耗费的精力和成本,协助领导层通过数据分析及时准确的掌握学校的各项情况,为管理和决策过程提供数据支持。
(4)通过制度建设确保长效机制
通过建设数据管理规范和制度体系,从根本上解决当前存在的各种数据管理问题,实现“一次治理、长期受益”的长效机制。
(5)通过数据治理建设为“双高”等应用提供支持
通过多维度的数据采集、集中和治理,使数据表达规范,内容准确、维度完整,形成标准统一、分类清晰、质量可信的数据仓库和数据集市,为“双高”应用提供支持,辅助提升办学水平和服务能力。
建设方案
1,全维度数据采集与治理
要实现全生命周期数据治理体系需首先完成数据的全量采集,且要求覆盖的数据维度和内容尽量全面,因此需要将对散布在全校的各种有价值数据进行识别和采集。从数据来源上,主要存在两种形式的采集方案:
1)线上业务系统数据采集:包含人事、教务、资产、财务等全量业务数据采集,其中约20张服务于“双高”指标分析。
2)线下(离线数据采集):存在于学生工作处、继续教育学院、科技产业处、计划财务处、网络与信息中心等9个业务部门的离线数据,完成约50多张表的设计与填报工作;同时,针对教师个人相关数据,通过教师个人数据中心完成数据的纠错与补录。
其次数据采集后,按照3个层次的顺序进行集中、清洗、归类和组合:
1)数据湖层:这一层实现数据的汇总集中。
2)数据仓库层:这一层实现数据的标准化、质量提升和结构整合,并进行历史数据存档。这一层是数据资产化管理的主要层级。
3)数据集市层:这一层是将数据按照各个应用所需的内容和形态进行定制组合,便于应用厂商准确定位、快速调用、防止其访问到无关数据,保证数据的有效性、安全性。这一层是数据与应用对接的主要层级。
2,提供全功能数据连接
通过希嘉统一数据开放平台,提供4种数据连接功能向应用系统和个人用户供应数据:
1)API调用:开放特定数据接口(即API)的访问权限,供应用程序通过代码调用数据。
2)数据库连接:开放部分数据表的连接权限,供应用程序通过数据库客户端程序直接连接到数据库上读取数据。
3)数据推送:通过ETL软件将各个应用所需的数据推动到中间库中。
4)电子表格离线下载:将数据表转换成电子表格文件供使用者下载后离线使用。
3,全生命周期管理
配置5类软件实现对全域数据的采集、治理、管理、发布应用:
1)数据采集软件:这是对数据集中过程进行数据搬运、转换的软件。包括数据集成管道、离线数据填报工具。这些工具将数据从来源系统抽取到数据湖中,并通过抽取、转换、加载过程实现各个业务系统之间的定时数据同步和推送。
2)数据仓库管理系统:这是对数据治理过程进行知识图谱管理的软件。对数据标准、代码标准、数据结构、数据属性、数据血缘关系、数据质量、数据接口等方面进行管理。
3)统一数据开放平台:这是将治理完成后的数据与应用之间进行对接的软件。包括对数据的注册、封装、发布、授权、安全策略、调用监控等功能。
4)数据智能门户:将数据资产面向全校各部门、各应用厂商进行呈现,并通过这个入口进行浏览、连接的软件,是信息中心与全校各部门关于数据资源进行管理互动的重要软件。各个不同的数据使用方可以在该环境中查看学校发布的数据标准、可供访问的数据资源,以便在线申请使用。各个部门可以查看该部门提供数据的情况、获取数据的情况、数据存在的质量问题和改善进度、数据在全校流动的全生命周期信息等。
5)数据纠错补录与数据可视化平台:以数据中心数据为基础,通过数据纠错补录系统配置个人数据中心,实现数据的纠错补录;同时通过希嘉数据可视化平台datasight,实现“双高”指标的计算及图形展示,校内各角色可通过改平台实施掌握学校各指标进展情况。