虽然西电的信息化建设已经取得了不错的成绩,但是随着学校全面推动由传统教学向信息化教学方向的转变,学校业务需求也从以“管理为目标向以服务为目标”和“从以流程为中心向以数据为中心”的转变,原有的技术架构已无法满足学校新的业务需求,在这样的大背景下西电的信息化建设工作也在业务需求的驱动下不断完善。具体可分为如下三期:
第一期:扩展数据维度
2017年6月1号随着《网络安全法》的颁布:要求采取检测、记录网络运行状态、网络安全时间的技术措施,并按照规定留存相关的网络日志不少于六个月;西电也提出了通过网络日志数据进行学校网络环境的安全监测和辅助学校科学研究的需求。
因此本期希嘉为西电提供了基于分布式存储计算架构(hadoop)的日志数据处理系统,将学校近10类日志数据进行集中采集、结构化解析存储和按需计算供给,西电近10类日志数据每天可产生700G的数据,截至目前经过近三年的运行已为学校存储了PB级的日志数据资产,日志数据先后被提供出去支撑了学校科研老师的科学研究(防火墙数据分析师生上网时长和喜好),支撑了学校网络态势感知的分析(提供了山石防火墙、华为BAS、绿盟WAF、深澜认证、汉领NGDAP数据库防火墙等几类设备的日志数据),支撑了学校学生安全管理等使用场景,当前网络日志数据已成为学校数据体体量最大且不可或缺的数据资产。
第二期:解决数据使用瓶颈
2018年初西安电子科技大学校制定了信息化“五个一工程”建设目标,但是支撑这个目标实现的所有的数据交换需求基本都需要通过信息中心的数据管理员来完成,随着学校各科研部门、业务科室和三方开发者对数据使用需求和频次的指数级增加,信息中心数据管理员已成为了阻碍学校数据正常流通的瓶颈所在,具体表现在:
1、 工作吃力不讨好:学校每天少则几十次多则近百次的数据调用需求,需要信息中心3位数据管理员几乎全部的办公时间都耗在(查找数据—》整合数据—》沟通数据推送方式—》推送数据—》解释数据含义—》解决数据质量问题)的无尽循环中,而且大多数数据申请需求申请的数据是一样的,例如统一身份认证基本只会用到人员信息表、组织架构表、一卡通账号、照片和外链表的数据,但是我校158个系统或应用做统一身份认证都需要用到这几张表的数据,这就导致我校数据管理员不得不将大量的精力花在这单调重复的工作中,即使信息中心工作量这么大数据需求方遇到数据推送不及时或者数据质量不满足需求的问题都把责任归咎于信息中心工作没做到位。
2、 数据供给方式单一:通过ETL推送方式对外提供数据的方式,时间一长由于推送的中间库太多,给多少个中间库提供了哪些数据、数据是否有被继续使用,都无法自动留痕管理,给数据的安全带来了很大的隐患。
3、 数据实时性得不到满足:ETL数据推送方式延时比较大,像课表查询、工资查询、考勤等对数据实时新要求较高的需求武大得到满足。
以上问题得不到解决不仅无法满足学校的正常数据使用需求,而且各数据需求方对信息中心提供数据服务的满意度也日益下降。因此希嘉第二期为西电提供了统一数据开放平台及相关服务来帮助学校解决当前数据使用过程中遇到的问题,具体如下:
1、 工作轻松又讨好:统一数据开放平台可以统一注册管理学校多源异构数据库中的数据资产,可以将数据资产向淘宝商家销售商品一样呈现给数据申请者,让数据中心的管理人员可以从传统的查找表格、提供接口、同步数据的方式解放出来,只需要对数据的申请方进行管理、审核和检测即可。可以将更多的精力放在数据资产质量的把关、数据资产全面性的审核和补充上,同时也为众多数据申请者简化了数据申请流程,节约了数据申请时间。
2、 多种数据供给方式:统一数据开放平台在ETL推送数据的基础上基于不同业务场景又扩展了以下三种数据供应方式平:
(1)事务/分析应用建设:以标准数据API接口开放,屏蔽异构的数据源类型。并通过线上开发者中心提供完整的API集市、调用文档、示例等服务。
(2)BI可视化分析构建:提供数据源连接开放,可线上登记申请,同时为学校提供管控功能。
(3)师生用户数据服务:提供文本数据开放服务,申请审核通过后直接生成Excel、TXT文件,方便不具备开发能力的校内用户也可以快速获取全面的实时数据。
三种方式都支持数据的一次发布、多次使用,(例如:类似统一身份认证数据只发布一次即可被申请者自主调用无数次),同时使用过程全部留痕(可用于信息中心工作成果汇报),不仅保障了数据的安全性,又支撑了全场景应用生态。
3、 数据的实时性得到满足:以上三种数据供给方式都支持直连源业务系统将数据发布出来供数据申请者调用,源业务系统任意数据的变动,目标系统都可以实时捕获,解决了学校课表查询、工资查询、考勤等众多有数据实时需求的业务场景。
希嘉通过向客户提供统一数据开放平台和对需要发布的数据提供数据治理服务彻底帮助信息中心在逻辑层面构建了“数据一个库”,解决了数据使用瓶颈的问题,用学校马老师的话说:帮他们解放了80%的工作量(原来3个人忙不过来的工作量,现在一个人轻松搞定),同时该平台也降低了数据使用者的数据使用门槛、简化了数据申请流程,提升了用户数据使用体验和满意度,协调数据所花费的时间显著减少,应用平均上线时间从之前的11个月减少到了3.5个月。让数据真正意义上成为资产及时有力的支撑了学校18年“五个一工程”战略目标的落地。18年具体落地成效如下:
● 数据一个库成效:共完成了192张数据表汇聚,ETL上行接口共390个,ETL下行接口共812个,为全校117个系统提供了数据共享。为上层应用通过API共发布了211个API,一年之内支撑了学校51个应用的上线,API被调用总次数超过千万次;
● 认证一个号成效:在数据开放平台的支撑下18年新增近百个系统的统一身份认证对接,共认证系统158个,调用数据表1186张次,业务系统覆盖率95%;
● 管理一张表成效:支撑了学校上线表单59个不同种类,力求推进数据多跑路,提高管理服务效率,全校师生共完成6万多份自主打印。其中支撑学生自助打印本课程成绩单近三万份,研究生成绩单近1.5万分,其他供给1.5万余份;
● 服务一个站成效:通过数据开放平台支撑一站服务大厅上线微应用/服务总数266个,PC总访问量高达62万次,日均访问量达3500+。移动校园APP(i西电)上线微应用/服务百余个,用户数20000+;
● 决策一个键成效:通过数据开放平台支撑了学校自研的《大数据决策支撑平台》辅助管理和决策支持的效果初显,建成了包括教育教学、综合预警、招生就业、精准资助、科研贡献、学生画像、资源使用及人事分析在内的10个主题分析模块,并建立相应的评估评价指标,为精准决策提供支撑。
第三期:实现数据全生命周期管理
2019年初学校在《教育信息化2.0行动计划》指导下,制定了以信息化促进管理服务创新。在“五个一工程”基础上推进落实信息化体制机制升级改造,以保障全校数据实现“互联互通”、全校业务实现“一网通办”、彻底解决师生办事重复填表的信息化建设目标。
对标19年目标要求,经过信息中心对数据资产多年持续的积累和运营后,18年在支撑学校信息化建设目标:“五个一工程”落地方面取得了显著成效,这已经让学校包括校领导、职能部门、及师生在内的广大群体切身感受到了数据带来的红利、感受到了通过数据服务对日常工作和管理服务带来的创新和变革。但随着数据的不断汇聚和使用,仍然在以下几方面发现了不足:
1、 数据质量问题日益凸显
当数据被当做资产用起来后,高频、大量、全场景的数据使用需求会把每一个细小的数据质量问题无限放大,数据资产不全面、数据格式不统一、数据无注释、数据内容错误或者缺失等问题的被动响应让信息中心应不暇接,这又成为了信息中心推进信息化工作新的瓶颈所在,而且该问题的解决已迫在眉睫,学校急需一套数据质量的闭环管理机制来解决日益凸显的数据质量问题。
2、 共性数据萃取不足
学校的整体业务是有很多不同的业务场景共同构建的,在前期的信息化建设过程中,西电信息中心的数据已经能够为业务场景提供数据,但是提供数据需要从不同的数据库表中获取数据,组成场景需要的数据,这种支撑业务场景的方式效率低下,不熟悉业务的数据管理员不能提供具体的数据,只能提供全量数据,导致数据安全管理存在一定隐患。
西电在数据使用过程中发现大多数业务需求所需要的数据比较固定,例如统一身份认证基本只会用到人员信息表、组织架构表、一卡通账号、照片和外链表的数据,但是西电158个系统或应用做统一身份认证都需要用到这几张表的数据,这就导致西电数据管理员不得不将大量的精力花在这单调重复的工作中。
结合西电数据管理员近几年的经验来看当前80%的业务场景事实上都可以由20%具有共性的数据集来支撑(统一身份认证案例),但是由于这些共性的数据表未被归纳整理出来,导致西电数据管理员即使花费80%的精力来准备业务层所需要的数据表,都仍然无法满足业务层应用开发对数据需求的速度。
3、 数据资产不清、流向不明
当前信息中心已经建成了包含全校大部分业务系统主数据的共享数据库,已能够支撑绝大部分的数据共享交换需求,但是因为数据资产不清,数据流向不明的问题给数据的使用带来了众多的困惑,具体表现在:
● 对于校领导:信息中心无法为校领导提供一个直观的展示界面,让校领导可以一目了然的了解学校的数据资产现状、各部门数据提供排名情况、各部门数据质量排名情况、各部门数据标准遵循情况、各部门数据问题解决情况等,让校领导可以在宏观层面实时监督学校数据资产运行现状,为校领导部门问责和关键协调提供决策支撑。甚至校领导自己想要及时了解学校的预决算等数据的统计情况都没有办法及时准确的知道。
● 对于职能部门: 各个部门想直观了解自己到底已提供出去了多少数据,提供的数据支撑了学校哪些业务运行,还有哪些业务需要本部门提供什么样的数据来支撑,本部门需要的数据应该有哪些部门供给?本部门在数据使用过程中遇到的数据质量问题总是不能得到及时有效的解决。业务部门对这些情况都有迫切的知情权,但是信息中心又没法给出准确的答复。
● 对于广大师生:没有渠道了解学校与自身相关的数据资产到底由哪些部门分管,导致好多数据每年都存在重复填报的问题,关键是填来填去最后反馈回来的数据还是有一堆问题,但是就是不能清晰的知道到底应该找谁来核对解决?这种情况导致师生在各部门办事时经常遇到阻碍、浪费了个人时间,或与部门工作人员之间产生不必要的矛盾,而为了协调解决这些问题也给信息中心和各职能部门带来了无尽的烦恼和巨大的工作压力。
● 对于信息中心:信息中心虽然作为全校数据资产供需管理的枢纽节点,但是却缺乏对数据全周期、全流向的有效监管能力;比如信息中心无法及时掌握源头数据的变更情况,这样不仅会使得下游有实时性要求业务场景就没法得到很好的满足(工资条案例),而且这些变更对下游带来的业务影响也无法及时准确的评估。这就会导致作为全校数据枢纽节点的信息中心会成为背锅侠,任何数据问题都是信息中心的问题,导致工作中总是吃力不讨好,信息中心也继续新的技术手段救自己于水深火热之中。
以上问题成为了掣肘西电2019年信息化目标实现的主要障碍,因此西电启动了第三期《数据治理与共享》建设项目来解决以上问题,具体建设内容如下:
一、 通过治理提升数据质量
本期项目希嘉完成了西电11个处级单位、38个科室、46个业务系统数据的全面调研,建设了较完善的数据仓库体系(数据湖—》数据仓库—》数据集市三层架构)。治理后基本解决了之前存在的数据质量问题,同时也对数据的全面性、完整性、准确性进行了补充。具体表现在:
1、 输出数据标准及数据管理制度
希嘉通过调研为学校数据了符合学校实施数据标准的西安电子科技大学校级数据标准V1.0和多个配套的数据管理制度。
2、希嘉新建的数据湖中
● 治理前学校老共享库中共有783张数据表、字段数12000+、注释率37%,学校日均处理10余件数据质量相关的问题。
● 治理后识别出老共享库中有495张有用的数据表(288张无用的数据表),有用的字段数8000+,希嘉新建数据湖完成了对学校老共享库的融合替换。
● 希嘉根据学校的业务需要又从46个业务系统共补采了近3000张数据表,最终新建的数据湖中共集成了3698张数据表、字段数68590、字段注释率提升到了87.9%。
3、希嘉新建的标准化数仓中
校级数据标准在数仓中完成标准数据模型的创建,然后从数据湖中把数据按照标准加载转换到数据仓库中,最终进入到数据仓库的数据表共计566张(包括253张标准代码表和313张标准数据表)、20460个字段、字段注释率95%。
二、 通过数据集市萃取共性数据能力
希嘉以学校实际业务需求为导向萃取相应数据集,按照西电实际业务经验来看,本期项目按照部门职能、业务需求、分析需求三个方向完成了数据集的萃取工作,截止目前共创建API近800个,支撑了学校近百个应用的正常运行,接口累计被调用4500万次,日均调用11万次,有效支撑了学校的日常管理和教育教学工作。
三、 通过数据资源门户理清数据资产和流向
本项目为西电电子大学定制化开发了数据资源门户系统,目的就是通过对数据进行全生命周期的梳理帮助学校解决数据资产不清、流向不明给学校各个角色(校领导、职能部门、信息中心、广大师生)带来的数据使用问题。具体建成成果如下:
● 对于校领导:通过资源门户的总览界面可以直观的了解到数据资产现状,掌握数据提供排名情况、数据质量排名情况、数据标准遵循情况、数据问题处理情况等,既可以为校领导提供宏观层面的决策支撑,也可以让校领导根据数据使用需求自主完成excel电子表格数据的下载。
● 对于职能部门:通过数据资源门户的部门或主题界面可以让各个部门对每一张数据表的供需情况、流向情况和被使用情况,本部门需要的数据提供了在在线的申请界面,数据质量问题也可以直接溯源查看,不仅满足了部门对数据的知情权,还降低了各个部门使用数据的门槛。
● 对于广大师生:通过希嘉的数仓架构对学校“一网、一次、多端(PC端、移动端、自助端)”服务体系的支持,基本上解决了师生重复填报的问题。同时师生也可以通过数据门户直观的了解到与自身相关的所有数据到底分别由哪些部门产生,被用到了什么地方去,遇到数据质量问题在线上直接就可以发起处理申请。
● 对于信息中心:通过数据智能门户提升了信息中心对数据全生命周期和全流向的监管能力,对数据的变更及数据质量问题带来的影响也能够通过数据门户一目了然的知道,让信息中心从背锅侠变成了蜘蛛侠,为学校提供了共享共建、共生共赢的信息化建设解决方案。