什么是数据质量?
数据是当代企业和组织的重要资产,高质量的数据对于保证业务运营、决策制定和战略执行的效率和准确性至关重要。随着数据资产的不断增长,如何有效地管理和维护数据质量已经成为企业面临的一个重大挑战。
在国际数据管理协会的《数据管理知识手册》中,数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程。”高质量的数据应当具有完整性、准确性、一致性等特征;反之,低劣的数据质量将给组织带来诸多风险,如决策失误、运营效率低下、合规违规等。因此,建立一套完善的数据质量管理体系对于任何依赖数据驱动的组织都是必不可少的。
当前,影响数据质量的关键因素主要包括:数据源和采集方式、数据处理流程、技术架构、人员素质等。此外,缺乏规范的元数据管理和数据标准化也是导致数据质量问题的常见原因。维护高质量数据面临的主要挑战有:大数据场景下海量数据的质量管控难题、多源异构数据集成质量、落后的数据质量管理技术和工具、数据治理机制缺失导致质量缺失问题责任难以落实等。
数据质量管理的意义
良好的数据质量管理机制则能够从根本上保证和持续监控以上各项质量维度,以确保数据创造最大价值。数据质量管理的目标是通过一系列流程管控和技术实践,最大程度提高数据质量,从而支持业务发展和决策智能化。
数据质量管理可以解决“数据质量现状如何,哪有问题,谁来改进,如何提高,怎样考核”的问题。
在关系型数据库时代,做数据治理最主要的目的是提升数据质量,让报表、分析、应用更加准确。如今,数据治理的范围扩大,更加注重数据的服务和共享、数据价值的挖掘和运营,但是提升数据的质量依然是数据治理最重要的目标之一。
数据质量管理是基于数据指标、质量检核、问题发现和问题监控追踪的完善的数据质量管理体系,发现和解决数据问题,保证数据应用无后顾之忧。建立“谁产生、谁维护、谁负责”的数据质量监督评价机制,确保源头数据真实、准确、完整、及时。
数据质量的6个检核维度
数据质量维度是数据的某个可测量的特性。术语“维度”可以类比于测量物理对象的维度,如姓名、性别、职务等。数据质量维度提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和持续改进的成效。为了衡量数据质量,组织需要针对重要业务流程和可以测量的参数建立特征。维度是衡量规则的基础,其本身应该与关键流程中的潜在风险直接相关。
一般用户从以下6个维度对数据质量进行检核,分别是:完整性、唯一性、有效性、一致性、准确性、及时性、关联性。
完整性:完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成数据不准确,所以说完整性是数据质量最基础的保障。
唯一性:针对某个数据项或某组数据,没有重复的数据值。值必须是唯一的,如ID类数据。
有效性:数据符合已定义的格式规范和业务规则;数据是否在可控、安全的范围内发布和使用。
一致性:一致性通常体现在跨度很大的数据仓库中。例如,某高校有很多业务数仓分支,对于同一份数据,在不同的数仓分支中必须保证一致性(数仓各层数据经过ETL后,条数、数据值、类型需要与上层保持一致)。例如,从在线业务库加工到数据仓库,再到各个数据应用节点,用户ID必须保持同一种类型,且长度也要保持一致。
准确性:准确性是指数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。例如,成绩单中分数出现负数或表单中出现错误的师生信息等,这些数据都是问题数据。确保记录的准确性也是保证数据质量必不可少的一部分。
及时性:保障数据的及时产出才能体现数据的价值。例如,决策分析师通常希望当天就可以看到前一天的数据。若等待时间过长,数据失去了及时性的价值,数据分析工作将失去意义。
关联性:数据的关联性是指各个数据集之间的关联关系。比如工资数据和绩效考核数据是通过职员这个资源关联在一起来的,而且绩效数据直接关系到工资的多少。
希嘉如何提升数据质量?
希嘉作为专业的数据管理基础设施及服务供应商,从组织、制度、技术三个层面实现“进、存、管、出、服”的数据全生命周期管理,对数据进行有效的、高质量的治理,更好地提高数据质量、释放数据价值,改进决策、缩减成本、降低风险,助力企业级客户数字化发展。
全方位数据管理,源头上把控数据质量
希嘉通过组织、制度和技术的结合与实践活动,用以管理、维护、开发数据,源头上把控数据质量。
组织上,通过治理组织架构、沟通机制和执行决策机制,确保治理涉及的技术问题、业务问题和决策问题能够得到有效解决;制度上,制定符合实际情况的数据规范、管理规范及绩效评价机制,加强部门相互协同,确保项目的顺利实施;技术上,以先进的技术架构,搭载数据工具软件和建设数据仓库,提供高效数据管理能力,降低数据使用成本。
开展多源数据治理,运行中提升数据质量
希嘉以“八步法”依次进行数据摸底、数据采集、数据确权、数据标准化、数据质量提升、数据集市开发、形成目录、数据服务,进行数据盘点及资产目录构建,定义、盘点、规划无序的数据类和应用类资源,构建主题明确服务完善、权责清晰的数据资产管理体系。
进行数据清洗质检,并向业务部门输出数据质量报告,在表单数据服务平台里对数据内容进行纠错补录,在数据应用中进行持续运营式数据纠错,提升数据质量。
数据质量不仅是数字化转型的关键要素,也是信息社会发展的基础保障。只有不断提升数据质量意识,加强数据管理,才能在激烈的市场竞争中立于不败之地,实现长期稳定的发展。希嘉深耕数据细分领域多年,专注于为企业级客户提供 “安全、可信、持续创新” 的综合性数据产品和服务,已广泛应用于教育、政企等领域。
未来,希嘉将践行“做精核心数据仓库,开展场景数据服务”新主张,以降低数据使用门槛的服务目标,为用户提供卓越的数据使用体验。