新闻中心
专业的数据管理基础设施及服务供应商
何江:以客户场景为驱动,前瞻性架构布局撬动数据潜能
发布日期:
2024-06-28

随着数据量呈爆炸式增长,如何高效管理和利用这些数据成为决策支持的关键。数据仓库作为数据存储、处理和分析的核心,其重要性日益凸显。而数据仓库的分层建设,则是提升数据仓库效能、优化数据处理流程的重要保障。本期对话希嘉资深数据专家何江先生,全面介绍希嘉对于数据仓库的理解,以及希嘉数据资源中心数据架构如何以前瞻性架构布局,帮助客户撬动数据潜能,最大化数据价值。


何江:以客户场景为驱动,前瞻性架构布局撬动数据潜能


希嘉资深数据专家何江在数据仓库架构建设、数据治理等方面有着丰富的经验,对于技术发展路线以及数据仓库的未来发展有着深刻认知,是希嘉数据资源中心数据架构的主要设计者。





Q:希嘉对于数据仓库和数据分层是怎么理解的?

希嘉认为面对数字时代的海量数据和智能化、自主可控的需求,数据仓库作为数据“落地”的业务场景,是实现决策支持的关键技术环节。


在说数据仓库之前,先给大家简单讲讲数据价值在哪?数据之所以存在价值,就是想数据作为生产要素体现资产价值,这需要对日常业务记录的各类数据信息进行聚合分析,通过形而上学哲学思维,透过现象找到业务本质的规律、问题。从而更加有针对性、精准性调整政策策略,实现业务精进优化。那么如何能让我们高效、迅速、准确的找到我们想要的数据,并快速实现聚合分析呢?基于这个目的,数据仓库概念应运而生。数据仓库既可以存储积累海量的业务数据,又可以通过合理数据分层架构和优异计算查询性能,从而实现高效、迅速、准确的数据聚合分析。


那么数仓分层又是什么呢?概念上是传统管理学中分层次管理。举个例子,项目、事情、生产商品都需要把一个整体拆分成几个步骤分步来实现,数据分析也是同样的道理。数据在这个过程中会有不同的形态和存储结构,从中找到几个关键形态和结构切分步骤就成了数据仓库分层雏形。正如工厂产品,有分层的模块化生产能快速大量生产一样,数据仓库有分层存储管理也可以同样实现高效、迅速、准确的数据应用产品生产。


希嘉基于数据仓库分层概念,推出具备6大特性数据仓库产品:


数据结构清晰化:每一个数据分层都有它的作用域,在使用表的时候能更方便地定位和理解。


数据关系条理化:源系统间存在复杂数据关系,当同时存在多个系统时,如何取数决策成为关键。对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,避免上述问题。


数据血缘白盒化:简单理解就是我们最终给业务呈现的是能直接使用的业务表,但是它的来源有很多,如果有一张来源表出问题,我们能够快速准确地定位到问题,清楚它的危害范围,并加以改正。


数据复用最大化:以规范数据的分层,满足不同使用场景和数据粒度需求,极大减少重复计算。通过汇总层的引入,避免了下游逻辑的重复计算,节省了开发时间和精力,减少了不必要的数据冗余,实现计算结果复用,存储和计算成本降低。


数据处理简单化:将复杂任务分解成多个步骤来完成,每层只处理单一步骤,保障数据的准确性,在数据出现问题后,也只需从有问题的步骤开始修复。对于使用者而言,将数据按照层次结构组织可以优化查询路径,减少数据扫描和查询时间,提高查询性能。


业务影响最小化:当源业务系统的业务规则发生变化时,只需调整相应层次的数据处理逻辑,而无需对整个数据仓库进行重构,降低维护成本,提高数据稳定性和连续性,加强数据仓库的可扩展性。


数智化时代,数据仓库作为最核心、挑战最大的技术环节之一,希嘉坚持“前瞻性架构布局、以客户场景为驱动”,在架构设计上,采用存-算-管分离架构,帮助客户更好撬动数据潜能,最大化数据价值;在数据服务上,实现与应用场景的深度融合,实现智能预测、智能决策等数据分析智能化。



Q:当前教育数字化转型在数据仓库方面更加关注什么?

国家政策层面有关数据的立法与政策支持层出不穷,从《数据安全法》到《数字中国建设整体布局规划》,涉及数据基础设施建设、数据分析、数据安全、数据确权等各个方面。事实上,教育数字化转型已经步入到2.0时代,各大高校希望通过行之有效的方式治理数据,帮助自身在降本增效的前提下创造新的价值,这将是高校业务创新的源泉,也是数据时代里的核心竞争力。


随着数据规模的爆炸式增长、数据来源和数据类型的多元化,数据分析、数据挖掘的内涵也在不断深化。与之相伴的,高校在数据仓库建设上新增了两大关注点:高并发海量数据处理和数据实时计算。


一方面,由于数据量的增长和数据源的多样化,数据仓库的弹性扩容和兼容多种数据类型的能力就尤为重要。传统数据仓库往往采用软硬件结合的一体机模式,扩容成本高,能够处理的数据结构相对单一,因此对高并发海量数据处理显得“力不从心”。这就要求数据仓库有着合理优秀的架构支持高并发查询场景和高吞吐量复杂分析场景,为业务提供高效的数据支持和洞察。


另一方面,数据仓库需要支持不断涌现的新场景下的用户需求和针对这些新场景产生的数据分析新要求,即不仅需要提供“丝滑”的用户体验,还需要更加精准、快速的数据分析能力。这就要求数据分析从“事后”不断前移,贴近数据产生的时间,最终满足实时计算、实时推理决策。



Q:在现实落地层面,希嘉如何帮助高校以数据分层实现数字化高质量发展?

数据仓库在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需要横向的数仓分层规范。优秀的分层设计是项目建设成功的核心要素,让数据易理解和高复用是分层的核心目标。


希嘉结合多年的数据治理和数仓实施经验,综合当前市场数字化转型不断深入的需求,提出了“做精核心数据仓库,开展场景数据服务”新主张,推出了希嘉数据资源中心数据架构方案。该方案通过 ODS-DWD-DWS-ADS 的架构完成数据抽取、清洗、转义、分类、重组、合并、拆分、统计等,使大数据得到高性能、低成本、高效率、高质量的使用,为企业级客户构建数字化新基座。


何江:以客户场景为驱动,前瞻性架构布局撬动数据潜能


ODS(数据贴源层):存储多个业务系统、前端埋点、爬虫获取等的一系列数据源的数据。希嘉认为,ODS层作为最基础的一层同时也最重要,如同大厦地基,时刻影响着楼层的稳定性。为此,希嘉以“应采尽采”为原则,保障结构化数据、非结构化数据的采入,最大限度的保存原始数据,完成数据积存。


DWD(数据明细层):与原表保持同一粒度的基础上根据业务过程对ODS层数据进行去除脏数据,按照业务过程对表进行归类和关联,经过ETL得到与业务过程相对应的事实表。希嘉在DWD层以“一数一源”为原则,解析数据血缘、理清数据资产,实现问题可追溯、漏洞可填补,实现数据从采集、治理、管理到最终发布的全过程白盒化。


DWS(数据服务层):把DWD层中的表根据事实按照更高维度进行上卷的聚合操作,得到在某一维度或者多个维度上的汇总数据或指标。在越来越深入的数据管理和服务项目中,希嘉发现 ODS-DWD-ADS 数据仓库架构在面对复杂的业务场景时,会出现计算资源混乱和浪费的问题,同时也是烟囱式开发的根源。希嘉针对复杂业务场景,以“数据共享”为原则,在增加的DWS层中抽象出一些通用的维度(例如用户ID、性别、时间等),并根据这些维度进行统计,让使用者查询速度快、获取数据易,使用起来更舒适。


ADS(数据应用层):存放数据产品个性化的统计指标数据,报表数据。通常根据业务需求,提供数据产品和数据分析需使用的数据。希嘉在ADS层以“应用为王”为原则,为某一特定业务需求而建立,基于某一个特定主题或业务领域建模,满足该领域的数据分析和查询需求。


希嘉认为数仓分层的目的是让数据更规范、更清晰、更易用,而不是为了分层而去分层,所以遵循因实制宜的准则,针对客户实际需求,有选择的、定制化的搭建数据资源中心数据架构,满足客户各类型的运用和分析需求,实现高效数字化转型。


目前,希嘉数据资源中心数据架构方案已在多个高校中实践,在某高校项目中,学校为了加快数据应用开发上线速度、提升数据中心数据利用效率、推进学校应用创新的工作进度,学校采用了希嘉提出的更适合在线数据分析应用的数据资源中心四层架构(ODS+DWD+DWS+ADS)来建设校级数据仓库,以“管理+服务+决策”的创新化、协同化、服务化、智能化的智慧校园数智底座,实现各类业务线上化、管理单元全覆盖,为师生提供集成化、个性化、智能化的信息和应用服务。


希嘉深知数据存储并不是数仓建设的最终目的地,所以不断探索和迭代数仓分层架构,旨在降低数据使用门槛,提高数据使用体验,为企业级客户提供易于操作管理的数字化新基座,帮助客户更敏捷的创新业务,更准确的洞察业务,加速释放数据价值。



Q:新一轮数字化转型拉开帷幕,希嘉数据仓库会向哪些方向发展?

“十三五”时期,我国大数据产业快速起步,产业发展取得显著成效,《“十四五”大数据产业发展规划》更是提到:到2025年,我国大数据产业规模预计将突破3万亿元。希嘉认为在数字化产业不断升级迭代中,会对数据仓库的易用性、性能等提出更高要求。希嘉将从业务需求和技术趋势两个方向出发,以客户为中心,以提升客户满意度为原则,寻求新突破。


业务需求:提高分析的实时性。随着业务的发展和技术的进步,希嘉不再满足于T+1的分析需求和固化的实时统计,更期望业务发生后秒级/分钟级延迟即可看到统计结果;同时,功能上期望实现交互性探查分析数据,毫秒/秒级返回结果保持良好的用户体验。


技术趋势:融合统一是必经之路。随着业务需求的不断增长,客户对数据的实时性要求也越来越高,希嘉认为现代化数据仓库需要具备高速的数据处理和分析能力,能够实时响应和处理大规模数据流。同时,架构“减负”已成为发展的重要目标。因此,像融合数据库、超融合数据库、湖仓一体、流批一体等具有“融合统一”特征的数据库开始涌现。


希嘉作为专业的数据管理基础设施及服务供应商,致力于构建信息互通、资源共享、能力协同、开放合作、互利共赢的生态系统。相比于和厂商进行存量竞争,我们更愿意与各大厂商携手合作,共同扩展市场,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供优质服务,构建明日数据世界。