建设目标
1、对数据标准进行进一步补充、完善,力促能够更加准确、充分反映我校的实际管理需要;
2、对数据仓库中数据资产的来源、内容、维度进行扩充,并利用建设的数据成果对实际日常业务提供支持;
3、对多个部门的常用填表业务进行线上化改造,实现填表数据的电子化、线上化、复用化、规范化,减少师生的数据重复填报负担,加快表单审批的流转效率;
4、利用填表业务中收集数据资源充实数据仓库的内容,形成数据资产与业务管理互为支持的良性循环;
5、对我校当前的数据管理体系进行优化,提供管理制度、管理办法的咨询建设服务,实现全校数据管理科学规范、有章可循、有法可依。
建设方案
● 数据资产优化改造
本期数据治理需要在前期已经达成的初步成果基础上,继续优化改进,以填表业务为优先目标,以全量数据资产统一管理为整体牵引推进。数据治理包含如下12项工作内容:
序号 | 工作内容 | 工作内容简述 |
1 | 数据预研 | 对个业务系统的原始数据情况进行研读,了解业务中的数据内容、数据来源的初步识别、各个业务系统的运行使用情况、功能模块的启用情况、数据填充率、数据规范程度、代码一致性情况、数据质量问题、业务逻辑问题、可引入的数据标准资源等。 |
2 | 数据标准校正优化 | 基于数据摸底的情况,遵守国家强制标准、参考教育部推荐标准和其他学校数据标准、引入学校已有部分合格标准(含元数据模型和代码集),兼顾各个标准之间的兼容性、一致性以及标准的可扩展性,并匹配本校的管理业务特性,确定数据子集的分类方式,制定学校自定义的编码规范,对之前制定的校级数据标准初稿进行核对、校正、扩充。 |
3 | 业务部门调研和数据标准确认定稿 | 基于数据摸底过程中掌握的信息和提炼的问题,对学校的部门组织架构、管理机制、数据管理现状进行针对性的调研了解。调研过程中,对各管理部门的业务内容、组织机构、管理信息系统、后台数据库信息、数据内容和形态、数据供需关系、交换共享要求、数据质量问题、可引入的标准资源等进行调研了解并输出数据现状报告。同时,将优化后的校级数据内容向部门进行确认,落实数据和编码的权威来源、业务边界与数据标准范围的对应关系等,成为校级标准的定稿内容。 |
4 | 数据识别 | 根据数据调研的结果,罗列所有已知的数据来源和分布,记录访问账号和入口,查看实际的数据内容,从数据源中识别出目标数据所在的库、表、字段、格式等。该过程需要业务系统厂商提供有效的数据字典,否则识别难度较大。我公司在之前的项目实施中积累的各种数据字典和识别经验将会起到一定的辅助作用。 |
5 | 部署数据资产管理平台 | 部署希嘉数据中台3.0软件平台,包括数据源管理、数据集成、数据目录、数据标准、数据建模、元数据中心、主数据中心、数据质量管理、日志处理、审核管理、用户管理、配置管理等功能模块。 |
6 | 数据采集 | 利用希嘉数据中台3.0软件平台的“数据集成”模块进行数据采集。采集的数据对象包括业务系统数据库中的数据,重要的线下文件中的数据,来自网络系统的日志数据、来自各物联网系统的物联网数据,和来自互联网的外部数据。 |
7 | 质量检查 | 制定数据质量规则(如非空、唯一性、长度、取值范围、枚举范围、关联一致性等)。根据每个字段应有的质量属性将正确的质量规则绑定到字段上。执行质量检查,将不符合质量规则的记录识别出来,形成数据质量报告,以便评估数据质量状况、定位有问题的数据,便于下一步修正处理。 |
8 | 标准化数据仓库建模 | 根据已经定稿的校级数据标准,对标准化数据仓库进行分类、建模,形成标准化数据仓库的具体表结构。 |
9 | 清洗转换和质量提升 | 根据质量报告的内容,确定质量问题的内容、程度,并定位到具体记录。大致上,质量问题分为2大类: 规律性质量问题:如代码集定义、表达格式、数据单位不一致等问题。这类问题大部分可以通过批量的、规则化的转换处理转换成符合标准的数据。这类问题,将通过ETL过程中配置逻辑规则实现质量提升。 无规律的质量问题:主要体现在数据内容方面,如数据缺失、内容错误等问题。一般情况下,这类问题无法通过简单的批量转换修复,因此需要将问题数据和质量报告提交到数据对应的负责部门,由部门进行核实、采集、填报后形成有效数据。数据修复后,需要记录在业务管理系统中,通过再次采集入库,直至质量检查合格。 这部分工作是数据治理的核心工作,是整个过程中最复杂、最耗时的阶段。 在本项目中,除了由各部门根据数据质量报告的反馈进行数据校正之外,还有一个重要的数据质量提升手段,即通过一表通的数据纠错补录途径,让师生在个人数据中心查看到自己相关的数据,然后对其中的错误缺失提请纠错,由业务部门审核后校正业务系统中的原始数据,再通过数据采集过程自动更新数据中心。另外,针对普遍缺失的数据,还可以通过在线发起表单填报的方式进行收集,以及将在线的业务表单填写过程中录入的数据进行收集,从而改善数据的准确率、缺失率,真正从内容层面提升数据质量。 这部分内容详见一表通章节的介绍。 |
10 | 成果数据生成 | 将各种清洗转换完成、符合数据标准规范的数据导入到之前已经建模完成的表结构中,即形成了符合校标的、质量达标的成果数据,即可用的数据仓库。这是数据治理项目核心成果之一。 由于本期项目的业务目标主要是驱动一表通系统的高质量运行,因此优先输出的数据成果是与填表业务密切相关的数据。这些数据的主要内容见下一节。 |
11 | 数据封装发布 | 合格的成果数据由数据仓库管理系统进行存储,并通过API接口、数据库访问、表格文件、ETL接口等方式向各个应用系统、数据使用单位提供数据调用服务和数据共享交换服务。 |
12 | 数据集定制 | 本项目我公司将在深度理解本校业务数据逻辑的基础上,提供对应数据集的定制服务。数据集市将作为支持全校的流程服务、数据调用、交换共享、大数据分析、精准管理、科学决策等事务的基础集。 |
● 一表通系统
本期一表通部分,主要针对学校当前经常需要的填写的高频表单,以及当前比较急需的填表业务。同时,考虑到学校之前的电子表单系统的弊端,本次的一表通系统在底层架构层面,要充分实现表单组件与数据中心的完整互动。即表单的数据尽量与数据中心对接引用,尽量避免已有数据的手工填报、重复填报,同时用户在表单中手工录入的数据,如果能够对数据中心进行补充、更新的,则尽量回馈到数据中心,使一表通本身成为数据质量提升的重要环节。
● 具体实施路径
总体步骤:
本项目实施分成上面8个步骤进行:
● 到业务部门走访调研,数据调研和表单调研同步进行,一次完成
● 采集业务数据、采集表单样式,同步进行,一次完成
● 针对数据仓库设计数据标准,针对填表业务设计表单演示,同时进行表单所需数据的分析
● 当数据标准和数据集中完成后,开始进行数核对。
● 根据数据核对的结果,明确需要提前治理的数据内容,启动数据治理工程。
● 根据数据核对的结果,明确普遍缺失需要填报的数据,启动数据填报收集工作。与此同时,当数据标准和数据仓库完成后,表单设计时即可将表单的数据项链链接到数据仓库中的表。此时,数据治理过程中生成的标准代码、数据质量规则等资源,将可以被一表通系统调用以保证数据的规范性。
● 数据仓库建设完成,表单配置完成后,一表通系统即可上线运行。用户既可以通过纠错补录完善自己的数据,也可以在线填表达成各个部门的管理要求。与之前的不同之处,在于填写时更加快捷智能,已有的数据无需再填,填好后也无需到各部门盖章签字,而是通过在线流程审核即可自动流转,实现“数据多跑路、师生少跑腿”的效果。
● 用户通过纠错补录、表单填写上报的数据回流到数据中心及各个业务系统,实现数据的更新和持久化。
项目实施分成了3个小组——“数据治理组”、“表单设计组”和“数据分析组”。各小组同步推进、协同工作。其中:
数据治理组完成数据治理相关的工作,包括数据内容调研、数据采集集中、数据标准制定、数据模型设计、数据清洗标准化、数据仓库生成、数据服务接口配置等。
表单设计组完成表单的电子化设计工作,包括表单布局设计、表单引用数据仓库、审批流程设计、打印版式设计等。
数据分析组完成表单数据分析、同类信息归并、数据部门归口、表单与数据核对、表单与数据仓库的引用关系设计、数据回收路径设计等。