华南农业大学
华南农业大学

应用产品:

统一数据集成平台


学校简介

学校属性(211/985/普本/高职,其他信息)

华南农业大学是全国重点大学,广东省和农业部共建的“211工程”大学,广东省高水平大学重点建设高校。学校师资力量雄厚。现有教职工约3374人,其中专任教师2111人;博士生导师298人,硕士生导师1314人;院士、万人计划等国家级人才78人次,珠江学者、广东省特支计划等省级人才203人次,国家级教学名师/特支计划教学名师4人,国家级教学团队4个。学校设有27个学院(部),现有全日制在校生4.2万余人(含留学生),其中本科生3.7万余人,研究生5千余人。

信息化现状

经过多年的努力,我校在网络基础建设和软件设备建设方面乘势而上,为推动教育信息化强校战略奠定坚实基础。当前,网络方面我校校园网已覆盖华农大所有校区,形成万兆核心、千兆汇聚的高速钻石形结构的光纤主干网络。软件建设方面,经过近些年的建设升级已经建设完成覆盖各主要业务部门的业务系统、移动校园及跨业务部门的紫荆e站综合服务大厅等智慧校园时代的新型应用平台,信息化建设程度持续走在行业前列。

业务系统及数据现状

经过过去多年的信息化建设,学校业务系统建设较为完善,基本完成了覆盖主要业务部门的信息化管理系统建设,实现了初步的无纸化办公和数据的电子化过程。2016年,学校在业务系统的建设基础上,完成了三大平台的建设,并于次年建设完成数据共享中心,基本支撑了学校数据共享交换。在此基础上,于2018年启动数据治理专项工作,截至2019年,数据共享中心集成了14个部门25个业务系统,供给了14个部门37个业务系统,并同步建设了各类数据管理平台。过去的建设纵使有很大成绩,数据使用与管理层面依然面临一些问题,如数据共享交换无法有效监管、数据管理平台分散,缺乏联动、数据资产不能动态掌握等。

客户需求与愿景

针对以上现状,本次项目学校主要以“一表通”建设为抓手,实现学校绩效考核的线上化改造,使数据中心数据资产真正服务于学校实际业务。同时,以一表通建设为契机,进一步整合学校数据,深化数据治理建设与数据标准落地,制订一系列数据管理制度,形成数据管理体系,并构建学校数据资源目录,降低数据使用门槛。通过数据中台管理软件,将数据的采集、管理、共享、监测等全生命周期进行全面管理。

客户痛点刨析

 学校广大的教职工和学生在教学、科研、管理、生活等各个方面需要填写大量的单,既有与行政管理相关的表格,也有与科研项和教学活动相关的表格。虽然这些填表事务都是学校正常开展管理所必需的的,但表单中的一些基本信息如姓名、性别、证件号码、出生日期、工作履历等需要在不同表格中重复填写,给师生们添加了很多重复的工作。华南农业大学作为一所高水平科研型大学,科研项目和课题非常,科研任务繁重。大量老师在紧张的科研、教学活动之外,却还不得不花大量的时间用于填写各种表格,老师们的精力感到不堪重负。

客户需求

华南农业大学已经于2019年初步建设了一套较完善的数据体系,将校内各项管理过程相关的数据进行了系统性的采集。另一方面,学校也在局部试点电子表单系统,希望将填表事务线上化、,并将电子表单与数据体系对接,使表单中部分内容能够自动填充、规范表达。

但是,试点过程中发现,由于电子表单系统的底层设计原因,其与数据体系的关联显得太浅太弱,并没有实现充分的对接,因此自动填充内容的实现程度不够。同时,也发现当前的数据体系在标准性、规范性方面存在一些薄弱环节,事实上也难以支持电子表单的有效运行。

因此,学校计划对数据体系进行优化改造,提升数据的规范性、完整性,同时引入新的电子表单系统(以下简称“一表通”),从产品架构层面就强调电子表单与数据体系的双向闭环:即一方面实现表单与数据的动态对接、智能引用、自动填充、在线审批,从而提高填报效率,减少老师填表花费的时间。另一方面实现一表通对数据体系的闭环反馈,通过表单填报过程收集准确的数据内容,对数据体系中不准确、不完整的数据进行补充,从而使数据中心的质量得到有效提升,进而又能优化一表通本身的运行效果。

需求背后的原因

在教育信息化“十三五”规划期间,我校围绕数据治理与管理、数据分析及应用方面取得了初步成效,解决了部分数据归集、数据共享交换等方面问题,但数据使用及数据如何服务于学校实际业务方面仍然存在以下挑战:

1、数据标准不够完善,尚未全面覆盖学校业务;

2、数据维度不够全面,学校数据资产尚未整理完整;

3、数据尚未很好解决实际业务问题,重复线下数据填报依旧存在;

4、数据管理层面尚未形成规范,新的数据问题时常产生。


建设方案及目标

 建设目标

1、对数据标准进行进一步补充、完善,力促能够更加准确、充分反映我校的实际管理需要;

2、对数据仓库中数据资产的来源、内容、维度进行扩充,并利用建设的数据成果对实际日常业务提供支持;

3、对多个部门的常用填表业务进行线上化改造,实现填表数据的电子化、线上化、复用化、规范化,减少师生的数据重复填报负担,加快表单审批的流转效率;

4、利用填表业务中收集数据资源充实数据仓库的内容,形成数据资产与业务管理互为支持的良性循环;

5、对我校当前的数据管理体系进行优化,提供管理制度、管理办法的咨询建设服务,实现全校数据管理科学规范、有章可循、有法可依。

建设方案

●     数据资产优化改造

本期数据治理需要在前期已经达成的初步成果基础上,继续优化改进,以填表业务为优先目标,以全量数据资产统一管理为整体牵引推进。数据治理包含如下12项工作内容:

序号

工作内容

工作内容简述

1

数据预研

对个业务系统的原始数据情况进行研读,了解业务中的数据内容、数据来源的初步识别、各个业务系统的运行使用情况、功能模块的启用情况、数据填充率、数据规范程度、代码一致性情况、数据质量问题、业务逻辑问题、可引入的数据标准资源等。

2

数据标准校正优化

基于数据摸底的情况,遵守国家强制标准、参考教育部推荐标准和其他学校数据标准、引入学校已有部分合格标准(含元数据模型和代码集),兼顾各个标准之间的兼容性、一致性以及标准的可扩展性,并匹配本校的管理业务特性,确定数据子集的分类方式,制定学校自定义的编码规范,对之前制定的校级数据标准初稿进行核对、校正、扩充。

3

业务部门调研和数据标准确认定稿

基于数据摸底过程中掌握的信息和提炼的问题,对学校的部门组织架构、管理机制、数据管理现状进行针对性的调研了解。调研过程中,对各管理部门的业务内容、组织机构、管理信息系统、后台数据库信息、数据内容和形态、数据供需关系、交换共享要求、数据质量问题、可引入的标准资源等进行调研了解并输出数据现状报告。同时,将优化后的校级数据内容向部门进行确认,落实数据和编码的权威来源、业务边界与数据标准范围的对应关系等,成为校级标准的定稿内容。

4

数据识别

根据数据调研的结果,罗列所有已知的数据来源和分布,记录访问账号和入口,查看实际的数据内容,从数据源中识别出目标数据所在的库、表、字段、格式等。该过程需要业务系统厂商提供有效的数据字典,否则识别难度较大。我公司在之前的项目实施中积累的各种数据字典和识别经验将会起到一定的辅助作用。

5

部署数据资产管理平台

部署希嘉数据中台3.0软件平台,包括数据源管理、数据集成、数据目录、数据标准、数据建模、元数据中心、主数据中心、数据质量管理、日志处理、审核管理、用户管理、配置管理等功能模块。

6

数据采集

利用希嘉数据中台3.0软件平台的“数据集成”模块进行数据采集。采集的数据对象包括业务系统数据库中的数据,重要的线下文件中的数据,来自网络系统的日志数据、来自各物联网系统的物联网数据,和来自互联网的外部数据。

7

质量检查

制定数据质量规则(如非空、唯一性、长度、取值范围、枚举范围、关联一致性等)。根据每个字段应有的质量属性将正确的质量规则绑定到字段上。执行质量检查,将不符合质量规则的记录识别出来,形成数据质量报告,以便评估数据质量状况、定位有问题的数据,便于下一步修正处理。

8

标准化数据仓库建模

根据已经定稿的校级数据标准,对标准化数据仓库进行分类、建模,形成标准化数据仓库的具体表结构。

9

清洗转换和质量提升

根据质量报告的内容,确定质量问题的内容、程度,并定位到具体记录。大致上,质量问题分为2大类:

规律性质量问题:如代码集定义、表达格式、数据单位不一致等问题。这类问题大部分可以通过批量的、规则化的转换处理转换成符合标准的数据。这类问题,将通过ETL过程中配置逻辑规则实现质量提升。

无规律的质量问题:主要体现在数据内容方面,如数据缺失、内容错误等问题。一般情况下,这类问题无法通过简单的批量转换修复,因此需要将问题数据和质量报告提交到数据对应的负责部门,由部门进行核实、采集、填报后形成有效数据。数据修复后,需要记录在业务管理系统中,通过再次采集入库,直至质量检查合格。

这部分工作是数据治理的核心工作,是整个过程中最复杂、最耗时的阶段。

在本项目中,除了由各部门根据数据质量报告的反馈进行数据校正之外,还有一个重要的数据质量提升手段,即通过一表通的数据纠错补录途径,让师生在个人数据中心查看到自己相关的数据,然后对其中的错误缺失提请纠错,由业务部门审核后校正业务系统中的原始数据,再通过数据采集过程自动更新数据中心。另外,针对普遍缺失的数据,还可以通过在线发起表单填报的方式进行收集,以及将在线的业务表单填写过程中录入的数据进行收集,从而改善数据的准确率、缺失率,真正从内容层面提升数据质量。

这部分内容详见一表通章节的介绍。

10

成果数据生成

将各种清洗转换完成、符合数据标准规范的数据导入到之前已经建模完成的表结构中,即形成了符合校标的、质量达标的成果数据,即可用的数据仓库。这是数据治理项目核心成果之一。

由于本期项目的业务目标主要是驱动一表通系统的高质量运行,因此优先输出的数据成果是与填表业务密切相关的数据。这些数据的主要内容见下一节。

11

数据封装发布

合格的成果数据由数据仓库管理系统进行存储,并通过API接口、数据库访问、表格文件、ETL接口等方式向各个应用系统、数据使用单位提供数据调用服务和数据共享交换服务。

12

数据集定制

本项目我公司将在深度理解本校业务数据逻辑的基础上,提供对应数据集的定制服务。数据集市将作为支持全校的流程服务、数据调用、交换共享、大数据分析、精准管理、科学决策等事务的基础集。

●     一表通系统

本期一表通部分,主要针对学校当前经常需要的填写的高频表单,以及当前比较急需的填表业务。同时,考虑到学校之前的电子表单系统的弊端,本次的一表通系统在底层架构层面,要充分实现表单组件与数据中心的完整互动。即表单的数据尽量与数据中心对接引用,尽量避免已有数据的手工填报、重复填报,同时用户在表单中手工录入的数据,如果能够对数据中心进行补充、更新的,则尽量回馈到数据中心,使一表通本身成为数据质量提升的重要环节。

●     具体实施路径

建设方案及目标

总体步骤:

本项目实施分成上面8个步骤进行:

●     到业务部门走访调研,数据调研和表单调研同步进行,一次完成

●     采集业务数据、采集表单样式,同步进行,一次完成

●     针对数据仓库设计数据标准,针对填表业务设计表单演示,同时进行表单所需数据的分析

●     当数据标准和数据集中完成后,开始进行数核对。

●     根据数据核对的结果,明确需要提前治理的数据内容,启动数据治理工程。

●     根据数据核对的结果,明确普遍缺失需要填报的数据,启动数据填报收集工作。与此同时,当数据标准和数据仓库完成后,表单设计时即可将表单的数据项链链接到数据仓库中的表。此时,数据治理过程中生成的标准代码、数据质量规则等资源,将可以被一表通系统调用以保证数据的规范性。

●     数据仓库建设完成,表单配置完成后,一表通系统即可上线运行。用户既可以通过纠错补录完善自己的数据,也可以在线填表达成各个部门的管理要求。与之前的不同之处,在于填写时更加快捷智能,已有的数据无需再填,填好后也无需到各部门盖章签字,而是通过在线流程审核即可自动流转,实现“数据多跑路、师生少跑腿”的效果。

●     用户通过纠错补录、表单填写上报的数据回流到数据中心及各个业务系统,实现数据的更新和持久化。

建设方案及目标

项目实施分成了3个小组——“数据治理组”、“表单设计组”和“数据分析组”。各小组同步推进、协同工作。其中:

数据治理组完成数据治理相关的工作,包括数据内容调研、数据采集集中、数据标准制定、数据模型设计、数据清洗标准化、数据仓库生成、数据服务接口配置等。

表单设计组完成表单的电子化设计工作,包括表单布局设计、表单引用数据仓库、审批流程设计、打印版式设计等。

数据分析组完成表单数据分析、同类信息归并、数据部门归口、表单与数据核对、表单与数据仓库的引用关系设计、数据回收路径设计等。


建设成效与价值

建设成效(现状与成果对比)

项目自2020年5月启动实施以来,在学校信息网络中心及个业务部门的鼎力支持下,围绕学校的重点工作建设了“五个一”——一标准、一目录、一门户、一中心、一张表,分别是《华南农业大学数据标准及使用指南》、《华南农业大学数据资源目录及使用指南》、数据门户、个人数据中心、一表通系统。基于“五个一”架构,以绩效考核为抓手,在兽医学院与林学与风景园林学院开展试点工作。尤其对学校现有的绩效考核指标项进行了大量的拆解工作,并通过一表通系统在线上呈现。目前,已经有80%的数据可以直接从数据中心获取,大大减少了教师的填报工作量。

客户价值(定量/定性,经济效益或者社会效益,满意度与评价)

1,彻底的数据资产盘点与数据采集治理。

2,通过个人数据中心呈现,实现用户与数据见面。

3,借助纠错补录实现数据质量提升,形成数据质量闭环管理。

4,绩效考核线上化改造,实现让数据说话,充分凸显业务价值。

5,数据资源目录体系建立,重构数据资产的采集、管理、运营。


部署产品清单

数据中台软件

一表通系统(数据纠错补录系统)