2018年11月19日 星期一
地质云 :English | 公务邮箱
中国矿业报订阅

匠心独运,让“数据大餐”完美呈现

——地质大数据资产管理方案研究(下)

2018-9-5 9:55:52 来源:中国矿业报社 作者: 刘荣梅 高振记 赵林林 杨燕

(3)按NGDA数据集生命周期成熟度评估

FGDC制定了5个成熟度指标评估地理空间数据生命周期中的7个阶段。

根据用户需求将数据的生命周期划分为定义、清理与评估、获取、访问、维护、使用与评估、归档7个阶段。

每个阶段使用6个等级来评价,分别是:

0级:没有任何措施

数据集未开发或不能满足主要用户的项目或业务需求。没有考虑次要用户、其他的或合作伙伴(利益相关者)的应用需求。数据集目前不是权威数据,或者是权威数据集的一部分。没有采用数据生命周期管理的任何一个阶段进行管理。

1级:计划或建设初期

数据集在初始计划中且可部分满足主要用户的项目或业务需求。初步采用数据生命周期对数据进行管理。准备考虑次要用户、其他的或合作伙伴(利益相关者)的应用需求。数据集的开发建设还处于初期阶段。采用生命周期部分或有限阶段进行管理。

2级:过渡或转型阶段

数据集满足主要用户的业务需求,并可被次要用户适度使用。至少采用3个阶段的数据生命周期管理。可获得阶段性的资金、合作伙伴以及数据获取等相关的支持。采用生命周期有限的阶段进行管理实践。

3级:管理或可预测的阶段

数据集满足主要用户的大量业务需求,并被次要用户广泛使用。至少采用4个阶段的数据生命周期管理。采用恰当且一致性的数据生命周期进行管理实践。数据集在生命周期的不同阶段与业务需求变化紧密结合,整体成熟度随之变化。

4级:成熟或一致性阶段

数据集满足主要用户和大多数次要用户的所有业务需求。该数据集是主要用户和次要用户的权威数据资源。对未来的数据应用需求有着明确的规划和实施方案。数据集在生命周期所有阶段进行循环的支撑和审查。数据集完全按照生命周期全过程进行管理。

5级:优化或公认阶段

数据集几乎满足所有用户的所有业务需求。该数据集是主要用户和次要用户的权威数据资源。数据集完全按照生命周期全过程进行管理。主要用户和次要用户对数据资料未来的应用需求有着明确的规划和实施方案。

考虑到不断变化的业务需求,数据集生命周期成熟度评估是反复进行的过程,定期重新评估可反应出数据集成熟度的变化趋势。成熟度水平不会固定在一个等级水平,而是一个持续的变化过程,同时也表征了NGDA数据集如何满足不断变化的业务需求。

从2015年底完成的177个数据集的初始成熟度评估结果来看,大多数NGDAs已经取得了很高的成熟度,并且满足了为数据集建设时设定的业务需求。此外,大部分NGDA数据集正在积极更新和维护,并且正在进行定期补充、审核和更新。

数据集的成熟度评估提供了从数据生产到即时在线服务全流程数据内容的透明度和健康状况,并且通过评估可以明确需要生产哪些新的数据或者对哪些现有数据进行维护更新,从而进行有效的投资。

(4)目前的阶段性成果

截至目前,FGDC完成联邦地理空间数据组合资产管理计划(2014-2016)的任务,共确定了17个专题类别和176个NGDA数据集构成了国家地理空间数据资产组合(2017年度有1个被删除);FGDC NGDA数据集网页提供完整列表(www.

fgdc.gov /ngda-reports/NGDA_Datasets.html),这些数据也共享在了GeoPlatform上。

2017年成立了一个跨机构团队,重新对2015年177个纳入NGDAs数据集成熟度评估结果进行分析。在GeoPlatform.gov共享平台上,提供了NGDA400余个正在进行数据集成熟度评估可视化展示列表与相关统计结果。无论是数据管理方、数据审核方还是用户,可以及时的掌握国家级地理空间数据集的相关进展。

地质大数据资产管理实施策略

四、地质大数据资产管理方案建议

1. 需求与目的

通过多年的数字化及数据库建设,自然资源部中国地质调查局积累了海量的多门类地学数据,包括水、土地、矿产、能源、森林、湿地、草地、海洋等资源,以及环境与基础地质等十余类专题数据库(数据集)。2017~2018年实施的地质云建设工程,将全局29个直属单位的200余个地质数据库(数据集)在地质云进行互联互通与共享服务。2016~2018年十大工程300多个项目又积累了海量的调查数据,数据涉及的专业多、类型复杂,除了支持地质调查业务流程运转之外,越来越多地应用于提升管理决策效率、实现价值挖掘和科研技术创新。如果不能构建形成核心数据库体系,对核心地质数据库进行有效梳理及精细化管理,建立动态更新及实时共享机制,其价值就得不到很好体现,严重影响数据价值发挥和高效服务。

大数据综合应用对数据管理和应用提出了更高要求:

一是需要创建地质大数据核心数据库体系。明确国家级地质大数据核心数据库的内容、更新维护责任、周期、技术流程,建立更新维护机制,保障数据更新维护工作的持续性、有效性、完整性和权威性。

二是需要创建统一的数据按生命周期进行管理的标准。数据采集、传输、存储、应用、共享、维护更新与归档统一标准,将有效避免数据混乱冲突、一数多源、多样多类等问题。统一标准是解决数据的关联能力,保障信息交互、数据流通、系统访问功能顺畅的必要前提。

三是明确数据更新周期。明确不同级别数据库中数据的采集、传输、存储、应用、共享、维护更新与归档等全生命周期及流程。

四是建立统筹数据管理。建立分布式数据中心数据管理协调机制和统一的数据管理渠道,将分散在不同单位、不同业务部门的数据需求、数据质量、数据应用等问题的统筹管理和解决,支撑数据服务对科研与管理动态需求的即时响应。

五是建立规范的数据治理流程和数据质量监控与评估措施,解决数据质量参差不齐、数据冗余、数据缺值、数据冲突等数据质量问题。

六是建立有效的数据安全管理机制,对内部数据、敏感信息、隐私信息、保密信息的访问建立有效控制,使其脱敏脱密合规。

七是建立数据价值或成熟度评估体系。评估数据生产、传输、管理维护、更新等投入的成本,与数据应用产生的社会效益与经济效益,及时剔除冗余数据,支撑相关数据库建设、管理与应用系统研发以及共享应用的相关投资决策。

2.地质大数据资产管理的定位与内容

(1)定位与实施策略

数据资产管理在大数据技术体系中,位于应用和底层平台中间。数据资产管理包括两个重要方面,一是数据资产管理的核心业务职能,二是确保这些业务职能落地实施的保障措施,包括组织架构、制度体系。数据资产管理在大数据应用体系中,处于承上启下的重要地位。对上支持以价值挖掘为导向的数据应用开发,对下依托大数据平台实现数据全生命周期的管理。

实施地质大数据资产管理,主要包括4个阶段:一是建立地质大数据资产管理的框架。二是开展数据审计,对数据资产进行识别和分级,形成地质大数据资产目录,并对现有的数据管理与共享应用现状进行评估,形成改进报告与投资建议;三是数据资产管理方案的实施,梳理优选形成国家级地质大数据核心数据资产目录,通过标准管理、元数据管理、数据质量管理等措施对数据进行治理,提升数据综合管理的整理能力。四是数据资产运营。数据资产管理是这四个阶段不断优化的循环过程。

(2)建立地质大数据资产管理的框架

开展数据资产管理的顶层框架设计,明确数据资产管理的总体目标、业务框架、数据标准和数据视图、数据清洗管理规范、绩效评价体系、整体推进规划以及相关的组织、人才保障机制等。

(3)数据审计

梳理不同单位创建和现在拥有的数据,建立数据资产目录;

梳理目前数据存储、分享、管理和共享应用的方式和途径;

评估当前数据管理政策以及数据生产、数据管理、共享应用中存在的不足,发现错误的数据使用、数据丢失情况和不可恢复的数据;

定性/定量明确主要用户及其他用户对数据的需求,包括数据过去对用户需求满意程度的分析;

提出改进数据管理、共享应用的方法和维护管理的预算投资。

(4)数据资产管理实施

参考国内外相关数据资产管理的相关成果,提出地质大数据资产管理实施主要包含7项管理内容和2个保障措施。7项管理内容指的是国家级地质大数据核心数据库体系、数据标准管理(数据模型管理)、元数据管理、数据质量管理、数据安全管理、数据治理与数据价值评估;2个保障措施包括组织架构和制度体系。

——国家级地质大数据核心数据库体系

在全局地质大数据资产目录的基础上,建立地质大数据库的评价指标和标准,按重要程度、价值高低进行分级处理,优选形成国家级地质大数据核心数据库体系,并将国家级核心数据库纳入数据资产进行管理。

国家级核心数据库是地质调查、国土空间规划、地质环境评价、矿产能源资源保障等领域需求的基础数据,能够被重复、共享应用于广泛的科研工作、跨越各个单位与部门,并能够在各个系统之间共享、高价值的基础数据,覆盖范围广、数据信息全面、数据质量高、是专题领域的权威数据等特点。为满足多级用户变化的需求,国家级核心数据库需要持续稳定地更新,用以支撑相关的科学研究与政府决策。

——数据标准管理

梳理并管理现有不同专题数据的建库标准(技术要求),包括数据的定义、数据模型、数据格式、比例尺、参考及引用的标准及公共代码等。基于数据模型与当前的系统应用模型,建立全局地质数据通用的数据模型库,将数据的生产与应用模型纳入到统一的语义框架下,即明确数据的首要的创建点,且单点创建多方共享,就是避免原来同一个数据多方采集,多头管理等导致的不一致的问题;同时也保证现有与未来应用系统模型的一致性与可维护性。

通过数据模型管理可以清楚地表达不同单位、不同专题各种应用之间的数据相关性,使不同部门的业务人员、应用开发人员和系统管理人员获得关于地质大数据核心数据的统一完整视图。

——元数据管理

元数据是描述数据的数据。元数据按用途不同分为核心数据库元数据、业务元数据。

核心数据库元数据:描述核心数据库采集、空间参考、格式、内容、管理与维护责任单位信息等,也包括数据生产、数据转换的描述与质量信息等内容。

业务元数据:描述数据不同应用系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等。

元数据管理的主要内容包括:建立地质大数据资产管理维护元数据标准;建设元数据管理工具;创建、采集、整合元数据;管理元数据存储库;分发和使用元数据。

——数据质量管理

数据质量管理是指运用相关技术来衡量、提高和确保数据质量的规划、实施与控制等一系列活动。内容主要包括:开发和提升数据质量意识;建立数据质量监控方案及技术要求;清洗和纠正数据质量缺陷;设计并研发数据质量管理工具;监控数据质量管理操作程序和绩效;确定与评估数据质量水平等。

——数据安全管理

数据安全管理是指对数据设定安全等级,保证其被适当地使用。通过数据安全管理,规划、开发和执行安全政策与措施,提供适当的身份以确认、授权、访问与审计等功能。数据安全管理主要内容包括:明确数据安全需求及监管要求;对涉密及业务敏感数据分级分类,定义数据安全强度,划分信息等级;定义数据安全策略;定义数据安全标准,定义数据安全控制及措施;管理数据访问视图与权限;监控用户身份认证和访问行为;部署数据安全防控系统或工具;审计数据安全等。

——数据治理

根据上述5个步骤提出的要求与规则,对现有的国家级地质大数据核心数据库进行清理与整合,建立地质大数据资源池,实现各个关联系统与数据资源池的数据同步,使得不同部门可以跨系统地使用来自权威数据源的一致、高质量的核心专业数据,降低成本和复杂度,从而支撑跨部门、跨系统数据融合应用。

——数据价值评估

数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面来开展。数据成本一般包括采集获取和存储的费用(人工费用、IT设备等直接费用和间接费用等)和运维费用(业务操作费、技术操作费等)。数据应用价值主要考虑数据资产的分类、使用频次、使用对象、使用效果和共享流通等因素。根据不同单位不同数据库的集成度水平与应用场景,计算或估算数据在不同应用场景下的收益及单位数据资产的总体价值。

(5)保障措施

数据资产管理是体系化非常强的工作,需要充分考虑企业内部IT系统、数据资源以及业务应用的开展现状,同时也要考虑围绕业务开展所设立的人员和组织机构的情况,在此基础上设计一套有针对性的数据资产管理组织架构、管理流程、管理机制和考核评估办法,通过管理的手段明确“责权利”以保障数据资产管理工作有序开展。保障措施包括组织架构和制度体系。

典型的组织架构主要由数据资产管理委员会、数据资产管理中心和各业务部门构成,还需要明确组织架构中不同角色相应的职责,让工作职责融入到日常的数据资产管理和使用工作中。

为保障活动实施和组织架构正常运转,需要建立一套覆盖数据引入、使用、开放等整个生产运营过程的数据管理规范,从制度上保障数据资产管理工作有据、可行、可控。

五、结论与建议

地质大数据资产是利用数据助力自然资源部中国地质调查局为国家生态文明建设服务的有效利器。地质大数据资产管理的水平某种程度上决定着自然资源的开发利用保护、资产估价和空间规划的发展进程与水平。因此,建议以目前中国地质调查局正在开展的地质云建设为契机,提高数据资产的意识,开展数据资产管理的顶层框架设计,尽快编制并实施地质大数据的资产管理方案,构建国家级地质大数据核心数据库体系,建立全局地质数据通用的数据模型库,创建统一的数据按生命周期进行管理的标准,对现有的国家级地质大数据核心数据库进行治理,建立统一数据模型的地质大数据资源池,使得不同部门可以跨系统地使用来自权威数据源的一致、高质量的地质大数据核心专业数据,从而支撑跨专业、跨部门、跨系统数据分析挖掘与融合应用,才能更好地为资源管理与环境评价提供坚实的数据支撑和服务。□

网站编辑:宫莉

返回新闻