Scientia Geographica Sinica  2016 , 36 (8): 1180-1189 https://doi.org/10.13249/j.cnki.sgs.2016.08.008

Orginal Article

地理空间元数据关联网络的构建

赵红伟123, 诸云强12, 侯志伟123, 杨宏伟4

1. 中国科学院资源与环境信息系统国家重点实验室, 北京100101
2. 中国科学院地理科学与资源研究所,北京100101
3. 中国科学院大学, 北京 100049
4. 中国石油规划总院, 北京100000

Construction of Geospatial Metadata Association Network

Zhao Hongwei123, Zhu Yunqiang12, Hou Zhiwei123, Yang Hongwei4

1. State Key Laboratory of Resources and Environmental Information System, Chinese Academy of Sciences, Beijing 100101, China
2. Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
3. University of Chinese Academy of Sciences, Beijing 100049, China
4.China Petroleum Planning & Engineering Institute, Beijing 100000, China

中图分类号:  TP391

文献标识码:  A

文章编号:  1000-0690(2016)08-1180-10

收稿日期: 2015-11-23

修回日期:  2016-05-4

网络出版日期:  2016-08-20

版权声明:  2016 《地理科学》编辑部 本文是开放获取期刊文献,在以下情况下可以自由使用:学术研究、学术交流、科研教学等,但不允许用于商业目的.

基金资助:  国家自然科学基金项目(41371381)、科技部科技基础性工作专项项目(2013FY110900)、国家重大科学仪器设备开发专项(2012YQ06002704)、云南省科技计划项目(2012CA021)资助

作者简介:

作者简介:赵红伟(1987-),女,山东聊城人,博士研究生,主要研究方向为地理空间数据语义关联、地理空间数据共享。E-mail:zhaohw.10s@igsnrr.ac.cn

展开

摘要

利用资源描述框架(RDF)设计地理空间元数据关联模型,根据地理空间元数据之间的语义关系和语义相关度的计算,以构建以元数据为节点、元数据之间的语义关系为边、语义相关度为权重的关联网络。在这一网络中,一个节点是一个地理空间元数据的资源描述图,包含属性特征(数据来源、空间特征、时间特征、内容)及其关系特征(元数据之间的语义关系、语义相关度)。实验及其分析表明,地理空间元数据关联网络可以有效地支持地理空间数据语义关联检索、推荐等应用,这与传统的基于关键词的元数据检索方式相比,具有更高的准确度。

关键词: 地理空间元数据 ; 关联数据 ; 语义相似度 ; 关联网络

Abstract

The rapid acquisition of geospatial data mainly depends on geospatial metadata. But the traditional organization of geospatial metadata and the keywords-based retrieval methods create barriers among metadata considering semantic relations between geospatial data such as spatial topology relationship, category relationship, resulting in a bottleneck in geospatial data sharing. In the context of big geospatial data, the development of linked data provides an effective practice for the semantic sharing and application of massive geospatial data. The linked geodata is intended to break the semantic barriers between geospatial data and form a data network with semantic realtions. Due to the complexity, diversity and uncertainy of geospatial data, linked geodata is often achieved through the association between metadata. Geospatial metadata contains a number of descriptive information. How to effectively organize vast amounts of geospatial metadata and map the metadata into the semantic space by simple way have become the hotspots in the field of geospatial data sharing. Construction of semantic associations among geospatial metadata is an effective means of performing semantic retrieval using related data technologies. Effective application of linked data depends on effective association models. Considering this, a method of constructing geospatial metadata association networks is proposed in this paper: firstly, a geospatial metadata association model is designed on basis of the resource description framework (RDF); secondly, a semantic relation between metadata is determined and the relationship is constructed; and finally, the degree of semantic relevance of the semantic relationship is calculated. In the association network, the metadata are nodes, the semantic relationships between the metadata are edges, and the degrees of semantic relevance are the weights of the edges. Every node is an RDF that has attribute properties, such as sources, spatial characteristics, temporal characteristics, and content, and has properties of semantic relationships. Experimental results showed that the constructed network could effectively support operations such as semantic association search and recommendation, and the retrieval results were more precise and accurate compared with traditional metadata retrieval methods based on keywords.

Keywords: geospatial metadata ; linked data ; semantic relevance ; association network

0

PDF (554KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

赵红伟, 诸云强, 侯志伟, 杨宏伟. 地理空间元数据关联网络的构建[J]. , 2016, 36(8): 1180-1189 https://doi.org/10.13249/j.cnki.sgs.2016.08.008

Zhao Hongwei, Zhu Yunqiang, Hou Zhiwei, Yang Hongwei. Construction of Geospatial Metadata Association Network[J]. Scientia Geographica Sinica, 2016, 36(8): 1180-1189 https://doi.org/10.13249/j.cnki.sgs.2016.08.008

地理空间数据,是指描述地球表面位置的信息[1];是指具有明确位置数据的信息,通常情况下是在某一坐标系统下的几何体[2]。从传统的地理信息系统(GIS)到近年来分布式网络环境下的地理空间数据共享[3]和基于Web的地图服务等,地理空间数据取得了广泛的应用和跨越式的发展。随着3S技术的发展,地理空间数据来源日益广泛、内容更加丰富、存储格式趋于多样。通过元数据用户可迅速了解数据的名称、质量、组织方式等详细信息。目前,国内外地理空间元数据标准日趋完善[4],但是,元数据基于传统方式的组织形式和检索方式,已不能够满足用户对语义检索的需求,如:用户通过关键词“江苏”只能检索到元数据中具有“江苏”字符的地理空间数据,而在空间中包含于“江苏”的“南京”、包含“江苏”的“长江三角洲”、邻接“江苏”的“上海”等均不能够被检索到。除此之外,地理空间数据还具有时间、内容、来源等多维语义关系,如何充分利用元数据中蕴含的丰富的语义信息,准确、快速发现,并推荐地理空间数据,成为地理空间数据共享迫切需要解决的问题。关联数据的提出[2]为这一问题提供了有效的解决方式。

关联数据不仅仅是把数据发布到网络中构建被人类理解的文档网络,还构建了数据与数据之间能被计算机理解的结构化、语义化的链接。通过已有数据找到与之相关的其他数据,以开发构建更加智能化应用服务[5]。自“关联数据”提出以来,越来越多的网络资源正在向着数据网络(Web of Data,即 Web 中可被机器理解的语义数据)方向前进[5],地理空间元数据关联网络正是这其中一种。地理空间元数据关联网络本质上是地理空间数据与数据之间通过元数据的描述信息来建立关联,是地理空间元数据关联的一种实现方式。

近年来,国内外学者对地理空间关联数据的研究取得了丰硕的研究成果[6~9]:英国的陆地测量部是第一个将多种地理空间数据以开放链接的形式发布的国家制图机构(① https://www.ordnancesurvey.co.uk/business-and-government/products/opendat;Linked GeoData( ② http://linkedgeodata.org/About以RDF( ③ http://www.phpstudy.net/e/rdf/ 的形式应用Open StreetMap 数据并应用声明的SPARQL语言对其进行检索;Longley P A等人将西班牙的地理空间数据以RDF的形式进行发布( ④ http://geo.linkeddata.es/

。以上研究,将地理空间元数据的属性与关联词汇集或本体进行连接,通过计算或推理词汇或本体概念的语义关系得到属性之间语义关系,进而得到地理空间元数据某一项属性的语义关系。而地理空间元数据往往具有多个属性信息,因此,将大大增加通过已知地理空间元数据找到与之综合语义相关较大的其他元数据计算的复杂度。

本文提出地理空间数据元数据关联网络,通过计算元数据间多维语义的综合相关关系和相关度,建立地理空间数据的直接关联。这可以降低元数据检索中算法的复杂性,提高检索效率,根据语义相关度进行检索结果的排序等。

1 地理空间元数据关联模型

1.1 地理空间元数据关联网络

地理空间元数据关联网络本质上是以元数据为节点,元数据之间的语义关系为边,语义相关度为边的权重的有向图。它以地理空间元数据为基元,主要为地理空间数据的语义发现、语义推荐等应用服务。其中,地理空间元数据包含空间、时间、内容、数据组织方式、数据质量等多方面的信息,元数据之间通过这些信息的综合语义关系建立元数据与元数据之间的关联。从语义关联上讲,如果将元数据的每一个特征均考虑到关联网络中,不仅增加网络的复杂性,而且会减弱主要语义的应用。因此,在构建语义关联网络过程中,必须对元数据信息进行取舍,使得网络具有灵活性、可调控性,网络应用目标更加明确、集中。

本文综合考虑地理空间数据的基本特征和用户关注的地理空间元数据主要信息选取用于关联的元数据特征,通过被选特征之间的语义关系建立地理空间元数据关联模型。地理空间元数据关联模型应包含:用于关联的元数据描述信息和元数据与元数据间的综合语义关系及语义相关度。

1.2 地理空间元数据描述模型

地理空间元数据描述模型的主体类为地理空间元数据(Geospatial Metadata)(图1)。空间特征(空间名称)、时间特征(时间词汇)、内容特征(内容关键词、内容分类)是地理空间数据本质特征,是用户语义检索主要关注的特征;数据来源(提供者)是地理空间元数据的必要特征,是衡量数据质量的重要指标,也是构建关联数据时描述模型的必要属性[10]

1) 空间特征:是指地理空间元数据中表达空间特征的名词(一个或多个),在元数据关联网络构建过程中被映射到空间基础数据库中的空间实体,利用空间实体建立元数据间的空间语义关系。

2) 时间特征:是指地理空间数据集中的现象或事件在现实中发生或存在的时间(一个或多个)。可以是时间点,也可以是时间段,一个时间关键词对应一个时间类的实例。时间类包含起始时间、终止时间、时间间隔和时间单位4个属性信息。

3) 内容特征:内容关键词是描述地理空间数据集内容的关键词集合;内容分类是关键词所属的类别。

图1   地理空间元数据描述模型

Fig.1   The descriptive model of geospatial metadata

4) 数据来源:是指数据的提供者,从一定程度上保证了数据质量,是地理空间元数据描述模型的必要特征。包含提供者的名字、邮箱、所属公司/单位3个属性。

1.3 地理空间元数据关联模型

地理空间元数据关联模型通过元数据描述信息综合语义关系构建(图2),包含语义关系(定性)和语义相关度(定量)两部分。定性的语义关系包含空间拓扑关系(spatialTopology)、时间拓扑关系(temporalTopology)、内容类别(contentCategory)3个语义维度。定量的语义相关度(semanticRelevancy)的计算不仅考虑以上3类语义关系,还考虑空间度量关系、时间度量关系、内容字面相关度等。

图2   地理空间元数据关系模型

Fig.2   The relationship model of geospatial metadata

1) 空间语义关系。Sloman等人[11]对空间概念和实体做了解释:概念是一类实体或一组实体特征的描述,地理空间概念是来描述地理特征类型。地理空间的语义相关主要由关系表征,关系表示概念之间的一类关联。地理空间数据的空间语义关系主要包含拓扑关系、方向关系、度量关系。根据常见的语义应用(数据检索、语义查询等),本文考虑空间拓扑关系和空间度量关系。

(1) 空间拓扑关系:影响较大的空间拓扑模型是Randell等人提出的区域连接演算RCC (region connection calculus)理论。RCC理论以空间中的区域为对象,而不是几何学中的无维度的点,用“连接”来表达空间对象间的基本关系,共有8种可能性(表1),可知Inside与Coverby两种拓扑关系可以合为一种,本研究取谓词Inside;同理,Contains与Covers两种拓扑关系共同采用谓词Contains。

(2) 空间度量关系:主要指距离关系,也包括其他与尺度有关的关系,如面积、体积等。距离关系的表示分为绝对距离和相对距离关系。绝对距离关系直接表示两个空间对象之间的距离,相对距离关系通过与第3个对象的比较,间接表示两个对象间的距离。绝对距离可以是定性关系,也可以是定量关系,而相对距离一般是定性的。由于定性距离在不同的空间尺度下,具有不同的距离语义认知,比如,在全球尺度上“北京”与“广州”距离较近,而在全国尺度上“北京”与“广州”非常远。因此,本文采用绝对距离的定量关系,如定义1。

定义1,空间距离:空间实体主要涉及到点、线、面3种几何形态,本文中点-点、点-面、面-面的距离指几何中心的欧式距离;点-线、线-面的距离指点、面的几何中心点到线的垂直距离;线-线的距离指线的最短距离。

2) 时间语义关系。地理空间数据集的时间主要是指地学现象或过程发生、演化、完结的时间,本文采用公历时间和时钟时间对其描述,相关的时间语义关系主要有时间拓扑关系和时间度量关系。在时间关系研究方面,时间区间代数( Interval Algebra)理论[12]以时间段为基元,总结了 Before、After 等 13 种基本的时间关系及其推理规则和算法,成为时间关系研究的基础。

(1) 时间拓扑关系:地理空间数据集记录的时间有时间点、时间段、复合时间等,时间拓扑关系分为时间点-时间点、时间点-时间段、时间段-时间段3种。

定义2,时间点:时间轴上的每个点表示一个时刻,它没有长短,只有先后,是一个序数,用 tii= 1,2,3,… , n)表示。

定义3,时间段:时间轴上的一段时间表示一个时间段,时间段可以表示为 T=[ts,te],ts和te分别表示时间段的开始时间点和结束时间点,且ts<te。

时间点-时间点的拓扑关系,时间点之间存在两种拓扑关系:相等、不相等(相离); 时间点B-时间段A之间存在4种拓扑关系: A包含 B BA期间、 BA的开始时间、 BA的结束时间; 时间段-时间段的拓扑关系。

本文采用Allen归纳出的13 种时态关系,分别为before、overlap、meet、equal、start、finish、during及其逆关系(equal没有逆关系)。

(2) 时间度量关系:主要指时间距离关系,与空间距离相似,时间距离也分为绝对距离和相对距离,绝对距离包含定性距离与定量距离,同空间度量关系相似,本文采用绝对距离中的定量距离,如定义4。

定义4,时间距离:时间段的中心值或时间点在时间轴上的距离。

(3) 内容语义关系。内容语义是对地理事物和现象普通专题特征含义的表达,主要包含复合关系、从属关系、分类与概括关系等[13]。根据研究目标,本文只考虑内容的分类与概括关系。

地理空间数据内容分类是指数据按专题要素进行分类,分类体系都可以使用层次化的树状结构来描述类与类之间的逻辑关系(图3)。主要包括父子关系(T1X的父类;XT1的子类)、兄弟关系(XY有共同的父类),共3种类别关系。

表1   RCC-8 拓扑关系

Table 1   Region connection calculus

序号关系代码关系名称语义解释
1DCDisjointsAB相离(不相交)
2ECMeetsAB相接
3EQEqualsAB相等
4NTPPInsideA包含于B,且两者边界不交
5NTPPiContainsA包含B,且两者边界不交
6TPPCoverbyA包含于B,且两者边界相交
7TPPiCoversA包含B,且两者边界相交
8POOverlapsAB部分重叠

新窗口打开

图3   内容分类树

Fig.3   Classification tree of the contents

综上所述,地理空间元数据具有6种空间拓扑关系(表1),13种时间拓扑关系和3种内容分类关系(图3)。地理空间元数据之间在空间、时间、内容三维语义空间中,理论上共有234种的语义关系。本文分别定义空间关系谓词、时间关系谓词和内容类别关系谓词,对三者组合来定义234种地理空间元数据间的语义关系谓词。

空间拓扑关系谓词包含:Disjoints, Meets, Equals, Inside, Contains, Overlaps;时间拓扑关系谓词包含:Equals, Contains, During, Finishs, FinishedBy, Satarts, StartedBy, Overlaps, OverlapedBy, Meets, Metby, Before, After;内容类别谓词包含:FatherOf, SonOf,BrotherOf。地理空间元数据的关系谓词为:“spatial”+空间关系谓词+“-temporal”+时间关系谓词+“-class”+内容类别关系谓词。

2 地理空间元数据语义相关度的计算

地理空间元数据的语义相关度是指语义关系的定量描述,直接反映语义关系的强弱。在一些不需要了解具体语义关系的应用中有重要价值,如提高元数据的检索效率并对结果进行排序。本文通过分别计算空间语义关联强度、时间语义关联强度和内容语义关联强度,构建基于三者的地理空间元数据语义相关度计算的线性模型。

Geos=WSSS+WTTS+WFFS(1)

其中,Geos为地理空间数据语义相似度, SS,TS,FS,分别为空间、时间、内容语义相关度,计算公式见(2~8)。 WS,WT,WF,为相应的关联权重值 ① 本文中的关联权重值由专家打分判断。,且满足 WF+WS+WT=1

2.1 空间语义相关度的计算

空间语义关系主要包含定性的拓扑关系和定量的度量关系。通常在同一空间尺度、同一拓扑关系中,距离越近、重叠长度/面积越大,空间语义相关度越高。因此,本文通过计算同一拓扑关系下不同度量关系相关度来计算空间语义相关度。

SS=WS1min+(WS1max-WS1min)S2(2)

其中, WS1min为地理空间元数据之间的空间拓扑关系为 S1时的基本权重; WS1min为相应最大权重, S2为在拓扑关系 S1中度量关系的关联值。

S2=WS21S21+WS22S22(3)

S22=1-DS/RA+RB(4)

其中, S21为重叠长度/面积占数据集AB的空间实体长度/面积比例的均值, S22为距离相关度。 WS21WS22为相应指标的权重且满足 WS21+WS22=1, DS为空间距离(定义1), RARB分别为数据集A的空间实体和数据集B的空间实体的外包圆半径。由于 S21S22是归一化值,公式(3、4)可应用于不同的空间尺度。

2.2 时间语义相关度的计算

时间语义关系包含定性的拓扑关系和定量的度量关系。与空间关系相似,同一时间尺度、时间拓扑关系中,距离越近、重叠的时间越长,时间语义相关度越大。时间语义相关度计算方法:

TS=WT1min+(WT1max-WT1min)T2(5)

其中, WT1minWT1max为时间拓扑关系时 T1最小关联权重和最大关联权重, T2为时间度量关系相关度。

当时间实体AB相离时(after/before):

T2=1/DT(6)

当时间实体 AB相离时, DT>1,因此, T2<1。

当时间实体 AB不相离时,

T2=WT21T21=WT22T22(7)

T22=1-DT/RTA=RTB(8)

其中, T21为时间重叠部分占时间AB比例的均值, WT21WT22为相应指标的权重,且满足 WT21+WT22=1,DT为时间距离, RTARTB分别为时间A和时间B长度的一半。由于 T21T22是归一化值,因此,公式(7、8)可应用于不同的时间尺度。

2.3 内容语义相关度的计算

除了类别语义关系,本文还考虑了内容关键词之间的相同比例来计算内容语义相关度。

Fs=WF1F1+WF2F2(9)

其中, Fs是内容语义相关度, WF1WF2分别为关键词相同比例、类别层次相关性的权重值,两者满足 WF1+WF2=1F1F2分别指内容关键词相同比例和类别相关度,具体计算方法如下。

设数据集AB的关键词集合分别为 (a1,a2,,an)(b1,b2,,bm), 其中,nm为关键词的个数。数据集 AB的语义相似度计算:

F1=i=1nj=1mWS(ai,bj)/n×m(10)

其中,WS为词汇相似度。当关键词 ai,bj相同时, WS(ai,bj)取值为1;当关键词 ai,bj不同时, WS(ai,bj)取值为0。

计算类与类的相关性需要处理分类树中父子节点、兄弟节点等不同类型的关系。国内外学者对其多有研究 [14~16],通过对比分析,本文采用Yaolin L等[16]算法计算内容类别层次相关性。

3 地理空间元数据关联网络实例

首先从地理空间元数据中提取空间、时间、内容、来源特征;其次,根据提取的元数据特征和地理空间元数据关联模型构建描述对象和关系的词汇集;最后,根据元数据特征计算元数据之间的语义关系和语义相关度(图4)。

图4   地理空间元数据关联网络构建的技术路线

Fig.4   Flow chart of geographic spatial metadata association network construction

3.1 实验数据及数据预处理

1) 地理空间元数据。实验数据来源于国家科技基础条件平台——地球系统科学数据共享平台( ① http://www2.geodata.cn/index.html),该平台的元数据以ISO 19100地理信息系统类标准为基础。实验选取100条元数据,从中提取地理空间数据集的空间、时间、内容、来源(所有者)等信息并进行预处理。其中时间信息包含起始时间、终止时间、时间间隔、间隔单位(年、月、日等);内容分类采用ISO 19115元数据内容分类标准,共19类[17];来源信息包含作者(数据拥有者)名字、联系方式、单位等。

2) 地理空间基础数据库。本文将地理空间元数据中提取的空间关键词映射到地理空间基础数据库的方式建立地理空间元数据之间的空间拓扑关系和空间度量。地理空间基础数据库中图层数据的质量直接影响空间语义关系和空间语义相似度的精度。根据实验采用的元数据,地理空间基础数据库主要包含中国边界图层、中国省界图层、中国县界图层、中国乡镇图层、中国主要河流图层、中国陆地地形图层、中国主要湖泊图层等。数据库中所有的矢量/栅格图层采用统一坐标系——北京1954地理坐标系。

3.2 元数据关联网络构建

地理空间元数据之间通过语义关系建立关联、通过语义相关度来衡量关联强度,如果把地理空间元数据看做网络中的一个节点,语义关系看做元数据之间的有向边,那么语义相关度即为边的权重。因此,元数据关联网络的构建主要包含语义关系和相应的语义相关度值。

1) 语义相关度关联权重。由前文语义相关度计算方法可知,地理空间元数据之间的语义相关度的计算需要对多个权重值进行赋值。由于6种空间拓扑关系——Disjoints, Meets, Overlaps, Inside, Contains, Equals, 权重值呈递增,且空间度量关系起到权重调控的作用,空间拓扑基本权重( WS1min)和拓扑最大权重( WS1max)可通过训练数据集得到较理想的值,最终确保每组元数据空间相关度的相对大小。时间拓扑基本权重( WT1min)和拓扑最大权重( WT1max)也可得到。

除了以上两类权重,其余权重的赋值采用专家打分的方法。实验征求 8 位地理科学、地球科学数据共享、地理本体、地理语义等相关领域的专家对公式(1、3、7、8)中的权重进行打分(表 2)。

表2   权重打分结果

Table 2   Weights scores for each relationship by experts

权重项目权重值权重项目权重值
内容关系(WF41关键词相同比例权重(WF158
内容分类(WF242
小计100
空间关系(WS35空间重叠比例(WS2160
距离相关度(WS2240
小计100
时间关系(WT24时间重叠比例(WT2160
距离相关度(WT2240
小计100
合计100

新窗口打开

2) 关联网络结果及分析。将地理空间元数据的空间名词映射到地理空间基础数据库中的空间实体,计算空间实体之间的空间拓扑关系和空间相关度来计算元数据的空间关系;用公历时间值计算时间拓扑关系和时间相关度;利用ISO19115内容分类体系计算类别相关度,该标准只包含19个一级类。类别相关性只有BrotherOf 和No(没有关系)两种情况。本文随机选取藏高原东缘气象气候研究数据(1956~1993年)(简称青藏高原数据集)和江苏省1∶10万土地利用数据(1980s)(简称江苏省数据集)两条元数据与其他元数据的语义关系进行分析(表3、4)。设青藏高原东缘气象气候研究数据(1956~1993年)为A,表3中1~25条元数据为B;江苏省1∶10万土地利用数据(1980s)为C,表4中1~25条元数据为B。每个元数据是一个节点,语义关系是由A/C指向B/D的边,语义相关度是边的权重值。

表3   与“青藏高原东缘气象气候研究数据(1956~1993年)”关联较紧密的元数据

Table 3   The closely related metadata to “the climate research data of eastern margin of Tibetan Plateau (1956-1993)”

编号元数据条目语义关系
(A B)
语义关系释义语义相
关度
1青藏高原东缘气象气候研究数据(1956~1993年)spatialEquals-temporalEquals-classBrotherOf空间:AB相等;时间:AB相等
内容:A B同类
1
2青藏高原分区域气候数据(1984年)spatialEquals-temporalContains-classBrotherOf空间:AB相等;时间:A包含B
内容:AB同类
0.9522
31951~2000年中国公里网格多年平均风速spatialInside-temporalDuring-
classBrotherOf
空间:A包含于B;时间:A包含于B
内容:AB同类
0.9222
4纳木错和慕士塔格大气化学成分数据集(2005~2009年)spatialContains-temporalBefore-classBrotherOf空间:A包含B;时间:AB之前
内容:AB同类
0.6568
5四川省紫色土区气象研究数据(1997~2003年)spatialOverlaps-temporalBefore-classBrotherOf空间:AB相交;时间:AB之前
内容:AB同类
0.6524
61971~2000年浙江省1∶25万累年平均降水量空间分布图spatialDisjionts-temporalOverlappedBy-classBrother空间:AB相离;时间:AB相交
内容:AB同类
0.6037
71971~2000年浙江25万累年月平均极端最低和最高气温、月平均气温空间分布图spatialDisjionts-temporalOverlappedBy-classBrother空间:AB相离;时间:AB相交
内容:AB同类
0.6037
8青藏高原农田系统生态因子数据集(1960~2000年)spatialEquals-temporalOverlappedBy-classNo空间:AB相等;时间:AB相交
内容:AB不同类
0.5698
9青藏高原草地分布面积、类型、经济特性数据集(1974~1976年)spatialEquals-temporalContains-classNo空间:AB相等;时间:A包含B
内容:AB不同类
0.5625
10青藏高原草地资源物种营养成分数据集(1974~1976年)spatialEquals-temporalContains-classNo空间:AB相等;时间:A包含B
内容:AB不同类
0.5625
111981年青藏高原水分、水文研究数据spatialEquals-temporalContains-classNo空间:AB相等;时间:A包含B
内容:AB不同类
0.5507
121∶100万青藏高原水系流域图(1980~1982年)spatialEquals-temporalContains-classNo空间:AB相等;时间:A包含B
内容:AB不同类
0.5507
13青藏自然区划背景数据(1984年)spatialEquals-temporalContains-classNo空间:AB相等;时间:A包含B
内容:AB不同类
0.5422
14青藏高原湖泊水化学成分图(1990年)spatialEquals-temporalContains-classNo空间:AB相等;时间:A包含B
内容:AB不同类
0.5298
15青藏高原野生动物数据(1991年)spatialEquals-temporalContains-classNo空间:AB相等;时间:A包含B
内容:AB不同类
0.5277
16青藏高原森林资源系统生态因子数据集(1980~2000年)spatialEquals-temporalOverlappedBy-classNo空间:AB相交;时间:AB相交
内容:AB不同类
0.5170
171951~2000年中国公里网格风能数据spatialInside-temporalDuring-
classNo
空间:A包含于B;时间:A包含于B
内容:AB不同类
0.5122
18中国森林资源数据库(分省,分县,1950~1993年)spatialInside-temporalDuring-
classNo
空间:A包含于B;时间:A包含于B
内容:AB不同类
0.5098
19中国地质灾害事件数据集(1949~2008)spatialInside-temporalDuring-
classNo
空间:A包含于B;时间:AB相交
内容:AB不同类
0.5062
201961~2000年中国1∶100万生态环境背景数据(水、热要素)spatialInside-temporalOverlappedBy-classNo空间:A包含于B;时间:AB相交
内容:AB不同类
0.4977
21中国1∶400万耕地质量数据(1980 s)spatialInside-temporalContains-classNo空间:A包含于B;时间:A包含B
内容:AB不同类
0.4821
22中国海岸带和海涂资源20世纪80年代综合调查数据spatialInside-temporalContains-classNo空间:A包含于B;时间:A包含B
内容:AB不同类
0.4821
23西藏部分河流的水文数据(1980~1989年)spatialOverlaps-temporalContains-classNo空间:AB相交;时间:A包含B
内容:AB不同类
0.4821
24中国农业物候(1980~1981年)spatialInside-temporalContains-classNo空间:A包含于B;时间:A包含B
内容:AB不同类
0.4806
25中国草地资源数据库(分省,分县,1980 s)spatialInside-temporalContains-classNo空间:A包含于B;时间:A包含B
内容:AB不同类
0.4805

新窗口打开

表4   与“江苏省1∶10万土地利用数据(1980s)”关联较为紧密的元数据

Table 4   The closely related metadata to “the 1∶10 million land use data of Jiangsu province (1980s)”

编号元数据条目语义关系
(CD)
语义关系释义语义
相关度
1江苏省1∶10万土地利用数据(1980 s)spatialEquals-temporalEquals-
classBrotherOf
空间:C与相等;时间:C D 相等
内容:C D 同类
1
2中国土地资源数据库(1980~2001年,分省、分县)spatialInside-temporalStarts-
classBrotherOf
空间:C 包含于D;时间:C 开始于D
内容:C D 同类
0.8404
3江苏省1∶10万土地利用数据(1995年)spatialEquals-temporalBefore-
classBrotherOf
空间:C D 相等;时间:C D 之前
内容:C D 同类
0.7646
4江苏省1∶10万土地利用数据(2000年)spatialEquals-temporalBefore-
classBrotherOf
空间:C D 相等;时间:C D 之前
内容:C D 同类
0.7631
5江苏省1∶10万土地利用数据(2005年)spatialEquals-temporalBefore-
classBrotherOf
空间:C D 相等;时间:C D 之前
内容:C D 同类
0.7623
6江苏省1∶10万土地利用数据(2008年)spatialEquals-temporalBefore-
classBrotherOf
空间:C D 相等;时间:C D 之前
内容:C D 同类
0.7620
7江苏省1∶10万土地利用数据(2010年)spatialEquals-temporalBefore-
classBrotherOf
空间:C D 相等;时间:C D 之前
内容:C D 同类
0.7619
8上海市1∶10万土地利用数据(1980 s)spatialMeets-temporalEquals-
classBrotherOf
空间:C D 相接;时间:C D 相等
内容:C D 同类
0.7457
9中国地区土地利用/土地覆盖数据集spatialOverlaps-temporalBefore-
classBrotherOf
空间:C 包含于D ;时间:C D 之前
内容:C D 同类
0.6268
10安徽省1∶10万土地利用数据(2005年)spatialMeets-temporalBefore-
classBrotherOf
空间:C 包含于D ;时间:C D 之前
内容:C D 不同类
0.5502
11中国农业物候(1980~1981)spatialInside-temporalStartedBy-
classNo
空间:C 包含于D ;时间:C D 开始
内容:C D 不同类
0.5382
12上海市1∶10万土地利用数据(1995年)spatialMeets-temporalBefore-
classBrotherOf
空间:C D 相接;时间:C D 之前
内容:C D 同类
0.5103
13上海市1∶10万土地利用数据(2000年)spatialMeets-temporalBefore-
classBrotherOf
空间:C D 相接;时间:C D 之前
内容:C D 同类
0.5088
14上海市1∶10万土地利用数据(2005年)spatialMeets-temporalBefore-
classBrotherOf
空间:C D 相接;时间:C D 之前
内容:C D 同类
0.5080
15上海市1∶10万土地利用数据(2008年)spatialMeets-temporalBefore-
classBrotherOf
空间:C D 相接;时间:C D 之前
内容:C D 同类
0.5077
161996年浙江省1∶25万数字化土地利用现状图spatialMeets-temporalBefore-
classBrotherOf
空间:C D 相接;时间:C D 之前
内容:C D 同类
0.4963
17中国1∶400万耕地质量数据(1980 s)spatialInside-temporalEquals-
classNo
空间:C 包含于D ;时间:C D 相等
内容:C D 不同类
0.4537
18中国海岸带和海涂资源20世纪80年代综合调查数据spatialInside-temporalEquals-
classNo
空间:C 包含于D ;时间:C D 相等
内容:C D 不同类
0.4537
19中国历年县级的行政区划数据集(1980~2005)spatialInside-temporalStarts-
classNo
空间:C 包含于D ;时间:C 开始于 D
内容:C D 不同类
0.4269
201961~2000年中国1∶100万生态环境背景数据(水、热要素)spatialInside-temporalDuring-
classNo
空间:C 包含于D ;时间:C 包含于D
内容:C D 不同类
0.4257
21中国地质灾害事件数据集(1949~2008)spatialInside-temporalDuring-
classNo
空间:C 包含于D ;时间:C 包含于D
内容:C D 不同类
0.4230
22中国森林资源数据库(分省,分县,1950~1993年)spatialInside-temporalDuring-
classNo
空间:C 包含于D ;时间:C 包含于D
内容:C D 不同类
0.4204
231951~000年中国公里网格风能数据spatialInside-temporalDuring-
classNo
空间:C 包含于D ;时间:C 包含于D
内容:C D 不同类
0.4188
241951~2000年中国公里网格多年平均风速spatialInside-temporalDuring-
classNo
空间:C 包含于D ;时间:C 包含于D
内容:C D 不同类
0.4188
25中国草地资源数据库(分省,分县,1980 s)spatialInside-temporalStartedBy-
classNo
空间:C 包含于D ;时间:C D 开始;内容:C D 不同类0.3894

新窗口打开

表3中,空间概念“青藏高原”是指青藏高原在中国境内的空间范围。元数据A是主语,元数据1~25是宾语,语义关系是相应的关系谓词。元数据A在空间上与元数据2相等(spatialEquals)、时间上包含元数据2(temporalContains)、与元数据2是有共同的父类 (BrotherOf),两者的语义相关度是0.952 2——紧密相关。元数据A与其他元数据之间的关系可知,语义相关性由元数据3到元数据25依次降低。当元数据A与其他元数据具有相同的语义关系时,语义相关度不一定相等,这是由于语义相关度考量了定量的空间度量关系、时间度量关系和内容关键词相同比例。在实际应用中,当用户输入“青藏高原”、“气象气候”等关键词时,完全匹配的“青藏高原东缘气象气候研究数据(1956~1993年)”首先被检索到,同时还会检索到与之相关的其他数据,检索结果按照与目标数据的语义相关度由大到小排序。这将大大增加数据的查全率和应用率。

表4同理,元数据C是主语,元数据1~25是宾语,语义关系是相应的关系谓语。元数据C空间上与元数据2相等(spatialInside)、时间上开始于元数据2(temporalStarts)、与元数据2有共同父类 (BrotherOf),两者语义相关度是0.840 4。元数据3-元数据7与元数据C虽然有相同语义关系,但语义相关度不同,这是由时间度量关系的不同导致的结果——时间上,距离元数据1越近,语义相关度越大。实际应用中,当用户对“江苏省1∶10万土地利用数据(1980s)”感兴趣时,可以推荐与之语义相关度较大的数据集,给出语义相关类型。

4 结束语

地理空间元数据关联网络是基于关联数据技术及其在地理空间数据中的应用,为解决互联网大数据背景下海量、多源、异构的地理空间数据发现、共享等问题提出的元数据与元数据之间直接进行语义关联的数据网络。本文综合考虑地理空间数据特征和用户主要关注的特征,选取元数据中用于语义关联的信息来构建地理空间元数据描述模型,通过元数据描述信息建立地理空间元数据的语义关联,意在打破地理空间元数据间的语义壁垒并消除元数据孤岛现象。构建的地理空间元数据关联网络以元数据为节点,元数据之间的语义关系为有向边、语义相关度值为边的权重。

通过地理空间元数据关联网络实例可知: 地理空间元数据描述模型符合一般用户对地理空间数据的空间、时间、内容等检索条件的需求; 地理空间元数据关联网络中语义关系的计算结果经验证(见表3、4)符合人们对空间拓扑关系、时间拓扑关系和内容分类关系的认知;语义相关度的计算结果能够反映元数据之间语义相关度的相对大小,在语义检索排序中具有较高的应用价值。

该网络可支持多项语义应用:语义查询:通过关系谓词可对地理空间元数据进行空间拓扑关系、时间拓扑关系、内容类别关系查询; 语义关系度量排序:通过对语义相关度可以对元数据之间的语义关联程度进行度量,进而对查询结果进行排序;语义推荐:将与目标数据关联程度高(语义相关度值大)的数据推荐给用户。

地理空间元数据关联网络基于关联数据技术,本文讨论并实验了地理空间元数据关联网络的构建方法,但还没针对关联网络应用开发出一个完整的原型系统。接下来的研究目标是将元数据关联网络以资源描述框架(RDF)的形式在网上发布,并开发出相应的语义检索原型系统。

The authors have declared that no competing interests exist.


参考文献

[1] Béjar R, Latre M Á, Nogueras-Iso J et al.

An RM-ODP enterprise view for spatial data infrastructures

[J]. Computer Standards & Interfaces, 2012, 34(2):263-272.

https://doi.org/10.1016/j.csi.2011.10.001      URL      Magsci      [本文引用: 1]      摘要

Spatial Data Infrastructures (SDIs) are large, open, distributed and standards-based information systems which intend to facilitate and promote the use of spatial data and spatial services on the Internet. Spatial data describe information tied with locations on Earth, while spatial services allow to manipulate spatial data following a Service Oriented Architecture. This paper proposes to model SDIs as federations of autonomous communities following the enterprise language of the ITU-T and ISO/IEC 'Reference Model of Open Distributed Processing' (RM-ODP), and the recently approved Use of UML for ODP Systems Specifications' (UML4ODP). The enterprise language of the RM-ODP provides a conceptual foundation to address several aspects of SDIs not previously considered from a systems architecture point of view. The use of UML4ODP provides a modeling language to facilitate the exchange of knowledge about SDI, and it is an opportunity to try this recent standard for a class of large and complex systems. (C) 2011 Elsevier B.V. All rights reserved.
[2] Hart G, Dolbear C.Linked data : A Geographic Perspective[M]. Boca Raton:Crc Press, 2013.

[本文引用: 2]     

[3] 郑文峰.

面向服务的空间数据共享

[D]. 成都:成都理工大学,2008.

[本文引用: 1]     

[Zheng Wenfeng.

Geospatial Data Sharing Based on SOA.

Chengdu: Chengdu University of Technology,2008.]

[本文引用: 1]     

[4] Yingjie H, Janowicz K,

Prasad S et al. Metadata Topic Harmonization and Semantic Search for Linked-Data-Driven Geoportals: A Case Study Using ArcGIS Online

[J]. Transactions in Gis, 2015, 19(3):398-416.

https://doi.org/10.1111/tgis.12151      URL      [本文引用: 1]      摘要

Abstract Geoportals provide integrated access to geospatial resources, and enable both authorities and the general public to contribute and share data and services. An essential goal of geoportals is to facilitate the discovery of the available resources. Such a process relies heavily on the quality of metadata. While multiple metadata standards have been established, data contributers may adopt different standards when sharing their data via the same geoportal. This is especially the case for user-generated content where various terms and topics can be introduced to describe similar datasets. While this heterogeneity provides a wealth of perspectives, it also complicates resource discovery. With the fast development of the Semantic Web technologies, there is a rise of Linked-Data-driven portals. Although these novel portals open up new ways to organize metadata and retrieve resources, they lack effective semantic search methods. This article addresses the two challenges discussed above, namely the topic heterogeneity brought by multiple metadata standards and the lack of established semantic search in Linked-Data-driven geoportals. To harmonize the metadata topics, we employ a natural language processing method, namely Labeled Latent Dirichlet Allocation (LLDA), and train it using standardized metadata from TODO: clickthrough URL Data.gov . With respect to semantic search, we construct thematic and geographic matching features from the textual metadata descriptions, and train a regression model via a human participants experiment. We evaluate our methods by examining their performances in addressing the two issues. Finally, we implement a semantics-enabled and Linked-Data-driven prototypical geoportal using a sample dataset from Esri's ArcGIS Online.
[5] Bizer C, Heath T, Berners-Lee T.

Linked Data—The Story So Far. Int

[J]. J.semantic Web Inf.syst, 2009, 5(3): 1-22.

https://doi.org/10.4018/jswis.2009081901      URL      [本文引用: 2]      摘要

The term “Linked Data” refers to a set of best practices for publishing and connecting structured data on the Web. These best practices have been adopted by an increasing number of data providers over the last three years, leading to the creation of a global data space containing billions of assertions— the Web of Data. In this article, the authors present the concept and technical principles of Linked Data, and situate these within the broader context of related technological developments. They describe progress to date in publishing Linked Data on the Web, review applications that have been developed to exploit the Web of Data, and map out a research agenda for the Linked Data community as it moves forward.
[6] Longle P, Goodchild M, Maguire D et al.

Geographic Information Systems and Science

[M]. New York: Wiley , 2001.

[本文引用: 1]     

[7] James R, William W, Ben B.An Infrastructure for Publishing Geospatial Metadata as Open Linked Metadata[C/OL].

URL     

[8] Diederik T, Ann C, Thérèse S.Publishing metadata of geospatial indicators as Linked Open Data: A policy-oriented appro- ach[C/OL].

URL     

[9] Yingjie H, Janowicz K, McKenzie G et al.

A linked-Data-driven and semantically-enabled journal portal for scientometrics

[C/OL]//

URL      [本文引用: 1]     

[10] Bizer C.

Linked Data: Evolving the Web into a Global Data Space

[J]. Synthesis Lectures on the Semantic Web Theory & Technology, 2011, (1):1.

URL      [本文引用: 1]     

[11] Sloman S A, Love B C, Woo-Kyoung A.

Feature centrality and conceptual coherence

[J]. Cognitive Science, 1998, 22(2): 189-228

[本文引用: 1]     

[12] Allen J F.

Maintaining knowledge about temporal intervals

[J]. Communications of the ACM, 1983, 26(11): 832-843.

[本文引用: 1]     

[13] 李小娟.

基于特征的时空数据模型及其在土地利用动态监测信息系统中的应用[D]

.北京:中国科学院遥感应用研究所, 1999.

[本文引用: 1]     

[Li Xiaojuan.

Research on the Feature-based Spatio-Temporal Data Model and Its Application in Landuse Dynamic Monitoring Information System.

Beijing:Institute of Remote Sensing Applications Chinese Academy of Sciences, 1999.]

[本文引用: 1]     

[14] Boriah S, Chandola V, Kumar V.

Similarity measures for categorical data: A comparative evaluation

[J]. Red, 2008, 30(2):243-254.

https://doi.org/10.1137/1.9781611972788.22      URL      [本文引用: 1]      摘要

CiteSeerX - Scientific documents that cite the following paper: Similarity Measures for Categorical Data: A Comparative Evaluation Abstract
[15] Yang R, Kalnis P, Tung A K H.

Similarity evaluation on tree-structured data

[C]// Proceedings of the 2005 ACM SIGMOD international conference on Management of data. ACM, 2005: 754-765.

[16] Liu Y, Molenaar M, Kraak M J.

Semantic similarity evaluation model in categorical database generalization

[J]. Symposium on Geospatial Theory, 2002, 34(4): 279-285.

URL      [本文引用: 2]      摘要

ABSTRACT Database generalization process will be used to derive a new database with less detail for some application purposes from a single detailed database. In a database generalization process, semantic similarity measures among objects and among object
[17] Open GIS Consortium.

OpenGIS® Catalogue Services Specification 2.0-ISO19115/ISO19119 Application Profile for CSW 2.0

[S].2004b.

/