吴冕,等.天然气市场知识图谱本体构建
吴冕,等.天然气市场知识图谱本体构建
syghsjwechat
建设权威的一流能源观点传播与科研学术交流平台;积极探讨能源政策与战略,追踪能源领域科技创新,助力国家能源发展。
天然气市场知识图谱本体构建
摘要
关键词
知识图谱;领域本体;本体构建;天然气市场本体;天然气市场叙词表
0 引言
1 本体 构件的应用现状和发展方向
1.1 本体构件方法
本体根据其描述范围可分为领域本体和通用本体,对比而言领域本体的构建难度要小于通用本体 [4] 。但各领域本体又因为所描述的领域差别较大,进行本体开发时难以形成统一的构建方法。目前本体研究领域构建方法主要分为两种:一种是依靠领域专家和本体专家人工构建;另一种是在机器学习等算法的帮助下采用自动或半自动的方法进行构建。人工构建本体的方法效率低并且成本高;为了提高本体构建效率,减小时间成本花费,大量专家尝试基于自动化或半自动化的方法进行本体构建 [5] 。就应用情况来看,部分专业领域本体数量有限,概念覆盖范围小,对本体的严谨性要求高,不适宜采用自动化或半自动化的方法。因此在专业领域人工构建本体的方法仍是主流。人工构建本体可以划分为本体论工程方法和叙词表转化方法 [6] 。就国内外研究现状来看,国内学者侧重于使用叙词表转换为本体的方法,而国外侧重于研究本体论工程方法。近几年以本体论工程为基础的本体构建方法越来越成为研究热点。
1.1.1 人工构件本体方法
基于本体论工程的人工构建本体方法主要包含有IDEF5法 [6] 、骨架法 [7] 、TOVE法 [8] 、METHONTOLOGY法 [9] 和七步法 [10] 等。其中IDEF5法、TOVE法和骨架法分别具有层次化、检索过程简单、描述完整等优点,因此更适合企业领域本体构建。METHONTOLOGY法、七步法则更多用于领域知识本体构,METHONTOLOGY法和七步法成熟度高、有大量的实践经验因此被广泛应用。
叙词表也称为主题词表,可以被认为是一部由叙词与叙词间关系组成的语义词典,同时叙词表对领域事物概念进行了规范 [11] 。基于叙词表的本体构建在领域专家分析叙词表语义关系的基础上通过手工构建本体模型将叙词转换为本体的概念,再将词汇关系转换为本体间语义关系。实际上从叙词表向本体的转换也可通过人为设定规则并编程进行自动转换。
1.1.2 半自动和自动化本体构建方法
半自动化或自动化本体构建又主要分为两种形式,一种是基于统计方法,另一种基于语法规则 [12] 。统计类方法主要通过聚类、词频统计等方法分析数据中词语间的关系,从而为对应词汇提供重要指示信息。Wang等人提出一种基于机器学习算法的领域本体构建方法实现了大规模的政务本体构建 [13] 。该方法能弥补词库描述语言语义关系的不足,并利用百科等数据实现本体的更新。Chen等 [14] 收集大量网页作为数据来源,使用html标签进行初步选择,利用TF-IDF技术选择领域核心词汇并使用ART网络进行聚类选择。此外还有一些研究者提出水结晶模型、自组织映射等算法。值得注意的是半自动化和自动化的本体构建方法越来越受到重视,应用范围也越来越广泛。
随着物联网、通信和网络技术不断发展,各领域都积累了大量的基础数据和术语知识结构,然而对这些资源的利用率较低,难以满足行业应用需求。随着知识图谱和本体论技术的快速发展,很好的解决了这一类问题,与此同时领域本体构建得到了广泛实践。
石油与天然气等能源领域存在大量的多源异构数据,包括油气田的勘探、开发、生产到能源的运输、销售以及客户、营销数据等多种形式。这些数据结构复杂,但蕴含了重要的语义信息。Fluor公司加速部署ISO15926(ADI)项目,并将ISO159263第四部分转换为RDF(Resource Description Framework,资源描述框架)或OWL(Web Ontology Language,网络本体语言)形式,形成了本体构建的一套标准 [15] 。在此基础上挪威的每日生产报告(Daily Production Report)项目实施了基于ISO15926标准的本体,使数据比较和检索变得更加容易 [15 ] 。国内周树理等 [16] 基于七步法构建了石油勘探开发领域的本体,包括盆地、油气田、井、油气藏等概念,并利用本体知识进行相关信息推荐。肖宇等 [17] 使用斯坦福大学的七步法和Protégé工具,基于生物医学顶层本体形式化本体(Basic Formal Ontology,BFO)中收录的生物医学本体、概念、关系和实例重新定义了术语之间的逻辑关系,首先明确了本体的覆盖范围,之后复用相关概念,并扩展了新的概念或对原有概念进行扩展。在构建本体时依照了已有的基本规范,因此在本体构建工作中遇到的最大问题是对已有概念的拆分,例如要将药物分为了药品、药物、药理等多个概念。Kaushik等 [18] 构建了农业领域知识本体,实现了从文本数据中细粒度的抽取农业领域的专业术语并通过相似度计算和专家经验进行术语合并,形成概念性的类别。丁晟春等 [19] 从百度百科、开放知识库等领域收集数据,并采用人工定义的方式自顶向下进行构建企业知识本体。这些本体包括企业、人物、事件、产品等类别并对类别之间的关系进行了详细定义。
2 天然气市场销售领域本体构建
叙词表也被称为主题词表,是领域内事物的名称、成分、概念的规范化集合。叙词表具有统一性、规范性,其一般由该领域相关专家共同编写,因此具有行业通用性,比如常用的行业叙词表包括《石油汉语主题词表》《汉语主题词表》等。天然气市场领域没有统一的叙词表,本文首先根据石油天然气行业相关规范和标准文件构建天然气市场叙词表。叙词表的构建分为两步,一是术语知识获取,二是术语知识建模。术语知识获取是构建叙词表的基础。以现有的规范文件为基础,对其他各类叙词表、分类表、同义词表等包含术语的词表进行术语采集,同时实现术语聚类、术语知识获取等技术,动态扩充和调整术语知识库。术语知识建模指的是对各个术语实现语义结构的扩展,以概念为基本单元,对各个术语进行描述和关联,实现各个术语间的树状或网状关联。 天然气市场包含供应端、需求端和外部环境三部分。不同于另外两部分,外部环境包含的领域更开放,内容更多,难以使用叙词表对名词进行统一划分,因此构建叙词表时仅考虑将供应端和需求端包含内容纳入。《石油汉语主题词表》主要包括:中英文索引表、组织机构表、地理地质名称表等,类比《石油汉语主题词表》可构建天然气供应端和需求端主题词表,天然气市场主题词表中供应端和需求端的本体范围见图2、图3。
对比叙词表和本体的定义可以发现,两者有着诸多相似之处,一是都通过叙词的概念来表达某一行业领域复杂的非结构化知识,二是都包含了上下位词、描述等清晰的语义结构,三是都会随着行业知识的丰富而不断积累和更新。除此以外,两者也有较多不同点,例如本体间关系复杂度远大于叙词;本体间组织关系呈网状分布,叙词间组织关系主要呈线状或树状分布。叙词表与本体的相似性保证了两者相互映射,而本体间丰富的语义关系无法直接从叙词表映射得到,需要细分并扩展叙词表的语义关系。
叙词表向本体的映射分为两部分,分别是本体的概念映射和语义关系的映射。本体概念的映射可以将序词作为概念元素映射为本体中的类(可直接映射)。语义关系映射则更为复杂。首先叙词表中通常使用Y(用)、D(代)、S(属)、F(分)、C(参)来确定本体概念间的语义关系,其中Y、D可看做概念间的等同关系,S、F转换为概念间的等级关系,C对应概念间的相关关系。语义关系中等同关系是最简单的映射关系,但实际映射时还包含词汇间关系完全相同、含义具有歧义、意义相关但不等同这3种情况。映射时需跟实际情况进行调整,直接转换或结合行业领域专家经验进行更正。S、F等级关系主要包含了父类和子类的继承,由于天然气市场领域划分标准不够统一,等级关系互有交叉,就用户来说,从购气用途角度可分为4类,即居民用户、工业用户、商业用户和公共服务类用户,但从天然气来源又可分为管道气客户和LNG客户。因此进行属分关系映射时要从多维度考虑本体间的属分关系。相关关系是映射过程里最复杂的关系,它包含交叉关系、矛盾关系、因果关系、影响因素、事物与其性质等多种关系。相关关系映射时要求根据本体间的性质重新设定映射关系,例如将管道间的关系设定为“连接”,将用户与地点关系设定为“所在省份”和“所在城市”。映射后的部分本体关系示例如表2所示。
表2 本体关系示例
3 总结
参考文献阅览
[1] |
|
[2] |
|
[3] |
G RUBER T R. A Translation Approach to Portable OntologySpecifications[J].Knowledge Acquisition,1993,5(2):199-220 . |
[4] |
|
[5] |
|
[6] |
岳丽欣,刘文云.国内外领域本体构建方法的比较研究[J].情报理论与实践,2016,39(8):119-125. |
[7] |
USCHOLD M, GRUNINGER M. Ontologies: Principles, Methods and Applications[J].The Knowledge Engineering Review,1996,11(2):93-136. |
|
THAM K D, FOX M S, GRUNINGER M. A Cost Ontology for Enterprise Modelling[C]//Proceedings of 3rd IEEE Workshop on Enabling Technologies: Infrastructure for Collaborative Enterprises.IEEE,1994:197-210. |
|
[9] |
FERNÁNDEZ-LÓPEZ M, GÓMEZ-PÉREZ A, JURISTO N.METHONTOLOGY:FromOntologicalArt Towards Ontological Engineering[C]//National Conference on Artificial Intelligence.Facultad de Informática(UPM),1997. |
|
NOY N F,MC GUINNESS D L. Ontology Development 101: A Guide to Creating Your First Ontology[J].Knowledge Systems Laboratory,2001,32(1). |
|
段瑞龙,宋文.国内外叙词表转换本体方法研究综述[J].情报杂志,2012,31(7):66-71. |
|
|
任飞亮,沈继坤,孙宾宾,等.从文本中构建领域本体技术综述[J].计算机学报,2019,42(3):654-676. |
|
[13] |
WANG T, GU H, WU Z, et al. Multi-Source Knowledge Integration Based on Machine Learning Algorithms for Domain Ontology[J]. Neural Computing and Applications,2020,32(1):235-245. |
|
CHEN R C, LIANG J Y, PAN R H. Using Recursive ART Network to Construction Domain Ontology Based on Term Frequency and Inverse Document Frequency[J]. Expert Systems with Applications, 2008,34(1):488-501. |
|
|
PERERA R, NAND P, BACIC B, et al. Semantic Web Today: From Oil Rigs to Panama Papers[EB/OL].(2017-11-05)[2022-11-27].https://arxiv.org/pdf/1711.01518.pdf. |
|
|
肖宇,郑翔文,宋伟,等.新冠肺炎领域本体构建及应用[J/OL].军事医学:1-6[2022-11-27].http://kns.cnki.net/kcms/detail/11.5950.R.20211029.1155.002.html. |
|
|
|
|
|
丁晟春,叶子.基于知识图谱的企业风险发现[J].图书馆论坛,2022,42(2):129-138. |
|
|
|
|
POLI R, HEALY M, Kameas A.Theory And Applications of Ontology: Computer Applications[M].Springer Netherlands,2010:231-243. |
本文版权归《油气与新能源》编辑部所有
未经允许,不得转载
中国 氢能"制储输用"全产业链协调发展的对策分析
中国加氢站商业模式及经济性比较
新能源汽车发展对汽油消费影响实证分析
海洋可再生能源开发利用模式及海洋石油公司转型策略研究
一种基于数字孪生体的油气输送管道完整性管理方法
审核|张 曦
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26
