首页 > 行业资讯 > 吴冕,等.天然气市场知识图谱本体构建

吴冕,等.天然气市场知识图谱本体构建

时间:2023-02-11 来源: 浏览:

吴冕,等.天然气市场知识图谱本体构建

原创 油气与新能源 油气与新能源
油气与新能源

syghsjwechat

建设权威的一流能源观点传播与科研学术交流平台;积极探讨能源政策与战略,追踪能源领域科技创新,助力国家能源发展。

收录于合集
作者简介
第一作者:吴冕(2000-),男,博士。中国石油大学(北京)人工智能学院主要从事油气智能化相关研究。E-mail:。 通信作者:宫敬(1962-),女,博士,教授。现在中国石油大学(北京)主要从事油气田集输工艺理论与技术,深水流动安全保障理论与技术、油气管道仿真理论与技术,油气储运系统数字化、智能化技术及场景应用研究工作。E-mail:ydgj@cup.edu.cn。

天然气市场知识图谱本体构建

吴冕 1  , 海涛 2 史博 1  , 杨巍 2 ,温凯 1   ,宫敬 1   1.中国石油大学(北京);2.昆仑数智科技有限责任公司

摘要

知识图谱作为一种新型的知识应用工具,给结构化、半结构化以及非结构化数据的处理、分析和应用提供了新的解决方法,而本体构建是构建知识图谱的基础。从自动化程度、可扩展性、复杂程度等多个角度对骨架法和七步法等传统的本体构建方法和本体构建工具进行了对比分析,从应用的角度介绍了部分领域本体构建现状,并分析了本体构建流程和构建技巧。最后分析并确定了天然气市场供应端、需求端和外部环境的本体构架。按照构建天然气市场主题词表、主题词向本体映射、关系映射、七步法构建外部环境本体的步骤一步步对天然气市场本体进行完善,最终实现天然气市场本体构建。

关键词

知识图谱;领域本体;本体构建;天然气市场本体;天然气市场叙词表

0   引言

知识图谱作为人工智能技术的重要分支具有强大的语义表达、存储和推理功能,已成为近年来的研究热点。知识图谱能够将结构化、半结构化以及非结构化数据融合处理,并且图模式的知识存储方式有利于挖掘知识的内在关联 [1] 。随着知识图谱不断发展,作为知识图谱的支撑技术——本体这一概念也得到了重视。
本体的概念最早源于哲学领域,是对客观存在系统的解释和说明 [2] 。随着本体概念被引入知识图谱、知识工程等领域后,本体被赋予了新的含义。目前被广泛接收的本体定义是本体是对概念形式及概念关系的一种规范、明确的定义 [3] 本体主要有三部分组成: 概念、概念之间的关系以及针对关系构建的公理。 随着知识图谱的快速发展,本体相关研究逐渐增多,应用领域也逐渐扩大,领域本体构建越来越受到人们的重视。 本体在相关领域应用时间不长,构建过程难以有系统的理论指导。 本文从实践 的角度出发,首先回顾了传统的本体构建的方法和使用工具,之后介绍了知识图谱和本体在不同领域的应用现状,最后通过梳理已有的本体构建方法和工具并借鉴研究人员的实践经验对天然气市场进行本体构建,并完成了本体验证。

1   本体 构件的应用现状和发展方向

        1.1 本体构件方法

本体根据其描述范围可分为领域本体和通用本体,对比而言领域本体的构建难度要小于通用本体 [4] 。但各领域本体又因为所描述的领域差别较大,进行本体开发时难以形成统一的构建方法。目前本体研究领域构建方法主要分为两种:一种是依靠领域专家和本体专家人工构建;另一种是在机器学习等算法的帮助下采用自动或半自动的方法进行构建。人工构建本体的方法效率低并且成本高;为了提高本体构建效率,减小时间成本花费,大量专家尝试基于自动化或半自动化的方法进行本体构建 [5] 。就应用情况来看,部分专业领域本体数量有限,概念覆盖范围小,对本体的严谨性要求高,不适宜采用自动化或半自动化的方法。因此在专业领域人工构建本体的方法仍是主流。人工构建本体可以划分为本体论工程方法和叙词表转化方法 [6] 。就国内外研究现状来看,国内学者侧重于使用叙词表转换为本体的方法,而国外侧重于研究本体论工程方法。近几年以本体论工程为基础的本体构建方法越来越成为研究热点。  

 1.1.1 人工构件本体方法   

基于本体论工程的人工构建本体方法主要包含有IDEF5法 [6] 、骨架法 [7] 、TOVE法 [8] 、METHONTOLOGY法 [9] 和七步法 [10] 等。其中IDEF5法、TOVE法和骨架法分别具有层次化、检索过程简单、描述完整等优点,因此更适合企业领域本体构建。METHONTOLOGY法、七步法则更多用于领域知识本体构,METHONTOLOGY法和七步法成熟度高、有大量的实践经验因此被广泛应用。

叙词表也称为主题词表,可以被认为是一部由叙词与叙词间关系组成的语义词典,同时叙词表对领域事物概念进行了规范 [11] 。基于叙词表的本体构建在领域专家分析叙词表语义关系的基础上通过手工构建本体模型将叙词转换为本体的概念,再将词汇关系转换为本体间语义关系。实际上从叙词表向本体的转换也可通过人为设定规则并编程进行自动转换。

1.1.2 半自动和自动化本体构建方法

半自动化或自动化本体构建又主要分为两种形式,一种是基于统计方法,另一种基于语法规则 [12] 。统计类方法主要通过聚类、词频统计等方法分析数据中词语间的关系,从而为对应词汇提供重要指示信息。Wang等人提出一种基于机器学习算法的领域本体构建方法实现了大规模的政务本体构建 [13] 。该方法能弥补词库描述语言语义关系的不足,并利用百科等数据实现本体的更新。Chen等 [14] 收集大量网页作为数据来源,使用html标签进行初步选择,利用TF-IDF技术选择领域核心词汇并使用ART网络进行聚类选择。此外还有一些研究者提出水结晶模型、自组织映射等算法。值得注意的是半自动化和自动化的本体构建方法越来越受到重视,应用范围也越来越广泛。

1 .2 本体构建工具        本体构建过程还需要借助专业的本体构建工具。本体构建工具一般指可视化的手工构建工具,包括Protégé、Apollo、WebOnto、WebODE和OntoEdit等。此外随着知识图谱广泛应用,相关技术得到了快速发展,一些互联网公司开发了自己的本体构建工具,这些工具一般为用户提供可视化制作界面,用户可通过简单地操作完成本体构建(见表1)。 
  表1 本体构建工具分析
表1列出了几种常用的本体构建工具,这些工具各有优劣,其中Protégé是斯坦福大学开发的本体构建工具,该工具可与七步法较好地结合,还具有开源、支持中文等优点,因而被广泛应用。天然气市场领域本体、关系较为复杂,使用Protégé进行本体构建可以直接与Jena等推理工具融合实现本体和关系的检错,因此本文将借助这一工具完成研究。尽管多数工具都提供了全面的可视化界面和错误检查机制,但目比较成熟的本体构建工具都依赖手工输入和编辑,具有较高出错率,这限制了大规模的本体构建。
1.3 本体构建实践

随着物联网、通信和网络技术不断发展,各领域都积累了大量的基础数据和术语知识结构,然而对这些资源的利用率较低,难以满足行业应用需求。随着知识图谱和本体论技术的快速发展,很好的解决了这一类问题,与此同时领域本体构建得到了广泛实践。

石油与天然气等能源领域存在大量的多源异构数据,包括油气田的勘探、开发、生产到能源的运输、销售以及客户、营销数据等多种形式。这些数据结构复杂,但蕴含了重要的语义信息。Fluor公司加速部署ISO15926(ADI)项目,并将ISO159263第四部分转换为RDF(Resource Description  Framework,资源描述框架)或OWL(Web Ontology Language,网络本体语言)形式,形成了本体构建的一套标准 [15] 。在此基础上挪威的每日生产报告(Daily Production Report)项目实施了基于ISO15926标准的本体,使数据比较和检索变得更加容易 [15 。国内周树理等 [16] 基于七步法构建了石油勘探开发领域的本体,包括盆地、油气田、井、油气藏等概念,并利用本体知识进行相关信息推荐。肖宇等 [17] 使用斯坦福大学的七步法和Protégé工具,基于生物医学顶层本体形式化本体(Basic  Formal Ontology,BFO)中收录的生物医学本体、概念、关系和实例重新定义了术语之间的逻辑关系,首先明确了本体的覆盖范围,之后复用相关概念,并扩展了新的概念或对原有概念进行扩展。在构建本体时依照了已有的基本规范,因此在本体构建工作中遇到的最大问题是对已有概念的拆分,例如要将药物分为了药品、药物、药理等多个概念。Kaushik等 [18] 构建了农业领域知识本体,实现了从文本数据中细粒度的抽取农业领域的专业术语并通过相似度计算和专家经验进行术语合并,形成概念性的类别。丁晟春等 [19] 从百度百科、开放知识库等领域收集数据,并采用人工定义的方式自顶向下进行构建企业知识本体。这些本体包括企业、人物、事件、产品等类别并对类别之间的关系进行了详细定义。

2 天然气市场销售领域本体构建

天然气作为清洁能源的一种,对居民日常生活和工业领域起着重要作用。对天然气销售企业来说,根据历史经验和市场现状及时作出决策有助于有效开发新的天然气市场,提高企业利润。销售过程产生了大量的异构数据,包括关系数据、文档数据、音频数据等 [20] 。大量非结构化数据难以有效利用,使得历史经验无法整合,市场开发过于依赖个人经验。因此需要对天然气市场构建统一知识概念模型、整合已有的结构化、半结构化及非结构化数据,并基于此构建知识图谱,实现数据的有效利用。
2 .1 本体架构分析
与天然气市场直接关联的是供应端和需求端,即通常意义上的卖方和买方。卖方销售、供应天然气和买方购买、使用天然气时会受到外界因素的影响,包括气候变化、天然气价格、国家政策等。本文统一划分外界因素为外部环境。本文所涉及本体可分为3个部分、供应端、需求端和外部环境,因此可根据本体的划分将最终的知识图谱分为3个子图谱,分别是供应端知识图谱、需求端知识图谱和外部环境知识图谱,各图谱的联系见图1。供应端包括管理机构和基础设计供应系统,供应端的管道端口或罐车等基础设施与需求端直接连接,管理机构则通过销售合同与用户直接连接,外部市场会通过经济和政策等直接影响用户需求和公司销售行为。
图1 天然气市场本体领域
2.2 构建领域叙词表

叙词表也被称为主题词表,是领域内事物的名称、成分、概念的规范化集合。叙词表具有统一性、规范性,其一般由该领域相关专家共同编写,因此具有行业通用性,比如常用的行业叙词表包括《石油汉语主题词表》《汉语主题词表》等。天然气市场领域没有统一的叙词表,本文首先根据石油天然气行业相关规范和标准文件构建天然气市场叙词表。叙词表的构建分为两步,一是术语知识获取,二是术语知识建模。术语知识获取是构建叙词表的基础。以现有的规范文件为基础,对其他各类叙词表、分类表、同义词表等包含术语的词表进行术语采集,同时实现术语聚类、术语知识获取等技术,动态扩充和调整术语知识库。术语知识建模指的是对各个术语实现语义结构的扩展,以概念为基本单元,对各个术语进行描述和关联,实现各个术语间的树状或网状关联。        天然气市场包含供应端、需求端和外部环境三部分。不同于另外两部分,外部环境包含的领域更开放,内容更多,难以使用叙词表对名词进行统一划分,因此构建叙词表时仅考虑将供应端和需求端包含内容纳入。《石油汉语主题词表》主要包括:中英文索引表、组织机构表、地理地质名称表等,类比《石油汉语主题词表》可构建天然气供应端和需求端主题词表,天然气市场主题词表中供应端和需求端的本体范围见图2、图3。

2 供应端本体范围 图3 需求端本体范围
供应端主要包括了供应公司的管理结构和储运设施运输、管理系统;需求端主要包括了用户类别细分,工商服用户的工作领域细分等。叙词表应该对各定义的名词解释、内容描述、各主体之间的上下位关系等方面进行详细的解释和定义。名词解释或关系确定等都应该符合行业标准,行业标准没有的则可以根据专家经验进行确定。        2.3 叙词向本体的映射

对比叙词表和本体的定义可以发现,两者有着诸多相似之处,一是都通过叙词的概念来表达某一行业领域复杂的非结构化知识,二是都包含了上下位词、描述等清晰的语义结构,三是都会随着行业知识的丰富而不断积累和更新。除此以外,两者也有较多不同点,例如本体间关系复杂度远大于叙词;本体间组织关系呈网状分布,叙词间组织关系主要呈线状或树状分布。叙词表与本体的相似性保证了两者相互映射,而本体间丰富的语义关系无法直接从叙词表映射得到,需要细分并扩展叙词表的语义关系。

叙词表向本体的映射分为两部分,分别是本体的概念映射和语义关系的映射。本体概念的映射可以将序词作为概念元素映射为本体中的类(可直接映射)。语义关系映射则更为复杂。首先叙词表中通常使用Y(用)、D(代)、S(属)、F(分)、C(参)来确定本体概念间的语义关系,其中Y、D可看做概念间的等同关系,S、F转换为概念间的等级关系,C对应概念间的相关关系。语义关系中等同关系是最简单的映射关系,但实际映射时还包含词汇间关系完全相同、含义具有歧义、意义相关但不等同这3种情况。映射时需跟实际情况进行调整,直接转换或结合行业领域专家经验进行更正。S、F等级关系主要包含了父类和子类的继承,由于天然气市场领域划分标准不够统一,等级关系互有交叉,就用户来说,从购气用途角度可分为4类,即居民用户、工业用户、商业用户和公共服务类用户,但从天然气来源又可分为管道气客户和LNG客户。因此进行属分关系映射时要从多维度考虑本体间的属分关系。相关关系是映射过程里最复杂的关系,它包含交叉关系、矛盾关系、因果关系、影响因素、事物与其性质等多种关系。相关关系映射时要求根据本体间的性质重新设定映射关系,例如将管道间的关系设定为“连接”,将用户与地点关系设定为“所在省份”和“所在城市”。映射后的部分本体关系示例如表2所示。

表2 本体关系示例

 2.4 结合”七步法“的最终构建
外部环境涵盖了除供应端和需求端外的所有因素,具有范围广、开放性大、复杂度高的特点,难以使用叙词表完整描述,这里使用七步法构建外部环境部分的本体。七步法步骤依次为:确定本体的专业领域和范畴;考查复用本体的可能性;列出本体的重要术语;定义类和类的等级体系;定义类的属性;定义约束条件;创建实例。根据七步法的步骤,本文将外部环境划分为时间、政策、新闻、位置、气候、其他等6个部分。复用本体主要来自其他知识图谱或者其他根据W3C(World Wide Web Consortium,万维网联盟)规范定义的一些本体,例如UMLS本体、GO本体或wordNet本体[21]等。在天然气市场中可复用的本体包含时间、位置、气候等,这些本体都能够在其他知识图谱或开源的本体中找到, 例如W3C标准对时 本体间关系进行了规范包含了“Before”和“After”,“During”和“Contains”, “Starts”和“StartedBy”等互逆关系 。除时间、位置、气候这些可复用的本体以外,还有部分 本体需要专家根据业务需求手动添加,需要手动列出相关术语,并将根据概念聚类来明确术语类的概念,最后对各类添加关系和属性。基于七步法最终构建的天然气市场知识本体示例见图4。
图4 天然气市场知识本体示例
2.5 本体应用
本体具有广泛的应用场景,包括构建知识库、天然气市场数据整合、数据分析等。本体构建是一个复杂的系统工程,构建结束后需要对构建的本体做出评价,以检验本体是否合格。评价主要从本体概念描述是否全面、推理性是否完备等方面进行,目前为止对本体的评价并没有一个统一的指标体系 ,行业领域本体的评价通常以实际应用效果为主
本文根据前文所述方法完成了天然气市场领域知识图谱本体的构建,主要构建成果包括了基础设施、用户、供气企业、外部市场环境等多种本体。具体本体数量和关系结果见表3。表3中所述关系和属性从多个维度 对天然气市场进行了涵盖,并基于天然气市场本体开发了天然气市场知识图谱原型,设计搭建了天然气市场知识图谱及应用系统。
表3 本体构建情况
天然气市场应用系统包括天然气用户需求预测、市场新闻、政策推荐等多个内容。天然气用户需求预测模型研究过程充分应用了推理、图计算等特有功能,其技术路线如图5所示。首先通过知识图谱构建用户画像,通过GCN(图卷积网络)图聚类等算法可以计算分析各用户用气相似性,并可根据用气特征以及用户自身特征划分类别。其次分析利用知识图谱推理计算分析政策对各个行业的影响性,最终根据聚类得到的用气类别以及用户间的相似性确定各政策文件对用户用气的影响系数;基于历史用气数据、用气类别、政策影响性等因素使用机器学习算法可准确计算得到用户中长期天然气需求。该模型已经得到了数据验证,具有较高的准确性,并基于图聚类、推理计算的应用验证了天然气市场本体的逻辑性、可用性。
图5 用户需求预测技术路线

3 总结

本体构建是一项多学科任务,需要工作人员对知识的理解程度和领域的认识都有一定理解。本文对本体构建方法和工具从理论研究的角度进行了介绍,并分析了构建方法和工具的优缺点,介绍了不同领域本体构建的应用实践,最后结合叙词表词表法和七步法构建了天然气市场领域本体,填补了该领域本体知识的空白,给知识图谱的构建和非结构化数据的管理和知识应用提供了基础,同时基于构建的本体开发了天然气市场知识图谱。本文构建天然气市场本体时完全采用手工构建,成本开销较大,只能将新闻、政策等外部数据作为笼统的本体考虑,难以进行细致构建。并且本文构建的本体库必须依赖专家手动更新,耗费了大量人力。实际上自动化或半自动化的构建方法必将是领域本体构建的发展趋势,未来将在本文构建的本体库基础上探索天然气市场本体的自动化或半自动化更新以及对政策、新闻等外部数据包含的本体的自动和半自动抽取。

参考文献阅览

[1]

WU   T,   QI   G,   LI   C,   et   al.   A   Survey   of   Techniques for  Constructing Chinese Knowledge Graphs and Their Applications[J].Sustainability, 2018,10(9):3245.

[2]

张秀兰,蒋玲.本体概念研究综述[J].情报学报, 2007,26(4):527-531.

[3]

G RUBER T R. A Translation Approach to Portable OntologySpecifications[J].Knowledge Acquisition,1993,5(2):199-220 .

[4]

AL-ASWADI  F N, CHAN H Y, GAN K H. Automatic Ontology Construction from Text: A  Review from Shallow to Deep Learning Trend[J].Artificial Intelligence  Review,2020,53(6):3901-3928.

[5]

AL-ARFAJ A, AL-SALMAN A M. Ontology  Construction from Text: Challenges and Trends[J].International Journal  of Artificial Intelligence and Expert Systems,2015,6(2):15-26.

[6]

岳丽欣,刘文云.国内外领域本体构建方法的比较研究[J].情报理论与实践,2016,39(8):119-125.

[7]

USCHOLD M, GRUNINGER M. Ontologies: Principles, Methods and Applications[J].The Knowledge Engineering Review,1996,11(2):93-136.

[8]

THAM  K D, FOX M S, GRUNINGER M. A Cost Ontology for Enterprise  Modelling[C]//Proceedings of 3rd IEEE Workshop on Enabling Technologies:  Infrastructure for Collaborative Enterprises.IEEE,1994:197-210.

[9]

FERNÁNDEZ-LÓPEZ  M, GÓMEZ-PÉREZ A, JURISTO N.METHONTOLOGY:FromOntologicalArt Towards  Ontological Engineering[C]//National Conference on Artificial  Intelligence.Facultad de Informática(UPM),1997.

[10]

NOY  N F,MC GUINNESS D L. Ontology Development 101: A Guide to Creating Your  First Ontology[J].Knowledge Systems Laboratory,2001,32(1).

[11]

段瑞龙,宋文.国内外叙词表转换本体方法研究综述[J].情报杂志,2012,31(7):66-71.

[12]

任飞亮,沈继坤,孙宾宾,等.从文本中构建领域本体技术综述[J].计算机学报,2019,42(3):654-676.

[13]

WANG  T, GU H, WU Z, et al. Multi-Source Knowledge Integration Based on  Machine Learning Algorithms for Domain Ontology[J]. Neural Computing and  Applications,2020,32(1):235-245.

[14]

CHEN  R C, LIANG J Y, PAN R H. Using Recursive ART Network to Construction  Domain Ontology Based on Term Frequency and Inverse Document  Frequency[J]. Expert Systems with Applications, 2008,34(1):488-501.

[15]

PERERA  R, NAND P, BACIC B, et al. Semantic Web Today: From Oil Rigs to Panama  Papers[EB/OL].(2017-11-05)[2022-11-27].https://arxiv.org/pdf/1711.01518.pdf.

[16]
周树理,严建文,包红林,等.石油勘探开发领域本体构建及应用[J].计算机系统应用,2015,24(5):172-176.
[17]

 肖宇,郑翔文,宋伟,等.新冠肺炎领域本体构建及应用[J/OL].军事医学:1-6[2022-11-27].http://kns.cnki.net/kcms/detail/11.5950.R.20211029.1155.002.html.

[18]
KAUSHIK  N,CHATTERJEE N.Automatic Relationship Extraction from Agricultural Text  for Ontology Construction[J]. Information Processing in  Agriculture,2018,5(1):60-73.
[19]

丁晟春,叶子.基于知识图谱的企业风险发现[J].图书馆论坛,2022,42(2):129-138.

[20]
黄维和,张曦 , 张晗 ,. 天然气销售企业人工智能技术应用研究[J].油气与新能源,2022,34(1):1-6.
[21]

POLI R, HEALY M, Kameas A.Theory And Applications of Ontology: Computer Applications[M].Springer Netherlands,2010:231-243.

本文版权归《油气与新能源》编辑部所有

未经允许,不得转载

往期推荐

中国 氢能"制储输用"全产业链协调发展的对策分析

中国加氢站商业模式及经济性比较

新能源汽车发展对汽油消费影响实证分析

海洋可再生能源开发利用模式及海洋石油公司转型策略研究

一种基于数字孪生体的油气输送管道完整性管理方法

编辑|倪杰清
排版|陈   潇
校对|倪杰清

审核|张   曦

版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。
相关推荐