你的位置：论文发表网 >> 论文库 >> 文化论文 >> 详细内容在线投稿

知识图谱在人文特色数据库中的应用研究

热度0票浏览136次时间：2020年9月08日 15:52

柏宏 / 中共铜陵市委党校

摘要：知识图谱是以图的形式表现客观世界中的概念、实体及其之间关系的技术。本文将知识图谱引入特色数据库资源构建中，在简要介绍知识图谱的基础上，以“桐城派文化特色数据库”为例，分析了知识图谱在人文特色数据库中的应用。

关键词：知识图谱；本体；特色数据库

随着文化事业的繁荣发展和信息技术的飞速进步，越来越多的图书馆、博物馆、文化机构以及大学科研机构开始对人文资料进行数字化加工和网络化管理，建立了大量人文主题特色数据库，并向大众开放。特色数据库的建设不仅促进了人文数字资源的建设，也加快了人文知识的共享和普及。

另一方面，数字时代的来临，人文资料的数字化和网络化进程加快，并且，大量原生数字人文资源也被生产出来。互联网内容的大规模、异质多元、组织结构松散等特点，给人们有效获取信息和知识提出了挑战。而知识图谱以其强大的语义处理能力和开放组织能力

[1] ，为人文特色数据库的知识组

织和智能应用提供了新的思路。

一、特色数据库现状

特色数据库使用网络信息技术手段，对特色领域内各类信息资源进行系统地收集和整理，为读者提供统一的检索和浏览平台，是图书馆数字资源建设的一项重要内容。特色数据库的建设促进了领域内信息资源的挖掘和保护，为相关科学研究提供了丰富的文献资源，也推动了领域知识的传播和共享。

近年来，随着实践和探索的不断深入，特色数据库收集的数字资源的数量和种类不断增加，在图书、期刊、报纸等传统资源之外，多媒体资源和原生数字资源迅速增加；资源组织的模式也从原先简单的数据的收集、整理逐步发展到知识的加工和组织阶段

[2] ，特色数据库建设不能仅仅停留在文

献、资料的简单组织和罗列的层次上。同时，特色数据库建设中暴露的，如建设标准不统一，资源共建共享不够，后期信息更新维护不足，作用发挥不彰等等问题，也要求我们探索更好的组织、管理、开发和利用海量信息的新技术。

二、知识图谱简介

2012 年，谷歌提出了在万维网上编码以关联碎片化知识单元的一种方案，该方案本质上是一种由知识点之间相互连接而成的语义网络，可以对现实世界的事物及事物之间的相互关系进行形式化地描述，主要用于提升搜索引擎性能，让用户能够更快更简单的发现新的信息和知识。知识图谱将互联网上的信息表达成更接近人类认知世界的形式，提供了一种更好的组织、管理、利用互联网海量数量信息的方式。

（一）知识图谱的相关知识

知识图谱的研究起源于 Tim Berners Lee 在 2006 年提出了“关联数据”概念，这是一种万维网上创建语义关联的方法，关联数据是通过本体和 URI 为 Web 网页添加语义，在数据之间建立链接以形成数据关系网（Web of Data），通过本体和URI 让机器读懂知识

[3] 。

本体是共享概念模型的明确的形式化规范说明

[4] ，是语

义 Web 的关键技术，用于为 web 网页添加语义。本体与知识图谱密切相关，本体是知识图谱的模式层，能对知识表示进行抽象表达，用于描述概念和概念间的关系，是知识图谱的概念模型、逻辑基础；知识图谱是本体的数据层，更侧重描述实体关系，是本体的实例化，在实体层面对本体进行大量的丰富与扩充，是基于本体的知识库。

（二）知识图谱的应用

知识图谱提供了一种更好的表达、组织、管理和理解互联网信息的方法，能够提升搜索引擎的性能，更快更简单的发现新知识，在智能问答、个性化推荐等方面也有重要价值。

知识图谱提出后，迅速成为工业界和学术界关注的热点，出现了大量知识图谱知识库和应用，微软和谷歌拥有世界最大的通用知识图谱，Facebook 拥有最大的社交知识图谱，亚马逊和阿里巴巴分别在构建各自庞大的商品知识图谱，百度致力于构建最大最全的中文通用知识图谱。在图书馆方面，知识图谱也广泛应用于数字人文知识库建设项目之中。上海图书馆使用关联数据技术推出了家谱知识库和古籍循证平台、名人手稿知识库等一系列数字人文项目，并使用知识图谱技术对中国历代人物传记资料库（CBDB）平台 42 万多人的人物数据进行了人物关系的分析和展示。

三、知识图谱在人文特色数据库中的应用——以“桐城派文化”特色数据库为例

“桐城派”是我国清代文坛上最大的散文流派，在中国古代文学史上占有显赫地位，是中华民族传统文化中的一座丰碑。桐城派人物众多，刘声木在《桐城文学渊源考》中考录作家有 1206 人；诗文撰述汗牛充栋，《桐城文学渊源考》

著录了 567 位作家的诗文集 1200 余种，在《桐城文学撰述考》

中又辑录了 504 位作家，著录的各类撰述 4130 余部；不少桐城派古文家同时为经学家、诗人，或同时为画家、书法家，传世的金石书画文物颇丰；桐城派绵延 200 多年，故居遗址、书院学堂遗迹、冢墓祠堂等建筑遗存繁多。对桐城派的研究和发掘，国内外都非常重视，尤其是近三十年来，桐城派的研究成果丰硕，涌现出一大批卓有建树的理论研究成果。

“桐城派文化”特色数据库在较为全面的收集整理上述各类资源的基础上，共建立了人物、著述、文物、遗存、年谱、研究成果、研究学者等子库；数据包括文本、图片、音频、视频、多媒体、网络文献、书目等类型；数字对象存储的格式有 txt、pdf、html、jpg、png、gif、mp3、rm、avi 等。

数据库使用数字人文技术，在该库建设中引入了知识图谱的理念，利用本体论在资源层的上方构建了一个反映资源知识结构的本体概念模型，在领域专家的帮助下对收录文献提取知识点，并给予定义和解释，建立语义关系，以知识点为节点组成语义网，把数据库内的文献按照一定的知识结构组织起来，实现知识与资源的结合，达到系统组织领域知识、准确全面揭示文献资源的目的。

（一）数据采集和标引

桐城派文化专题数据库共收录桐城派人物 510 位，并采集其个人简介、事迹，以及师友和亲缘关系；收录著述索引近 5000 条；收集字画文物 100 余件，书院、故居、祠堂、冢墓等遗迹遗址 VR 视频 50 余处；收录近现代桐城派研究学者136 位，论文、专著等重要研究成果 8000 余份，相关研究文献目录近 3 万条。数据采用关系型数据库存储，并且参照数字资源元数据标准，建立符合DC数据规范的特色数据库标准，统一元数据格式。

（二）本体构建

为了增加本体的可读性和普适性，提高知识共享与交流的可行性，本体构建中应尽可能多地复用已有本体。“桐城派文化”特色数据库在本体设计上参考了上海图书馆 CBDB 本体，在原有人、名字、官职、履历、迁移事件、时间、地名、关系等 9 个类的基础上，增加著述、遗存、研究成果 3 个类，建立了“桐城派”本体。

本体描述语言选用 OWL，OWL 是 W3C 推荐的本体标准的建模语言，应用场景多，扩展性强；并且 OWL 语言表达能力强，对于逻辑复杂的传统文化领域，能更明确地表达相关概念、属性和关系等知识；此外，基于 OWL 构建的本体兼容主流的推理引擎，能够保障“桐城派”知识图谱以后的更新和扩展[4] 。

传统的本体建模工具 Protégé 功能比较完善，但是该软件是单机版本，知识图谱以 OWL 文档的存储，不适用于大数据量的情况，影响查询、修改和推理速度。“桐城派”专题数据库建设中选用了 Jena。Jena 是一个免费开源的支持构建语义网络和数据连接应用的 Java 框架，支持知识图谱的数据库存储方式，包含 SQL 数据库和原生数据库，其中 SDB 用来导入 SQL 数据库，TDB 导入 RDF 三元组，提供丰富的语义支持接口，有内建的和外联的推理接口，支持 SPARQL 查询，对本体的构建与管理比较方便。

（三）本体实例化

本体的构建之后，接下来需要对本体进行实例化操作。

对于本体中的每一个概念，创建相应的实例，然后填写实例对应的属性，这个步骤是构建本体库最为繁琐的步骤之一。

实例化操作方式目前有两种，一种是通过手工输入，其工作量比较巨大；另一种是通过半自动化方式实现，借助一些本体操作工具，将现有的关系数据库中的知识转成成本体实例。

本文中的桐城派文化涉及古文古籍知识，自动化抽取难度较大，自动抽取的结果噪音多，质量差。所以采取半自动化和手工输入方式相结合。

首先，将数据库收录资源的关系型的标引数据，根据构造的本体，进行实例化转换，转换成 OWL 语言后存储。

其次，中国历代人物传记资料库 CBDB 通过开放 API 接口，在线提供平台内的 42 万多人的人物数据，这些数据以 JSON格式可在线获取；并且提供单机版的离线数据库。在“桐城派”

领域专家的指导下，通过编程的方式，将 CBDB 平台中收录的桐城派代表人物数据下载，并转换成 OWL 语言后存储。

再次，为丰富数据库知识内容，在领域专家的支持下，从《桐城派编年》中提取知识。《桐城派编年》以正史传记、年谱、文集、行状、评传、墓志铭、研究论著作为主要材料依据，以编年形式，将自顺治十年（1635）到民国十九年（1930），300 年间的桐城派人物、作品、行迹等内容加以纂辑排比，记述了桐城派上千人物的生年、从师问学、科举、为官、交游、唱和、书信、序跋、著作、重要诗文作品，以及卒年、卒后的情况等。在专家的支持下，我们对《桐城派编年》提取信息，并进行本体实例化操作。

以上实例化，使用 OWL 本体描述语言来描述，形成知识图谱中的知识节点；本体中的知识存储在 OWL 本体文件以及关系型数据库中，实例及实例间的关系，以三元组的形式，存储在图数据库 Neo4j 中。

（四）知识链接

桐城派知识图谱中的知识链接通过 OWL 和 URI（统一资源定位符）来实现，OWL 语言具有很强的描述能力，可以描述知识之间的关联关系，隶属关系以及相关关系等。知识的定位是基于 OWL 的资源定位符 URI 来实现，URI 可以唯一地描述知识存放的位置。利用 URI 来建立路径，起到桥梁的作用，进而将孤立的知识节点关联起来，形成知识的网络。

四、总结与展望

传统的特色数据库建设处于资源数字化阶段，是在领域专家的支持下，以元数据标引的方式，将结构化的描述信息存入到关系型数据库中。这些数字资源中蕴含的丰富知识被封闭在分散的关系型数据库中，信息共享不高，加工手段有仅，知识分享不足，影响了知识的传播与深层应用。

结合本体、知识图谱等语义技术对资源进行数据化加工和智慧化处理，为传统的人文数据库建设揭示新的方向。本文在数据库建设中应用知识图谱组织桐城派文化特色数据库相关资源，所构建的语义化网络也为领域知识研究提供了新的工具和手段。下一步，将尝试使用自然语言处理和机器学习方法对资源中的实体进行概念提取，并在利用知识图谱进行语义搜索、智能问答、个性化推荐等智能应用方面行进更为深入的研究。

参考文献：

[1] 陈涛 , 刘炜 , 单蓉蓉 , 等 . 知识图谱在数字人文中的应用研究 [J]. 中国图书馆学报 , 2019, (6): 1-19.

[2] 吴丽杰 . 基于本体的特色数据库知识组织研究 [J]. 图书馆学刊 , 2012, 34(3): 41-43.

[3] 黄恒琪 , 于娟 , 廖晓 , 等 . 知识图谱研究综述 [J]. 计算机系统应用 , 2019, 28(6): 1-12.

[4] 林炀平 . 文物知识图谱构建与检索关键技术研究与实现[D]. 浙江大学 , 2017.

[5] 杨海慈 , 王军 . 宋代学术师承知识图谱的构建与可视化[J]. 数据分析与知识发现 , 2019, 3(6): 109-116.

作者简介：柏宏（1973-），男，中共铜陵市委党校图书信息中心