• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 9
    • 下载费用:30 金币  

    360重庆时时彩开奖历史: 用于自动化扩展层次化本体知识库的方法.pdf

    关 键 词:
    用于 自动化 扩展 层次 本体 知识库 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611059615.7

    申请日:

    2016.11.24

    公开号:

    CN106776827A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161124|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 天津大学
    发明人: 王博; 王盈辉; 武贤丽
    地址: 300072 天津市南开区卫津路92号
    优先权:
    专利代理机构: 天津市北洋有限责任专利代理事务所 12201 代理人: 李丽萍
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611059615.7

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种用于自动化扩展层次化本体知识库的方法,步骤是:(1)对已存在的层次化本体库构建类别关系树;(2)提取上述层次化本体库中各类别及预插入的新实体的特征;(3)利用步骤(2)提取得到的特征,在所述层次化本体库所在的类别关系树中,自顶向下计算所述新实体与类别关系树中各类别节点的相似度,(4)对所述预插入的新实体与类别中的实体按照下述情形之一进行处理,从而实现层次化本体知识库的扩展。本发明实现了层次化本体知识库对语义网中不断出现的新实体的融合,有利于形成一个统一标准的本体库,为语义网更好的实现知识共享和互操作提供帮助,实现基于语义的表示和推理,为进一步建立可信的语义网奠定良好的基础。

    权利要求书

    1.一种用于自动化扩展层次化本体知识库的方法,其特征在于,包括以下步骤:
    步骤一、对已存在的层次化本体库构建类别关系树;
    步骤二、提取上述层次化本体库中各类别cj及预插入的新实体ei的特征;
    步骤三、利用步骤二提取得到的层次化本体库中各类别cj及预插入的新实体ei的特征,
    在所述层次化本体库所在的类别关系树中,自顶向下计算所述新实体ei与类别关系树中各
    类别cj节点的相似度,并包含下述情形之一:
    1)一旦找到所述预插入的新实体ei与当前层类别cj的相似度u高于Δu时,Δu取值为
    0.3,则继续在当前层类别的子类别中进行相似度u的比较,直至将所述预插入的新实体ei
    插入到相似度u高于Δu的一叶子节点的类别cj中,该类别cj中原有的实体均分别记为e′;
    2)若所述预插入的新实体ei与当前层中各类别cj的相似度u均小于或等于Δu,则在当
    前层的父类别建立一个类别cj,所述类别cj位于叶子节点,将所述预插入的新实体ei插入到
    该类别cj中,此时,将插入到类别cj中的实体记为实体e′;
    步骤四、将预插入的新实体ei插入到某一位于叶子节点的类别cj后,对所述预插入的新
    实体ei与类别cj中的实体e′按照下述情形之一进行实体名称及属性的确定,从而实现层次
    化本体知识库的扩展;
    1)若所述预插入的新实体ei与该位于叶子节点的类别cj中的实体e′具有相同的实体名
    称,则对所述预插入的新实体ei与实体e′利用如下公式(5)进行相似度的计算;若相似度s
    高于Δs,Δs取值为0.5,将所述预插入的新实体ei和类别cj中的实体e′的属性进行合并;否
    则,将预插入的新实体ei的实体名称重新命名;
    2)若所述预插入的新实体ei的实体名称与该位于叶子节点的类别cj中的实体e′的实体
    名称不同,且相似度s高于Δs,则将所述预插入的新实体ei的实体名称与类别cj中的实体e′
    的实体名称及属性分别合并。

    说明书

    用于自动化扩展层次化本体知识库的方法

    技术领域

    本体(Ontology)的概念最早起源于哲学领域[1],作为语义基础被广泛应用于信
    息检索、人工智能、语义网络、软件工程、自然语言处理、电子商务和知识管理等领域。本发
    明涉及对已存在的本体库进行扩展的方法,尤其是对层次化本体知识库进行动态的、自动
    化的扩展方法。

    背景技术

    本体作为共享概念模型的明确形式化规范说明[2],是语义Web的核心。为了充分
    利用已存在的本体,许多研究集中于本体映射,即找到异构本体间的语义联系。映射技术可
    以分为元素层映射和结构层映射两种[3]。元素层映射技术忽略元素与别的元素的关系,进
    行本体映射时只考虑元素本身;结构层映射通过分析一个大结构中元素间的彼此关系来进
    行映射。元素层映射往往被看作是结构层映射的基础。目前元素层映射方法主要有基于字
    符串的技术,如比较前缀后缀,计算编辑距离,N-gram算法等[4];基于语言的技术,利用某
    种自然语言(如英语)处理技术对输入单词进行处理,如削尾处理,消除前置词,联词等[5];
    利用语言学资源,引入共享知识词典和领域知识词典(如WordNet),利用语言关系进行匹配
    [6]。以上方法均被成功地应用到英文本体映射中。

    但本体映射主要应用于两个已存在的异构本体,无法实现一个单一本体库的动态
    扩展,且一些成功的应用于英文本体映射中的方法并不适用于中文的本体映射。

    [参考文献]

    [1]张秀兰,蒋玲.本体概念研究综述[J].情报学报,2007,26(4):527-531。

    [2]Thomas R G.A Translation Approach to Potable Ontology
    Specification[J].Knowledge Acquisition,1993,02:199-200。

    [3]PavelShvaiko,J eromeEuzenat.A Survey of Schema2based Matching
    Approaches[J].Journal on Data Semantics(JoDS),IV,LNCS 3730,2005:1462171.。

    [4]Do H.H.,Rahm E..COMA2a system for flexiblecombination of schema
    matching approaches[J].VeryLarge DataBases Conference(VLDB),2001:610-621。

    [5]Giunchiglia F.,Shvaiko P.,and Yatskevich M..S-Match:an algorithm
    and an implementation of semantic matching[J].European Semantic Web Symposium
    (ESWS),2004:61-75。

    [6]Giunchiglia F.,YatskevichM.Element level semantic matching[D]
    .ltaly:Dept.of Information andCommunication Technology University ofTrento,
    2004。

    发明内容

    针对现有技术中存在的问题,本发明提出了一种用于自动化扩展层次化本体知识
    库的方法,即该方法能够自动的将新实体加入到已存在的层次化本体库中,以对当前语义
    网中不断增大的本体规模。

    为了解决上述技术问题,本发明提出的一种用于自动化扩展层次化本体知识库的
    方法,包括以下步骤:

    步骤一、对已存在的层次化本体库构建类别关系树;

    步骤二、提取上述层次化本体库中各类别cj及预插入的新实体ei的特征;

    步骤三、利用步骤二提取得到的层次化本体库中各类别cj及预插入的新实体ei的
    特征,在所述层次化本体库所在的类别关系树中,自顶向下计算所述新实体ei与类别关系
    树中各类别cj节点的相似度,并包含下述情形之一:

    1)一旦找到所述预插入的新实体ei与当前层类别cj的相似度u高于Δu时,Δu取值
    为0.3,则继续在当前层类别的子类别中进行相似度u的比较,直至将所述预插入的新实体
    ei插入到相似度u高于Δu的一叶子节点的类别cj中,该类别cj中原有的实体均分别记为e′;

    2)若所述预插入的新实体ei与当前层中各类别cj的相似度u均小于或等于Δu,则
    在当前层的父类别建立一个类别cj,所述类别cj位于叶子节点,将所述预插入的新实体ei插
    入到该类cj中,此时,将插入到类别cj中的实体记为实体e′;

    步骤四、将预插入的新实体ei插入到某一位于叶子节点的类别cj后,对所述预插入
    的新实体ei与类别cj中的实体e′按照下述情形之一进行实体名称及属性的确定,从而实现
    层次化本体知识库的扩展;

    1)若所述预插入的新实体ei与该位于叶子节点的类别cj中的实体e′具有相同的实
    体名称,则对所述预插入的新实体ei与实体e′利用如下公式(5)进行相似度的计算;若相似
    度s高于Δs,Δs取值为0.5,将所述预插入的新实体ei和类别cj中的实体e′的属性进行合
    并;否则,将预插入的新实体ei的实体名称重新命名;

    2)若所述预插入的新实体ei的实体名称与该位于叶子节点的类别cj中的实体e′的
    实体名称不同,且相似度s高于Δs,则将所述预插入的新实体ei的实体名称与类别cj中的实
    体e′的实体名称及属性分别合并。

    与现有技术相比,本发明的有益效果是:

    本发明作为层次化本体知识库的一种自动化扩展方法,主要是基于对新实体和层
    次化本体库中的类别及类别所含实体的相似度的考察,实现了对新实体的插入,即本体知
    识库的自动化扩展,实现了层次化本体知识库对语义网中不断出现的新实体的融合,同时,
    这样有利于形成一个统一标准的本体库,为语义网更好的实现知识共享和互操作提供帮
    助,实现基于语义的表示和推理,为进一步建立可信的语义网奠定良好的基础。

    附图说明

    图1是层次化本体库的类别树示例;

    图2是自顶向下的插入新实体的过程示例;

    图3是计算新实体和某一类别的相似度的过程示例。

    具体实施方式

    下面结合附图和具体实施实例对本发明技术方案作进一步详细描述,所描述的具
    体实施实例仅对本发明进行解释说明,并不用以限制本发明。

    本发明提出的一种用于自动化扩展层次化本体知识库的方法,包括以下步骤:

    步骤一、对已存在的层次化本体库构建类别关系树;如图1所示,已存在的层次化
    本体库选取中文维基百科本体库,通过维基百科自定义的类别标签,加手工标注维基百科
    类别名字的后缀单词到类别树节点的映射。即事先标注好“XXX运动员”的类别应该对应到
    类别树上的“人”,“XXX公司”应该对应到类别树上的“组织机构”;当遇到一个维基百科实体
    时,如“姚明”,首先需要查看其维基百科类别标签,有“篮球运动员”这个类别标签,而类别
    后缀“运动员”被标注成类别树上的“人”这个类别,则维基百科实体“姚明”属于“人”这个类
    别。

    步骤二、提取上述层次化本体库中各类别cj及预插入的新实体的特征,用于计算
    上述层次化本体库中各类别与预插入的新实体之间的相似度u,以寻找预插入的新实体在
    上述层次化本体库中可插入的位置,图3示出了计算新实体和某一类别的相似度的过程,一
    般来说,实体均具有实体名称、属性及属性值,故本发明选取实体的属性作为实体的特征,
    每个类别所拥有的所有实体的属性集合作为该类别的特征。

    步骤三、利用步骤二提取得到的层次化本体库中各类别cj及预插入的新实体ei的
    特征,在所述层次化本体库所在的类别关系树中,图2示出了自顶向下的插入新实体的过
    程,自顶向下计算所述新实体ei与类别关系树中各类别cj节点的相似度,具体过程如下:

    对于预插入的新实体ei和上述层次化本体库的类别cj,使用如下公式计算相似度:




    首先,将上述层次化本体库中类别cj及预插入的新实体ei分别转换为向量表示

    其中,wi表示预插入新实体ei的第i个属性;

    是属于上述层次化本体库中类别cj的所有实体所包含的所
    有属性,其次,可以使用上述公式(2)或(3)计算上述层次化本体库中类别cj的属性与
    预插入的新实体ei的属性Vei[k]的相似度,其中公式(2)是利用编辑距离计算上述层次化本
    体库中类别cj的属性与预插入的新实体ei的相似度,公式(3)是将上述层次化本体库
    中类别cj与预插入的新实体ei的属性的属性向量分别转换为词向量的表示Vk和Vm,然
    后计算两个词向量Vk和Vm余弦值作为上述层次化本体库中类别cj与预插入的新实体ei之间
    的相似度。

    鉴于有一些属性几乎在每一个实体中都有,不具有分辨性,因此,我们赋予属于上
    述层次化本体库中类别cj中的每个属性一个权重本发明以上述层次化本体库
    中类别cj中的每个属性的TF-IDF值作为该属性的权重。其中,每个属性的TF-
    IDF值计算方法如下所示:

    首先,对于上述层次化本体库中类别cj中的每个属性属于上述层次化本体
    库中类别cj的实体ej,把上述层次化本体库中类别cj的属性在上述层次化本体库中类
    别cj的实体ej中出现的次数记作tn,其中预插入的新实体ei属于层次化本体库中的类别cj,
    把上述层次化本体库中类别cj的属性在类别cj中的所有实体中出现的次数记作tall。
    其次,我们把所有包含属性的类别个数记作dn,总类别个数记作dall。接下来,我们可
    以利用规则(4)计算属性的权重


    除了考虑每个属性的权重,本发明还加入了一些自然语言方面的先验知识作为惩
    罚项BRules(ei,cj)。例如,类别“学?!彼涤械氖堤宕蠖嗍季哂小啊!被颉啊醒А钡拿?br />称格式,故我们可以先收集一个类别下所有的实体名称,对其进行分词并获取高频词,结合
    我们的先验知识,得到实体名称匹配规则,然后利用如下公式,获得新实体ei和类别cj的惩
    罚项:


    这样通过公式(1)就可以获得上述层次化本体库中类别cj与预插入的新实体ei之
    间的相似度。并包含下述情形之一:

    1)一旦找到所述预插入的新实体ei与当前层类别cj的相似度u高于Δu((Δu为经
    验阈值,一般取0.3)时,则继续在当前层类别的子类别中进行相似度u的比较,直至将所述
    预插入的新实体ei插入到相似度u高于Δu的一叶子节点的类别cj中,该类别cj中原有的实
    体均分别记为e′;

    2)若所述预插入的新实体ei与当前层中各类别cj的相似度u均小于或等于Δu,则
    在当前层的父类别建立一个类别cj,所述类别cj位于叶子节点,将所述预插入的新实体ei插
    入到该类别cj中,此时,将插入到类别cj中的实体记为实体e′;

    本发明中新类别的产生利用的是层次聚类方法。即首先将每个未找到类别的新实
    体的属性按拼音顺序排序,然后对其进行分词,将每个词用训练好的词向量表示,得到新实
    体的向量表示。在初始阶段将每一个新实体都视为一个簇,之后每一次合并两个最接近的
    簇。

    步骤四、将预插入的新实体ei插入到某一位于叶子节点的类别cj时,需要对所述预
    插入的新实体ei与类别cj中的实体e′进行判断,并按照下述情形之一进行实体名称及属性
    的确定,从而实现层次化本体知识库的扩展;

    1)本体库中是否已存在实体与新实体具有相同名称,且指代相同的语义内容,若
    存在,则对新实体与已存在的实体进行合并;具体内容是:若所述预插入的新实体ei与类别
    cj中的实体e′具有相同的实体名称,则对所述预插入的新实体ei与实体e′,利用如下公式
    (5)进行相似度的计算;若相似度s高于Δs(Δs为经验阈值,一般取0.5),将所述预插入的
    新实体ei和类别cj中的实体e′的属性进行合并;本体库中是否存在实体与新实体具有相同
    的名称,但指代不同的语义内容,若存在,则对新实体和已存在的实体进行消歧和区分,将
    预插入的新实体ei的实体名称重新命名;

    2)若所述预插入的新实体ei的实体名称与类别cj中的实体e′的实体名称不同,但
    指代相同的语义内容,即相似度s高于Δs,则将所述预插入的新实体ei的实体名称与类别
    中cj的实体e′的实体名称及属性分别合并。

    首先对所述预插入的新实体ei与类别cj中的实体e′进行名称匹配,若存在同名实
    体,则通过如下公式计算所述预插入的新实体ei与类别cj中的实体e′之间的相似度:

    SimEE(ei,ej)=(Si*Sj)/(||Si||×||Sj||) (5)

    其中,把预插入的新实体ei和类别cj中的实体e′转换成向量表示和对于实
    体向量例如和包括实体名称,实体属性,实体属性
    值。用v={w1,w2,...wl}表示向量表示和的并集。对于每个单词wv∈v,使用下面的公式
    (6)计算每个单词wv和每个编辑距离



    其中表示wv和之间的编辑距离,||wv||和表示向量的长
    度。

    然后,选择最大的s作为wv和之间的语义相似度,通过重复计算v中每个元素,
    我们可以得到v和之间的语义相似度向量,表示为Si={si1,si2,...sin},重复同样的步
    骤,我们可以得到v和之间的语义相似度向量。

    尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施
    方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本
    发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的
    ?;ぶ?。

    关于本文
    本文标题:用于自动化扩展层次化本体知识库的方法.pdf
    链接地址://www.4mum.com.cn/p-6021038.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 江西时时官方 大小概率必胜押法 二分pk拾计划网 免费开单软件 摇骰子规则和叫法 快三怎么玩稳赚你知道吗 江苏一分快3稳赚公式 时时缩水工具免费版 分分彩人工免费计划 pk10追345678窍门 北京体彩中心扫码投注 宝宝计划软件准吗 pk10下载手机版2017 彩票和值大小 腾讯分分彩稳赚玩法有几种 3个骰子怎么玩大小