• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩豪门: 基于多层文本分类器的轻量级本体匹配方法.pdf

    关 键 词:
    基于 多层 文本 分类 轻量级 本体 匹配 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201010120535.4

    申请日:

    2010.03.08

    公开号:

    CN102193928A

    公开日:

    2011.09.21

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20100308|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 三星电子(中国)研发中心; 三星电子株式会社
    发明人: 刘思培; 王进; 彭鸽; 姜赢; 胡晨
    地址: 210008 江苏省南京市中山路268号汇杰广场8楼
    优先权:
    专利代理机构: 北京铭硕知识产权代理有限公司 11286 代理人: 韩明星;王艳娇
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201010120535.4

    授权公告号:

    102193928B||||||

    法律状态公告日:

    2013.04.03|||2011.11.23|||2011.09.21

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    一种基于多层文本分类器的轻量级本体匹配方法,该方法包括以下步骤:选择待匹配的两个本体中的第一本体,将第一本体的概念分类树和文本实例作为训练集,利用自底向上的多层文本特征选择策略构造多层文本分类器;利用多层文本分类器对所述两个本体中的第二本体的文本实例进行预测分类,将第二本体的文本实例分别归属到第一本体的多个概念;判定第二本体中的每个概念的所有文本实例中分别归属到第一本体中的每个概念的文本实例在所述所有文本实例中的比例,分别作为所述两个本体中的相应概念之间的相似度;基于概念之间的相似度得出所述两个本体的概念之间的映射关系,由此完成轻量级本体匹配。

    权利要求书

    1.一种基于多层文本分类器的轻量级本体匹配方法,包括以下步骤:选择待匹配的两个本体中的第一本体,将第一本体的概念分类树和文本实例作为训练集,利用自底向上的多层文本特征选择策略构造多层文本分类器;利用多层文本分类器对所述两个本体中的第二本体的文本实例进行预测分类,将第二本体的文本实例分别归属到第一本体的多个概念;判定第二本体中的每个概念的所有文本实例中分别归属到第一本体中的每个概念的文本实例在所述所有文本实例中的比例,分别作为所述两个本体中的相应概念之间的相似度;基于概念之间的相似度得出所述两个本体的概念之间的映射关系,由此完成轻量级本体匹配。2.根据权利要求1所述的轻量级本体匹配方法,其中,利用自底向上的多层文本特征选择策略构造多层文本分类器的步骤包括:对第一本体的概念分类树的各个叶节点进行文本特征选择;利用自底向上的策略对第一本体的概念分类树的分支节点进行文本特征选择,直至当前分支节点为根节点,获得最终的文本特征;使用最终的文本特征构造多层文本分类器。3.根据权利要求2所述的轻量级本体匹配方法,其中,对于第二本体中的一个概念,如果所述一个概念的所有文本实例中分别归属到第一本体中的每个概念的文本实例在所述所有文本实例中的比例中的最大值大于或等于预定义的阈值,则确定所述第二本体中的所述一个概念与比例中的最大值所对应的第一本体的概念相似。4.根据权利要求2所述的轻量级本体匹配方法,其中,所述两个本体中的概念之间构成概念对,每个概念对的相似度是第二本体的概念的所有文本实例被归属到概念对中的另一概念的文本实例在所有文本实例中的比例。5.根据权利要求4所述的轻量级本体匹配方法,其中,根据概念对的相似度的计算结果,对于第二本体中的任一个概念,在第一本体中寻找与所述任一个概念的相似度最大的概念,根据预定义的阈值确定构成概念对的两个概念之间的匹配关系。6.根据权利要求5所述的轻量级本体匹配方法,其中,当最大相似度大于或等于所述预定义的阈值时,确定构成概念对的所述两个概念彼此相似。

    说明书

    基于多层文本分类器的轻量级本体匹配方法

    技术领域

    本发明涉及自然语言处理、文本分类和语义Web领域,更具体地讲,涉及一种轻量级本体匹配方法。

    背景技术

    随着信息技术的发展,基于文本的分类技术、搜索技术也得到较快发展。当前引入了本体(ontology)的概念,本体是领域(可以是特定领域,也可以是更广的范围)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础。本体可以分为轻量级本体(Lightweight?ontology)、中级本体(Middle?ontology)和重量级本体(Heavyweight?ontology),轻量级本体不具备逻辑推理功能,中级本体具有简单的逻辑推理功能,重量级本体具有复杂的逻辑推理功能。轻量级本体除了包含概念层次结构之外,还包含若干概念实例。鉴于轻量级本体简单易用,轻量级本体更适合于实际的应用程序设计和开发。

    本体匹配是解决本体异构问题的主要方法之一,一个高效、精确的相似度计算方法是实现本体匹配的前提条件。

    现有的文本分类技术一般用于管理文本或其他可采用向量形式描述的资源,基于分类技术能够对未知资源的类别进行预测,从而为用户提供一种辅助性的指导和帮助。而传统的本体匹配的方法,大多通过某种策略直接衡量概念的相似程度,或对比两个文本实例集合之间相似度。现有的一种本体匹配方法是基于传统二元分类器的本体匹配方法,但在计算概念相似度时该方法需要为每个概念对都训练一个分类模型,需要对两个本体的文本实例都进行预测分类,故具有很高的复杂度;此外,源于特征选择的局限性,分类模型训练仅从两个类别的文本中进行特征选择,没有考虑所选特征与其他类别的区分度,影响预测分类的准确性,也会造成相似度计算的准确性不高,影响本体匹配的正确性。

    现有的基于文本分类的本体匹配方法的计算复杂度较高,且利用多个二元分类器仅在两个概念的文本实例中筛选特征,衡量每个概念对的相似度,具有很大的局限性,使得文本分类无法有效评估文本之间的相似度,限制了概念相似度计算的可信性。

    发明内容

    针对现有技术中本体匹配时计算复杂以及计算不精确的问题,本发明将文本分类技术应用于解决轻量级本体的匹配问题,提出了一种基于多层文本分类器的轻量级本体匹配方法。

    根据本发明的一方面,一种基于多层文本分类器的轻量级本体匹配方法,该方法包括以下步骤:选择待匹配的两个本体中的第一本体,将第一本体的概念分类树和文本实例作为训练集,利用自底向上的多层文本特征选择策略构造多层文本分类器;利用多层文本分类器对所述两个本体中的第二本体的文本实例进行预测分类,将第二本体的文本实例分别归属到第一本体的多个概念;判定第二本体中的每个概念的所有文本实例中分别归属到第一本体中的每个概念的文本实例在所述所有文本实例中的比例,分别作为所述两个本体中的相应概念之间的相似度;基于概念之间的相似度得出所述两个本体的概念之间的映射关系,由此完成轻量级本体匹配。

    利用自底向上的多层文本特征选择策略构造多层文本分类器的步骤可包括:对第一本体的概念分类树的各个叶节点进行文本特征选择;利用自底向上的策略对第一本体的概念分类树的分支节点进行文本特征选择,直至当前分支节点为根节点,获得最终的文本特征;使用最终的文本特征构造多层文本分类器。

    对于第二本体中的一个概念,如果所述一个概念的所有文本实例中分别归属到第一本体中的每个概念的文本实例在所述所有文本实例中的比例中的最大值大于或等于预定义的阈值,则确定第二本体中的一个概念与比例中的最大值所对应的第一本体的概念相似。

    所述两个本体中的概念之间可构成概念对,每个概念对的相似度是第二本体的概念的所有文本实例被归属到概念对中的另一概念的文本实例在所有文本实例中的比例。

    根据概念对的相似度的计算结果,对于第二本体中的任一个概念,在第一本体中寻找与所述任一个概念的相似度最大的概念,根据预定义的阈值确定构成概念对的两个概念之间的匹配关系。

    当最大相似度大于或等于所述预定义的阈值时,确定构成概念对的所述两个概念彼此相似。

    附图说明

    通过结合附图,从下面的实施例的描述中,本发明这些和/或其它方面及优点将会变得清楚,并且更易于理解,其中:

    图1是根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法的原理框图;

    图2是根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法的流程图;

    图3是多层文本分类的类别的示意图;

    图4示出了根据本发明的多层文本特征选择策略的示意图。

    具体实施方式

    以下,参照附图来详细说明本发明的实施例。

    图1是根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法的原理框图,图2是根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法的流程图。

    参照图1,根据本发明实施例的基于多层文本分类器的轻量级本体匹配方法包括四个步骤:多层文本分类器的训练(即,构造多层文本分类器);文本实例的预测分类;概念相似度(概念匹配)的计算;本体匹配关系的判定。

    参照图1和图2,在步骤201,选择待匹配的两个本体(第一本体O1和第二本体O2)中的一个本体(例如选择第一本体O1),将选择的第一本体O1的概念分类树和文本实例作为训练集,利用自底向上的多层文本特征选择策略构造多层文本分类器。

    图3是多层文本分类的类别的示意图。参照图3,“General?Taxonomy”,是根节点,最下层的矩形是叶节点(诸如“Animation?&?Comics”、“Music,Theatre?&?Dance”等),第二层都是分支节点(诸如“Arts”、“Business”等)。应该理解,虽然图3中示出了基于英文的多层文本分类,但是本发明不限于此,也可适用于基于中文的多层文本分类。

    在现有技术中,多层文本分类一般采用bing-Bang或自顶而下两种策略;前者在分类过程中使用同一个分类器,将类别层次树结构中所有页节点看成平等的类,本质上还是一种单层分类;后者则是为不同类别训练不同的分类器,枝分类器只关心当前的不同分支。

    在本发明中,采用自底向上的多层文本特征选择策略构造多层文本分类器。具体地,首先对第一本体O1的概念分类树的各个叶节点进行文本特征选择,再采用自底向上的策略对第一本体O1的概念分类树的分支节点进行文本特征选择,直至当前分支节点为根节点,获得最终的文本特征,使用最终的文本特征构造多层文本分类器?;诟貌呗缘亩嗖阄谋痉掷嘀恍枰盗芬桓鐾骋坏姆掷嗥?,具体策略如图4所示。

    图4示出了根据本发明的多层文本特征选择策略的示意图。在图4中,A1、A2、A3、B1和B2为叶节点,A和B为分支节点,A和B上面的节点(未示出)为根节点。当然,还可以包含更多的分支节点,图4中未示出,以省略号表示。如图4所示,例如,分支节点A1对应的文本实例包含文本特征a1、a2、...aN,分支节点A2对应的文本实例包含文本特征b1、b2、...bM,分支节点A3对应的文本实例包含文本特征c1、c2、...cL。在对各个叶节点进行文本特征选择时,可分别提取各个叶节点的文本实例的前k个文本特征,例如a1、a2、...aK,b1、b2、...bK,c1、c2、...cK。然后,将提取的文本特征组合,可得到文本特征集合“a1、a2、...aK、b1、b2、...bK、c1、c2、...cK”,如图4右侧所示。

    返回参照图2,在步骤202,利用多层文本分类器对所述两个本体O1和O2中的第二本体O2的文本实例进行预测分类,从而将第二本体O2的文本实例分别归属到第一本体O1的多个概念。即,按照第一本体O1的多个概念来对第二本体O2的文本实例进行分类,将第二本体O2的文本实例分别归类到第一本体O1的多个概念。

    例如,假设第二本体O2总共有x个文本实例,x个文本实例分别属于第二本体O2自身包含的m个概念,并且第一本体O1包含n个概念。现在利用构造的多层文本分类器对第二本体O2的x个文本实例进行预测分类,将第二本体O2的x个文本实例归属到第一本体O1的每个概念。如果没有第二本体O2的文本实例归属到第一本体O1的某个概念,则归属到第一本体O1的这个概念的文本实例的数量为0。

    在步骤203,判定第二本体O2中的每个概念的所有文本实例中分别归属到第一本体O1中的每个概念的文本实例在所述所有文本实例中的比例(可称为归属比例或归属关系),分别作为所述两个本体中O1和O2的相应概念之间的相似度,其取值范围为[0,1]。

    例如,假设第一本体O1包含n个概念,第二本体O2自身包含m个概念,第二本体O2的文本被预测分类,归属到第一本体O1的每个概念。

    假设第二本体O2中的第1个概念包含y个文本实例,则计算这y个文本实例中归属到第一本体O1中的第1个概念的文本实例在所有y文本实例中的比例,计算这y个文本实例中归属到第一本体O1中的第2个概念的文本实例在所有y个文本实例中的比例,依此类推,直到计算这y个文本实例中归属到第一本体O1中的第n个概念的文本实例在所有y个文本实例中的比例,由此依次有n个所得值。类似地,按照上述方式,可计算第二本体O2中的第2个概念的所有文本实例中分别归属到第一本体O1中的每个概念的文本实例在所有文本实例中的比例,直到计算第二本体O2中的第m个概念的所有文本实例中分别归属到第一本体O1中的每个概念的文本实例在所有文本实例中的比例。

    下面给出第二本体O2中一个概念的文本实例的归属比例的计算公式。

    对于两个本体O1和O2,第一本体O1包含概念C1i,第二本体O2包含概念C2j,给出概念C2j的所有文本实例中归属到概念C1i的文本实例在所述所有文本实例中的比例的计算公式如下:

    Sim(C1i,C2j)=ΣIC1iC1iSum(IC1iC2j)Sum(IC1i),]]>(C1i∈O1,C2j∈O2,IC代表实例)

    例如,第二本体O2中的第1个概念包含10个文本实例,这10个文本实例通过构造的多层文本分类器分别归属到第一本体O1中的第1个概念至第n个概念中,在这10个文本实例中,有8个文本实例归属到第一本体O1中的第1个概念,有1个文本实例归属到第一本体O1中的第2个概念,有1个文本实例归属到第一本体O1中的第3个概念,第二本体O2中的第1个概念的文本实例中归属到第一本体O1中的其它概念的文本实例的数量为0。按照上述计算方式,第二本体O2中的第1个概念与第一本体O1中的第1个概念的相似度为8/10=0.8,第二本体O2中的第1个概念与第一本体O1中的第2个概念的相似度为1/10=0.1,第二本体O2中的第1个概念与第一本体O1中的第3个概念的相似度为1/10=0.1,第二本体O2中的第1个概念与第一本体O1中的其它概念的相似度均为0/10=0。另外,对于第二本体O2中的一个概念,如果所述一个概念的所有文本实例中分别归属到第一本体O1中的每个概念的文本实例在所述所有文本实例中的比例中的最大值大于或等于预定义的阈值,则确定第二本体O2中的一个概念与比例中的最大值所对应的第一本体O1的概念相似。

    例如,在上述针对第二本体O2中的第1个概念计算的n个所得值中,如果n个所得值中的最大值大于或等于预定义的阈值,则确定第二本体O2中的第1个概念与最大值所对应的第一本体O1中的概念相似。例如,在上述示例中,n个所得值中第1个值(为0.8)最大,并且大于或等于预定义的阈值,则确定第二本体O2中的第1个概念与第一本体O1中的第2个概念相似。应该理解,可根据实际应用选择预定义的阈值。

    因此,对于第一本体O1的概念C1i和第二本体O2的概念C2j,如果满足:

    Sim(C1i,C2j)=MaxC2kO2(Sim(C1j,C2k))Threshold,]]>其中,Threshold为预定义的阈值,则称概念C1i和概念C2j相似,此时相似度为Sim(C1i,C2j)。

    另外,两个本体O1和O2中的概念之间可构成若干概念对,在每个概念对中,一个概念是训练模型类别,另一个概念是被预测类别。这里,概念对是指两个本体O1和O2中概念之间的任意组合,概念对的相似度是指,来自第二本体O2的概念的所有文本实例中归属到概念对中另一个概念的文本实例在所有文本实例中的比例。

    因此,根据概念对(例如,概念C1i和概念C2j)相似度计算方法的结果,对于第二本体O2的任一个概念,在第一本体O1中寻找相似度与第二本体O2的所述任一个概念最大的概念,根据预定义的阈值确定概念对中两个概念之间的匹配关系。如果最大相似度大于或等于预定义的阈值,则确定该概念对的两个概念彼此相似。

    返回参照图2,在步骤204,基于概念相似度得出所述两个本体O1和O2的概念之间的映射关系,由此完成轻量级本体匹配。

    下面给出轻量级本体匹配的表示方法:对于两个本体O1和O2,基于上述概念匹配方法,可得到一个映射关系组成的集合,其中,映射关系表示为:(id,e1,e2,R,n),其中,id表示该映射关系的唯一标识,e1表示第一本体O1中的某个概念,e2表示第二本体O2中某个概念,R表示概念e1和概念e2之间存在的语义关系(等价、相交、不相交等),n表示这种映射关系的信度(即,前面所计算的概念之间的相似度),取值范围为[0,1]。例如,当n≥0.9时,可判定概念e1和概念e2等价;当0.5≤n<0.9时,可判定概念e1和概念e2相交;当n<0.5时,可判定概念e1和概念e2不相交。应该理解,上述数字范围是示例性的,可以根据实际应用具体设置。

    映射关系(id,e1,e2,R,n)中包含5个元素,也可称为五元组方法。即,可用五元组方法来描述轻量级本体匹配结果。

    在本发明中,可假设本体的概念的实例是一系列的网页文本,但本发明不限于此。下面给出本发明的一个应用实例。对于两个门户网站A和B,它们的标题栏中所有的条目即对应着概念分类树:如新闻、军事、天气、娱乐、体育等。而在每个条目下面有很多网页,即对应着文本实例。两个网站A和B的这些分类及内容分别可看作是一个轻量级本体,而匹配过程可利用本发明的策略为以上两个网站的条目之间建立映射关系。通过应用本发明,可利用多层文本分类技术和概念相似度计算方法实现上述过程。

    本发明利用一种自底向上的多层文本特征选择策略,为概念分类树构建一个统一的多层分类器,能够更全面的筛选文本特征,更充分表达文本的语义,以一种更准确的方式计算概念相似度,从而获得更优的本体匹配结果。

    本发明为解决轻量级本体匹配问题提供了一种更快捷、高效的方法。本发明适用于解决手机资源共享、Web?2.0、社会网络等应用中存在的异构集成问题。

    虽然本发明是参照其示例性的实施例被具体描述和显示的,但是本领域的普通技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节的各种改变。

    关于本文
    本文标题:基于多层文本分类器的轻量级本体匹配方法.pdf
    链接地址://www.4mum.com.cn/p-5865232.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 塞子比大小怎么玩 3d包胆能中多钱 幸运飞艇6码 北京pk10app破解版 时时彩7码后2稳赚秘籍 北京pk赛车官网开奖 北京塞车pk10分析软件 内蒙古时时五d走势图 体育票广东时时 内蒙古时时综合走势图百度百度贴吧 pk10双面盘必赢方法 幸运飞艇固定345678 高频彩计划软件下载 北京pk106码倍投方案 北京pk10助赢软件 双色球纸张怎么填