• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 16
    • 下载费用:20 金币  

    关于重庆时时彩的博客: 基于多粒度语义块的实体属性和属性值提取方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201611241946.2

    申请日:

    2016.12.29

    公开号:

    CN106777275A

    公开日:

    2017.05.31

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20161229|||公开
    IPC分类号: G06F17/30; G06F17/27 主分类号: G06F17/30
    申请人: 北京理工大学
    发明人: 张春霞; 彭飞; 郭钰; 王树良; 刘振岩
    地址: 100081 北京市海淀区中关村南大街5号
    优先权:
    专利代理机构: 北京理工正阳知识产权代理事务所(普通合伙) 11639 代理人: 毛燕
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611241946.2

    授权公告号:

    ||||||

    法律状态公告日:

    2018.03.06|||2017.06.23|||2017.05.31

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明涉及一种基于多粒度语义块的实体属性和属性值提取方法,属于Web挖掘和信息抽取技术领域;包括如下步骤:构建语料集并进行自由文本提??;对语料进行分词、词性标注以及短语识别;对语料进行语义角色标注;对语料进行依存句法分析;对语料进行语义依存分析;提取基于词语、短语和语义角色三种粒度的候选实体、属性及其属性值三元组;利用经训练的分类器对候选实体、属性和属性值三元组进行正确和错误分类。对比现有技术,本发明通过从自由文本中自动提取词语、短语和语义角色三种粒度的实体、属性和属性值,提高了实体的属性和属性值提取的准确性和效率,在主题检测、信息检索、自动文摘、问答系统等领域具有广阔的应用前景。

    权利要求书

    1.一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:包括以下步骤:
    步骤1,构建实体的属性和属性值提取语料集;
    步骤2,对属性和属性值提取语料集中自由文本的句子进行分词、词性标注和短语识
    别;
    步骤3,对属性和属性值提取语料集中自由文本的句子进行语义角色标注;
    步骤4,对属性和属性值提取语料集中自由文本的句子进行依存句法分析;
    步骤5,对属性和属性值提取抽取语料集中自由文本的句子进行语义依存分析;
    步骤6:根据句子的分词、词性标注和语义角色标注结果,提取以语义角色为粒度的候
    选实体、属性和属性值,获取候选实体、属性和属性值三元组;
    步骤7:根据句子的分词、词性标注、短语识别和依存句法分析结果,提取以短语为粒度
    的候选实体、属性和属性值,获取候选实体、属性和属性值三元组;
    步骤8:根据句子的分词、词性标注和语义依存分析结果,提取以词语为粒度的候选实
    体、属性和属性值,获取候选实体、属性和属性值三元组;
    步骤9:利用经训练的分类器对由步骤6~步骤8获取的候选实体、属性和属性值三元组
    进行正确和错误分类以得到最终的实体属性和属性值提取结果。
    2.根据权利要求1所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特
    征在于:所述步骤6通过以下过程实现:
    对于句子中的动词x1,若字符串y1为动词x1的表示主体的语义角色,则将字符串y1识别
    为候选实体,然后通过以下过程识别属性和属性值:
    第一,若字符串z1为动词x1的表示客体的语义角色,则将字符串z1识别为候选属性值,
    将动词x1识别为候选属性,即得到候选实体、属性和属性值三元组(y1,x1,z1);
    第二,若字符串z1为动词x1的除了主体和客体以外的语义角色s,则将字符串z1识别为
    候选属性值,候选属性为动词x1和语义角色s的组合,即得到候选实体、属性和属性值三元
    组(y1,x1+s,z1);所述s可能为时间、地点、程度、频率、方式、原因、条件、方向、扩展、主题、谓
    语动词、受益人、持有者、被持有、并列参数或附加标记语义角色,x1+s表示动词x1和语义角
    色s的组合。
    3.根据权利要求1所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特
    征在于:所述步骤7通过以下过程实现:
    首先,根据步骤2所述句子的短语识别结果,获取句子的非嵌套式短语识别结果;
    然后,对于句子依存句法分析结果中主谓关系SBV(y2,x2)和动宾关系VOB(y2,z2),将字
    符串x2所在的最长短语u识别为候选实体,将字符串y2识别为候选属性,将字符串z2所在的
    最长短语v识别为候选属性值,即获取候选实体、属性和属性值三元组(u,y2,v)。
    4.根据权利要求3所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特
    征在于:所述获取句子的非嵌套式短语识别结果通过以下过程实现:
    第一,对于名词短语、形容词短语、限定词短语、介词短语、量词短语、修饰关系短语、所
    属关系短语和方位词短语中任一短语嵌套另外短语的情形,则只保留最长字符串的短语标
    记;
    第二,若一动词短语嵌套动词或另一动词短语,则去掉前一动词短语的标记;若一动词
    短语嵌套除了动词短语的其他短语,则保留动词短语的标记。
    5.根据权利要求1所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特
    征在于:所述步骤8通过以下过程实现:
    首先,对于句子中的动词x3,若词语y3与动词x3具有施事关系、当事关系、感事关系、领
    事关系、属事关系、或比较关系,则将词语y3识别为候选实体,然后通过以下两种方式获取
    属性和属性值:
    第一,若词语z3与该动词x3具有受事关系、客事关系、成事关系、源事关系、涉事关系、或
    类事关系,则将词语z3识别为候选属性值,将动词x3识别为候选属性,由此,获取候选实体、
    属性和属性值三元组(y3,x3,z3);
    第二,若词语z3与该动词x3具有依据、缘故、意图、结局、方式、工具、材料、时间、空间、历
    程、趋向、范围、数量、频率、顺序、描写、程度、或宿主关系r,则将该词语z3识别为候选属性
    值,候选属性为动词x3和依存关系r的组合,也就是,获取候选实体、属性和属性值三元组
    (y3,x3+r,z3),其中,x3+r表示动词x3和依存关系r的组合。
    6.根据权利要求1-5任一所述的一种基于多粒度语义块的实体属性和属性值提取方
    法,其特征在于:所述步骤9通过以下过程实现:
    首先,在利用经训练的分类器进行分类前通过下述过程使用训练语料集训练分类器:
    步骤9.1:通过以下过程构建词语、短语和语义角色三种粒度的实体、属性和属性值的
    种子三元组:首先,根据语料集中句子的分词、词性标注和语义依存分析结果,人工构建基
    于词语粒度的实体、属性和属性值种子三元组;其次,根据语料集中句子的分词、词性标注、
    短语识别和依存句法分析结果,人工构建基于短语粒度的实体、属性和属性值种子三元组;
    最后,根据语料集中句子的分词、词性标注和语义角色识别结果,人工构建基于语义角色粒
    度的实体、属性和属性值种子三元组;
    步骤9.2:通过以下过程构建训练样本:
    对于实体、属性和属性值的种子三元组(e,a,v),在训练语料集中搜索包含字符串e,a,
    v的句子,其中e表示实体,a表示属性,v表示属性值;若能够从句子中提取三元组(e,a,v),
    则将该句子标注为正例训练句子,否则标注为负例训练句子;
    步骤9.3:从正例训练句子和负例训练句子中提取分类特征,构建训练句子的特征向
    量;
    分类特征包括:候选属性a和候选属性值v的左相邻和右相邻的三个词语及其词性;候
    选属性a和候选属性值v的顺序关系;候选属性a和候选属性值v的依存句法关系;候选属性a
    和候选属性值v间隔的词语的数目;
    训练句子的特征向量为句子的所有分类特征的特征值构成的向量;分类标签为1或0,
    当句子为正例训练句子时,设分类标签为1;否则为0;
    然后,利用上述训练好的分类器通过以下过程进行识别:
    步骤9.4:对于通过步骤6~步骤8提取的候选实体、属性和属性值三元组所在的句子,
    从该句子中按步骤9.3所述内容提取分类特征,构建该句子的特征向量;
    步骤9.5:利用分类器对候选实体、属性和属性值三元组所在句子的特征向量进行分类
    获得分类结果1或0,分别表示候选三元组正确或候选三元组错误。
    7.一种基于多粒度语义块的实体属性和属性值提取系统,其特征在于:包括语料采集
    ???、分词和短语识别???、语义角色标注???、依存句法分析???、语义依存分析???、基
    于语义角色粒度的属性知识提取???、基于短语粒度的属性知识提取???、基于词语粒度
    的属性知识提取???,以及属性知识分类???;语料采集??榉直鹩敕执屎投逃锸侗鹉??、
    语义角色标注???、依存句法分析???、语义依存分析??橄嗔?;分词和短语识别???、语
    义角色标注??榉直鹩牖谟镆褰巧6鹊氖粜灾短崛∧?橄嗔?;分词和短语识别模
    块、依存句法分析??榉直鹩牖诙逃锪6鹊氖粜灾短崛∧?橄嗔?;分词和短语识别模
    块、语义依存分析??榉直鹩牖诖视锪6鹊氖粜灾短崛∧?橄嗔?;基于语义角色粒度
    的属性知识提取???、基于短语粒度的属性知识提取???、基于词语粒度的属性知识提取
    ??榉直鹩胧粜灾斗掷嗄?橄嗔?;
    所述语料采集??橛糜诓杉缟系拇侍跬?,并进行自由文本提取,构建为后续模
    块从中提取实体的属性和属性值的语料;
    所述分词和短语识别??橛糜诙运鲇锪喜杉?樘崛〉淖杂晌谋镜木渥咏蟹执?、
    词性标注和短语识别;
    所述语义角色标注??橛糜诙运鲇锪喜杉?樘崛〉淖杂晌谋镜木渥咏杏镆褰?br />色标注;
    所述依存句法分析??橛糜诙运鲇锪喜杉?樘崛〉淖杂晌谋镜木渥咏幸来婢?br />法分析;
    所述语义依存分析??橛糜诙运鲇锪喜杉?樘崛〉淖杂晌谋镜木渥咏杏镆逡?br />存分析;
    所述基于语义角色粒度的属性知识提取??橛糜诙运龇执屎投逃锸侗鹉?楹陀镆?br />角色标注??楸曜⒌淖杂晌谋镜木渥咏谢谟镆褰巧6鹊氖堤宓氖粜院褪粜灾堤崛?;
    所述基于短语粒度的属性知识提取??橛糜诙运龇执屎投逃锸侗鹉?楹鸵来婢浞?br />分析??槭侗鸬木渥咏谢诙逃锪6鹊氖堤宓氖粜院褪粜灾堤崛?;
    所述基于词语粒度的属性知识提取??橛糜诙运龇执屎投逃锸侗鹉?楹陀镆逡来?br />分析??槭侗鸬木渥咏谢诖视锪6鹊氖堤宓氖粜院褪粜灾堤崛?;
    所述属性知识分类??橛糜谑褂镁盗返姆掷嗥鞫运鲇镆褰巧6鹊氖粜灾短?br />取???、短语粒度的属性知识提取???、词语粒度的属性知识提取??樘崛〉暮蜓∈堤?、属
    性和属性值进行分类判别。
    8.根据权利要求7所述的一种基于多粒度语义块的实体属性和属性值提取系统,其特
    征在于:所述语义角色粒度的属性知识提取??橥üɡ?所述过程进行实体的属性
    和属性值提取。
    9.根据权利要求7所述的一种基于多粒度语义块的实体属性和属性值提取系统,其特
    征在于:所述短语粒度的属性知识提取??橥üɡ?所述过程进行实体的属性和属
    性值提取。
    10.根据权利要求7-9任一所述的一种基于多粒度语义块的实体属性和属性值提取系
    统,其特征在于:所述词语粒度的属性知识提取??橥üɡ?所述过程进行实体的属
    性和属性值提取。

    关 键 词:
    基于 粒度 语义 实体 属性 提取 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基于多粒度语义块的实体属性和属性值提取方法.pdf
    链接地址://www.4mum.com.cn/p-6028058.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03