• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 19
    • 下载费用:30 金币  

    重庆时时彩网易彩票网: 汉语语义活性识别法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201410208511.2

    申请日:

    2014.05.19

    公开号:

    CN103970731A

    公开日:

    2014.08.06

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||专利申请权的转移IPC(主分类):G06F 17/27登记生效日:20170605变更事项:申请人变更前权利人:无锡国澳实业有限公司变更后权利人:无锡自然语言智能科技有限公司变更事项:地址变更前权利人:214001 江苏省无锡市中山路339号4楼变更后权利人:江苏省无锡市中山路319-339号裙四楼|||著录事项变更IPC(主分类):G06F 17/27变更事项:发明人变更前:吴林东 吴星宁变更后:吴星宁 吴林东|||实质审查的生效IPC(主分类):G06F 17/27申请日:20140519|||公开
    IPC分类号: G06F17/27 主分类号: G06F17/27
    申请人: 无锡国澳实业有限公司
    发明人: 吴林东; 吴星宁
    地址: 214001 江苏省无锡市中山路339号4楼
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410208511.2

    授权公告号:

    103970731B||||||||||||

    法律状态公告日:

    2017.07.04|||2017.06.23|||2017.06.23|||2014.09.03|||2014.08.06

    法律状态类型:

    授权|||专利申请权、专利权的转移|||著录事项变更|||实质审查的生效|||公开

    摘要

    一种汉语语义识别方法,属于计算机科学与自然语言处理(NLP)技术领域,包括活性识别系统和语义分析识别步骤。根据语言活性特征,首先,识别语句的活字(块)和非活字(块)。其次,识别标注字(块)活性形态,初步识别动态、静态、情态、联态或生态活字(块)。从而,运用活性算法比较分析相邻活字(块)的活性字级,转态匹配消歧,识别谓活字(块)及子谓活字(块)。然后,进行字块联结语义分析,识别语义活性模式。最后,识别非活字(块)辅助语义,精确识别相邻或相含语句语义。本发明以识别活字为手段,以语言活性为特征,线性分析处理语言,实现计算机识别语义,与现有技术相比,可以改善计算机处理歧义消除(WSD),提高语义识别信息处理效果。

    权利要求书

    权利要求书
    1.  一种汉语语义识别方法,其特征在于,以识别反映语言性质的特征字(活字块)为手段,以语言活性为量标特征,运用活性算法,对语言客体统一进行线性系统分析信息处理,识别语义。即,识别活字(块)=W,W=[Wn,Wn+1,...Wn+m],且Wn>Wn+1;
    Wn=[Wnp,Wnp+1,...Wnp+q],且Wnp>Wnp+1;
    Wnp=[Wnpx,Wnpx+1,...Wnpx+y],且Wnpx>Wnpx+1;
    Wnpx=......
    这个识别系统包括:将汉字(Word)识别为二类,有该性质/特征类(活字)与无该性质/特征类(非活字),即,有性质/特征类>无性质/特征类;将含有二类字的字串识别为有性质字块(活字块)与无性质字块(非活字块)。(″>″为大于号)
    识别有性质字(块)按该语义性质表现的强弱差异,识别为若干不同的性质形态,使性质相似的字(块)在相同的形态内,且,强形态字(块)>弱形态字(块),即,动态活字(块)>静态活字(块)>情态活字(块)>联态活字(块)>生态活字(块)>非态字(块)。
    识别字(块)在各形态内语义性质的一般差异,识别为若干等级的字(块)集。即,
    动态字(块)Vd识别为思维活字(块)Vn、复合活字(块)Vc、行为活字(块)Vb;
    静态字(块)Vs识别为关系活字(块)Vr、形容活字(块)Va;
    情态字(块)Vm识别为能愿活字(块)Vw、助动活字(块)Vh;
    联态字(块)C识别为联词活字(块)Cp、联句活字Cc(块);
    生态字(块)N识别为生物体活字(块)Nb、机动体活字(块)Nm、自然体活字(块)Nn、动名体活字(块)Nv;
    识别字(块)集内语义性质的微量差异,识别为若干子字集。即,思维字(块)集识别为理性活字(块)Vnr、感性活字(块)Vne;复合字(块)集识别为:智力活字(块)Vci、脑体活字(块)Vcb;行为字(块)集识别为:进行活字(块)Vbc、时点活字(块)Vbp;
    关系字(块)集识别为:变化活字(块)Vrc、存在活字(块)Vre;形容字(块)集识别为:形动活字(块)Vaa、形静活字(块)Vas;
    能愿字(块)集识别为:愿望活字(块)Vmw、能力活字(块)Vma;
    助动字(块)集识别为:情助活字(块)Vhe、时助活字(块)Vht;形助活字(块)Vhh;
    联词字(块)集识别为:直联活字(块)Cpd、间联活字(块)Cpi、介联活字(块)Cpp;
    联句字(块)集识别为:单句联字(块)Ccs、复句联字(块)Ccc;
    生物字(块)集识别为:(1)人物Nbh、(2)机团Nbg、(3)脑动物Nbb、(4)野动物Nbw、(5)动物Nba、(6)小动物Nbs、(7)微生物Nbm、(8)植物Nbp;
    机动字(块)集识别为:(1)互动机Nmi、(2)自动机Nma、(3)操动机Nmo;
    自然字(块)集识别为:(1)自然物Nnm(2)自然态Nns;
    动名字(块)集识别为:(1)活动名Nva、(2)静动名Nvs;
    按照辅助有性质字(块)的语义特征方式,识别无性质/特征字(块)的语义归集。即,非态字(块)F识别为能静字(块)Fs、指代字Fp、数量字Fn、状态字Ad(形状Adx、副状Adv)、标符字Fm(标点Fmp,算号Fmc,符号Fms)等。
    能静字(块)识别为:静物体Fsn、抽象体Fss
    静物体识别为:天然物Fsnn、合成物Fsnc、制成物Fsnm、工具Fsnt、用具Fsnu、玩具Fsnp、食物Fsnf;抽象体识别为:抽象物Fsso、抽象态Fssf、想象物Fssi;
    指代字(块)识别为:物称代Fpo(确定Fpod、不定Fpoi)、特称代Fps、疑问代Fpw、不定代Fpi(肯定Fpip,否定Fpin)。
    数量字(块)Fn识别为:数字(块)Fnn、量字(块)Fnm(名量字Fnmn、动量字Fnmv。
    状态字(块)Ad识别为:形状Adx、副状Adv(时间Adt、空间Ads、方式Adm、频率Adf,程度Add)等。
    标符字Fm:识别为:标点Fmp、算号Fmc、符号Fms等。

    2.  根据权利要求1所述的汉语语义活性识别法,其特征在于,所述方法的语义活性识别系统,其有性质特征字(块)集的属性强弱,在结构上,符合自上而下、从左到右逐渐减弱的活性分 布排列。即W=[Wa,Wb]
    Wa=[Waa,Wab,...Wan],Wb=[Wba,Wbb,...Wbn]
    Waa=[Waaa,Waab,...Waan],Wab=[Waba,Wabb,...Wabn],...W,an=[Wana,Wanb,...Wann] 。

    3.  根据权利要求1.所述的汉语语义活性识别法,其特征在于,所述方法的活性语义识别为内外慨念与形式。内慨念识别为语义的特征内涵,外概念识别为语义的特征外延;内形式识别为语义的特征模式;外形式识别为语义的特征构态。即,
    识别活性语义:S=[概念(内涵,外延),形式(模式,构态)],其中:
    内概念的意义,识别为字(块)的活性形态义,表现为自然义(本义,实义)、社会义(引义,虚义)、认知义(理义,情义),即
    Sk=[自然义kn(本义,实义),社会义ks(引义,虚义),认知义kr(理义,情义)]
    外概念的意义,识别为概念形式化的活性意义,包括事物义Sm、事态义Sa、事件义Se。
    即,Ss=[事物义Sm(单事物,合事物),事态义Sa(简事态,复事态),事件义Se(整事件,部事件)]外形式的意义,识别为匹配形式的特征构态,包括:无联No,字联Wo,短语Ph,子句Cl。
    即,Sf=[无联No,字联Wo,短语Pr,子句Cl]
    内形式的意义,识别为实现形式的特征模式,包括:主活式Ms、被活式Mp、宾活式Mo、形活式Ma、系活式Mr、在活式Me、使活式Mm、非活式Mn的活性识别。
    即,Sm=[Ms,Mp,Mo,Ma,Mr,Me,Mm,Mn] 。

    4.  根据权利要求1所述的汉语语义活性识别法,其特征在于,所述方法包括(并不限于)以下识别步骤:
    步骤一,活字特征标注。识别活字(块)及活性形态、非活字(块),语句切分,查找歧义字块。
    步骤二,试算转态消歧。用活性算法转态处理活字(块)、非活字块的字级、形态、性质,消除歧义。
    步骤三,活性比较分析。进行字块活性比较分析,按照字级、事级、形级、模级的活性特征匹配计算,初步识别字(块)语义关系。
    步骤四,谓主活字识别。根据活性特征算法识别谓活字(块)V、子谓活字(块)Vv。分别进行谓活字、子谓活字的前联结计算,处理N:初步识别为主体S或客体O;
    后联结计算,处理N1:初步识别为客体O或主体S。
    步骤五,模式匹配识别,进行语义模式匹配计算,识别各活字(块)的语义模式。
    步骤六,语义结构识别,进行语义结构表达识别,包括识别语句的语用:时间、空间、状态、方式(肯定否定、陈述疑问、主动被动、真实虚拟、简单复合主从等)及标点符号等意义表达。

    5.  根据权利要求1所述的汉语语义活性识别法,其特征在于,所述方法包括识别汉语语义活性模式
    (1)主活式Ms:标式Ms=SVO、简式Ms1=SV、Ms11=VO、Ms12=V,
    变式Ms2=SVOo。
    (2)被活式Mp:标式Mp=SPvN Vt、简式Mp1=SPvVt。
    (3)宾活式Mo:标式Mo=OSVt、简式Mo1=OVb、变式MO2=SOVb。
    (4)形活式Ma:标式Ma=SVa、变式Ma2=VaR(了)S。
    (5)系活式Mr:标式Mr=SVrO、简式Mr1=SVr、Mrll=VrO、变式Mr2=OVr
    (6)在活式Me:标式Me=SE(在...里)、简式Me1=SE1、
    变式Me2=E(在...里)NS。
    (7)使活式Mm:标式Mm=SMv(使)NV、简式Mm1=MV2(让)NV,
    Mv3(把)NVi。
    (8)非活式Mn:标式Mn=N1,N(且N1∈N)。

    6.  根据权利要求1.1所述的汉语语义活性识别法,其特征在于识别语义的活性事级。(1)整事件(Sew)结构,SVO。(2)部事件(Sep)结构,SV/VO/OV/VaS型。
    (3)复事态(Sac)结构,E+的N/V。(4)简事态(Sas)结构,N+的+N1(含一个Nb)/N+V。(5)合事物(Smc)结构,A+的N,N+N1,adj+N。(6)单事物(Sms)结构,N。

    7.  根据权利要求1.所述的汉语语义活性识别法,其特征在于,识别语义特征活性字级。在字级中,识别若干义级:义级历时概念、义级共时慨念、义级历时形式、义级共时形式。在字级的义级(Ws)中,识别为若干子义级。

    8.  根据权利要求1.所述的汉语语义活性识别法,其特征在于,识别的客体文字(块)W统一用语言特征活性方法,即字级x、事级y、形级p、模级q的值来表示:Wxypq,或Wpqxy,或Wxy,或Wpq,或Wx,或Wy,识别其语义。

    说明书

    说明书汉语语义活性识别法
    1.技术领域
    本发明属于计算机科学应用及自然语言处理NLP(Natural Languge Processing)技术领域,涉及下一代数据信息处理技术。
    2.背景技术
    2.1汉语自然语言信息处理现状
    自然语言处理是一门新兴的计算机科学应用技术,其应用领域越来越广。自然语言处理有二条技术途径:概率统计处理方法和语义分析处理方法。前者为数据技术,目前曰臻完善;后者为字据技术,目前进展缓慢。统计的方法,基于语料进行概率计算推测语义,能够算出语言符号的表达,但难以算出语言表达的意义,概率计算只能是有限语料语言的″数据”运算,统计方法理解语义具有自身固有的缺陷。语义分析方法,按照语言的规律及特征分析语义,在理论方法上是“字据”的运算,能够在技术上识别理解语义。
    汉语自然语言处理的语义分析方法,大致有两类:一类是词汇语义分析法,包括语义场、义素分析法、配价法、语义框架法、构式语法论、概念整合法等。另一类是句法语义分析法,包括格语法、论旨法、概念依存法、语义网格法、蒙太格法等。这些语义分析方法目前还在初步探索阶段,在汉语自然语言理解的语义处理中解决了部分技术问题,但都不同程度地存在缺陷,而语义分析对于高性能的汉语自然语言处理又是必不可少的技术,这制约着汉语自然语言信息处理的科学应用发展。
    2.2.汉语自然语言处理存在的技术问题
    2.2.1.目前词汇语义分析法存在的问题
    词性(Part of Speech)是词汇基本的语法属性,通常也称为词类。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是自然语言处理中一项非常重要的基础性工作。汉语词性标注同样面临许多棘手的问题,其主要难点可以归纳为如下三个方面(刘开瑛,2000):
    2.2.1.1汉语是一种缺乏词形态变化的语言,词的类别不能像印欧语那样,直接从词的形态变化上来判别。
    2.2.1.2常用词兼类现象严重,由于兼类使用的程度高,兼类现象纷繁,覆盖面广,涉及汉语中大部分词类,因而造成在汉语文本中词类歧义排除的任务量大,而且面广,复杂多样。
    2.2.1.3.研究者主观原因造成的困难。语言学家在词性划分的目的、标准等问题上,还存在分歧。与汉语分词规范类似,到目前为止,还没有一个统一的,被广泛认可的汉语词类划分标准,词类划分的粒度和标记符号都不统一。词类划分标准和标记符号集的差异,以及分词规范的含糊性,给自动分词等中文信息处理带来了极大的困难。一方面,各研究单位各执己见,重复进行大量的低水平劳动,另一方面,大量的标注语料得不到充分利用和共享,从而造成了极大的人力、物力和资源的浪费。(宗成庆《统计自然语言处理》第2版164页)
    一些自然语言机器翻译专家干脆认为不需要汉语词类的划分。(董振东2009)
    总之,汉语词汇语义分析存在形态性、兼类性、标准性等缺陷。
    2.2.2目前句法语义分析规则分析方法也存在一些缺陷
    2.2.2.1.对于一个中等长度的输入句子来说,要利用大覆盖度的语法规则分析出所有可能的句子结构是非常困难的,分析过程的复杂性,往往使程序无法实现;
    2.2.2.2.即使能够分析出句子所有可能的结构,也难以在巨大的句法分析结果集合中实现有效的消歧,并选择出最有可能的分析结果;
    2.2.2.3.手工编写的规则一般带有一定的主观性,对于实际应用系统来说,往往难以覆盖大领域的所有复杂语言;
    2.2.2.4.手工编写规则本身是一件大工作量的复杂劳动,而且编写的规则对特定的领域有密切的相关性,不利于句法分析系统向其他领域移植。(宗成庆《统计自然语言处理》第2版181页)
    总之,汉语的句法分析存在复杂性、歧义性、主观性、移植性等缺陷。
    一般来说,一个自然语言处理系统,如果完全没有语义分析的参与,能够获得很好的系统性能是不可想象的。然而,自然语言的语义计算问题十分困难,如何模拟人脑思维的过程,建立语言、知识与客观世界之间可计算的逻辑关系,并实现具有高区分能力的语义计算模型,至今仍是个未能解决的难题。(宗成庆《统计自然语言处理》第2版244页)
    2.3.语义分析自然语言处理的技术困难
    2.3.1汉语规则的语法体系有争议不健全
    汉语规则一般有三种结构:词组类型结构PT(Phrase Type)、句法功能结构SF(Syntax Function)和逻辑语义结构LS(Logical Semantics)。
    尽管一些有远见卓识的前辈学者,已初步涉及这三种结构之间的某些复杂关系,摆出了许多有趣的语言事实,但是,不少人往往把这种极为复杂的关系简单化,在″汉语词类问题″的讨论中,就有人把语言成分的PT-结构与SF-结构混为一谈,不知道同一PT-结构中的成分,可以在SF-结构中具有不同的句法功能,结果,得出”汉语无词类”的结论。在”汉语主宾语问题”的讨论中,又有人则把语言成分的SF-结构与LS-结构混为一谈,不知道同一个SF-结构中的成分,在LS-结构中可以具有不同的逻辑语义关系,结果,他们根据逻辑语义关系来确定主语、宾语等句法功能成分,把″施事者″一律定为″主语″,把″受事者″一律定为″宾语″,不惜削足适履,因果倒置,弄得汉语语法体系犹如一团乱麻,令人望而生畏。这种语法所研究得出的种种″语法规律″,尤其不适合于在汉语的信息处理工作中使用。(冯志伟2012《自然语言处理简明教程》324页)
    2.3.2语义格语法描写汉语的局限性,格框架描述汉语有困难
    汉语词与词之间的语义关系(格关系),有多少种语义关系以及名称,是个不确定的无限集,给自然语言的线性处理带来巨大困难。语义关系的名称,目前汉语语法学界还没有统一的说法,少的十几种,多的达到六七十种,有的还有分层格。各家经常提到的语义关系有施事、受事、与事等。
    2.3.3概念依存理论CD(Conceptual Dependency Theory)有动作基元、剧本、计划三部分组成,该方法进行汉语语义分析有缺陷,怱略了语言的细节一些不可描述的东西,用有限的集合来表示无限的动作,本身就是缺陷。
    2.3.4自然语言句子中存在大量的歧义,涉及指代、同义/多义、量词的辖域、隐语等,另外,语义计算的理论和方法很不成熟,从某种角度来讲还没有,根本就没有建立这样一种理论。(宗成庆2010)
    关于语义计算分析的技术困难,中国科学院专家指出:语义是否可以计算,也没有人可以说得清楚。我还是希望能够找到一种方法,或者大家摸索出一种方法而来做这样一件事,那怕是现在所有的一些数学工具都不能运算。专家提出来,二个不同的语义,有可能是完全相反的,可能存在逻辑上的是与非的关系,在大多数情况下,可能不是那种简单的是与非、零与一的关系,也不能用简单的逻辑“与”和“或”作处理,需要构造一种新的数学操作语言去做这样一种计算。总是应该能够发现这样一种方法来解决这个问题。所以,我把这个问题一直留在这个地方,我自己也知道有很多问题,也不知道应该怎么来解决这个问题。......我认为,总而言之,语义分析到目前为止还没有好办法,可以说刚刚开始。但是,我认为真正要解决自然语言理解的问题,必须要解决语义的问题,再难也要去做。如果这个问题解决不了的话,不存在真正高性能的自然语言理解。(宗成庆2010《自然语言理解》第三十讲)
    3.发明任务
    汉语自然语言处理的语义分析方法目前存在的词汇分析和句法语义分析等方面的缺陷和问题,主要原因是缺少一个符合语言规律可以统一处理汉语语义的分析系统/模型,导致了十多年来自然语言处理的汉语语义分析技术处于瞎子摸象徘徊不前的状态,迫切需要一个解决汉语的字、词、句语义分析的新系统技术方案,突破以前的语义分析方法的零碎敲打、个别设计、局部处理的技术障碍,这就是本发明的任务。
    4.发明内容
    本发明汉语语义活性识别法的内容主要包括本发明的目的、本发明的具体技术方案和本 发明的有益效果。
    4.1本发明的目的:用一个汉语语义统一识别处理系统和分析方法,不同程度地解决汉语词汇语义分析在形态性、兼类性、标准性等方面的缺陷和汉语句法语义分析在复杂性、歧义性、主观性、移植性等方面的缺陷,发明一个计算机识别汉语语义的新方法。
    4.2本发明的具体技术方案由一个汉语活性分析识别系统及运用活性算法的语义识别分析步骤组成。
    4.2.1.建立汉语语义活性分析系统
    语言方法和哲学方法是认识世界的二种方法。哲学的方法是宏观地解释世界,语言的方法是微观地描述世界。世界是运动的,人类是活动的,语言记录描述着人类的各种活动,自然活动、社会活动和认知活动。反映人类活动的语言所包含的活动性是人类生活的鲜活写照,表达了人类活动的基本涵意,这种活动性即语言的活性(Activity),是语言的一个基本属性或特征,反映了语言文字自身固有的客观语言规律,据此,建立了一个汉语活性识别处理系统。
    4.2.1.1.在这个活性系统中,语义按照其特征活性表现,识别为慨念与形式。内慨念识别为语义的内涵,外概念识别为语义的外延;内形式识别为语义的模式;外形式识别为语义的构态。即,
    识别语义:S=[概念(内涵,外延),形式(模式,构态)],其中:
    内概念的意义,按其活性特征识别为:动态义vd、静态义vs、情态义vm、联态义cc、生态义n、非态义k,表现在三大科学领域,即自然义、社会义、认知义,语义是这三个有限子集的合集,即,Sk=[自然义kn,社会义ks,认知义kr]。
    外概念的意义,识别为概念形式化的意义,包括事物义Sm、事态义Sa、事件义Se。
    即,Ss=[事物义Sm,事态义Sa,事件义Se]
    外形式的意义,识别为匹配形式的活性构态,包括:无联Non,字联Word,短语Phrase,子句Clause。即,Sf=[无联No,字联Wo,短语Pr,子句Cl]。
    内形式的意义,识别为实现形式的活性模式,包括:主活式Ms、被活式Mp、宾活式Mo、形活式Ma、系活式Mr、在活式Me、使活式Mm、非活式Mn。
    即,Sm=[Ms,Mp,Mo,Ma,Mr,Me,Mm,Mn]
    4.2.1.2.在这个活性系统中,汉字(Word)按照其特征活性表现,识别为活字和非活字。
    活字Wa(Word active)是具有活动意义的性质或形态特征的活性字?;钭值哪诤腔钚裕杭从镅跃哂斜泶锶死?、社会和自然等活动意义的性质和形态的属性或特征,这个属性由慨念和形式来表示,即语义。例如,人:是具有活动的概念特征的活字;吃:是具有活动的形式特征的活字。识别活动的固态概念为生态活字;活动的表现形式按其活动的复杂程度和联结方式,识别为动态活字、静态活字、情态活字、联态活字等,即,
    活字Wa=[动态字Vd,静态字Vs,情态字Vm,联态字C,生态字N]
    非活字Wn(Word nonActive):不具有活动意义的性质或形态特征的字,辅助说明活字意义的字。例如:椅、木等。
    4.2.1.3在这个活性系统中,由字组成的字块按照其活性表现,识别为活字块和非活字块。字块Wc(Word chunk):是字与字绝对联系而具有固定语义的通用字串。字块包括:词、成语、习语。识别具有活动意义或慨念特征的字块为活字块Wca(Wc Active),活字块一般含有活字;识别不具有活动意义或慨念特征的字块为非活字块Wcn(Wc nonactive),非活字块一般不含有活字。在活性转态情况下,一些活字块可能不含有活字,一些非活字块可能含有活字。
    活字(块)按照其活性表现,识别为动态活字(块)、静态活字(块)、情态活字(块)、联态活字(块)、生态活字(块)。非活字(块)为非态字(块)。
    动态活字(块)Wd(Word Dynamic):具有较强活动意义特征的活字(块),识别为思维活字(块)Vn、复合活字(块)Vc、行为活字(块)Vb;即,Wd=[Vn,Vc,Vb];
    静态活字(块)Ws(Word Static):具有较弱活动意义特征的活字(块),识别为关系活字(块)Vr、形容 活字(块)Va,即,Ws=[Vr,Va];
    情态活字(块)Wm(Word Model):具有辅助活动意义特征的活字(块),识别为能愿活字(块)Vm、助动活字(块)Vh,即,Wm=[Vm,Vh];
    联态活字Wc(Word Conjunction):具有联结活动概念或形式特征的活字(块),识别为联词活字(块)Cp(phrase)、联句活字(块)Cc(Clause),即,Wc=[Cp,Cc]
    生态活字(块)Wb(Word Biology):具有活动意义概念特征的活字(块),识别为生物活字(块)Nb、机动活字(块)Nm、自然活字(块)Nn、动名活字(块)Nv,即,Wb=[Nb,Nm,Nn,Nv]
    4.2.1.4.在这个活性系统中,活字(块)按照其活性表现的差异,进一步识别为若干字(块)集Set。思维字(块)识别为理性活字(块)Vnr、感性活字(块)Vne复合字(块)识别为:智力活字(块)Vci、脑体活字(块)Vcb;行为字(块)识别为:进行活字(块)Vbc、时点活字(块)Vbp,即,Wd=[Vd(Vnr,Vne),Vc(Vci,Vcb),Vb(Vbc,Vbp)]
    关系字(块)识别为:变化活字(块)Vrc、存在活字(块)Vre;形容活字(块)识别为:形动活字(块)Vaa、形静活字(块)Vas;即,Ws=[Vr(Vrc,Vre),Va(Vaa,Vas)]
    能愿字(块)Vm识别为愿望活字Vmw(将、愿、愿意、会等)、能力活字Vma(能、能够、会等);助动字(块)Vh识别为:情助字Vhe(要、应、肯、敢等),时助字Vht,包括:前助字Vhtf(将、已经、正在)、后助字Vhtb(过、着、了),形助字Vhf(上、下、去、来等),
    即,Wm=[Vm(Vmw,Vma),Vh(Vhe,Vht,Vhf)]
    4.2.1.5.在这个活性系统中,联态字(块)识别为联词活字和联句活字。联词活字Cp识别为
    1.直联活字Cpd,包括(1)联结字Cpdj(的、地、得);
    (2)联接字Cpdc:和(+)、即(=)、或(/)、与(>=)(及、同)、跟<=;
    2.间联活字Cpi(1)客体活Cpio:把(将)n+V:把他打了(2)主体活Cpis:让n+V,让他打了。
    3介联活字Cpp:识别为动前介Cppf、前后介Cppb。
    联句活字Cc识别为1.单句联字Ccs包括(1)疑问字Ccsq:普通CcsQ:吗、呢、否;
    特珠CcSq:谁、哪、何、什么、怎么;
    选择CcSQ:是否、要不、是...还是(呢)、或者;
    (2)祈使字Ccso(order):V+吧;(3)感叹字Ccse:多么;
    (4)比较字Ccsc:比;(5)强调字Ccss:是...的:(6)反诘字Ccsa:难道。
    2.复句联字Ccc包括(1)定同字Ccco(of):的
    (2)并列字Cccp:和、又、还、并且。
    (3)选转字Ccct:或者、但是、可是、然而、因为、所以、不仅...而且
    (4)从属字Cccs:即、也就是。
    (5)假设字Cccc:如果、只要、只有、除非等。
    即,Wcc=[Cp[Cpd(Cpdj,Cpdc),Cpi(Cpis,Cpio),Cpp(Cppf,Cppb)],Cc[Ccs(Ccsq,Ccso,Ccse,Ccsc,Ccss),Ccc(Ccco,Cccp,Ccct,Cccs,Cccc)]]
    4.2.1.6.在这个活性系统中,生态字(块)N识别为1.生物活字(块)Nb包括(1)人物Nbh、(2)机团Nbg、(3)脑动物Nbb、(4)野动物Nbw、(5)动物Nba、(6)小动物Nbs、(7)微生物Nbm、(8)植物Nbp。即,Nb=[Nbh,Nbg,Nbb,Nbw,Nba,Nbs,Nbm,Nbp]
    2.机动活字(块)Nm包括:(1)互动机Nmi、(2)自动机Nma、(3)操动机Nmo。
    即,Nm=[Nmi,Nma,Nmo]
    3.自然活字(块)Nn包括:(1)自然物Nnm(2)自然态Nns云、空气、水,即,Nn=[Nnm,Nns]
    4.动名活字(块)Nv包括:(1)活动名Nva、(2)静动名Nvs,即,Nv=[Nva,Nvs]
    4.2.1.7.在这个活性系统中,按辅助有性质字(块)的特征方式,识别无性质/特征字(块)非活字(块)的语义归集。非活字(块)F识别为辅助活字(块)语义表达的字(块),包括能静字(块)Fs、指代字Fp、数量字Fn、状态字Ad(形状Adx、副状Adv)、标符字Fm。
    1.能静字(块)识别为:静物体Fsn、抽象体Fss
    静物体识别为:天然物Fsnn、合成物Fsnc、制成物Fsnm、工具Fsnt、用具Fsnu、玩具Fsnp、食物 Fsnf、即,Fsn=[Fsnn,Fsnc,Fsnm,Fsnt,Fsnu,Fsnp,Fsnf]
    抽象体分识别为:抽象物Fsso、抽象态Fssf、想象物Fssi即,Fss=[Fsso,Fssf,Fssi]
    2.指代字(块)识别为:(1)物称代Fpo:事物A确定Fpod(代n):它、它们;B不定Fpoi(代a):谁、什么、怎样、一些、任何(2)特称代Fps:近称Fpsn这、这个;远称Fpsf那个、那、那里(3)疑问代Fpw:什么、哪、怎样(4)不定代Fpi:A肯定Fpip:每个、一些、全部B否定Fpin。
    即,Fp=[即o(Fpod,Fpoi),Fps,Fpw,Fpi(Fpip,Fpin)]
    3.数量字(块)Fn识别为:(1)数字(块)Fnn、(2)量字(块)Fnm,A.名量字Fnmn(单位量:个、只,度量字:尺、米),B.动量字Fnmv(次、回、局)。即,Fn=[Fnn,Fnm(Fnmn,Fnmv)]
    4.状态字(块)Ad识别为:(1)形状字Adx,(2)副状字Adv:时间Adt、空间Ads、方式Adm(勤奋、认真)、频率Adf,程度Add(相对程度Addr、绝对程度Adda)/(高度Addh、中度Addm、低度Addl),即,Ad=[Adx,Adv(Adt,Ads,Adm,Adf,Add)]。
    5.标符字Fm识别为:(1)标点Fmp(逗号Fmpc,句号Fmpd,分号Fmps,冒号Fmpm,问号Fmpq,感叹号Fmpe,破折号Fmpd,撇号Fmpa,等),(2)计算号Fmc(加号Fmcp,减号Fmcm,乘号Fmct,除号Fmcd,等号Fmce,大于号Fmcb,小于号Fmcs,等),(3)符号Fms(斜号Fmsv,平行号Fmsp,连字符Fmsh,省略符Fmse,前括号Fmsf,后括号Fmsb,前引号Fmsq,后引号Fmsw,星号Fmss,等)等。即,Fm=(Fmp,Fmc,Fms)。
    4.2.1.8.在这个活性系统中,识别语义的内概念自然义kn,具有反映理化活性特征的意义,识别为:
    1.本义knp:活性特征为狭义客观事物或事态。如:树n/v,吃v,吃苹果
    2.实义kno:活性特征为广义客观事态。如:树林n,树立v,吃酒席、吃食堂社会义ks,具有反映人文活性特征的意义,识别为:
    3.引义ksb:活性特征为狭义抽象概念或形态,如:英雄树,v树敌,吃大锅饭
    4.虚义ksc:活性特征为广义抽象概念或形态。如:摇钱树v.树新风;吃香、吃亏、吃得开认知义kr,具有反映思维活性特征的意义,识别为:
    5.理义krr:活性特征为狭义主观理念。如:决策树,树形图,树慨念,吃歪
    6.情义kre:活性特征为广义主观情态。如:常青树,树障碍,吃醋。
    即,Sk=[kn(knp,kno),ks(ksb,ksc),kr(krr,kre)]
    识别语义的外概念:事物义Sm,事态义Sa,事件义Se,有以下型态:
    (1)整事件Sew型态:SVO (2)部事件Sep型态:SV/VO/OV/VaS型红了你。
    (3)复事态Sac型态:(事件E+的)+n/V (4)简事态Sas型态:n+n1(含有Nd),n十V(ns)。(5)合事物Smc:合能动事物Smca型态:事态A的+n劳动的群众,n+n1劳动人民,a+n困难户;合能静事物Smcs型态:ns+ns1房里的书。
    (6)单事物Sms:单能动事物Smsa;单能静事物Smsm。
    即,Ss=[Se(Sew,Sep),Sa(Sac,Sas),Sm(Smc,Sms)]。
    4.2.1.9.在这个活性系统中,识别语义的外形式活性特征:无联式No、字联式Wo、短语式Ph、子句式Cl;即,Sf=[Ph,Cl,Wo,No]
    识别语义的内形式活性特征模式:
    (1)主活式Ms:标式Ms=SVO他吃饭。Ms1=SV他睡了;Ms11=VO开门;Ms12=V走开。变式M2=SVOo她叫他老公。
    (S=Nb生态字,V=Vd动态字,O=N,o=N1)
    (2)被活式Mp:标式Mp=SPvN Vt她被他打了。简式Mp1=SPvVt她被打了。
    [S=N1,Pv=(被/让/挨/招/遭)]
    (3)宾活式Mo:标式Mo=OSVt,这孩子我喜欢。简式Mo1=OVb,饭吃了。
    变式MO2=SOVb,他饭吃了。(S=Nb,O=N)
    (4)形活式Ma:标式Ma=SVa他高兴。
    变式Ma2=VaR(了)S,美了你,高兴死了(S=N)
    (5)系活式Mr:标式Mr=SVrO他是学生。简式Mr1=SVr他是。Mr11=VrO是北京。
    变式Mr2=OVr汽车是。(S=N,O=N1)
    (6)在活式Me:标式Me=SE(在...里)N,他在店里。简式Me1=SE1:他在。
    变式Me2=E(在...里)NS:在房里他[S=N1,E=(在...里)]
    (7)使活式Mm:标式Mm=SMv(使)NV,他使她生气。
    简式Mm1=Mv2(让)NV,让他知道;Mv3(把)NVi把他骂了。
    [S=N,Mv=(Mv1使、Mv2让、Mv3把)]
    (8)非活式Mn:标式Mn=N1,N(且N1∈N),鲁迅,绍兴人。这台子,木家俱。
    即,Sm=[Ms(SVO,SV,VO),Mp(SPvVt,SPvNVt),Mo(OVb,SOVb,OSVt),Ma(SVa,VaS),Mr(SVrO,SVr,VrO,OVr),Me(SEvNL,EvNLS),Mm(MrNVt,LvNVt,GvNVi,MvNVN1),Mb(N1N)]
    4.2.2.活性分析技术操作方法及活性算法
    自然语言语义识别是自然语言理解和处理的基础。语义识别的基本操作是语句的切分,按照活性将语句切分为不同的活字(块)与非活字(块);语义理解的基本操作是字块的联结,根据活性将不同的字(块)联结成语义确定的语义块。
    切分是字义的组合的技术方法,联结是语义的组合的技术方法。语句的切分和联结在活性系统中进行线性分析处理,有切、分、联、结四个基本操作方法。
    4.2.2.1语句的切分:根据活性强弱,用切和分的方法将语句识别成为有意义的字和字块(词),即分词,从而消除歧义WSD(Word Semantics Ambiguation)。一般来说,语句的切分有二种:交叉切分J(Segment J)和组合切分Z(Segment Z),交叉切分简称为切Cut,被切的交叉字称为切字Wc;被切的点称为切点Pc,切点在切字前或切字后;组合切分简称为分Divide,分点Dp在字块中间。
    切(Cut):处理交叉歧义,在二个交叉连接的字块中排除一个字块。例如:”人群众”,”群”就是一个交叉切字;
    分(Divide):处理组合歧义,将二个组合连接的字块分开。例如:”工人/群众”。
    4.2.2.2.字块的联结:根据活性,用联和结的方法将字和字块(词)识别成含有确定语义的语块Chunk。联(Link):处理相邻二个字块活性的一般语义关联。例如:”咬死/猎人”,在联处理中涉及一个联结点D(Dot)。
    结(Joint):处理相连二个以上字(字块)活性的综合语义关联。例如:”咬死猎人/的/狼狗”。在结处理中涉及二个联结点。
    字块的联结处理,一般有联处埋操作和结处理操作?;钭?块)的联和结的处理,主要是字(块)的前联结和后联结的匹配,涉及三个方面:外延联结(侧重形式)、内涵联结(侧重概念)、状态联结。
    外延联结指联结的语法形式:是关于字词、短语、子句的联结;内涵联结是指语义关联:是关于事物、事态、事件的语义的逻辑关联;状态联结是指联结的语用状况,是关于语句构式:肯定否定、疑问反诘、感叹强调、祈使虚拟、单句复句等的表达效用。
    前联结、后联结分别处理在活字块的前面、后面能够联结什么性质和形态的字块,活性联结方法(算法)是字(块)的语义匹配的形式处理方法,主要处理形态不同的字块联结,既要符合外延联结,又要遵与内涵联结,还要兼顾语言效用。
    4.2.2.3.字块的联结值
    活性是语言的特征核心,是活字(块)内涵活跃的程度与外延联系的强度?;钚灾饕从吃诨钭?块)上,活字(块)的联结是活性的主要表现形式。联结用活字(块)的联结值L来表示?;钭?块)的联结值表示活字活性的强弱差异等级,是语义分析的活性识别值,联结值由前联值Lf与后联值Lb组成。
    语义的基本表达方式为慨念与形式?;钭?块)的前、后联值由内外概念值与形式值来识别表示。语义的内概念值是指在同类概念N、v中字(块)的活性等级值,简称字级x,由0-9表示;
    外概念值是指慨念形态的活性等级值(非事、事物、事态、事件),简称事级y,由0-6表示;
    外形式值是指能否连接单字、短语、子句,表现语义形式的活性等级值,简称形级p,由0、1、2、3表示,其中0表示无形式值。N0、W1、P2、C3
    内形式值是指语义模式的活性形式值,简称模级q,由1-8表示。
    使活式8、系活式7、在活式6、被活式5、宾活式4、主活式3、形活式2、非活式1
    字块的联结值活性算法结构如下:
    [形级/模级+N+字级/事级]十[字级/事级+V+形级/模级]十[形级/模级+N+字级/事级]
    其中,动态字(块)V,有二个前联值Lf=字级x、事级y,有二个后联值Lb=形级p、模级q
    即,联结值Lv=xy:V:pq,记为:Vxypq
    生态字(块)N,Ln=pq:N:xy,记为:Npqxy
    联态字(块)C,Lc=xy:C:xy,记为:Cxy。例如:的、和
    识别动态字中思维字、复合字、行为字的所属字集的活性强弱表现等级(字级)标注:
    6理性活字(块)Vnr、5感性活字(块)Vne、4智力活字(块)Vci、3脑体活字(块)Vcb、2进行活字(块)Vbc、1时点活字(块)Vbp;
    识别静态字中关系字、形动字的所属字集活性强弱表现等级(字级)标注:
    4变化活字(块)Vrc、3存在活字(块)Vre、;2形动活字(块)Vaa、1形静活字(块)Vas;
    识别情态字中能愿字、助动字的所属字集活性强弱表现等级(字级)标注:
    6愿望活字Vmw、5能力活字Vma、4.情助字Vhe、3时助字Vht、2后时助字Vhtb、1形助字Vhf。
    识别生态字中生物体、机动体、植物、动名体的所属字集活性强弱表现等级(字级)标注:
    人物9,社团8,脑动物7,野动物6,动物5,互动机4,自动机3,操动机2,植物1,自然物0在字级中,还可识别若干义级(Ws)
    在”人物”字(块)表中,识别义级历时概念:
    老年8,中年7,壮年6,青年5,少年4,儿童3,幼儿2,婴儿1义级共时慨念:如,称谓(辈份)1爷爷2奶奶3叔叔4姑姑5爸爸6妈妈7儿子8女儿称代(单数)你、我、他、她、它、谁。(复数)你们、我们、他们、它们,咱们,谁。
    义级历时形式,如,吃:1张口、2进食、3咀嚼、4下咽。
    义级共时形式,如,吃:喝、玩、乐、听、看、思。
    在字级的义级(Ws)中,还可识别若干子义级(Wss)
    子义级的慨念和形式,识别自然义,社会义,认知义的子义。
    识别同域慨念,如:北京,燕京,北平;异域慨念,如,桔,橘,柑桔。
    同域形式,如,(历时)进食:伸手,接食,送食、咬食、闭嘴。
    (共时)唱歌:音乐,人声,音响,灯光,欢笑。
    异域形式,如,婚礼:A中式礼,B西式礼
    识别联态字中联词字的所属字集活性强弱表现等级(字级)标注(略)
    动态字(块)、生态字(块)的联结
    事级vy、ny:整事件6,部事件5,复事态4,简事态3,合事物2,单事物1,非事物0。
    形级p:C13,Ph2,Wol,No0。
    模级q:使活式8、系活式7、在活式6、宾活式5、被活式4、主活式3、形活式2、非活式1。
    例如Vn,∵动态V的联结值Lv为:xyVpq=Vxypq
    ∴理性Vnr(希望6245)、感性Vne(感到5244)、智力Vci(管理4125)、脑体Vcb(经营3115)、进行Vbc(练习2113)、(劳动2103)、时点Vbp(完成1116)。
    例如Nb,∵生态N的联结值Ln=Npqxy
    ∴人物1492,社团1482,脑动物1472,野动物1462,动物1452,互动机1341,自动机1331,操动机1221,植物1211,自然物1201
    联词Cp字级:联结5(的),联接4(和),主体3(把),客体2(让),介联1(为、和)
    联句Cc字级:强调6(是),疑问5(吗、什么、是否),反诘4(难道),祈使3(吧),比较2(比),感叹1(吧)。
    复句Ccc字级:定同6,假设5,从属4,联合3,转折2,并列1。
    静态Vs的字级:是Vu5,在Ve4,成为Vc3,Va2(形动式:高兴),Vasl(形静式:好)
    4.2.2.4活字(块)的联结处理分析计算,主要基于联结度Ld,即字(块)之间活性综合匹配程度,是识别字(块)前联或后联的基本依据。联结度用L值来表示,有活字的前联结值Lf、后联结值Lb,有单一计算识别和复合计算识别二种活性算法。
    单一计算识别:主要按字级来比较活性的简单计算识别L值的大小,涉及动态、生态的同态活字(块)间的匹配;
    复合计算识别:采用按字级、事级、形级、模级来比较活性的复合计算识别L值的大小,涉及异态(不同态)活字(块)间的匹配。
    同态单一识别
    1.动态V的单一计算V1+V2,例1:张进希望眼欲穿。
    算法(1)Seg:张n进v1希望v2眼欲穿J。其中,希望眼欲穿J,为交叉歧义,”望”为切字。
    (2)∵进vb<希望Vn=望眼欲穿vn,希望vnWo<望眼欲穿vnPh(词<成语)
    ∴”望”为后联结:J=希/望+眼欲穿
    (3)望眼欲穿Vn=谓活字V(谓语活字)
    (4)∵希?。絍m?。絘d,∴希:前联,进:转态,进+希=n=名,∴张+进希=姓+名=Nb
    (5)∴Nb=S(主活字),主活式简式:SV,张进希S望眼欲穿V。
    2.生态N的单一计算N1+N2,例2:王豺狼子野心。
    算法(1)Seg:王nbh豺狼nba子野心J。豺狼子野心J,为交叉歧义,”狼″为切字。
    (2)∵王nbh>豺狼nba,∴豺狼必须转态∴拆分;
    (3)∵(豺+狼)nba<(狼+子野心)va,∴″狼″为后联结,J=豺/狼+子野心
    (4)狼子野心=V谓活字
    (5)又∵豺?。絍m?。絘d∴王+豺=Nbh为主活字S
    (6)∴主活式简式:SVa,王豺S狼子野心Va。
    动态、生态混合单一计算
    例3,王豺狼子野心想当领导。
    算法(1)Seg:王nbh豺狼nba子野心J1想J2当vr领导n。
    其中,豺狼nba子野心J1,为交叉歧义,”狼″为切字;心想J2,为交叉歧义,心为切字。
    (2)J1∵王nbh>豺狼nba,∴豺狼必须转态(拆分);
    ∵(豺+狼)nba<(狼+子野心)va,∴″狼″为后联,J=豺/狼+子野心Va
    (3)J2∵心、想拆分,J2=心/想∴想vn>狼子野心va,∴想=谓活字Vn,
    ∴Vn前的″狼子野心″Va转态为adv;
    (4)又∵豺?。絍m?。絘d∴王+豺=Nbh=主活字S,当Vv=子谓字+领导=O
    (5)∴主活式,SVO:王豺S狼子野心adv想Vn(当vr领导nn)O。
    3.情态Vm的计算Vm1+Vm2,例4:将能量化
    算法(1)Seg,将vm1能量化J。其中,能量化J=交叉歧义,量为切字,
    (2)∵量化vc>化vc>量va>能vm>能量n,∴量化Vc=谓活字,量为后联J=能/量+化
    (3)又∵将Vmw>能Vma(能愿>能力)将+能+V匹配成立,
    (4)∴主活简式,(vm)V:将Vmw能Vma量化Vc。
    4.联态C计算同态N1+C+N2、V1+C+V2
    C(和)字的计算例5,完成和尚未完成任务的
    算法(1)Seg,完成vc和c尚未J完成vcl任务n的c1(定同字)。
    和尚未J,为交叉歧义,尚为切字;n+的
    (2)∵完成vc=完成vcl,且,和c>和尚nb>尚未ad>尚ad=未ad∴和cpdc=c,尚为后联,J=和/尚+未
    (3)∴V+C+V1:完成vc和c尚未ad完成vc任务n的C。
    例6完成和平等任务。
    算法(1)Seg,完成vc和c平等J任务n。其中,和平等J为交叉歧义,平为切字。
    (2)∵等vb>和平va>平等va>平va>和va,∴平为前联:J=和+平/等
    (3)∵完成vc?。饺挝駈,∴vc+和+n不成立∴和c转态:和平=n
    (4)∵完成vc>等va,∴等必须va转态成c,
    (5)∴完成=Vc=谓活字,任务n=O,主活简式VO:完成Vc和平n等c任务O。C(的)字的计算
    例7,咬死猎人的狗
    算法(1)Seg分词:咬死:vb猎人nbh的c狗nba。
    (2)标注L值、结点d:咬死vb1116+d1猎人nbh1492+d2的c41+d3狗nba1462
    (3)Lx值计算Ld2=9-4=5,Ld3=6-4=2,
    (4)比较Lx值∵Ld2>Ld3,″的″c前联>后联∴识别:的C为前联
    ∴猎人的adj/狗,?。搅匀?的狗。
    (5)∴咬死=Vb=谓活字,狗nba=O,主活简式VO:咬死Vb猎人的adj狗Nba
    例8,咬死老鼠的狗
    算法
    (1)Seg分词标注咬死vb1116+d1老鼠na1452+d2的c41+d3狗na1462
    (2)Lx值计算Ld2=5-4=1,Ld3=6-4=2,
    (3)比较L值∵Ld2<Ld3,″的″c前联<后联
    ∴识别c为后联∴老鼠/的狗,?。嚼鲜蟮?狗。
    (4)∴咬死=vb=子活字Vv:(咬死Vv老鼠na)的attr狗N。
    4.3活性分析语义识别步骤
    本发明的活性分析语义识别步骤,基于活性语义分析线性识别系统。
    4.3.1.步骤一,活字特征标注。识别活字(块)及活性形态、非活字(块)形态(含标符字),语句切分,识别歧义字块,J表示交叉歧义,Z表示组合歧义,区分语句与语块。
    4.3.2.步骤二,试算转态消歧。用活性算法转态处理活字(块)、非活字块的字级、形态,消除歧义。识别转态字(块),活性增强的转态为上转态,活性降低的转态为下转态。处理字块拆分。
    4.3.3.步骤三,活性比较分析。进行字块活性比较分析,按照字级、事级、形级、模级的活性特征匹配计算,初步识别字(块)语义关系。采用默认活性识别法Hx或生态识别法Hn、多态识别法Hm等活性算法识别语义特征。
    4.3.4.步骤四,谓主活字识别。
    4.3.4.1.根据活性特征算法识别谓活字(块)V、子谓活字(块)Vv。
    4.3.4.2.进行谓活字、子谓活字的前联结计算,初步识别N:为主体S或客体O;
    4.3.4.3.后联结计算,初步识别N1:为客体O或主体S。
    4.3.5.步骤五,模式匹配识别,进行语义模式匹配计算,识别各活字(块)的语义模式:主活式、被活式、宾活式、形活式、系活式、在活式、使活式、非活式等,棈确识别标式、简式、变式等模式的语义。
    4.3.6.步骤六,语义结构识别,进行语义结构表达识别。包括识别语句的语用:时间、空间、状态、方式(肯定否定、陈述疑问、主动被动、真实虚拟、简单复合主从等)及标点符号等意义表达。
    5.本发明有益效果
    5.1建立了一个汉语活性分析语义识别系统,汉字的语句处理有了基本的语义识别和理解的系统平台、操作步骤和方法,完善或改变了零散敲打、局部处理的规则分析方法。
    5.2.能够处理一些语句歧义问题
    例9,″学生会主动完成任务″。
    算法(1)Seg,学生会Z主动ad完成vbp任务n。学生会Z为组合歧义;
    (2)Hx,会vm>学生nb>学生会,初步识别Z=学生/会vm;
    (3)∵会vm+完成v匹配,且!+″了″∴识别成立,完成vbp=谓活字V,
    (4)∴学生=S,任务=O,主活式SVO:学生S会vm主动ad完成V任务O
    例10,″小王说故事很有趣"
    算法(1)Seg,小王nb说vn故事nn很ad有趣va
    (2)说vb>有趣va∴初步识别,说=V谓活字,有趣va=子谓字Vv
    (3)∵说=V,∴小王nb=S,故事很有趣Sva=O
    (4)∴主活式SVO小王S说V(故事很有趣O)。
    例11,”这篇文章你给我看看”
    算法(1)Seg这fpsn篇fmmn文章fsso你nb给vb我nb1看看vn
    (2)∵看看vn>给vb,∴初步识别vn=V谓字,∴给,转态为cp,
    (3)这fpsn+给cp匹配;给Cp+我nb1成立,
    (4)又∵nb>=nb1>fsso,初步识别nb=S,
    (5)初步识别fsso=o,则,这fpsn+篇+文章fsso=n=O,
    (6)宾活式OSV:这篇文章O你S给我cp看看Vn
    5.3能够解决处理一些词汇语义分析形态性、兼类性、标准性等的问题。
    例12,”这样的人才能出众”
    北大计算语言学家指出:反映客观世界的语义系统即使能建立起来,也会十分庞杂,语境分析更是没有边界,很难形式化...象“这样的人才能出众”这样一串汉字可以有如下不同的组合(俞士汶,2011)
    这样/的/人/才能/出众(a)
    这样/的/人才/能/出众(b)
    这样/的/人/才/能/出众(c)
    用本发明的活性语义分析系统进行处理,(a)、(b)、(c)三式,分别符合生态识别(自然义)、活性识别(社会义)、多态识别(认知义)三种识别法处理结果。
    1.活性识别法(Hx)计算分词绝对活性处理:
    算法
    (1)这样fpsn的c人才能J出众va。其中,”人才能”J为交叉歧义,”才”为切字;(2)∵能=vmh>人nb>人才fsso>才能fssf>才ad∴才为前联,J=人才/能;
    (3)∵能vmh+出众va匹配∴出众=Va谓活字,
    (4)人才fsso=S,形活式SVa,
    (5)即:这样/的/人才S/能vm/出众Va
    可见,(5)=(b),为社会义侧重分词结果。
    2.生态识别法(Hn)计算分词相对活性处理:
    算法
    (6)Seg:这样fpsn的c人才能J出众va。其中,”人才能”J为交叉歧义,”才”为切字;
    (7)虽然,能vm>人=nb>人才fsso>才能fssf>才ad,但∵Hn法
    ∴人nb>能vm,″能″下转态,(才+能)fssf∴″才″字后联,J=人/才能
    (8)∴才能fsso=S,人nb=attr,出众Va=谓活字,形活式SVa,
    (9)即:(这样/的/人)attr/才能S/出众Va
    可见,(9)=(a),为自然义侧重分词结果。
    3.多态识别法(Hm)计算分词活性:
    算法
    (10)Seg这样的c人nb才能J出众va。其中,人才能J为交叉歧义,”才”为切字;
    (11)∵Hm法,人=nb,才=adv,能=vm,且adv+vm与va匹配,∴人/才/能,排除切字。
    (12)∴出众Va=谓活字,人nb=S,形活式SVa,
    (13)即:这样的c人S/才adv/能vm/出众Va。
    可见,(13)=(c),为认知义侧重分词结果。
    5.4.能够进行汉语句法语义分析,综合计算比较语义
    利用联结的处理方法,能够识别处理多态语句分析。
    例13,”他抛下工作和妹妹出去玩?!?
    算法
    (1)Seg,他nb+d1抛下vbp+d2工作vbc+d3和c+d4妹妹nb+d5出去vb1+d6玩vb2。d为结点,工作和妹妹Z为组合歧义
    (2)∵抛下vbp+工作vbc形态不匹配,又,″抛下″无转态,∴″工作″转态=nv,pq=01
    (3)Z处理:联结值d2(v+n),Lpq=(1-0)/(3-1)=1/2,
    联结度d2=(1+2)/2=3/2
    d3(n+c),Lxy=(2-4)/(4-1)=-2/3,d3=(-2+3)/2=1/2
    d4(c+n),Lxy=(9-4)/(1-1)=5/0,d4=(5+0)/2=5/2
    (4)∵d2>d3∴″工作″为前联Lf;又∵d4>d3∴″和”为后联Lb,∴d3为分点Dp,″和”下转态为cpp,Z=工作/和+妹妹;
    (5)∴他Nb=S,抛下=Vb谓活字,工作=O,vb1=子谓字Vv,vb2下转态=ad;
    (6)主活标式SVO+C:即,他S抛下V工作O(和C妹妹nb出去v玩ad)。
    标符字的语义识别计算:
    例14.完成和尚未完成的任务,(C逗号);完成和尚未完成的任务。(D句号)
    (C逗号)的算法:
    (1)Seg,完成vc和c尚未ad完成vcl的c1任务n,和尚未J,为交叉歧义,尚为切字;v+的,逗号Fmpc;
    (2)∵和c>和尚nb>尚未ad>尚ad=未ad∴和c,尚为后联,J=和/尚+未;
    (3)∵完成vc=完成vcl,∴v+c+v匹配,且ad+vcl成立:尚未ad完成vcl,
    (4)∵逗号∴完成vc+c+vcl=Vv子谓字,任务=N;
    (5)子主活简式Vv十c十N:
    即,(完成和c尚未完成)的attr任务N,
    (D句号)的算法
    (1)Seg,完成vc和c尚未J完成vcl的c1任务n。
    和尚未J,为交叉歧义,尚为切字;v+的,句号Fmpd。
    (2)∵句号V优先∴试定vc/vcl=v,且,完成vc=完成vcl
    ∴初步识别vc=V,vcl=Vv
    (3)∵V+的,和c>和尚nb>尚未ad>尚ad=未ad
    ∴和c转态,(和+尚)=nb,尚为前联,J=和+尚/未;
    (4)∵nb+ad+v匹配∴完成vc=V谓活字,vcl=v子谓字,和尚nb=s,任务=o
    (5)主活简式VO:即,完成V(和尚s未ad完成v的c任务o)。
    上述例子或字例,并非用于限定本发明的?;し段?,仅为本发明的示意例实施例,其计算或步骤并非准确唯一,还有其它的算法或步骤。凡在本发明的系统、方法和步骤的精神和原则内,所作的任何修改、等同替换、改进扩展、压缩提炼等,均应包含在本发明的?;し段е?。
    在本发明活性语义分析识别处理系统中,活字(块)的识别标注可以利用开放平台等资源,借助汉语信息词典,包括成语等,补充转换标注,整合利用语言资源。
    本发明汉语语义活性识别法,有一定的通用性,兼顾了词汇语句处理的兼类性、歧义性、主观性、移植性等问题;其语义分析识别方法在原则上系统一致,有基本分析步骤,运用计算机活性算法分析,是一个可以实际操作的汉语语义识别信息处理新方法。
    综上发明所述,语言是有活性的;活性是有差异的;活性的差异是可以分析计算的;计算的系统就是语义活性识别系统。这就是本发明技术方案的内容总结一一一汉语语义活性识别法。

    关 键 词:
    汉语 语义 活性 识别
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:汉语语义活性识别法.pdf
    链接地址://www.4mum.com.cn/p-6142858.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03