• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 23
    • 下载费用:30 金币  

    重庆时时彩后三稳赚: 一种泰语文本切词方法及装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210074880.8

    申请日:

    2012.03.20

    公开号:

    CN103324607A

    公开日:

    2013.09.25

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/27申请日:20120320|||公开
    IPC分类号: G06F17/27 主分类号: G06F17/27
    申请人: 北京百度网讯科技有限公司
    发明人: 何径舟; 张超
    地址: 100085 北京市海淀区上地十街10号百度大厦2层
    优先权:
    专利代理机构: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210074880.8

    授权公告号:

    ||||||

    法律状态公告日:

    2016.11.23|||2013.10.30|||2013.09.25

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种泰语文本切词方法及装置。一种泰语文本切词方法包括:利用词典匹配算法,对待切分文本串进行切分;在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;利用匹配成功部分与合并得到的音节,构成第一切词结果。本发明实施例所提供的技术方案,除了利用词典匹配方法实现基本的泰语切词之外,还特别针对泰语存在较多不规范写法的实际情况,利用音律规则对泰语进行切词,从而改善了对词典未登录词的识别能力,提高切词结果的可用性和准确性。

    权利要求书

    权利要求书
    1.   一种泰语文本切词方法,其特征在于,包括:
    利用词典匹配算法,对待切分文本串进行切分;
    在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
    利用匹配成功部分与合并得到的音节,构成第一切词结果。

    2.   根据权利要求1所述的方法,其特征在于,该方法还包括:
    以音节为单位,对匹配成功部分进行音节切分;
    根据预置的基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,得到第二切词结果。

    3.   根据权利要求2所述的方法,其特征在于,所述以音节为单位,对匹配成功部分进行音节切分,包括:
    根据预置的词典词音节切分信息,对匹配成功的词典词进行音节切分。

    4.   根据权利要求3所述的方法,其特征在于,所述音节切分信息的获得方法,包括:
    根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
    根据字符训练语料,训练得到音节切分模型;
    利用所述音节切分模型对词典词进行切分,得到词典词的音节切分信息。

    5.   根据权利要求4所述的方法,其特征在于,所述泰语字符在泰语音节中的位置,包括:
    位于开头、位于中间、和位于结尾。

    6.   根据权利要求4所述的方法,其特征在于,所述泰语字符的类型包括:
    可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。

    7.   根据权利要求2所述的方法,其特征在于,所述基于音节的泰语切词模型的建立方法,包括:
    根据泰语音节在泰语单词中的位置,对泰语语料进行标注,得到音节训练语料;
    根据音节训练语料,训练得到基于音节的泰语切词模型。

    8.   根据权利要求7所述的方法,其特征在于,还包括:
    利用读音泛化算法,对所述泰语音节进行泛化,并在模型中添加读音泛化标识。

    9.   根据权利要求7或8所述的方法,其特征在于,所述泰语音节在泰语句子中的位置,包括:
    位于开头、位于中间、位于结尾,和单独成词。

    10.   根据权利要求2所述的方法,其特征在于,还包括:
    对第二切词结果中非词典词的出现频率进行统计,如果超过预设的阈值,则将该非词典词录入词典。

    11.   一种泰语文本切词装置,其特征在于,包括:
    词典切分单元,用于利用词典匹配算法,对待切分文本串进行切分;
    音节合并单元,用于在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
    第一输出单元,用于利用匹配成功部分与合并得到的音节,构成第一切词结果。

    12.   根据权利要求11所述的装置,其特征在于,该装置还包括:
    音节切分单元,用于以音节为单位,对匹配成功部分进行音节切分;
    模型切词单元,用于根据预置的基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,得到第二切词结果。

    13.   根据权利要求12所述的方法装置,其特征在于,所述音节切分单元,具体用于:
    根据预置的词典词音节切分信息,对匹配成功的词典词进行音节切分。

    14.   根据权利要求13所述的装置,其特征在于,所述装置还包括:
    音节切分信息获得单元,用于获得词典词的音节切分信息,该单元包括:
    字符标注子单元,用于根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
    音节切分模型训练子单元,用于根据字符训练语料,训练得到音节切分模型;
    音节切分子单元,利用所述音节切分模型对词典词进行切分,得到词典词的音节切分信息。

    15.   根据权利要求14所述的装置,其特征在于,所述泰语字符在泰语音节中的位置,包括:
    位于开头、位于中间、和位于结尾。

    16.   根据权利要求14所述的装置,其特征在于,所述泰语字符的类型包括:
    可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。

    17.   根据权利要求12所述的装置,其特征在于,所述装置还包括:
    切词模型建立单元,用于建立基于音节的泰语切词模型,该单元包括:
    音节标注子单元,用于根据泰语音节在泰语单词中的位置,对泰语语料进行标注,得到音节训练语料;
    切词模型训练子单元,用于根据音节训练语料,训练得到基于音节的泰语切词模型。

    18.   根据权利要求17所述的装置,其特征在于,还包括:
    泛化标识添加子单元,用于利用读音泛化算法,对所述泰语音节进行泛化,并在模型中添加读音泛化标识。

    19.   根据权利要求17或18所述的装置,其特征在于,所述泰语音节在泰语句子中的位置,包括:
    位于开头、位于中间、位于结尾,和单独成词。

    20.   根据权利要求12所述的装置,其特征在于,还包括:
    录入单元,用于对第二切词结果中非词典词的出现频率进行统计,如果超过预设的阈值,则将该非词典词录入词典。

    说明书

    说明书一种泰语文本切词方法及装置
    技术领域
    本发明涉及自然语言处理技术领域,特别是涉及一种泰语文本切词方法及装置。
    背景技术
    切词,也称为分词,是指将一段连续的文本序列按照一定的规范重新组合成词序列的过程。分词技术属于自然语言处理技术范畴,主要应用于搜索引擎、文本挖掘等领域。
    在以英文为代表的拉丁语系文本中,单词之间是以空格作为自然分界符的,实现切词相对简单。而在其他一些语言文本中,实现切词则复杂的多。例如,我们熟悉的中文,只是字、句和段能通过明显的分界符(例如标点符号、换行等)来简单划界,但是在“词”的级别则没有明显的分界符。因此需要利用特定的技术来实现中文文本的切分。
    泰语是一种音位文字,字母由辅音(如等)、元音(如等)、音调(如等)组成。泰语没有没有空格这样的天然切分标志,甚至连标点符号也使用较少。因此,为了对泰语进行各种自然语言处理操作,切词的实现是一个需要解决的重要问题。
    发明内容
    为解决上述技术问题,本发明实施例提供一种泰语文本切词方法及装置,以实现对泰语文本的切词。技术方案如下:
    本发明实施例提供一种泰语文本切词方法,包括:
    利用词典匹配算法,对待切分文本串进行切分;
    在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
    利用匹配成功部分与合并得到的音节,构成第一切词结果。
    在本发明的一种实施方式中,该方法还包括:
    以音节为单位,对匹配成功部分进行音节切分;
    根据预置的基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,得到第二切词结果。
    在本发明的一种实施方式中,所述以音节为单位,对匹配成功部分进行音节切分,包括:
    根据预置的词典词音节切分信息,对匹配成功的词典词进行音节切分。
    在本发明的一种实施方式中,所述音节切分信息的获得方法,包括:
    根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
    根据字符训练语料,训练得到音节切分模型;
    利用所述音节切分模型对词典词进行切分,得到词典词的音节切分信息。
    在本发明的一种实施方式中,所述泰语字符在泰语音节中的位置,包括:
    位于开头、位于中间、和位于结尾。
    在本发明的一种实施方式中,所述泰语字符的类型包括:
    可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
    在本发明的一种实施方式中,所述基于音节的泰语切词模型的建立方法,包括:
    根据泰语音节在泰语单词中的位置,对泰语语料进行标注,得到音节训练语料;
    根据音节训练语料,训练得到基于音节的泰语切词模型。
    在本发明的一种实施方式中,该方法还包括:
    利用读音泛化算法,对所述泰语音节进行泛化,并在模型中添加读音泛化标识。
    在本发明的一种实施方式中,所述泰语音节在泰语句子中的位置,包括:
    位于开头、位于中间、位于结尾,和单独成词。
    在本发明的一种实施方式中,该方法还包括:
    对第二切词结果中非词典词的出现频率进行统计,如果超过预设的阈值,则将该非词典词录入词典。
    本发明实施例还提供一种泰语文本切词装置,包括:
    词典切分单元,用于利用词典匹配算法,对待切分文本串进行切分;
    音节合并单元,用于在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
    第一输出单元,用于利用匹配成功部分与合并得到的音节,构成第一切词结果。
    在本发明的一种实施方式中,该装置还包括:
    音节切分单元,用于以音节为单位,对匹配成功部分进行音节切分;
    模型切词单元,用于根据预置的基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,得到第二切词结果。
    在本发明的一种实施方式中,所述音节切分单元,具体用于:
    根据预置的词典词音节切分信息,对匹配成功的词典词进行音节切分。
    在本发明的一种实施方式中,所述装置还包括:
    音节切分信息获得单元,用于获得词典词的音节切分信息,该单元包括:
    字符标注子单元,用于根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
    音节切分模型训练子单元,用于根据字符训练语料,训练得到音节切分模型;
    音节切分子单元,利用所述音节切分模型对词典词进行切分,得到词典词的音节切分信息。
    在本发明的一种实施方式中,所述泰语字符在泰语音节中的位置,包括:
    位于开头、位于中间、和位于结尾。
    在本发明的一种实施方式中,所述泰语字符的类型包括:
    可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
    在本发明的一种实施方式中,所述装置还包括:
    切词模型建立单元,用于建立基于音节的泰语切词模型,该单元包括:
    音节标注子单元,用于根据泰语音节在泰语单词中的位置,对泰语语料进行标注,得到音节训练语料;
    切词模型训练子单元,用于根据音节训练语料,训练得到基于音节的泰语切词模型。
    在本发明的一种实施方式中,该装置还包括:
    泛化标识添加子单元,用于利用读音泛化算法,对所述泰语音节进行泛化,并在模型中添加读音泛化标识。
    在本发明的一种实施方式中,所述泰语音节在泰语句子中的位置,包括:
    位于开头、位于中间、位于结尾,和单独成词。
    在本发明的一种实施方式中,该装置还包括:
    录入单元,用于对第二切词结果中非词典词的出现频率进行统计,如果超过预设的阈值,则将该非词典词录入词典。
    本发明实施例所提供的技术方案,除了利用词典匹配方法实现基本的泰语切词之外,还特别针对泰语存在较多不规范写法的实际情况,利用音律规则对泰语进行切词,从而改善了对词典未登录词的识别能力,提高切词结果的可用性和准确性。
    附图说明
    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
    图1为本发明实施例泰语文本切词方法的第一种流程图;
    图2为本发明实施例泰语文本切词方法的第二种流程图;
    图3为本发明实施例音节切分模型建立方法的流程图;
    图4为本发明实施例基于音节的切词模型建立方法的流程图;
    图5为本发明实施例泰语文本切词装置的第一种结构示意图;
    图6为本发明实施例泰语文本切词装置的第二种结构示意图;
    图7为本发明实施例泰语文本切词装置的第三种结构示意图;
    图8为本发明实施例泰语文本切词装置的第四种结构示意图。
    具体实施方式
    为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明?;さ姆段?。
    泰语没有空格这样的天然切分标志,甚至连标点符号也很少,例如泰语文本串(中文意思为:从电话号码查找地址)的实际单词构成是:(查找|地址|从|号码|电话),然而根据泰语的一般书写习惯,是很难进行上述拆分的,因此,为了实现泰语的各种自然语言处理操作,切词的实现是一个首要的问题。
    词典匹配是一种最基本的切词方法,常见的算法包括最大正向匹配、最大逆向匹配、双向匹配、最小切分数等,利用基本的词典匹配方法,理论上是可以实现泰语切词的。然而泰语切词的一个难点在于:泰语中大量存在同一词条的不规范形式问题,即同一个词条,可能有多种拼写方法,这在外来语音译词上表现尤为明显。例如“电梯(英文lift)”,在泰语中和都是同一意思;再如和都是“邮件(email的意思)”。
    造成泰语这种不规范形式的原因主要是泰语用户习惯于根据音节发音来拼写单词,只要发音相同或近似,各种拼写方法都能阅读和理解。但这种不规范形式却给切词带来很大难度——即切词词典很难覆盖同一单词的所有不规范写法。例如,在一例中,对于(电话)一词,在实际应用中,可能漏掉音调写成也可能将最后一个辅音写错为而如果在词典中仅登录了那么,采用词典匹配方法是很难切分出正确的结果的。
    针对泰语拼写不规范的实际情况,本发明提供一种泰语文本切词方法,包括以下步骤:
    利用词典匹配算法,对待切分文本串进行切分;
    在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
    利用匹配成功部分与合并得到的音节,构成第一切词结果。
    上述方法中,对于利用词典匹配算法无法成功匹配的部分(有可能因为包含了未在词典中登录过的词而导致无法匹配),首先拆分成字符,然后按照预置的音节合并模板,将拆分的字符组合成一个或多个音节,并以音节为单位,与其他成功匹配的到部分(即词典中已登录过的词,下简称词典词)共同构成切词结果。
    泰语中的音节,是指符合泰语音律规则的单独发音单元,一般由若干个辅音、元音、音调字符组成。而一个泰语单词则可能由一个或多个音节组成。由于泰语的不规范问题一般是相同或相似读音的不同拼写,因此,以音节为单位对不规范拼写进行切分,切分结果在很大程度上可以接近词典中的规范拼写。与未切分文本相比,音节的粒度要小得多,而且一个音节有可能就是一个独立的词,或者至少能够构成词的一部分。如果一个待切切词中仅有部分音节是不规范拼写,那么按照本发明所提供的切词方法,虽然不能完全匹配,至少可以获得部分匹配。而且用于匹配的单位是音节,也比以字符为单位进行匹配更为合理和高效。这样,在各种应用中,就可以采用模糊匹配等方法,进一步提升效果。
    下面结合具体的实施例,对本发明所提供的方案进行详细说明:
    图1所示,为本发明一种泰语文本切词方法的流程示意图,包括以下步骤:
    S101,利用词典匹配算法,对待切分文本串进行切分;
    词典匹配算法基于字符串匹配对文本进行切分,是一种最基本的切词方法,常见的算法包括最大正向匹配、最大逆向匹配、双向匹配、最小切分数等。
    利用基本的词典匹配方法,理论上是可以实现泰语切词的,因此仅用词典切词已经可以实现一个基本的泰语切词系统。但是由于泰语文本存在着大量的拼写不规范问题,因此在实际应用中词典匹配的切分效果并不理想,在本发明方案中,首先利用词典匹配方法对泰语文本进行切分,如果待切分文本串能够与词典中登录的词完全匹配成功,则可以直接输出切词结果;如果发现存在无法成功匹配的部分,再进一步执行后续步骤,以实现对不规范拼写的切分。
    S102,在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
    泰语中的音节,是指符合泰语音律规则的单独发音单元,一般由若干个辅音、元音、音调字符组成。而一个泰语单词则可能由一个或多个音节组成,例如:
    (查找)由一个音节组成;
    (地址)由和两个音节组成;
    (电话)由和两个音节组成;
    ......
    根据泰语的词法规则,其字符类型包括以下3类:
    辅音,例如等、
    元音,例如等、
    音调,例如等
    而在本发明中,根据字符在音节中的位置,将上述3类字符进一步细分为为7类,如表1所示:

    表1
    通过统计发现,泰语音节的构成方式是存在一定规律的,将这些规律整理出来,可以得到多个音节合并模板。一个动态识别音节的模版规则子集示例如下:
    BCons USara BCons Cons Tone
    Cons D Sara Cons Cons USara
    Cons Cons D Sara Tone Cons
    Cons Cons USara Tone Cons
    FSara Cons USara BCons
    FSara Cons Tone TSara
    FSara Cons Tone BCons
    FSara Cons Cons USara
    FSara Cons Cons BCons
    FSara Cons BCons Tone
    如果在S101进行词典匹配之后,发现存在无法成功匹配的部分,说明这部分包含非词典词(即未在词典中登录的词),那么,对于与词典匹配不成功的部分,首先将其切分为单个字符。然后,对于零散的泰语字符串,就可以通过模板匹配的方式,判断其是否能够构成一个或多个音节单位,从而将零散的泰语字符以音节为单位进行重新组合。
    S103,利用匹配成功部分与合并得到的音节,构成第一切词结果。
    本发明方案,首先利用词典匹配方法对泰语文本进行切分,对于无法成功匹配的部分,利用模板将其组合为音节,从而提高切分结果的可用性。
    例如在预置的泰语词典中,包含有词条:(电话),而用户输入的内容为根据词典匹配方法,这部分将无法成功匹配,而根据本发明提供的方法,可以将以音节为单位,切分成:

    假设在搜索应用中,网页中切分出词条(电话的规范形式),而用户输入的query是(电话的不规范形式),如果仅按照切词结果建立索引,即使网页和用户query全都切分正确,也无法获得匹配。
    而如果我们能对词条按照音节切分建立索引,比如的音节切分是的音节切分是虽然无法获得完整匹配,但至少第一个音节可以获得部分匹配。进一步说,如果利用读音泛化的结果进行索引,通过模糊匹配,还可以进一步提升检索效果,比如和的字面虽然不匹配,但是读音泛化结果都是相同的,因此可以对两者的检索相关性做进一步加权。
    在前一实施例中,尽管对于无法与词典成功匹配的部分采用音节切分的方法,从而提高了切词结果的可用性,但是该方法本质上是利用了基于字符串匹配的切词方法,这种方法尽管效率较高,切分一致性好,但是歧义的解决能力较差,不具备未登录词的识别能力,因此在一些情况下,切分结果的准确性并不理想。在本发明的另一个实施例中,还可以进一步利用统计模型来提高切词的准确性?;谕臣颇P偷那写史椒òǎ禾跫婊∧P?、隐马尔可夫模型等?;谕臣颇P偷那写史椒ɡ猛臣苹餮澳P脱按视锴蟹值墓媛?称为训练),从而实现对未知文本的切分,其特点是可以充分利用构词法的特征,并且能够考虑全局优化信息,因此具有较强的歧义处理能力。
    图2所示,为本发明另一实施例的泰语文本切词方法流程图,其包括以下步骤:
    S201,利用词典匹配算法,对待切分文本串进行切分;
    S202,在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
    S203,以音节为单位,对匹配成功部分进行音节切分;
    S204,根据预置的基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,得到第二切词结果。
    其中,S201与S202的具体实现方式分别与S101与S102相同,这里不再重复描述。而在S203和S204中,是基于音节对泰语文本进行模型切分,下面对模型切分的具体方法做进一步说明:
    本发明以CRF(Conditional Random Fields,条件随机场)方法建立切词模型,其中,根据泰语的特点,以音节作为标注单元,建立CRF模型,利用CRF的动态切分和未登录词识别能力,可以解决泰语的不规范形式问题。
    CRF模型在中文切词中已经广泛应用,具体来说,如果将字在词中的位置作为标签,可以将切词问题看作基于字的序列标注问题,例如:“喜羊羊与灰太狼”如果切分为“喜羊羊|与|灰太狼”的话,对应的标注序列就为:
    “喜/B羊/M羊/E与/S灰/B太/M狼/E”,
    其中B、M、E、S分别表示字在词的开头、中间、结尾、单独成词。
    可见,中文直接采用汉字作为序列标注的单元,而在本发明中,根据泰语的特点,所采用的序列标注单元是音节,而不是泰语字符。
    一方面,是因为泰语字符是表音的单元,如果采用泰语字符作为标注单元,就类似于采用罗马字母作为标注单元来进行英文单词切分,效果是不足取的;并且泰语单词所包含的字符数较多,一般在5字符以上,而汉语一般2~3个字即可组词),按字符标注所需的特征模板更长,模型的效率会较低(CRF模型的复杂度与特征模板的长度呈O(N2)量级增长。
    另一方面来说,泰语的音节不仅可以单独发音,一些音节单独也可以成词表意,泰语单词包含的音节数也较少(一般1~3个音节即可),这些特征都与中文中的汉字比较类似。
    要实现基于音节对泰语进行切分,需要解决两个问题:获得单词的音节切分信息,以及建立基于音节的泰语切词模型,以下分别进行说明:
    1)获得单词的音节切分信息:
    在进行中文CRF切词的过程中,基本单元是“字”,是天然的切分,然而在泰语中,并不存在明显的针对音节的天然切分,因此需要首先建立泰语单词的切分信息,最直接的方法自然是全部进行手工切分,为了提高效率,本发明所提供的一种方式是:利用模型的方法,对泰语单词进行切分。
    其中,模型的建立方法参见图3所示,可以包括以下步骤:
    S301,根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
    S302,根据字符训练语料,训练得到音节切分模型;
    首先人工或者半自动标注一批泰语句子,然后以字位(B、M、E分别表示字符位于音节开头、中间、结尾)作为标注标签,字符本身、字符类型标签作为特征,生成训练语料。之所以引入字符类别,是因为字符类别可以将原本稀疏的字符特征加以泛化,在少量训练语料的情况下获得较好的模型效果。
    以这样的音节切分为例,转换为序列标注训练语料格式如下:

    其中,第一列是泰语字符;第二列是泰语字符类型,其中包括可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调共7类,具体定义可参见表1;第三列是分类标注。
    经过CRF训练生成切分模型,使用该模型切分所有词典词,就可以建立所有词典词的内部音节切分信息。此外,该模型还可以用于在后续建立基于音节的切词模型时进行音节切分。
    当然,可以理解的是,除了模型方法之外,也可以采用其他方法,例如规则方法等,获得单词的音节切分信息,从而作为下一步基于音节的切词模型的基础,本发明对此并不需要进行限定。
    2)建立基于音节的泰语切词模型:
    参见图4所示,建立基于音节的泰语切词模型的方法如下:
    S401,根据泰语音节在泰语单词中的位置,对泰语语料进行标注,得到音节训练语料;
    S402,根据音节训练语料,训练得到基于音节的泰语切词模型。
    可见,建立泰语切词模型的方法,与建立中文切词模型的方法,在思想上是类似的,不同之处在于标注单位是音节,而不是具有天然分割的汉字(字符)。
    此外,如之前所说,泰语中存在不规范形式问题,即同一个单词可以有多种不同写法。这种不规范形式的原因在于泰语用户习惯于根据发音来拼写单词,只要发音相同或近似,各种拼写方法都能阅读和理解。
    因此,在基于音节作为标注单元的基础上,还可以引入读音泛化技术,将不同写法的音节都泛化为相同的读音,降低特征稀疏情况,提升标注效果。泰语已经存在一些较为成熟的泰语读音泛化技术,如Soundex算法等。
    建立基于音节的泰语CRF切词模型的过程如下:
    收集大量未标注的泰语语料,来源可以包括用户query日志、网页文本等。
    对泰语语料进行音节切分,具体方法可以参见S301?S302。
    采用读音泛化技术,将音节泛化为读音标识,建立训练语料。这里可以进行适当的人工核查,保证语料正确性。
    最终建立基于音节的泰语CRF序列标注语料格式实例如下:

    其中,第一列是音节;第二列表示读音泛化结果(这里的字符为标识示例,仅用于区分,不具有实际含义),可以看到音节和虽然写法不同,但是读音泛化结果“”一致;最后一列是最终的分类标签,与中文类似,也是B、M、E、S分别表示音节处于单词的开头、中间、接尾、单独成词。
    根据上述方法建立音节训练语料后,进行CRF训练,就可以得到基于音节的泰语切词模型。在S204中,根据基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,就可以得到基于模型的切词结果。
    下面将以一个实际的例子进行说明:
    1)词典处理:
    假如在预置的泰语词典中,包含有以下词条:
    (查找)
    (地址)
    (从)
    (号码)
    (电话号码简写)
    (电话)
    首先利用预先建立的音节切分模型(参见S301?S302),基于词表建立含有音节切分信息的泰语词典。
    例如,对于(地址)这个词条,首先拆分为以字符为单位的序列格式:

    通过音节切分模型模型进行标注,得到如下结果:

    转换回一般的切分结果形式,并建立词典的音节信息得到:
    (地址)
    表示词典词条由和两个音节组成。
    利用类似方法,可以建立完整的词典格式如下:

    2)切分过程:
    假设待切分的文本串为:利用人工的方式,我们可以得到该文本串的期望拆分结果为:

    然而值得注意的是,词典中的(电话)是规范形式,而待切分串中的是非正常形式。
    2.1)词典匹配切分:
    根据S101/S201,对待切分串进行采用基于词典的最大正向匹配切词,切分结果如下:

    注意到由于最后的字符书写不规范,导致没有匹配到正常的单词(电话),只匹配到(电话号码简写),而最后几个匹配不成功的字符被切散了。
    2.2)音节合并:
    根据S102/S202,通过动态模板合并,可以发现最后几个切散的字符命中了模板:
    BCons USara BCons Cons Tone
    因此,可以将切散的字符识别为一个音节:

    2.3)输出第一切词结果:
    根据S103,将匹配成功部分与合并得到的音节,构成第一切词结果为:

    可以看到,由于最后的字符书写不规范,导致该结果和期望的拆分结果:

    相比存在一些差异。
    2.4)音节切分:
    进一步地,根据S203,从词典中读出音节切分信息,将待切分文本串进一步切分为音节,最终的音节切分结果为:

    2.5)基于音节的模型切词:
    将音节切分的结果转换为基于音节的序列标注格式:

    其中,第一列是音节切分的结果;第二列是根据读音泛化规则生成的读音标识符(这里的字符为标识示例,仅用于区分,不具有实际含义)。
    采用基于音节的CRF模型标注结果如下:

    转换至常规的切分结果表示形式,就得到第二切分结果:

    而与对比直接词典匹配和模板规则合并的第一切分结果:

    显然利用模型切词的第二切词结果更为合理。虽然词典中没有这个词,但是仍旧能识别和切分出来。
    基于切分结果,建立词条的内部切分粒度。对于词典词等,直接读取词典中的音节切分信息即可;对于由于词典中并不存在该词,所以直接根据模型切词的结果给出内部音节切分信息:

    其中,用“|”分开的是词条,而用“,”分开的是音节;第二行表示每个音节的读音泛化结果;被识别为未登录词。
    根据本发明的方案,在切分的基础上,还要具备未登录词识别的能力。对于未登录词,可以在大规模语料切分后统计词频,抽取高频未登录词补充词典。具体做法是:对于基于音节的模型切词结果,根据之前建立的包含音节切分信息的词典进行匹配,如果是词典词,则将词典的音节切分信息作为词条的子粒度加入切词结果;对于非词典词,则识别为未登录词,并将动态识别内部音节信息作为其内部粒度加入切词结果。
    例如,在对大量语料分析的基础上,统计所有未登录词的词频。发现出现的频率很高,则可以将这些未登录词收集起来,人工核查后录入词典:

    其中,最后一行即为新录入的词条。
    相应于上面的方法实施例,本发明还提供一种泰语文本切词装置,参见图5所示,该装置包括:
    词典切分单元510,用于利用词典匹配算法,对待切分文本串进行切分;
    词典匹配算法基于字符串匹配对文本进行切分,是一种最基本的切词方法,常见的算法包括最大正向匹配、最大逆向匹配、双向匹配、最小切分数等。
    利用基本的词典匹配方法,理论上是可以实现泰语切词的,因此仅用词典切词已经可以实现一个基本的泰语切词系统。但是由于泰语文本存在着大量的拼写不规范问题,因此在实际应用中词典匹配的切分效果并不理想,在本发明方案中,首先利用词典匹配方法对泰语文本进行切分,如果待切分文本串能够与词典中登录的词完全匹配成功,则可以直接输出切词结果;如果发现存在无法成功匹配的部分,再进一步触发后续功能单元,以实现对不规范拼写的切分。
    音节合并单元520,用于在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
    泰语中的音节,是指符合泰语音律规则的单独发音单元,一般由若干个辅音、元音、音调字符组成。而一个泰语单词则可能由一个或多个音节组成,
    根据泰语的词法规则,其字符类型包括以下3类:
    辅音,例如等、
    元音,例如等、
    音调,例如等
    而在发明中,根据字符在音节中的位置,将上述3类字符进一步细分为为7类,如表1所示:
    通过统计发现,泰语音节的构成方式是存在一定规律的,将这些规律整理出来,可以得到多个音节合并模板。
    如果在510进行词典匹配之后,发现存在无法成功匹配的部分,说明这部分包含非词典词(即未在词典中登录的词),那么,对于与词典匹配不成功的部分,首先将其切分为单个字符。然后,对于零散的泰语字符串,就可以通过模板匹配的方式,判断其是否能够构成一个或多个音节单位,从而将零散的泰语字符以音节为单位进行重新组合。
    第一输出单元530,用于利用匹配成功部分与合并得到的音节,构成第一切词结果。
    在前一实施例中,尽管对于无法与词典成功匹配的部分采用音节切分的方法,从而提高了切词结果的可用性,但是该方法本质上是利用了基于字符串匹配的切词方法,这种方法尽管效率较高,切分一致性好,但是歧义的解决能力较差,不具备未登录词的识别能力,因此在一些情况下,切分结果的准确性并不理想。在本发明的另一个实施例中,还可以进一步利用统计模型来提高切词的准确性。
    参见图6所示,本发明所提供的泰语文本切词装置还可以进一步包括:
    音节切分单元540,用于以音节为单位,对匹配成功部分进行音节切分;
    模型切词单元550,用于根据预置的基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,得到第二切词结果。
    本发明以CRF(Conditional Random Fields,条件随机场)方法建立切词模型,其中,根据泰语的特点,以音节作为标注单元,建立CRF模型,利用CRF的动态切分和未登录词识别能力,可以解决泰语的不规范形式问题。在本发明中,根据泰语的特点,所采用的序列标注单元是音节,而不是泰语字符。
    一方面,是因为泰语字符是表音的单元,如果采用泰语字符作为标注单元,就类似于采用罗马字母作为标注单元来进行英文单词切分,效果是不足取的;并且泰语单词所包含的字符数较多,一般在5字符以上,而汉语一般2~3个字即可组词),按字符标注所需的特征模板更长,模型的效率会较低(CRF模型的复杂度与特征模板的长度呈O(N2)量级增长。
    另一方面来说,泰语的音节不仅可以单独发音,一些音节单独也可以成词表意,泰语单词包含的音节数也较少(一般1~3个音节即可),这些特征都与中文中的汉字比较类似。
    其中,所述音节切分单元540,具体可以用于:
    根据预置的词典词音节切分信息,对匹配成功的词典词进行音节切分。
    参见图7所示,本发明所提供的泰语文本切词装置,具体还可以包括:
    音节切分信息获得单元560,用于获得词典词的音节切分信息,该单元包括:
    字符标注子单元,用于根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
    音节切分模型训练子单元,用于根据字符训练语料,训练得到音节切分模型;
    音节切分子单元,利用所述音节切分模型对词典词进行切分,得到词典词的音节切分信息。
    其中,所述泰语字符在泰语音节中的位置,包括:
    位于开头、位于中间、和位于结尾。
    所述泰语字符的类型包括:
    可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
    根据音节切分信息获得单元560的实现原理,首先人工或者半自动标注一批泰语句子,然后以字位(B、M、E分别表示字符位于音节开头、中间、结尾)作为标注标签,字符本身、字符类型标签作为特征,生成训练语料。之所以引入字符类别,是因为字符类别可以将原本稀疏的字符特征加以泛化,在少量训练语料的情况下获得较好的模型效果。经过CRF训练生成切分模型,使用该模型切分所有词典词,就可以建立所有词典词的内部音节切分信息。该模型还可以用于在切词模型建立单元570建立基于音节的切词模型时进行音节切分。
    当然,可以理解的是,除了模型方法之外,音节切分信息获得单元560也可以采用其他方法,例如规则方法等,获得单词的音节切分信息,从而作为下一步基于音节的切词模型的基础,本发明对此并不需要进行限定。
    参见图7所示,本发明所提供的泰语文本切词装置,具体还可以包括:
    切词模型建立单元570,用于建立基于音节的泰语切词模型,该单元包括:
    音节标注子单元,用于根据泰语音节在泰语单词中的位置,对泰语语料进行标注,得到音节训练语料;
    切词模型训练子单元,用于根据音节训练语料,训练得到基于音节的泰语切词模型。
    在本发明的一个实施例中切词模型建立单元570还可以包括:
    泛化标识添加子单元,用于利用读音泛化算法,对所述泰语音节进行泛化,并在模型中添加读音泛化标识。
    其中,所述泰语音节在泰语句子中的位置,包括:
    位于开头、位于中间、位于结尾,和单独成词。
    建立泰语切词模型的方法,与建立中文切词模型的方法,在思想上是类似的,不同之处在于标注单位是音节,而不是具有天然分割的汉字(字符)。
    此外,泰语中存在不规范形式问题,即同一个单词可以有多种不同写法。这种不规范形式的原因在于泰语用户习惯于根据发音来拼写单词,只要发音相同或近似,各种拼写方法都能阅读和理解。
    因此,在基于音节作为标注单元的基础上,还可以引入读音泛化技术,将不同写法的音节都泛化为相同的读音,降低特征稀疏情况,提升标注效果。泰语已经存在一些较为成熟的泰语读音泛化技术,如Soundex算法等。
    根据切词模型建立单元570的实现方式,建立基于音节的泰语CRF切词模型的过程如下:
    收集大量未标注的泰语语料,来源可以包括用户query日志、网页文本等。
    对泰语语料进行音节切分。
    采用读音泛化技术,将音节泛化为读音标识,建立训练语料。这里可以进行适当的人工核查,保证语料正确性。
    根据上述方法建立音节训练语料后,进行CRF训练,就可以得到基于音节的泰语切词模型。模型切词单元550根据基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,就可以得到基于模型的切词结果。
    参见图8所示,本发明所提供的泰语文本切词装置,具体还可以包括:
    录入单元580,用于对第二切词结果中非词典词的出现频率进行统计,如果超过预设的阈值,则将该非词典词录入词典。
    通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现?;谡庋睦斫?,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
    本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上??梢愿菔导实男枰≡衿渲械牟糠只蛘呷磕?槔词迪直臼凳├桨傅哪康?。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
    本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
    本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序???。一般地,程序??榘ㄖ葱刑囟ㄈ挝窕蚴迪痔囟ǔ橄笫堇嘈偷睦?、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序??榭梢晕挥诎ù娲⑸璞冈谀诘谋镜睾驮冻碳扑慊娲⒔橹手?。
    以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的?;し段?。

    关 键 词:
    一种 泰语 文本 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种泰语文本切词方法及装置.pdf
    链接地址://www.4mum.com.cn/p-5778712.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03