模型训练方法及装置和错别字识别方法及装置技术领域
本申请涉及文本处理领域,具体而言,涉及一种模型训练方法及装置和错别字识
别方法及装置。
背景技术
文本是记载信息的重要载体。由于文本大都是人工编辑的,而人工编辑难免会出
现失误,从而使得文本中出现错别字。对于文本中错别字的识别,目前通常采用人工
建立正确的词汇库,并进行文本匹配,来识别错别字的方式,然而这种很难找到全面、
正确的词汇库,致使漏检率较高,且有些语句随着时间的变化,其表达也发生变化,
例如,王五副主任最近晋升为王五主任,在最近的新闻中为王五主任,历史新闻中为
王五副主任,如果最新发布新闻中为“王五副主任”,则认为该组合的“副主任”为错
别字,而现有的识别方式无法识别出这种错别字,进而导致文本中错别字的识别率低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种模型训练方法及装置和错别字识别方法及装置,以至少
解决现有技术中文本中错别字的识别率低的技术问题。
根据本申请实施例的一个方面,提供了一种模型训练方法,包括:从预设文本数
据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,其中,所述预设
文本数据源中所包含的文本为不包含有错别字的文本;确定出所述文本信息中每个词
语对应的词向量以及每个词语所在的语句对应的时间向量,其中,所述词向量为用于
唯一表示词语的多维数组,所述每个词语所在的语句对应的时间向量为用于唯一表示
该词语所在语句的发布时间;以文本信息中的语句为单位,将每条语句对应的时间向
量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模
型,其中,所述神经网络模型用于识别文本中的错别字。
进一步地,在确定出所述文本信息中每个词语对应的词向量以及每个词语所在的
语句对应的时间向量之前,所述模型训练方法还包括:获取目标文本库,所述目标文
本库所包含的文本为不包含有错别字的文本;利用词向量模型对所述目标文本库进行
训练,以生成所述目标文本库中的词语对应的词向量,得到第一训练集。
进一步地,确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语
句对应的时间向量包括:对所述文本信息中每条语句进行分词处理,并将所述文本信
息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;从所述第一训
练集中查找所述第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应
的时间向量。
进一步地,在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,
所述模型训练方法还包括:将每条语句中的每个词语对应的词向量标记为预设标识,
其中,所述预设标识表示词向量对应的词语为非错别字,以使得在利用所述神经网络
模型识别出非错别字时,将非错别字的词语标记为所述预设标识。
根据本申请实施例的另一方面,还提供了一种错别字识别方法,包括:获取待测
文本及其每条语句发布的时间信息;根据所述时间信息生成每条语句对应的时间向量;
对所述待测文本进行分词处理,确定出每个词语对应的词向量;以所述待测文本中的
语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入
到神经网络模型中,利用所述神经网络模型识别出所述待测文本中的错别字。
根据本申请实施例的另一方面,还提供了一种模型训练装置,包括:提取单元,
用于从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,
其中,所述预设文本数据源中所包含的文本为不包含有错别字的文本;确定单元,用
于确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间
向量,其中,所述词向量为用于唯一表示词语的多维数组,所述每个词语所在的语句
对应的时间向量为用于唯一表示该词语所在语句的发布时间;训练单元,用于以文本
信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词
向量输入到记忆神经网络,训练得到神经网络模型,其中,所述神经网络模型用于识
别文本中的错别字。
进一步地,所述模型训练装置还包括:获取单元,用于在确定出所述文本信息中
每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,获取目标文本
库,所述目标文本库所包含的文本为不包含有错别字的文本;生成单元,用于利用词
向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,
得到第一训练集。
进一步地,所述确定单元包括:分词???,用于对所述文本信息中每条语句进行
分词处理,并将所述文本信息中每条语句对应的时间信息加入到对应的语句中,得到
第二训练集;查找???,用于从所述第一训练集中查找所述第二训练集中每个词语对
应的词向量,并生成每个词语所在语句对应的时间向量。
进一步地,所述模型训练装置还包括:标记???,用于在将每条语句中的每个词
语对应的词向量输入到记忆神经网络之前,将每条语句中的每个词语对应的词向量标
记为预设标识,其中,所述预设标识表示词向量对应的词语为非错别字,以使得在利
用所述神经网络模型识别出非错别字时,将非错别字的词语标记为所述预设标识。
根据本申请实施例的另一方面,还提供了一种错别字识别装置,包括:时间获取
单元,用于获取待测文本及其每条语句发布的时间信息;向量生成单元,用于根据所
述时间信息生成每条语句对应的时间向量;向量确定单元,用于对所述待测文本进行
分词处理,确定出每个词语对应的词向量;识别单元,用于以所述待测文本中的语句
为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到神
经网络模型中,利用所述神经网络模型识别出所述待测文本中的错别字。
根据本申请实施例,通过从预设文本数据源中提取文本信息以及文本信息中每条
语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文
本,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向
量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间
向量为用于唯一表示该词语所在语句的发布时间,以及以文本信息中的语句为单位,
将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网
络,训练得到神经网络模型,以便于利用神经网络模型来识别文本中的错别字,利用
了文字的时效性,提高了对文本中错别字的识别率,解决了现有技术中文本中错别字
的识别率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申
请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图
中:
图1是根据本申请实施例的模型训练方法的流程图;
图2是根据本申请实施例的错别字识别方法的流程图;
图3是根据本申请实施例的模型训练装置的示意图;
图4是根据本申请实施例的错别字识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的
附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例
仅仅是本申请一部分的实施例,而不是全部的实施例?;诒旧昵胫械氖凳├?,本领
域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于
本申请?;さ姆段?。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第
二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这
样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在
这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的
任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方
法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚
地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种模型训练方法的方法实施例,需要说明的是,在
附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并
且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序
执行所示出或描述的步骤。
图1是根据本申请实施例的模型训练方法的流程图,如图1所示,该方法包括如
下步骤:
步骤S102,从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时
间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文本。
预设文本数据源可以是人民日报、中国政府网等资源网站,可以是经过纠正后不
包含有错别字的文本数据源。该预设文本数据源中包含有大量的没有错别字的文本,
从中提取出这些文本信息。
本实施例中,在提取文本信息的同时还提取文本信息对应的时间信息,该时间信
息可以是相应的文本发布的时间,例如人民日报发表该文本的时间,网站发布文本的
时间等。
步骤S104,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对
应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句
对应的时间向量为用于唯一表示该词语所在语句的发布时间。
对上述提取出的文本信息,确定出其中每个词语对应的词向量,每个词语的词向
量用一组多维数组来表示,不同的词语对应的词向量各不相同。其中,词语的词向量
可以是已经预先定义好的,在提取出文本信息之后,从预先定义的词向量中查询出文
本信息中每个词语的词向量。也可以按照预先设定的词向量生成规则,生成每个词语
的词向量。
对于文本信息中的语句,确定出每条语句对应的时间向量。时间向量可以是按照
预设规则对每个时间点(例如精确到日)的时间定义一组多维数组,用于唯一表示该
时间点,例如时间向量为[2015,10,9,……]表示文本发布时间为2015年10月9
日。
步骤S106,以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句
中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,神
经网络模型用于识别文本中的错别字。
本实施例中,在确定出文本信息中所包含的每个词语的词向量之后,以文本信息
中的语句为单位,将文本信息中的语句依次输入到记忆神经网络中进行训练,输入到
记忆神经网络中的语句以其中每个词语对应的词向量来代替,即,将语句中每个词语
对应的词向量输入到记忆神经网络,同时将语句对应的时间向量一起输入到记忆神经
网络中,该记忆神经网络可以优选为基于循环神经网络的长短时记忆神经网络(即
LSTM+Bidirectional RNN)。
通过记忆神经网络对提取的文本信息进行训练,得到神经网络模型。以语句为单
位将其中的词语对应的词向量及其时间向量输入到记忆神经网络,机器可以记忆语句
中的时间、词语及其组合形式,并以神经网络模型中的参数(神经网络模型中参数确
定,大部分为矩阵)记忆这些时间、词语及其组合。相对于现有技术中采用人工建立
正确的词汇库,并进行文本匹配,来识别错别字的方式,本实施例通过记忆神经网络
来对没有错别字的文本进行训练,得到神经网络模型,再利用该神经网络模型来识别
文本中的错别字,无需人工建立词汇库,即可根据词语组合以及语句来识别其中的错
别字,可以根据上下文语义以及时间信息,有效、快速地识别出文本中的错别字。
根据本申请实施例,通过从预设文本数据源中提取文本信息以及文本信息中每条
语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文
本,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向
量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间
向量为用于唯一表示该词语所在语句的发布时间,以及以文本信息中的语句为单位,
将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网
络,训练得到神经网络模型,以便于利用神经网络模型来识别文本中的错别字,利用
了文字的时效性,提高了对文本中错别字的识别率,解决了现有技术中文本中错别字
的识别率低的技术问题。
优选地,在确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对
应的时间向量之前,模型训练方法还包括:获取目标文本库,目标文本库所包含的文
本为不包含有错别字的文本;利用词向量模型对目标文本库进行训练,以生成目标文
本库中的词语对应的词向量,得到第一训练集。
本实施例的目标文本库,可以是包含有各种词语的词库,例如新华词典、成语词
典、文章等不包含错别字的文本库,获取目标文本库用以作为词向量训练集。词向量
模型可以是现有的成熟模型,该模型可以根据输入文本,给每一个词生成一个维数相
同的多维数组,即词向量,该词向量的维数为可以根据词向量训练集来定义,比如将
“一”可能标记为[1,0,0,……],将“高兴”可能标记为[0,1,0,……]。
本申请实施例中,可以根据预先训练得到的词向量训练集中每个词语的词向量,
以便于从中查询对用于进行神经网络模型训练的文本信息中每个词语的词向量。
需要说明的是,本申请实施例还可以是生成每个标点符号对应的词向量。
优选地,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应
的时间向量包括:对文本信息中每条语句进行分词处理,并将文本信息中每条语句对
应的时间信息加入到对应的语句中,得到第二训练集;从第一训练集中查找第二训练
集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。
对于用于进行神经网络模型训练的文本信息,先对其进行分词处理,将其中每条
语句的时间信息加入到该语句中,得到包含有时间信息的词语集合即第二训练集,从
上述中得到的第一训练集中查询第二训练集中每个词语对应的词向量,从而确定出上
述文本信息的每条语句中每个词语的词向量。
具体地,可以利用现有分词工具,对提取的文本信息进行分词处理,并将时间戳
加入到每个语句中,作为第二训练集。分词后的文本由词组成,如将“(2015年9月)
王五副经理视察厂房”分词为“(2015,9)王五副经理视察厂房”或者“(2015,9)
王五副经理视察厂房”。其中,时间向量可以根据年、月、日以及词向量的维数,
定义与词向量维数相同的时间向量,年、月、日缺省的情况下,对应向量相应位置为
0。例如时间向量为[2015,10,9,.......],表示文本发布时间为2015年10月9日。
优选地,在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,模
型训练方法还包括:将每条语句中的每个词语对应的词向量标记为预设标识,其中,
预设标识表示词向量对应的词语为非错别字,以使得在利用神经网络模型识别出非错
别字时,将非错别字的词语标记为预设标识。
本申请实施例中,输入到记忆神经网络的每条语句中每个词语均标记为预设标识,
例如“1”,这样,在对文本进行训练得到神经网络模型时,神经网络模型中参数会记
忆这些词语标识为预设标识。当利用神经网络模型来识别待测文本时,其输出结果中
会将待测文本中没有错别字的词语标记为该预设标识,而出现错别字的词语则不标记,
或者标记为其他标识,以便于快速筛选出待测文本中的错别字。
本申请实施例的模型训练方法的一种可选方式包括:
步骤一、获取可靠的文本库(如新华词典、成语词典、文章等不包含错别字的文
本库)即目标文本库,作为词向量的训练集1即第一训练集。
步骤二、使用词向量模型训练训练集1,得到训练集中每个词(包括标点符号)
的词向量,根据年、月、日以及词向量的维数,定义与词向量维数相同的时间向量,
年、月、日缺省的情况下,对应向量相应位置为0。其中,词向量模型可利用现有的
成熟模型,该模型可以根据输入文本,给每一个词生成一个维数相同的唯一的多维数
组,即词向量,该词向量的维数可以预先定义,比如将“王五副经理”中的“副经理”
可能标记为[0,0,0,0,0,1.......];同时该词向量的时间向量为[2015,10,9,.......],
表示2015年10月9日获取的文本中,王五为副经理。
步骤三、获取可靠的由大量句子组成的文本数据源中提取文本信息,同时提取每
段文本相应的时间信息,作为文本训练集。其中,可靠的大量句子组成的文本数据源
表示:没有错别字的文本数据源,如从人民日报、中国政府网等渠道获取。
步骤四、利用现有分词工具,对上述文本训练集进行分词处理,并将时间戳加入
到每个句子中,得到训练集2即第二训练集。其中,分词后的文本为词组成,如将“(2015
年9月)王五副经理视察厂房”分词为“(2015,9)王五副经理视察厂房”或者“(2015,
9)王五副经理视察厂房”。
步骤五、以训练集2的语句为单位,从训练集1找出该语句中每个词语对应的词
向量,并将时间向量和词向量输入循环神经网络的长短时记忆神经网络(即LSTM+
Bidirectional RNN),训练得到神经网络模型(模型中参数确定,并带有时间戳)。其
中,以加入时间向量的词向量组成的语句输入神经网络,机器可以记忆句子中的时间、
词语及其组合形式,并以模型中的参数记忆这些组合。
通过利用带有时间戳的文本训练神经网络模型,能够识别文本中最新的词语组合
和用法和上下文,准确地识别疑似错别字。
根据本申请实施例还提供了一种错别字识别方法,该错别字识别方法可以用于通
过本申请上述实施例的模型训练方法训练得到的神经网络模型来识别错别字。如图2
所示,该错别字识别方法包括:
步骤S202,获取待测文本及其每条语句发布的时间信息。
步骤S204,根据时间信息生成每条语句对应的时间向量。
时间向量可以是按照预设规则对每个时间点(例如精确到日)的时间定义一组多
维数组,用于唯一表示该时间点,例如时间向量为[2015,10,9,……]表示文本发布
时间为2015年10月9日。
步骤S206,对待测文本进行分词处理,确定出每个词语对应的词向量。
分词处理后的每个词语可以从本申请实施例中的第一训练集中查询其相应的词向
量。
步骤S208,以待测文本中的语句为单位,将每条语句对应的时间向量以及该语句
中的每个词语对应的词向量输入到神经网络模型中,利用神经网络模型识别出待测文
本中的错别字。
本实施例中的神经网络模型为本申请上述实施例的模型训练方法训练得到的神经
网络模型。
由于该神经网络模型是通过记忆神经网络来对没有错别字的文本进行训练得到,
神经网络模型中的参数(神经网络模型中参数确定,大部分为矩阵)可以记忆这些时
间、词语及其组合。相对于现有技术中采用人工建立正确的词汇库,并进行文本匹配,
来识别错别字的方式,本实施例通过记忆神经网络来对没有错别字的文本进行训练,
得到神经网络模型,再利用该神经网络模型来识别文本中的错别字,无需人工建立词
汇库,即可根据词语组合以及语句来识别其中的错别字,可以根据上下文语义以及时
间信息,有效、快速地识别出文本中的错别字。
将待测文本的词向量输入训练好的神经网络模型,通过神经网络模型的计算,将
输出结果中每个词语进行标记,比如非错别字标为:1,错别字标为:-1,进而可筛选
出错别字。
本申请实施例还提供了一种模型训练装置,该装置可以用于执行本申请实施例的
模型训练方法,如图3所示,该模型训练装置包括:提取单元301、确定单元303和
训练单元305。
提取单元301用于从预设文本数据源中提取文本信息以及文本信息中每条语句对
应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文本。
预设文本数据源可以是人民日报、中国政府网等资源网站,可以是经过纠正后不
包含有错别字的文本数据源。该预设文本数据源中包含有大量的没有错别字的文本,
从中提取出这些文本信息。
本实施例中,在提取文本信息的同时还提取文本信息对应的时间信息,该时间信
息可以是相应的文本发布的时间,例如人民日报发表该文本的时间,网站发布文本的
时间等。
确定单元303用于确定出文本信息中每个词语对应的词向量以及每个词语所在的
语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在
的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间。
对上述提取出的文本信息,确定出其中每个词语对应的词向量,每个词语的词向
量用一组多维数组来表示,不同的词语对应的词向量各不相同。其中,词语的词向量
可以是已经预先定义好的,在提取出文本信息之后,从预先定义的词向量中查询出文
本信息中每个词语的词向量。也可以按照预先设定的词向量生成规则,生成每个词语
的词向量。
对于文本信息中的语句,确定出每条语句对应的时间向量。时间向量可以是按照
预设规则对每个时间点(例如精确到日)的时间定义一组多维数组,用于唯一表示该
时间点,例如时间向量为[2015,10,9,.......]表示文本发布时间为2015年10月9
日。
训练单元305用于以文本信息中的语句为单位,将每条语句对应的时间向量以及
该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其
中,神经网络模型用于识别文本中的错别字。
本实施例中,在确定出文本信息中所包含的每个词语的词向量之后,以文本信息
中的语句为单位,将文本信息中的语句依次输入到记忆神经网络中进行训练,输入到
记忆神经网络中的语句以其中每个词语对应的词向量来代替,即,将语句中每个词语
对应的词向量输入到记忆神经网络,同时将语句对应的时间向量一起输入到记忆神经
网络中,该记忆神经网络可以优选为基于循环神经网络的长短时记忆神经网络(即
LSTM+Bidirectional RNN)。
通过记忆神经网络对提取的文本信息进行训练,得到神经网络模型。以语句为单
位将其中的词语对应的词向量及其时间向量输入到记忆神经网络,机器可以记忆语句
中的时间、词语及其组合形式,并以神经网络模型中的参数(神经网络模型中参数确
定,大部分为矩阵)记忆这些时间、词语及其组合。相对于现有技术中采用人工建立
正确的词汇库,并进行文本匹配,来识别错别字的方式,本实施例通过记忆神经网络
来对没有错别字的文本进行训练,得到神经网络模型,再利用该神经网络模型来识别
文本中的错别字,无需人工建立词汇库,即可根据词语组合以及语句来识别其中的错
别字,可以根据上下文语义以及时间信息,有效、快速地识别出文本中的错别字。
根据本申请实施例,通过从预设文本数据源中提取文本信息以及文本信息中每条
语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文
本,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向
量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间
向量为用于唯一表示该词语所在语句的发布时间,以及以文本信息中的语句为单位,
将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网
络,训练得到神经网络模型,以便于利用神经网络模型来识别文本中的错别字,利用
了文字的时效性,提高了对文本中错别字的识别率,解决了现有技术中文本中错别字
的识别率低的技术问题。
优选地,模型训练装置还包括:获取单元,用于在确定出文本信息中每个词语对
应的词向量以及每个词语所在的语句对应的时间向量之前,获取目标文本库,目标文
本库所包含的文本为不包含有错别字的文本;生成单元,用于利用词向量模型对目标
文本库进行训练,以生成目标文本库中的词语对应的词向量,得到第一训练集。
本实施例的目标文本库,可以是包含有各种词语的词库,例如新华词典、成语词
典、文章等不包含错别字的文本库,获取目标文本库用以作为词向量训练集。词向量
模型可以是现有的成熟模型,该模型可以根据输入文本,给每一个词生成一个维数相
同的多维数组,即词向量,该词向量的维数为可以根据词向量训练集来定义,比如将
“一”可能标记为[1,0,0,……],将“高兴”可能标记为[0,1,0,……]。
本申请实施例中,可以根据预先训练得到的词向量训练集中每个词语的词向量,
以便于从中查询对用于进行神经网络模型训练的文本信息中每个词语的词向量。
需要说明的是,本申请实施例还可以是生成每个标点符号对应的词向量。
优选地,确定单元包括:分词???,用于对文本信息中每条语句进行分词处理,
并将文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;查
找???,用于从第一训练集中查找第二训练集中每个词语对应的词向量,并生成每个
词语所在语句对应的时间向量。
对于用于进行神经网络模型训练的文本信息,先对其进行分词处理,将其中每条
语句的时间信息加入到该语句中,得到包含有时间信息的词语集合即第二训练集,从
上述中得到的第一训练集中查询第二训练集中每个词语对应的词向量,从而确定出上
述文本信息的每条语句中每个词语的词向量。
具体地,可以利用现有分词工具,对提取的文本信息进行分词处理,并将时间戳
加入到每个语句中,作为第二训练集。分词后的文本由词组成,如将“(2015年9月)
王五副经理视察厂房”分词为“(2015,9)王五副经理视察厂房”或者“(2015,9)
王五副经理视察厂房”。其中,时间向量可以根据年、月、日以及词向量的维数,
定义与词向量维数相同的时间向量,年、月、日缺省的情况下,对应向量相应位置为
0。例如时间向量为[2015,10,9,……],表示文本发布时间为2015年10月9日。
优选地,模型训练装置还包括:标记???,用于在将每条语句中的每个词语对应
的词向量输入到记忆神经网络之前,将每条语句中的每个词语对应的词向量标记为预
设标识,其中,预设标识表示词向量对应的词语为非错别字,以使得在利用神经网络
模型识别出非错别字时,将非错别字的词语标记为预设标识。
本申请实施例中,输入到记忆神经网络的每条语句中每个词语均标记为预设标识,
例如“1”,这样,在对文本进行训练得到神经网络模型时,神经网络模型中参数会记
忆这些词语标识为预设标识。当利用神经网络模型来识别待测文本时,其输出结果中
会将待测文本中没有错别字的词语标记为该预设标识,而出现错别字的词语则不标记,
或者标记为其他标识,以便于快速筛选出待测文本中的错别字。
所述模型训练装置包括处理器和存储器,上述提取单元301、确定单元303和训
练单元305等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述
程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个
或以上,通过调整内核参数来训练得到神经网络模型。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/
或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一
个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适
于执行初始化有如下方法步骤的程序代码:从预设文本数据源中提取文本信息以及文
本信息中每条语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含
有错别字的文本;确定出文本信息中每个词语对应的词向量以及每个词语所在的语句
对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语
句对应的时间向量为用于唯一表示该词语所在语句的发布时间;以文本信息中的语句
为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记
忆神经网络,训练得到神经网络模型,其中,神经网络模型用于识别文本中的错别字。
根据本申请实施例还提供了一种错别字识别装置,该错别字识别装置可以用于执
行本申请实施例提供的错别字识别方法。如图4所示,该错别字识别装置包括:时间
获取单元401、向量生成单元403、向量确定单元405和识别单元407。
时间获取单元401用于获取待测文本及其每条语句发布的时间信息。
向量生成单元403用于根据时间信息生成每条语句对应的时间向量。
时间向量可以是按照预设规则对每个时间点(例如精确到日)的时间定义一组多
维数组,用于唯一表示该时间点,例如时间向量为[2015,10,9,……]表示文本发布
时间为2015年10月9日。
向量确定单元405用于对待测文本进行分词处理,确定出每个词语对应的词向量。
分词处理后的每个词语可以从本申请实施例中的第一训练集中查询其相应的词向
量。
识别单元407用于以待测文本中的语句为单位,将每条语句对应的时间向量以及
该语句中的每个词语对应的词向量输入到神经网络模型中,利用神经网络模型识别出
待测文本中的错别字。
本实施例中的神经网络模型为本申请上述实施例的模型训练方法训练得到的神经
网络模型。
由于该神经网络模型是通过记忆神经网络来对没有错别字的文本进行训练得到,
神经网络模型中的参数(神经网络模型中参数确定,大部分为矩阵)可以记忆这些时
间、词语及其组合。相对于现有技术中采用人工建立正确的词汇库,并进行文本匹配,
来识别错别字的方式,本实施例通过记忆神经网络来对没有错别字的文本进行训练,
得到神经网络模型,再利用该神经网络模型来识别文本中的错别字,无需人工建立词
汇库,即可根据词语组合以及语句来识别其中的错别字,可以根据上下文语义以及时
间信息,有效、快速地识别出文本中的错别字。
将待测文本的词向量输入训练好的神经网络模型,通过神经网络模型的计算,将
输出结果中每个词语进行标记,比如非错别字标为:1,错别字标为:-1,进而可筛选
出错别字。
所述错别字识别装置包括处理器和存储器,上述时间获取单元401、向量生成单
元403、向量确定单元405和识别单元407等均作为程序单元存储在存储器中,由处
理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个
或以上,通过调整内核参数来识别文本中的错别字。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/
或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一
个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适
于执行初始化有如下方法步骤的程序代码:获取待测文本及其每条语句发布的时间信
息;根据时间信息生成每条语句对应的时间向量;对待测文本进行分词处理,确定出
每个词语对应的词向量;以待测文本中的语句为单位,将每条语句对应的时间向量以
及该语句中的每个词语对应的词向量输入到神经网络模型中,利用神经网络模型识别
出待测文本中的错别字。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有
详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它
的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,
可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件
可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所
显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模
块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到
多个单元上??梢愿菔导实男枰≡衿渲械牟糠只蛘呷康ピ词迪直臼凳├桨?br />的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成
的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,
可以存储在一个计算机可读取存储介质中?;谡庋睦斫?,本申请的技术方案本质
上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的
形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一
台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所
述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only
Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘
等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人
员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润
饰也应视为本申请的?;し段?。
内容来自专利网重庆时时彩单双窍门 www.4mum.com.cn转载请标明出处