• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    重庆时时彩可以网购吗: 一种基于音调自动标注及预测的语音合成方法.pdf

    关 键 词:
    一种 基于 音调 自动 标注 预测 语音 合成 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110172013.3

    申请日:

    2011.06.24

    公开号:

    CN102201234A

    公开日:

    2011.09.28

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G10L 13/08申请日:20110624|||公开
    IPC分类号: G10L13/08; G10L11/04; G10L19/00 主分类号: G10L13/08
    申请人: 北京宇音天下科技有限公司
    发明人: 那兴宇; 谢湘; 王朝民; 何娅玲
    地址: 100085 北京市海淀区上地南路10号院1号楼5单元401
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110172013.3

    授权公告号:

    102201234B||||||

    法律状态公告日:

    2013.02.06|||2012.03.14|||2011.09.28

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于音调自动标注及预测的语音合成方法,由音调预测??榻邮沾铣傻娜我馕谋拘畔?,根据文本分析的音节和韵律层级结构预测音调曲线并输出完整的合成标注信息;参数语音合成??榻邮找舻髟げ饽?榈暮铣杀曜⑿畔?,使用参数生成的方法输出合成的语音信号;离线训练??楦涸鸶髦忠矶品蚰P偷难盗?,音调预测模型用于指导训练数据的有监督分段实现音调的自动标注以及预测合成文本的音调信息,合成参数模型用于得到合成的参数序列。依据本发明可以解决发音变调和协同发音的调式标注问题,使合成语音的韵律得到了极大地改善。

    权利要求书

    1.一种基于音调自动标注及预测的语音合成方法,利用各种计算机和数字设备的输入,将所接收到的任意文字串转化为语音输出,其特征在于:由离线训练???、音调预测???、参数语音合成??樽槌?,其中:具有一离线训练???,负责音调预测模型和增益、基频、声道谱和时长的生成模型的训练;具有一音调预测???,输入端接收文本信息,负责预测待合成文本中每个合成基元的基频曲线并生成带有音调的完整的合成标注信息;具有一输出端输出完整的合成标注信息;具有一参数语音合成???,输入端接收来自于音调预测??榈耐暾暮铣杀曜⑿畔?;具有一输出端输出合成的语音信号。2.根据权利要求1所述的基于音调自动标注及预测的语音合成方法,其特征在于:所述离线训练??榘ǎ?/claim-text>具有一音调自动标注???,负责训练音调预测模型,并得到完整的训练标注信息;具有一连续隐马尔科夫训练???,使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练;具有一多空间隐马尔科夫模型训练???,使用多空间概率隐马尔科夫模型进行基频生成模型的训练。3.根据权利要求1所述的基于音调自动标注及预测的语音合成方法,其特征在于:所述音调自动标注??榘ǎ?/claim-text>具有一基频提取???,负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线;具有一音调预测模型训练???,使用多空间隐马尔科夫模型进行音调预测模型的训练;具有一基频分段量化???,使用音调预测模型对训练语料的基频数据中每个建?;蟹侄瘟炕?,具有一输出端用于输出每个训练基元的基频分段量化结果;具有一音调自动标注???,负责接收每个训练基元的基频分段量化结果,进行训练语料的音调自动标注取代音调预测模型训练??橹兴褂玫牡魇奖曜?,具有一输出端用于输出训练语料完整的训练标注信息。4.根据权利要求1所述的基于音调自动标注及预测的语音合成方法,其特征在于:所述基频分段量化??榘ǎ?/claim-text>具有一量化间隔计算???,负责统计全部训练语料的基频最大值和最小值,根据量化精度计算量化间隔;具有一基频分段???,负责根据训练的音调预测模型对每个训练基元的基频曲线按状态进行有监督分段;具有一基频量化???,负责根据分段结果判断每个分段的清浊音标志,清音段输出清音标志,浊音段根据段内基频平均值输出量化标志,具有以输出端输出每个训练基元的基频分段量化结果。5.根据权利要求1所述的基于音调自动标注及预测的语音合成方法,其特征在于:所述音调预测??榘ǎ?/claim-text>具有一文本分析???,输入端接收任意文本信息,分析得到包含当前和相邻有调音节韵律层级结构的音调预测标注,具有一输出端输出音调预测标注;具有一基频预测???,输入端接收音调预测标注,根据训练得到的音调预测模型得到每个状态的基频预测值,进一步量化得到每个合成基元的音调预测曲线:具有一合成标注生成???,根据每个合成基元的音调预测曲线得到包含音调信息的完整合成标注信息,具有一输出端输出完整的合成标注信息。6.根据权利要求1所述的基于音调自动标注及预测的语音合成方法,其特征在于:所述参数语音合成??榘ǎ?/claim-text>具有一有关增益序列的连续隐马尔科夫模型???,根据训练得到的连续隐马尔科夫模型得到每个合成基元每个状态的增益序列,具有一输出端输出待合成文本完整的增益序列;具有一有关声道谱系数序列的连续隐马尔科夫模型???,根据训练得到的续隐马尔科夫模型得到每个合成基元每个状态的声道谱系数序列,具有一输出端输出待合成文本完整的声道谱系数序列;具有一有关基频序列的多空间概率隐马尔科夫模型???,根据训练得到多空间概率隐马尔科夫模型得到每个合成基元每个状态的基频序列,具有一输出端输出待合成文本完整的基频序列;具有一参数语音合成器???,接收来自有关增益序列和声道谱系数序列的连续隐马尔科夫模型??橐约袄醋杂泄鼗敌蛄械亩嗫占涓怕室矶品蚰P湍?榈氖涑?,具有一输出端输出合成的语音。

    说明书

    一种基于音调自动标注及预测的语音合成方法

    技术领域

    本发明设计一种语音合成方法,具体地涉及基于音调自动标注及预测的语音合成方法。

    背景技术

    语音合成方法的目的是让机器用人类的语言进行表达,又称为文语转换方法(TTS方法),它的主要功能是将计算机或其他数字设备接收到的任意文字串转换为语音信号,通过音频接口输出?;诖笥锪峡獾挠镆艉铣煞椒ㄍü源罅柯家羰莸耐臣?,合成具有高自然度和音质的语音。传统的基于单元拼接的合成方法音质较好,但所需训练数据较大且合成音库占用空间庞大,合成语音的连贯度不好。

    基于隐马尔科夫模型的参数化统计语音合成方法具有较高的合成连贯度和灵活度,所需的资源占用空间较小,具有极大的实用和研究价值?;谝矶品蚰P偷牟问臣朴镆艉铣煞椒ń盗酚锪辖胁问硎?,通常表示为基频、增益和声道谱系数。为指导隐马尔科夫模型的训练,要事先对每条训练语料进行标注,标注内容包括音节、音调和韵律层级结构。在有调音节语言(如汉语普通话、粤语和泰语等)中存在大量的变调和协同发音现象,如果标注的音调与实际发音不一致,就会造成统计模型的稳定性下降,严重影响合成语音的韵律。手工标注的音调受到标注人员的主观影响较大,且不便制定统一的标准。传统的音调标注以特定语言的音调划分为准则,将所有发音划分为几类调式,无法详细描述每种调式的音高变化情况,而音高的实际变化轨迹才对韵律的影响更大,这是简单的调式划分所无法表现的。因此,需要一种新的算法,能够对训练语料的音高变化做出详细描述,取代传统的调式标注,并能够在合成时预测出合成音的音高变化趋势,改善合成语音的韵律表现力。

    发明内容

    为了解决现有的技术缺陷,本发明的目的是要提出一种算法,可以对训练语料的音调信息做出自动标注,并在合成时预测合成语音的音高变化趋势,从而改善输出语音的韵律表现力。为此,本发明构建一种基于音调自动标注及预测的语音合成方法。

    为实现上述目的,本发明的一种基于音调自动标注及预测的语音合成方法,利用各种计算机和数字设备的输入,将所接收到的任意文字串转化为语音输出,其特征在于:由离线训练???、音调预测???、参数语音合成??樽槌?,其中:

    具有一离线训练???,负责音调预测模型和增益、基频、声道谱和时长的生成模型的训练;

    具有一音调预测???,输入端接收文本信息,负责预测待合成文本中每个合成基元的基频曲线并生成带有音调的完整的合成标注信息;具有一输出端输出完整的合成标注信息;

    具有一参数语音合成???,输入端接收来自于音调预测??榈耐暾暮铣杀曜⑿畔?;具有一输出端输出合成的语音信号。

    根据本发明的实施例,所述离线训练??榘ǎ?/p>

    具有一音调自动标注???,负责训练音调预测模型,并得到完整的训练标注信息;

    具有一连续隐马尔科夫训练???,使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练;

    具有一多空间隐马尔科夫模型训练???,使用多空间概率隐马尔科夫模型进行基频生成模型的训练。

    根据本发明的实施例,所述音调自动标注??榘ǎ?/p>

    具有一基频提取???,负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线;

    具有一音调预测模型训练???,使用多空间隐马尔科夫模型进行音调预测模型的训练;

    具有一基频分段量化???,使用音调预测模型对训练语料的基频数据中每个建?;蟹侄瘟炕?,具有一输出端用于输出每个训练基元的基频分段量化结果;

    具有一音调自动标注???,负责接收每个训练基元的基频分段量化结果,进行训练语料的音调自动标注取代音调预测模型训练??橹兴褂玫牡魇奖曜?,具有一输出端用于输出训练语料完整的训练标注信息。

    根据本发明的实施例,所述基频分段量化??榘ǎ?/p>

    具有一量化间隔计算???,负责统计全部训练语料的基频最大值和最小值,根据量化精度计算量化间隔;

    具有一基频分段???,负责根据训练的音调预测模型对每个训练基元的基频曲线按状态进行有监督分段;

    具有一基频量化???,负责根据分段结果判断每个分段的清浊音标志,清音段输出清音标志,浊音段根据段内基频平均值输出量化标志,具有以输出端输出每个训练基元的基频分段量化结果。

    根据本发明的实施例,所述音调预测??榘ǎ?/p>

    具有一文本分析???,输入端接收任意文本信息,分析得到包含当前和相邻有调音节韵律层级结构的音调预测标注,具有一输出端输出音调预测标注;

    具有一基频预测???,输入端接收音调预测标注,根据训练得到的音调预测模型得到每个状态的基频预测值,进一步量化得到每个合成基元的音调预测曲线;

    具有一合成标注生成???,根据每个合成基元的音调预测曲线得到包含音调信息的完整合成标注信息,具有一输出端输出完整的合成标注信息。

    根据本发明的实施例,所述参数语音合成??榘ǎ?/p>

    具有一有关增益序列的连续隐马尔科夫模型???,根据训练得到的连续隐马尔科夫模型得到每个合成基元每个状态的增益序列,具有一输出端输出待合成文本完整的增益序列;

    具有一有关声道谱系数序列的连续隐马尔科夫模型???,根据训练得到的续隐马尔科夫模型得到每个合成基元每个状态的声道谱系数序列,具有一输出端输出待合成文本完整的声道谱系数序列;

    具有一有关基频序列的多空间概率隐马尔科夫模型???,根据训练得到多空间概率隐马尔科夫模型得到每个合成基元每个状态的基频序列,具有一输出端输出待合成文本完整的基频序列。

    具有一参数语音合成器???,接收来自有关增益序列和声道谱系数序列的连续隐马尔科夫模型??橐约袄醋杂泄鼗敌蛄械亩嗫占涓怕室矶品蚰P湍?榈氖涑?,具有一输出端输出合成的语音。

    本发明的有益效果:本发明的第一方面,为实现上述目的,在该方法中,使用建?;牧炕登呓饩銮懊嫠龅拇骋舻鞅曜⑺吹氖莶黄ヅ浜腿鄙傧附诿枋龅奈侍?。通过训练数据的基频分段量化方法,将连续的基频曲线表示为离散的分段标志,用训练数据本身的音高变化作为音调标注。而在传统的按调式分类标注的方法中,每个基元仅用一个调式来表示,无法描述其音高随时间变化的趋势,而且难以解决发音变调和协同发音的调式标注问题。通过基频分段量化替换传统的分类调式标注,韵律的建模得到了极大地改善。

    本发明的第二方面,为实现上述目的,本发明在合成阶段,设计了一个音调预测算法:利用作为音调预测模型的多空间概率隐马尔科夫模型,得到每个状态的基频预测值,将状态基频预测值直接量化得到音调预测值,用于构建完整的合成标注信息。通过上述算法,可以将合成时音调分段原则与模型训练时对应,更好的指导合成声学参数的预测,改善合成语音的韵律表现力。

    附图说明

    附图1是本发明所提出的基于音调自动标注及预测的语音合成方法的总体框图。

    附图2是本发明离线训练??榈目蛲?。

    附图3是本发明音调自动标注??榈目蛲?。

    附图4是本发明音调预测??榈目蛲?。

    附图5是本发明参数语音合成??榈目蛲?。

    具体实施方式

    下面结合附图和实例对本发明进一步说明,通过结合附图对方法各关键步骤的详细说明将会更好地描述实现本发明的步骤和过程。应该指出,所描述的实例仅仅视为说明的目的,不是对本发明的限制。

    附图1是本发明所提出的基于音调自动标注及预测的语音合成方法示意图。实现的方法以标准C语言编写,在windows平台和unix平台下均可编译运行。在附图1本发明的优选实施方案中,本方法分为三个部分:离线训练???、音调预测???、参数语音合成???组成。其中,音调预测???和参数语音合成???相连。离线训练???与其他部分无连接,仅用于线下生成语音合成系统所使用的音调预测模型b和合成参数模型c。

    具有一离线训练???,负责音调预测模型和增益、基频、声道谱和时长的生成模型的训练;

    具有一音调预测???,输入端接收文本信息,负责预测待合成文本中每个合成基元的基频曲线并生成带有音调的完整的合成标注信息;具有一输出端输出完整的合成标注信息;

    具有一参数语音合成???,输入端接收来自于音调预测??榈耐暾暮铣杀曜⑿畔?;具有一输出端输出合成的语音信号。

    如附图2离线训练??榈目蛲妓?,离线训练???由音调自动标注???0、连续隐马尔科夫训练???0、多空间隐马尔科夫模型训练???0组成。

    音调自动标注???0:负责训练音调预测模型,并得到完整的训练标注信息。

    连续隐马尔科夫训练???0:使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练。本实例训练和合成基元采用汉语音节,采用隐半马尔科夫模型(HSMM)作为参数模型,即对时长采用显式建模,模型状态数为12,其中包含1个入口状态和1个出口状态,中间10个状态输出声学参数。采用基于加权自适应谱插值(STRAIGHT)的24维美尔广义倒谱系数(MGC),

    多空间隐马尔科夫模型训练???0:使用多空间概率隐马尔科夫模型进行基频生成模型的训练。本实例采用对数基频作为基频的表示方法,在多空间概率模型中,采用一个0维的清音空间和一个1维德浊音空间对清浊音在统一的框架下进行基频建模。

    如附图3音调自动标注??榈目蛲妓?,音调自动标注???0由基频提取???10,音调预测模型训练???20,基频分段量化???30,音调自动标注???70组成。

    基频提取???10:负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线。本实例采用基于STRAIGHT的基频提取算法。

    音调预测模型训练???20:使用多空间隐马尔科夫模型进行音调预测模型的训练。本实例中,采用静态基频及其一阶、二阶动态特征进行建模,建立音调预测模型时的不完整训练标注包括当前及相邻的有调音节以及韵律层级结构。

    基频分段量化???30:使用音调预测模型对训练语料的基频数据中每个建?;蟹侄瘟炕?,具有一输出端用于输出每个训练基元的基频分段量化结果。

    其中,量化间隔计算???40:负责统计全部训练语料的基频最大值和最小值,根据量化精度计算量化间隔。本实施例采用8级量化精度,即量化间隔为:

    Qint=LF0max-LF0min8]]>

    基频分段???50:负责根据训练的音调预测模型b对每个训练基元的基频曲线按状态进行分段。本实施例采用Viterbi分段,也可以采用最大似然分段等受监督的分段方法;基频量化???60,负责根据分段结果判断每个分段的清浊音标志,清音段输出清音标志,浊音段根据段内基频平均值输出量化标志,具有一输出端输出每个训练基元的基频分段量化结果。本实例中,清音标志为’x’,浊音量化标志为整数0到7。分段的清浊音判断准则为当前分段内清音帧与浊音帧数目之比,清音帧多于浊音帧则判为清音段,否则判为浊音段。

    QLF0[i]=[LF0mean[i]-LF0minQint],ifsi=voicedx,ifsi=unvoiced]]>

    音调自动标注???70:负责接收每个训练基元的基频分段量化结果,进行训练语料的音调自动标注取代音调预测模型训练???20中所使用的调式标注,具有一输出端用于输出训练语料完整的训练标注信息。

    如附图4音调预测??榈目蛲妓?,音调预测???由文本分析???10、基频预测???20、合成标注生成???30组成。

    文本分析???10:输入端接收任意文本信息,分析得到包含当前和相邻有调音节韵律层级结构的音调预测标注,具有一输出端输出音调预测标注。

    基频预测???20:输入端接收音调预测标注,根据训练得到的音调预测模型得到每个状态的基频预测值,进一步量化得到每个合成基元的音调预测曲线。本实例中,浊音状态的量化音调值为整数0到7,清音状态的量化音调值置为清音标志’x’。

    合成标注生成???30:根据每个合成基元的音调预测曲线得到包含音调信息的完整合成标注信息,具有一输出端输出完整的合成标注信息。

    如附图5参数语音合成??榈目蛲妓?,参数语音合成???由有关增益序列的连续隐马尔科夫模型???10、有关声道谱系数序列的连续隐马尔科夫模型???20、有关基频序列的多空间概率隐马尔科夫模型???30、参数语音合成器???40组成。

    有关增益序列的连续隐马尔科夫模型???10:根据训练得到的连续隐马尔科夫模型得到每个合成基元每个状态的增益序列,具有一输出端输出待合成文本完整的增益序列。

    有关声道谱系数序列的连续隐马尔科夫模型???20:根据训练得到的续隐马尔科夫模型得到每个合成基元每个状态的声道谱系数序列,具有一输出端输出待合成文本完整的声道谱系数序列。

    有关基频序列的多空间概率隐马尔科夫模型???30:根据训练得到多空间概率隐马尔科夫模型得到每个合成基元每个状态的基频序列,具有一输出端输出待合成文本完整的基频序列。

    参数语音合成器???40:接收来自有关增益序列和声道谱系数序列的连续隐马尔科夫模型??橐约袄醋杂泄鼗敌蛄械亩嗫占涓怕室矶品蚰P湍?榈氖涑?,具有一输出端输出合成的语音。本实例中,首先对生成的声道谱MGC序列进行后滤波,然后采用美尔对数谱近似(MLSA)滤波器进行声音信号的生成。

    上述实施例为本发明的较佳实施例,本发明的应用不仅限于计算机终端,还可以应用到嵌入式设备和各种其他手持和移动设备中。根据本发明的主要构思,本领域普通技术人员均可以生产多种类似的或等价的应用,为此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围内的任何修改或局部替换,均属于本发明权利要求来限定的范围。

    关于本文
    本文标题:一种基于音调自动标注及预测的语音合成方法.pdf
    链接地址://www.4mum.com.cn/p-5875046.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 快速时时开奖 黄金时时彩免费软件 下载安装够力七星彩奖表app 欢乐生肖计划免费版 pk10技巧规律 11选5直选二稳赚技巧 十一选五 稳赚 快乐10分稳赚 新疆时时96期开奖记录 福建时时网上购买 秒速时时规律大全 幸运pc28最快结果参考 北京pk计划软件苹果版 幸运28预测在pc28点sc 七星彩稳赚法怎样计算 上海时时最快开奖结果查询结果