• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 37
    • 下载费用:30 金币  

    重庆时时彩后2走势图: 音频信号处理装置和方法、编码装置和方法以及程序.pdf

    关 键 词:
    音频 信号 处理 装置 方法 编码 以及 程序
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201580028187.9

    申请日:

    2015.05.22

    公开号:

    CN106465028A

    公开日:

    2017.02.22

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):H04S 3/00申请日:20150522|||公开
    IPC分类号: H04S3/00; G10L19/00(2013.01)I; G10L19/008(2013.01)I; H04S5/02 主分类号: H04S3/00
    申请人: 索尼公司
    发明人: 畠中光行; 知念徹; 辻实; 本间弘幸
    地址: 日本东京
    优先权: 2014.06.06 JP 2014-117331
    专利代理机构: 北京康信知识产权代理有限责任公司 11240 代理人: 田喜庆;吴孟秋
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201580028187.9

    授权公告号:

    ||||||

    法律状态公告日:

    2019.02.15|||2017.06.13|||2017.02.22

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本技术涉及音频信号处理装置和方法、编码装置和方法以及程序,从而可以获得更高质量的声音。选择单元,从提供的多声道音频信号中选择对话声音的声道的音频信号和缩混目标声道的音频信号。缩混单元对缩混目标声道的音频信号进行缩混。添加单元将对话声音的声道的音频信号添加到预定声道的音频信号,其是由缩混获得的一个或多个声道的音频信号。本技术可以应用于解码器。

    权利要求书

    1.一种音频信号处理装置,包括:
    选择单元,被配置为基于与多声道音频信号的每个声道有关的信息从所述多声道音频
    信号选择对话声音的声道的音频信号以及待缩混的多个声道的音频信号;
    缩混单元,被配置为将所述待缩混的多个声道的音频信号缩混为一个或多个声道的音
    频信号;以及
    添加单元,被配置为将所述对话声音的声道的音频信号添加到通过缩混获得的所述一
    个或多个声道的音频信号中的预定声道的音频信号。
    2.根据权利要求1所述的音频信号处理装置,其中,
    所述添加单元将所述对话声音的声道的音频信号添加到所述预定声道,所述预定声道
    是由添加目的地信息指定的声道,所述添加目的地信息指示待添加所述对话声音的声道的
    音频信号的目的地。
    3.根据权利要求2所述的音频信号处理装置,进一步包括:
    增益校正单元,被配置为基于增益信息执行所述对话声音的声道的音频信号的增益校
    正,所述增益信息指示在向所述预定声道的音频信号添加所述对话声音的声道的音频信号
    时的增益,
    其中,所述添加单元将由所述增益校正单元校正了增益的音频信号添加到所述预定声
    道的音频信号中。
    4.根据权利要求3所述的音频信号处理装置,进一步包括:
    提取单元,被配置为从比特流提取与每个声道有关的信息、所述添加目的地信息以及
    所述增益信息。
    5.根据权利要求4所述的音频信号处理装置,
    其中,所述提取单元进一步从所述比特流提取经编码的多声道音频信号,并且
    所述音频信号处理装置进一步包括解码单元,所述解码单元被配置为将经编码的多声
    道音频信号解码并输出至所述选择单元。
    6.根据权利要求1所述的音频信号处理装置,其中,
    所述缩混单元对所述待缩混的多个声道的音频信号执行多级缩混,并且
    所述添加单元将所述对话声音的声道的音频信号添加到在所述多级缩混中获得的所
    述一个或多个声道的音频信号中的所述预定声道的音频信号。
    7.一种音频信号处理方法,包括以下步骤:
    基于与多声道音频信号的每个声道有关的信息从所述多声道音频信号选择对话声音
    的声道的音频信号以及待缩混的多个声道的音频信号;
    将所述待缩混的多个声道的音频信号缩混为一个或多个声道的音频信号;并且
    将所述对话声音的声道的音频信号添加到在缩混中获得的所述一个或多个声道的音
    频信号中的预定声道的音频信号。
    8.一种使计算机执行以下步骤的程序,所述步骤包括:
    基于与多声道音频信号的每个声道有关的信息从所述多声道音频信号选择对话声音
    的声道的音频信号以及待缩混的多个声道的音频信号;
    将所述待缩混的多个声道的音频信号缩混为一个或多个声道的音频信号;并且
    将所述对话声音的声道的音频信号添加到在缩混中获得的所述一个或多个声道的音
    频信号中的预定声道的音频信号。
    9.一种编码装置,包括:
    编码单元,被配置为对多声道音频信号进行编码;
    生成单元,被配置为生成标识信息,所述标识信息指示所述多声道音频信号的每个声
    道是否是对话声音的声道;以及
    封装单元,被配置为生成包含经编码的多声道音频信号和所述标识信息的比特流。
    10.根据权利要求9所述的编码装置,其中,
    当所述多声道音频信号被缩混时,所述生成单元进一步生成添加目的地信息,所述添
    加目标信息表示通过缩混获得的一个或多个声道的音频信号中作为待添加所述对话声音
    的声道的音频信号的目的地的音频信号的声道,并且
    所述封装单元生成包括经编码的多声道音频信号、所述标识信息以及所述添加目的地
    信息的所述比特流。
    11.根据权利要求10所述的编码装置,其中,
    所述生成单元进一步在向由所述添加目的地信息表示的声道添加所述对话声音的声
    道的音频信号时生成增益信息,并且
    所述封装单元生成包括经编码的多声道音频信号、所述标识信息、所述添加目的地信
    息以及所述增益信息的所述比特流。
    12.一种编码方法,包括以下步骤:
    对多声道音频信号进行编码;
    生成标识信息,所述标识信息表示所述多声道音频信号中的每个声道是否是对话声音
    的声道;并且
    生成包括经编码的多声道音频信号和所述标识信息的比特流。
    13.一种使计算机执行包括以下步骤的处理的程序,所述步骤包括:
    对多声道音频信号进行编码;
    生成标识信息,所述标识信息表示所述多声道音频信号的每个声道是否是对话声音的
    声道;和
    生成包括编码的多声道音频信号和所述标识信息的比特流。

    说明书

    音频信号处理装置和方法、编码装置和方法以及程序

    技术领域

    本技术涉及音频信号处理装置和方法、编码装置和方法以及程序,并且更具体地
    涉及能够获得更高质量声音的音频信号处理装置和方法、编码装置和方法以及程序。

    背景技术

    通常,对于多声道数据的音频再现,当实际再现环境不同于或优于原来的内容要
    求的再现环境时,一般来说,采用执行缩混处理将信号转换为更少的声道中的音频信号来
    再现的方法(例如,参见非专利文献1)。

    引用列表

    非专利文献

    非专利文献1:ISO/IEC 14496-3:2009/AMD 4:2013 Information technology-
    Coding of audio-visual objects-Part 3:Audio

    发明内容

    发明所要解决的问题

    这种多声道数据有时包括与其它背景声音相比,重要并非常有意义的声道(例如
    主要由人类的声音组成的对话声音),在缩混处理的缩混之后,并且对话声音的声道的信号
    分布在一些声道。进一步地,通过增益抑制校正来抑制在缩混处理中添加多个声道的信号
    引起的削波(clip),每个声道的信号增益在添加前被变小了。

    由于上述原因,在缩混处理之后的对话声音的声音图像定位变得不清楚,或者对
    话声音的声音再现音量降低了,并且这使得对话声音难以识别。

    如上所述,根据上述的技术,当执行多声道数据的音频再现(特别是缩混处理)时,
    对话声音变得不清楚并且再现的声音的质量恶化。

    有鉴于这种情况创作本技术,并且能够获得更高质量的声音。

    问题的解决方案

    根据本技术的第一方面的音频信号处理装置,包括:选择单元,被配置为基于与多
    声道音频信号的每个声道有关的信息从该多声道音频信号选择对话声音的声道的音频信
    号以及待缩混的多个声道的音频信号;缩混单元,被配置为将该待缩混的多个声道的音频
    信号缩混为一个或多个声道的音频信号;以及添加单元,被配置为将该对话声音的声道的
    音频信号添加到通过缩混获得的该一个或多个声道的音频信号中的预定声道的音频信号。

    添加单元可以用来将该对话声音的声道的音频信号添加到该预定声道,该预定声
    道是由添加目的地信息指定的声道,该添加目的地信息指示待添加该对话声音的声道的音
    频信号的目的地。

    可以进一步包括增益校正单元,被配置为基于增益信息执行该对话声音的声道的
    音频信号的增益校正,该增益信息指示在向该预定声道的音频信号添加该对话声音的声道
    的音频信号时的增益,添加单元可以用来将由该增益校正单元校正了增益的音频信号添加
    到该预定声道的音频信号中。

    音频信号处理装置可以进一步包括:提取单元,被配置为从比特流提取与每个声
    道有关的信息、该添加目的地信息以及该增益信息。

    提取单元可以用来进一步从该比特流提取经编码的多声道音频信号,并且从而进
    一步包括解码单元,该解码单元被配置为将经编码的多声道音频信号解码并输出至该选择
    单元。

    缩混单元可以用来对该待缩混的多个声道的音频信号执行多级缩混,并且添加单
    元可以用来将该对话声音的声道的音频信号添加到在该多级缩混中获得的该一个或多个
    声道的音频信号中的该预定声道的音频信号。

    根据本技术的第一方面的音频信号处理方法或程序,包括以下步骤:基于与多声
    道音频信号的每个声道有关的信息从该多声道音频信号选择对话声音的声道的音频信号
    以及待缩混的多个声道的音频信号;将该待缩混的多个声道的音频信号缩混为一个或多个
    声道的音频信号;并且将该对话声音的声道的音频信号添加到在缩混中获得的该一个或多
    个声道的音频信号中的预定声道的音频信号。

    根据本技术的第一方面,基于与多声道音频信号的每个声道有关的信息从该多声
    道音频信号选择对话声音的声道的音频信号以及待缩混的多个声道的音频信号;将该待缩
    混的多个声道的音频信号缩混为一个或多个声道的音频信号;并且将该对话声音的声道的
    音频信号添加到在缩混中获得的该一个或多个声道的音频信号中的预定声道的音频信号。

    根据本技术的第二方面的编码装置,包括:编码单元,被配置为对多声道音频信号
    进行编码;生成单元,被配置为生成标识信息,该标识信息指示该多声道音频信号的每个声
    道是否是对话声音的声道;和封装单元,被配置为生成包含经编码的多声道音频信号和该
    标识信息的比特流。

    当该多声道音频信号被缩混时,该生成单元进一步可以生成添加目的地信息,该
    添加目标信息表示通过缩混获得的一个或多个声道的音频信号中作为待添加该对话声音
    的声道的音频信号的目的地的音频信号的声道,并且该封装单元可以生成包括经编码的多
    声道音频信号、该标识信息以及该添加目的地信息的该比特流。

    该生成单元可以进一步用来在向由该添加目的地信息表示的声道添加该对话声
    音的声道的音频信号时生成增益信息。该封装单元可以生成包括经编码的多声道音频信
    号、该标识信息、该添加目的地信息以及该增益信息的该比特流。

    根据本技术的第二方面的编码方法或程序,包括以下步骤:

    对多声道音频信号进行编码;

    生成标识信息,该标识信息表示该多声道音频信号中的每个声道是否是对话声音
    的声道;并且

    生成包括经编码的多声道音频信号和该标识信息的比特流。

    根据本技术的第二方面,对多声道音频信号进行编码;生成标识信息,该标识信息
    表示该多声道音频信号中的每个声道是否是对话声音的声道;并且生成包括经编码的多声
    道音频信号和该标识信息的比特流。

    发明的效果

    根据本技术的第一方面和第二方面,可以获得更高质量的声音。

    此处,这里所描述的效果不必是有限的,并且可以提供本说明中所描述的任何一
    个效果。

    附图说明

    [图1]是用于说明比特流的示意图。

    [图2]是用于说明对话声道信息的示意图。

    [图3]是用于说明每个声道的映射的示意图。

    [图4]是用于说明增益因子的示意图。

    [图5]是用于说明编码器的配置示例的示意图。

    [图6]是用于说明对话声道信息的编码的示意图。

    [图7]是用于说明编码处理的流程图。

    [图8]是示出解码器的配置示例的示意图。

    [图9]是示出缩混处理单元的配置示例的示意图。

    [图10]是示出更具体的缩混处理单元的配置示例的示意图。

    [图11]是用于说明解码处理的流程图。

    [图12]是用于说明缩混处理的流程图。

    [图13]是示出缩混处理单元的更具体的配置示例的示意图。

    [图14]是示出计算机的配置示例的示意图。

    具体实施方式

    在下文中,将参考附图描述应用本技术的实施例。

    <第一实施例>

    <本技术的概要>

    本技术有助于防止对话声音变得不清楚,并且通过输出包括多声道音频信号中的
    对话声音的声道的音频信号,从单独指定的声道中获得更高质量的声音,如从缩混处理的
    目标排除的。进一步地,根据本发明,通过在包括对话声音的多声道音频信号中识别多个对
    话声音的声道,可以选择性地再现对话声音。

    此处,在这种情况下,该情况是从缩混处理的目标排除的声道是将作为示例被说
    明的对话声音的声道的情况;然而,并不局限于对话声音,并且相比背景声音,重要并且非
    常有意义的其它声音声道可以从缩混排除并且作缩混之后添加到预定声道。进一步地,在
    下面的情况中,该情况是多声道音频信号根据先进音频编码标准(AAC)编码;然而,在其它
    系统中,类似的处理可以在编码的情况中执行。

    例如,当多声道音频信号根据AAC标准编码并传输时,每个声道的音频信号的逐帧
    编码和传输。

    具体地,如图1所示,已编码音频信号和音频信号编码所需的信息存储在多个要素
    (比特流要素)中,并且包括这些要素的比特流被传输。

    在该示例中,单个帧的比特流中,要素EL1至ELN的编号n从开始顺序设置,并且在
    最后具有标识符TERM,其表明帧中的信息的终点位置。

    例如,设置在开始的要素EL1是称为数据流要素(DSE)的辅助数据区域,并且在DSE
    中,写入包括涉及音频信号缩混的信息、涉及对话声音的对话声道信息和类似的多个声道
    的信息。

    在跟随要素EL1的要素EL2至ELn中,存储已编码音频信号。更具体地,存储单个声
    道音频信号的要素称为SCE,并且存储削减的2个声道的音频信号的要素称为CPE。

    根据本技术,当对多声道音频信号缩混时,对话声音的声道的音频信号不包含在
    缩混的目标中。因此,根据本技术,生成对话声道信息并存储在DSE中,这样对话音声道可以
    在比特流接收侧很容易地指定。

    例如,这样的对话声道信息的语法如图2中所示。

    在图2中,“ext_diag_status”是表明在该ext_diag_status之后,是否具有涉及对
    话声音信息的标志。更具体地,当ext_diag_status的值是“1”时,具有涉及对话声音的信
    息,当ext_diag_status的值是“0”时,没有涉及对话声音的信息。当ext_diag_status的值
    是“0”时,在ext_diag_status之后设置“0000000”。

    进一步地,“get_main_audio_chans()”是辅助函数,其用于获得包括在比特流中
    的一些音频声道,并且由使用该辅助函数的计算获得的各个声道的信息在get_main_
    audio_chans()后被存储。

    此处,在使用get_main_audio_chans()的计算中,获得作为计算结果的不包括LFE
    声道的一些声道(即,一些主要音频声道)。这是因为,对话声道信息不包括涉及LFE声道的
    信息。

    “init_data(chans)”是辅助函数,其用于为由音频信号重现侧中的自变量指定的
    各个声道“chans”的数量,初始化涉及对话声音的声道的各种参数,该音频信号重现侧是在
    比特流解码侧。更具体地,通过计算辅助函数,包括“diag_tag_idx[i]”、“num_of_dest_
    chans5[i]”、“diag_dest5[i][j-1]”、“diag_mix_gain5[i][j-1]”、“num_of_dest_chans2
    [i]”、“diag_dest2[i][j-1]”、“diag_mix_gain2[i][j-1]”、“num_of_dest_chans1[i]”和
    “diag_mix_gain1[i]”的总共九条信息的值设置为“0”。

    “ceil(log(chans+1)/log(2))”是辅助函数,其作为输出,返回大于由自变量给定
    的分数值的最小整数值,并且用辅助函数执行计算来获得一些被要求来表达对话声音的声
    道的属性的比特,即,后面描述的diag_tag_idx[i]。

    “diag_present_flag[i]”是表明由包括在比特流中的多个声道的指数i(此处,0
    ≤i≤chans-1)指定的声道(即,声道编号i的声道)是否是对话声音的声道的标识信息。

    更具体地,当diag_present_flag[i]的值是“1”时,这表明声道编号i的声道是对
    话声音的声道,并且,当diag_present_flag[i]的值是“0”时,这表明声道编号i的声道不是
    对话声音的声道。此处,在该示例中,具有与由get_main_audio_chans()获得的声道的数
    量一样多的diag_present_flag[i];然而,可以使用传输对话声音的声道数量的信息和显
    示扬声器映射的标识信息的方法,在扬声器映射中与对话音声声道数量一样多的各个对话
    声音的声道被对应。

    进一步地,关于使用音频声道的扬声器映射(即,哪个声道编号i被设置为对应哪
    个扬声器的映射),例如,如图3所示的在每个编码模式中定义的映射。

    在图3中,图中的左边部分示出编码模式,即,每个扬声器系统有多少个声道,而在
    图中的右边部分示出提供给对应编码模式的每个声道的声道数量。

    此处,声道数量的映射和对应于图3所示的扬声器的声道不仅用于多存储在比特
    流中的声道音频信号,也用于接收侧的比特流中的缩混音频信号?;痪浠八?,图3所示的映
    射示出声道编号i、由后面描述的diag_dest5[i][j-1]表明的声道编号或由后面描述的
    diag_dest2[i][j-1]表明的声道编号与对应于扬声器的声道之间的对应关系。

    例如,在2声道(立体声)的编码模式中,声道编号0表示FL声道并且声道编号1表示
    FR声道。

    进一步地,例如,在5.1声道的编码模式中,声道编号0、1、2、3和4分别代表FC声道、
    FL声道、FR声道、LS声道和RS声道。

    因此,例如,当由get_main_audio_chans()获得的声道数量(即,存储在比特流中
    的音频信号声道数量)是2个声道,“声道编号i=1”代表FR声道。在下文中,声道编号i的声
    道也简称为声道i。

    回到图2的说明,对于本应是通过diag_present_flag[i]的对话声音的声道的声
    道i,在diag_present_flag[i]之后,存储“diag_tag_idx[i]”、“num_of_dest_chans5[i]”、
    “diag_dest5[i][j-1]”、“diag_mix_gain5[i][j-1]”、“num_of_dest_chans2[i]”、“diag_
    dest2[i][j-1]”、“diag_mix_gain2[i][j-1]”、“num_of_dest_chans1[i]”和“diag_mix_
    gain1[i]”的总共九条信息。

    “diag_tag_idx[i]”是标识声道i的属性的信息?;痪浠八?,这代表声道i的声音是
    多个对话声音中的哪个。

    更具体地,例如,其代表属性,例如声道i是否是日语声音的声道或英语声音的声
    道。此处,对话声音的属性不限于语言,并且可以是任何事,例如标识执行者的信息或者标
    识对象的信息。根据本技术,由于每个对话声音的声道由diag_tag_idx[i]标识,例如,当再
    现音频信号时,可以实现更灵活的音频再现,例如再现具有特定属性的对话声音的声道的
    音频信号。

    “num_of_dest_chans5[i]”表明在音频信号缩混为5.1声道(在下文中,也称为
    5.1ch)的情况下,音频i的音频信号被加入其中的缩混后的一些声道。

    在缩混为5.1声道后,“diag_dest5[i][j-1]”存储表明对话声音的声道i的音频信
    号添加到其中的声道的声道信息。例如,基于图3所示的映射,当diag_dest5[i][j-1]是=2
    时,发现缩混后的FR声道是其中添加了声道i的音频信号的声道。

    “diag_mix_gain5[i][j-1]”存储表明增益因子的指数,当声道i的音频信号添加
    到由存储在diag_dest5[i][j-1]中的信息(声道数量)标识的(指定的)声道。

    diag_dest5[i][j-1]和diag_mix_gain5[i][j-1]存储在与由num_of_dest_
    chans5[i]表明的一样多的对话声道信息中。此处,diag_dest5[i][j-1]和diag_mix_gain5
    [i][j-1]的变量j设置为从1到num_of_dest_chans5[i]的值。

    例如,由diag_mix_gain5[i][j-1]的值定义的增益因子通过如图4所示地函数因
    素获得?;痪浠八?,在图4中,图的左边说明diag_mix_gain5[i][j-1]的值和图的右边说明
    预先设置到diag_mix_gain5[i][j-1]的值的增益因子(增益值)。例如,当diag_mix_gain5
    [i][j-1]的值是“000”时,增益因子设置为“1.0”(0dB)。

    回到图2的说明,当音频信号缩混为2声道(2ch)时,“num_of_dest_chans2[i]”表
    明缩混后的添加了声道i的音频信号的声道数量。

    在将信号缩混为2ch后,“diag_dest2[i][j-1]”存储表明添加了对话声音的声道i
    的音频信号的声道的声道信息(声道数量)。进一步地,当声道i的音频信号添加到由存储在
    diag_dest2[i][j-1]中的信息标识的声道中时,“diag_mix_gain2[i][j-1]”存储表明增益
    因子的指数。此处,diag_mix_gain2[i][j-1]的值和增益因子之间的对应关系是如图4所示
    的关系。

    进一步地,一对diag_dest2[i][j-1]和diag_mix_gain2[i][j-1]存储在对话声道
    信息中,与num_of_dest_chans2[i]中显示的数字一样多。此处,diag_dest2[i][j-1]和[i]
    [j-1]diag_mix_gain2中的变量j设置为从1到num_of_dest_chans2[i]的值。

    当音频信号缩混为单声道声道时(即1声道(1ch)),“num_of_dest_chans1[i]”表
    明添加声道i的音频信号的缩混后的声道数量。,当声道i的音频信号添加到缩混后的音频
    信号时“diag_mix_gain1[i]”存储表明增益因子的指数。此处,diag_mix_gain1[i]的值和
    增益因子之间的对应关系是如图4所示的关系。

    <编码器的配置示例>

    接下来,将说明应用本技术的编码器的实施方式。

    图5是示出应用本技术的编码器的配置示例的示意图。

    编码器11包括对话声道信息生成单元21、编码单元22、封装单元23和输出单元24。

    对话声道信息生成单元21基于从外部和涉及对话声音的各种信息提供的多声道
    音频信号生成对话声道信息,并且向封装单元23提供对话声道信息。

    编码单元22对从外部提供的多声道音频信号进行编码,并将编码的音频信号(在
    下文中,也称为编码数据)提供给封装单元23。进一步地,编码单元22包括时间到频率转换
    单元31,其对音频信号执行时间到频率的转换。

    封装单元23通过对由对话声道信息生成单元21提供的对话声道信息和由编码单
    元22提供的编码数据进行封装来生成比特流,并将比特流提供给输出单元24。输出单元24
    将由封装单元23提供的比特流输出给解码器。

    <编码处理的说明>

    下面,说明编码器11的操作。

    当多声道音频信号从外部提供时,编码器11对音频信号逐帧编码,并输出比特流。
    在这种情况下,例如,如图6所示,对于组成多声道的每个声道,生成diag_present_flag[i]
    作为每个帧的对话声音的声道的标识信息并对其进行解码。

    在该示例中,FC、FL、FR、LS、RS、TpFL和TpFR分别代表组成7.1ch的FC声道、FL声道、
    FR声道、LS声道、RS声道、TpFL声道和TpFR声道,并且为各个声道生成标识信息。

    在这种情况下,每个矩形代表每个帧的每个声道的标识信息并且这些矩形中的数
    值“1”或“0”表示标识信息的值。因此,在该示例中,可以看出,在FC声道和LS声道是对话声
    音的声道而其它声道是没有对话声音的声道。

    编码器11为音频信号的每个帧生成包括每个声道的标识信息的对话声道信息,并
    输出包括对话声道信息和编码数据的比特流。

    在下文中,将参考图7的流程图,说明编码器11编码音频信号并输出比特流的编码
    处理。此处,该编码处理对音频信号的每个帧执行。

    在步骤S11中,基于从外部提供的多声道音频信号,对话声道信息生成单元21判断
    组成多声道的每个声道是否是音频信号声道,并基于判断结果生成标识信息。

    例如,对话声道信息生成单元21从被提供作为预定声道的音频信号的脉冲编码调
    制(PCM)数据提取特征量,并基于特征量判断声道的音频信号是否是对话声音信号。然后,
    对话声道信息生成单元21基于判断结果生成标识信息。通过这种配置,获得如图2所示的
    diag_present_flag[i]作为标识信息。

    此处,表明每个声道是否是对话声音的声道的信息可以从外部提供给对话声道信
    息生成单元21。

    在步骤S12中,对话声道信息生成单元21基于涉及由外界提供的对话声音的信息
    和在步骤S11生成的标识信息生成对话音声道信息,并将对话道信息提供给封装单元23?;?br />句话说,对话声道信息生成单元21生成diag_dest5[i][j-1]或diag_mix_gain5[i][j-1],
    diag_dest5[i][j-1]是表明目标添加对话音声道的目标的信息,diag_mix_gain5[i][j-1]
    是表明当基于涉及由外界提供的对话声音的信息添加对话声音的声道时的增益的增益信
    息。然后,对话声道信息生成单元21通过编码这些信息和标识信息获得对话声道信息。以这
    种配置,例如,获得如图2所示的对话声道信息。

    在步骤S13中,编码单元22对从外部提供的多声道音频信号编码。

    更具体地,时间至频率转换单元31对音频信号执行修正离散余弦转换(MDCT)并将
    音频信号从时间信号转换为频率信号。

    进一步地,编码单元22对从音频信号的MDCT获得的MDCT系数编码,并且获得比例
    因子、边信息和量子谱。然后,编码单元22将获得的比例因子、边信息和量子谱提供给封装
    单元23,作为通过对音频信号编码获得的编码数据。

    在步骤S14中,封装单元23通过对从对话声道信息生成单元21提供的对话声道信
    息和从编码单元22提供的编码数据封装,生成比特流。

    换句话说,对于要处理的帧,封装单元23生成由SCE和CPE构成的存储编码数据的
    比特流和包括对话声道信息等的DSE,并将比特流提供给输出单元24。

    在步骤S15中,输出单元24将从封装单元23提供的比特流输出到解码,并且编码处
    理结束。然后,在那之后,执行随后的帧的编码。

    如上所述,当对音频信号进行编码时,编码器11在音频信号的基础上生成标识信
    息,然后生成包括标识信息的对话声道信息,并在比特流中存储对话声道信息。有了该配
    置,比特流的接收侧可以指定哪个声道的音频信号是对话声音的音频信号。因此,对话声音
    的音频信号可以从缩混处理排除并添加到缩混后的信号上,从而可以获得高质量的声音。

    <解码器的配置示例>

    接下来,将说明接收从编码器11输出的比特流并解码音频信号的解码器。

    图8是示出应用本技术的解码器的配置示例的示意图。

    图8的解码器51是由获取单元61、提取单元62、解码单元63、缩混处理单元64和输
    出单元65。

    获取单元61从编码器11获取比特流,并向提取单元62提供比特流。提取单元62从
    获取单元61提供的比特流提取对话声道信息,并将对话声道信息提供给缩混处理单元64,
    并且还从比特流提取编码数据,并将编码数据提供给解码单元63。

    解码单元63对由提取单元62提供的编码数据进行解码。进一步地,解码单元63包
    括频率到时间转换单元71?;谟山饴氲ピ?3对编码数据进行解码获得的MDCT系数,频率
    到时间转换单元71执行修正离散余弦逆转换(IMDCT)。解码单元63向缩混处理单元64提供
    PCM数据,其是通过IMDCT获得的音频信号。

    缩混处理单元64基于提取单元62提供的对话声道信息,从解码单元63提供的音频
    信号中选择将被缩混的音频信号和将不被缩混的音频信号。进一步地,缩混处理单元64对
    选择的音频信号执行缩混处理。

    进一步地,缩混处理单元64通过向对话声道信息在缩混处理中获得的预定数量的
    声道的音频信号中指定的声道的音频信号添加从缩混处理目标排除的音频信号,获得最后
    的多声道或单声道音频信号。缩混处理单元64向输出单元65提供获得的音频信号。

    输出单元65向后一阶段的未图示的再现装置等输出由缩混处理单元64提供的每
    一帧的音频信号。

    <缩混处理单元的配置示例>

    进一步地,例如,如图8所示的缩混处理单元64如图9所示地配置。

    如图9所示的缩混处理单元64包括选择单元111、缩混单元112、增益校正单元113
    和添加单元114。

    缩混处理单元64从对话声道信息读取由提取单元62提供给缩混处理单元64的各
    种信息,并根据需要将信息提供给缩混处理单元64的各个单元。

    选择单元111基于diag_present_flag[i](从对话声道信息读取的标识信息),从
    由解码单元63提供的每个声道i的音频信号中选择将被缩混的音频信号和将不被缩混的音
    频信号?;痪浠八?,将多声道音频信号分为对话声音音频信号和无对话声音的音频信号,并
    根据分类结果确定提供音频信号的目标。

    更具体的,选择单元111将diag_present_flag[i]为1的音频信号,即对话声音的
    音频信号,提供给增益校正单元113作为不被缩混的信号。另一方面,选择单元111将diag_
    present_flag[i]为0的音频信号,即没有对话声音的音频信号,提供给缩混单元112作为将
    被缩混的信号。此处,更多细节的,对话声音的音频信号的信号值设置为“0”,并且对话声音
    的音频信号也提供到缩混单元112。

    缩混单元112对选择单元111提供的音频信号执行缩混处理,将从选择单元111输
    入的多声道音频信号转换为更少声道的音频信号,并将信号提供给添加单元114。此处,在
    缩混处理中,根据需要使用从比特流中读取的缩混系数。

    增益校正单元113通过将由从对话声音音频信号读取的diag_mix_gain5[i][j-
    1]、[i][diag_mix_gain2J-1]或[i]diag_mix_gain1定义的增益因子与由选择单元111提供
    的对话声音音频信号复用执行增益校正,并将增益校正音频信号提供被添加单元114。

    添加单元114将从增益校正单元113提供的对话声音音频信号添加到由缩混单元
    112提供的音频信号之间的预定声道,并将作为结果获得的音频信号提供到输出单元65。

    在这种情况下,添加对话声音音频信号的目标由从对话声道信息读取的diag_
    dest5[i][j-1]或[i][j-1]diag_dest2指定。

    此处,当缩混处理单元64的输入是7.1ch音频信号并且缩混处理单元64的输出是
    5.1ch音频信号时,即当执行从7.1ch到5.1ch的缩混时,例如,缩混处理单元64假设具有如
    图10所示的更多的细节的配置。此处,在图10中,在对应于图9的情况下的部分提供相同的
    附图标记,并且其说明将被省略。

    图10示出更具体的图9所示的缩混处理单元64的每个单元的配置。

    换句话说,向选择单元111提供输出选择单元141和开关处理单元142-1至142-7。

    向输出选择单元141提供开关151-1到151-7,并且,将FC声道、FL声道、FR声道、LS
    声道、RS声道、TpFL声道和TpFR声道从解码单元63的音频信号提供到开关151-1到151-7。

    此处,“0”到“6”的声道编号i分别对应于FC、FL、FR、LS、RS、TpFL和TpFR各自的声
    道。

    开关151-I(这里,I=1,2,…,7)包括输出端子152-I(这里,I=1,2,…,7)和输出
    端子153-I(这里,I=1,2,…,7),并将从解码单元63提供的音频信号提供给输出端子152-I
    和153-I。

    更具体地,当标识信息diag_present_flag[i]的值是“0”时,开关151-I(I=i+1)
    将提供的音频信号通过输出端子152-I提供给缩混单元112。

    进一步地,当diag_present_flag[i]的值是“1”时,开关151-I将提供的音频信号
    输出到输出端子153-I。从输出端子153-I输出的音频信号分叉为2部分。音频信号的一部分
    只提供给开关处理单元142-I,并且音频信号的另一部分在值设置为“0”后提供给缩混单元
    112。在这样的设置下,对话声音频信号实际上不提供给缩混单元112。

    此处,将音频信号值设置为“0”的方法可以是任何方法,例如,将音频信号的值写
    为“0”或者乘以具有0的因子的增益数量。

    在下文中,当不特别需要区分开关151-1到151-7时,它们也简称为开关151。同样
    的,在下面,当不特别需要区分输出端子152-1到152-7时,它们也简称为输出端子152,当不
    特别需要区分输出端子153-1到153-7时,它们也简称为输出端子153。

    开关处理单元142-I(这里,I=1,2,…,7)包括关和关通过diag_dest5[i][j-1]控
    制的交换机161-I-1到161-I-5(这里,I=1,2,…,7)??卮淼ピ?42-I将从开关151-I提
    供的音频信号提供给乘法单元171-I-1到171-I-5(此处,I=1,2,…,7),来根据需要通过开
    关161-I-1到161-I-5(这里,I=1,2,…,7)组成增益校正单元113。

    更具体地,当diag_dest5[i][j-1]指定各自的FC、FL、FR、LS、RS为目标声道添加音
    频信号的声道数,相应开关161-I-1到161-I-5(这里I=i+1)打开和音频信号提供给乘法单
    元171-I-1到171-I-5(这里I=i+1)。

    例如,当缩混FC声道是由指定diag_dest5[i][j-1]作为一个旅游目标声道添加音
    频信号的FC声道具有声道数i=0,开关161-1-1打开并从输出端子153-1音频信号提供给
    171-1-1乘法单元。

    在下文中,当不特别需要区分开关处理单元142-1到142-7,它们也简称为开关处
    理单元142。

    同时,在下面,当不特别需要区分开关161-I-1到161-I-5(这里,I=1,2,…,7)时,
    它们也简称为开关161-I,并且当不特别需要区分开关161-1到161-7时,它们也简称为开关
    161。

    进一步地,在下文中,当不特别需要区分乘法单元171-I-1到171-I-5(这里,I=1,
    2,…,7)时,它们也简称为乘法单元171-I,当不特别需要区分乘法单元171-1到171-7时,它
    们也简称为乘法单元171。

    增益校正单元113包括乘法单元171-1-1到171-7-5,并且在乘法单元171中,由
    diag_mix_gain5[i][j-1]定义的增益因子被设置。

    更具体地,当diag_dest5[i][j-1]分别指定FC、FL、FR、LS和RS为目标声道,来添加
    声道编号i的音频信号,由diag_mix_gain5[i][j-1]定义的增益因子被分别设置到乘法单
    元171-I-1到171-I-5(这里I=i+1)。

    乘法单元171-I-1到171-I-5(这里,I=1,2,…,7)将设置的增益因子与由开关
    161-I-1到161-I-5提供的音频信号相乘,并将信号提供到添加单元114的加法器181-1到
    181-5。在这样的配置下,从缩混目标排除的对话声音的每个声道i的音频信号被增益校正,
    以提供给添加单元114。

    添加单元114包括加法器181-1到181-5,并且由缩混单元112将FC、FL、FR、LS和RS
    声道各自的缩混的音频信号提供到加法器181-1到181-5。

    加法器181-1至181-5将由乘法单元171提供的对话声音音频信号添加到从缩混单
    元112提供的音频信号,并提供给输出单元65。

    在下文中,如果不特别需要区分加法器181-1到181-5,它们也简称为加法器181。

    <解码处理的说明>

    接下来,将说明解码器51中的操作。此处,在下面,缩混处理单元64的配置是如图
    10所示的配置,并且在假设音频信号从7.1ch缩混为5.1声道的基础上进行说明。

    当比特流被从编码器11发送时,解码器51开始解码处理来接收和解码比特流。

    在下文中,参考图11的流程图,将说明由解码器51执行的解码处理。对音频信号的
    每一帧进行解码处理。

    在步骤S41中,获取单元61接收从编码器11发送的比特流,并将比特流提供到提取
    单元62。

    在步骤S42中,提取单元62从由获取单元61提供的DSE提取对话声道信息比特流,
    并向缩混处理单元64提供信息。进一步地,提取单元62根据需求从DSE提取信息(例如,缩混
    系数),并向缩混处理单元64提供信息。

    在步骤S43中,提取单元62从由获取单元61提供的比特流提取每个声道的编码数
    据,并向解码单元63提供数据。

    在步骤S44中,解码单元63解码由提取单元62提供的每个声道的编码数据。

    换句话说,解码单元63解码编码数据,并获得MDCT系数。更特别的,解码单元63基
    于比例因子、所述信息和提供作为编码数据的量子谱计算MDCT系数。然后,频率到时间转换
    单元71基于MDCT系数执行IMDCT处理,并将作为IMDCT处理的结果获得的音频信号提供给缩
    混处理单元64的开关151?;痪浠八?,执行音频信号的频率到时间转换,并获得作为时间信
    号的音频信号。

    在步骤S45中,缩混处理单元64基于由解码单元63提供的音频信号和由提取单元
    62提供的对话声道信息执行缩混处理,并将作为缩混处理的结果获得的音频信号提供给输
    出单元65。输出单元65在后一阶段将由缩混处理单元64提供的音频信号输出到再现装置
    等,并且解码处理结束。

    此处,虽然将在后面介绍缩混处理的细节,在缩混处理中,不是对话声音的音频信
    号被缩混,并且对话声音的音频信号被添加到缩混音频信号。进一步地,从输出单元65输出
    的音频信号被提供到扬声器,该扬声器通过再现装置等适用于每个声道,并且声音被再现。

    如上所述,在利用对话声道信息只缩混没有对话声音的音频信号并添加对话声音
    音频信号到缩混音频信号时,解码器51解码编码数据,并获得音频信号。这可以防止对话声
    音不清楚,并可以获得更高质量的声音。

    <缩混处理的说明>

    接下来,将参考如图12所示的流程图,说明对应于图11的步骤S45的缩混处理。

    在步骤S71中,缩混处理单元64从由提取单元62提供的对话声道信息读取get_
    main_audio_chans(),并计算以获得多个存储在比特流的音频信号声道。

    进一步地,缩混处理单元64还从对话声道信息读取init_data(chans),并计算来
    初始化diag_tag_idx[i]等的值作为参数?;痪浠八?,各声道i的diag_tag_idx[i]等的值设
    置为“0”。

    在步骤S72中,缩混处理单元64将表明将要处理的声道的声道数量的计数器的值
    (即由计数器表明的声道i的值)设置为i=0。在下文中,表示要处理的声道数的计数器也被
    称为计数器i。

    在步骤S73中,缩混处理单元64确定计数器的值是否小于步骤S71中获得的声道数
    量?;痪浠八?,确定是否所有的声道都作为将处理的声道。

    在步骤S73中,当确定计数器i的值小于声道数量时,缩混处理单元64从对话声道
    信息读取声道i的标识信息diag_present_flag[i],作为处理目标,并将diag_present_
    flag[i]提供给输出选择单元141,并且然后处理进行到步骤S74。

    在步骤S74中,输出选择单元141确定要处理的声道i是否是对话声音的声道。例
    如,当要处理的声道i的diag_present_flag[i]的值是“1”时,输出选择单元141确定声道是
    对话声音的声道。

    当在步骤S74中确定声道不是对话音声道时,在步骤S75中,输出选择单元141控制
    使由解码单元63提供的声道i的音频信号被按照原样提供给缩混单元112?;痪浠八?,输出
    选择单元141控制对应于声道i的开关151,并将开关151的输入端与输出端子152连接。采用
    这种配置,声道i的音频信号被按照原样提供给缩混单元112。

    当通过控制开关151选择了提供音频信号的目的地时,缩混处理单元64将计数器i
    保持的值增加1。然后,处理返回到步骤S73,并重复上述处理。

    另一方面,当在步骤S74确定声道是对话音声道时,在步骤S76中,输出选择单元
    141控制使由解码单元63提供的声道i的音频信号按照原样提供给开关处理单元142,并且
    由解码单元63提供的音频信号被设置为0值,并提供给缩混单元112。

    换句话说,输出选择单元141控制对应于声道i的开关151,并将开关151的输入端
    与输出端子153连接。因此,来自解码单元63的音频信号在从输出端子153输出后分叉为2部
    分,并且音频信号的一部分的信号值(振幅)设置为“0”,并提供给缩混单元112?;痪浠八?,
    控制来不实际地向混频单元112提供音频信号。进一步地,分开的音频信号的另一部分按照
    原样提供对应于声道i给开关处理单元142。

    在步骤S77中,缩混处理单元64为要处理的声道i设置增益因子。

    换句话说,缩混处理单元64从对话声道信息读取与由存储在对话声道信息的num_
    of_dest_chans5[i]表明的数量一样多的要处理的声道i的diag_dest5[i][j-1]和[i][j-
    1]diag_mix_gain5。

    然后,选择单元111基于diag_dest5[i][j-1]的每个值,识别目标来添加要处理的
    声道i的音频信号到缩混音频信号,并根据识别结果控制开关处理单元142的操作。

    更具体地,选择单元111控制被提供声道i的音频信号的开关处理单元142-(i+1),
    来关闭五个开关161-(i+1)中对应于要添加声道i的音频信号的目标的开关161-(i+1),并
    关闭其它开关161-(i+1)。

    通过以这种方式控制开关处理单元142,要处理的声道i的音频信号被提供给对应
    于声道的乘法单元171,以作为添加音频信号的目标。

    进一步地,缩混处理单元64基于从对话声道信息读取的diag_mix_gain5[i][j-
    1],获取作为添加声道i的音频信号的目标的各个声道的增益因子,并将增益因子提供给增
    益校正单元113。更具体地,例如,缩混处理单元64通过计算函数因素(fac[diag_mix_gain5
    [i][j-1]])获取增益因子。

    增益校正单元113向对应于5个乘法单元171-(i+1)之中的要添加声道i的音频信
    号的目标的乘法单元171-(i+1)提供并设置增益因子。

    例如,当缩混后,基于diag_dest5[0][j-1]的每个值确定要添加声道i是“0”的FC
    声道的音频信号的目标是FC、FL和FR声道时,开关161-1-1到161-1-3被打开,并且其它开关
    161-1-4和161-1-5被关闭。

    然后,基于diag_mix_gain5[0][j-1],在缩混后向FC、FL和FR声道的每个声道添加
    的时刻,读取缩混前的FC声道的增益因子,并且向乘法单元171-1-1到171-1-3提供并设置
    增益因子。此处,由于音频信号没有提供给乘法单元171-1-4和171-1-5,增益因子没有设
    置。

    当开关处理单元142选择音频信号的数据目标,并用这种方式设置增益因子,缩混
    处理单元64将保持在计数器i的值增加1。然后,处理返回到步骤S73,并且重复上述处理。

    进一步地,当在步骤S73中确定计数器i的值不小于在步骤S71中获得的声道数量,
    即当所有的声道都处理了时,缩混处理单元64向开关151输入由解码单元63提供的音频信
    号,并使处理进行到步骤S78。采用这种配置,不是对话声音的音频信号提供到缩混单元
    112,并且对话声音的音频信号通过开关161提供到乘法单元171。

    在步骤S78中,缩混单元112对由输出选择单元141的开关151提供的7.1ch的音频
    信号执行缩混处理,并将作为缩混处理的结果获得的5.1ch的每个声道的音频信号提供给
    加法器181。在这种情况下,缩混处理单元64通过根据需要从DSE等获取指数获得缩混系
    数,,并将缩混系数提供给缩混单元112,并且缩混单元112使用提供的缩混系数执行缩混。

    在步骤S79中,增益校正单元113执行由开关161提供了对话声音的音频信号的增
    益校正,并向加法器181提供信号?;痪浠八?,被从开关161提供音频信号的每个乘法单元
    171通过将设置的增益因子与音频信号相乘执行增益校正,并将增益校正的音频信号提供
    给加法器181。

    在步S80中,加法器181将由乘法单元171提供的对话声音的音频信号添加到由缩
    混单元112提供的音频信号,并将信号提供给输出单元65。当音频信号从输出单元65输出
    时,缩混处理结束,并且从而如图11所示的解码处理也结束了。

    如上所述,缩混处理单元64基于作为标识信息的diag_present_flag[i],确定每
    个声道的音频信号是否是对话声音信号,从缩混处理目标排除对话声音的音频信号,并向
    缩混音频信号添加被排除的信号。

    采用这种配置,可以获得更高质量的声音?;痪浠八?,当包括对话声音的音频信号
    的所有声道的音频信号被缩混时,对话声音在整个缩混声道传播,并且使得对话声音由于
    增益降低而不清楚。另一方面,通过解码器51,对话声音不受缩混影响,并且在所需要的声
    道重现,并且这使得对话声音更清晰。

    此处,将说明在已参考图12说明的缩混处理中执行的计算的具体示例。此处,假设
    num_of_dest_chans5[0]=1、num_of_dest_chans5[1]=1、diag_dest5[0][0]=0和diag_
    dest5[1][0]=0。

    换句话说,假设缩混前的FC声道和FL声道是对话声音,并且缩混后要添加那些对
    话声音的目标是FC声道。

    在这种情况下,输出选择单元141通过计算下面的公式(1)获取作为缩混输入的信
    号。

    [数学公式1]

    FC_dmin=inv(diag_present_flag[0])×FC

    FL_dmin=inv(diag_present_flag[1])×FL

    FR_dmin=inv(diag_present_flag[2])×FR

    LS_dmin=inv(diag_present_flag[3])×LS

    RS_dmin=inv(diag_present_flag[4])×RS

    TpFL_dmin=inv(diag_present_flag[5])×TpFL

    TpFR_dmin=inv(diag_present_flag[6])×TpFR (1)

    此处,在公式(1)中,FC、FL、FR、LS、RS、TpFL和TpFR代表由解码单元63提供的FC、
    FL、FR、LS、RS、TpFL和TpFR每个声道的音频信号的值。进一步地,inv()是inv(1)=0并且
    inv(0)=1的函数,即变换输入值的函数。

    进一步地,在公式(1)中,FC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin,TpFL_
    dmin和TpFR_dmin分别代表FC、FL、FR、LS、RS、TpFL和TpFR每个声道的音频信号,作为缩混单
    元112的输入。

    因此,在公式(1)的计算中,在根据diag_present_flag[i]的值被设置为“0”后,由
    解码单元63提供的每个声道的音频信号被处理为按照原样的值,或作为缩混单元112的输
    入。

    进一步地,缩混单元112基于作为输入的FC_dmin,fl_dmin、FR_dmin,LS_dmin,RS_
    dmin,TpFL_dminhe TpFR_dmin计算下面的公式(2),并在缩混后获得FC、FL、FR、LS和RS每个
    信道的音频信号,处理作为加法器181的输入。

    [数学公式2]

    FC'=FC_dmin

    FL'=TL_dmin×dmx_f1+TpFL_dmin×dmx_f2

    FR'=FR_dmin×dmx_f1+TpFR_dmin×dmx_f2

    LS'=LS_dmin

    RS'=RS_dmin (2)

    此处,在公式(2)中,FC'、FL'、FR'、LS'和RS'分别代表FC、FL、FR、LS、RS每个频道的
    处理作为加法器181-1到181-5的输入的路音频信号。进一步地,dmx_f1和dmx_f2代表缩混
    系数。

    进一步地,乘法单元171和加法器181获得FC、FL、FR、LS和RS每个声道最终的音频
    信号。在该示例中,对话声音的加入不是对FL、FR、LS、RS和RS的每个声道进行,所以FL'、
    FR'、LS'和RS'按照原样输出到输出单元65。

    另一方面,对FC声道进行下面的公式(3)的计算,并且作为计算结果获得的FC”作
    为FC声道的最终音频信号被输出。

    [数学公式3]

    FC”=FC+FC×fac[diag_mix_gain5[0][0]]

    +FL×fac[diag_mix_gain5[1][0]] (3)

    此处,在公式(3)中,FC和FL代表通过输出选择单元141提供给乘法单元171的FC声
    道和FL声道的音频信号。进一步地,fac[diag_mix_gain5[0][0]]代表通过向函数系数设定
    diag_mix_gain5[0][0]获得的增益因子,并且fac[diag_mix_gain5[1][0]]代表通过向函
    数系数设定diag_mix_gain5[1][0]获得的增益因子。

    <缩混处理单元的另一个配置示例>

    此处,在上面的内容中,音频信号从7.1ch缩混到5.1ch的情况已经作为示例进行
    了说明;然而,在缩混之前和之后的音频信号的声道配置可任意配置。

    例如,当音频信号从7.1ch缩混到2ch时,例如,如图9所示的缩混处理单元64的单
    元被如图13所示地设置。此处,在图13中,相同的附图标记应用到对应于图9或10的那些部
    分,并且其说明将被省略。

    在如图13所示的缩混处理单元64中,选择单元111上设置有输出选择单元141和开
    关处理单元211-1到211-7。

    在类似于图10的情况的输出选择单元141中,提供了开关151-1到151-7,并且在开
    关处理单元211-I(这里,I=1,2,…,7)中,提供了开关221-I-1和221-I-2(这里,I=1,
    2,…,7)。

    进一步地,在缩混单元112中,提供了缩混单元231和缩混单元232,在增益校正单
    元113中,提供了乘法单元241-1-1到241-7-2。进一步地,添加单元114中,提供了加法器
    251-1和251-2。

    在该示例中,FC声道、FL声道、FR声道、LS声道、RS声道、TpFL声道和TpFR声道的音
    频信号被分别从解码单元63提供到开关151-1到151-7。

    当作为标识信息diag_present_flag[i]的值是“0”时,开关151-I(这里I=i+1)将
    提供的音频信号通过输出端152-I提供给缩混单元231。

    进一步地,当diag_present_flag[i]的值是“1”时,开关151-I向输出端子153-I输
    出提供的音频信号。从输出端子153-I输出的音频信号被分为2部分;音频信号的一部分按
    照原样提供到开关处理单元211-I,并且音频信号的另一部分在值被设置为“0”后提供给缩
    混单元231。

    开关处理单元211-I(这里,I=1,2,…,7)根据需要通过开关221-I-1和221-I-2
    (此处,I=1,2,…,7),将由开关151-I提供的音频信号提供到组成增益校正单元113的乘法
    单元241-I-1和241-I-2(这里,I=1,2,…,7)。

    更具体的,当diag_dest2[i][j-1]分别指定FL和FR作为添加声道编号i的音频信
    号的目标声道时,各个开关221-I-1和221-I-2(这里,I=i+1)被打开,并且音频信号提供给
    乘法单元241-I-1和241-I-2(这里,I=i+1)。

    在下文中,当不特别需要区分开关处理单元211-1到211-7时,它们也简称为开关
    处理单元211。

    进一步地,在下面的内容中,当不特别需要区分开关221-I-1和221-I-2(这里,I=
    1,2,…,7),也简称为开关221-I,当它不是特别需要区分开关221-1到221-7时,它们也简称
    为开关221。

    进一步地,在下面的内容中,当不特别需要区分乘法单元241-I-1和241-I-2(这
    里,I=1,2,…,7)时,它们也简称为乘法单元241-I,并且当不特别需要区分乘法单元241-1
    到241-7时,它们也简称为乘法单元241。

    在增益校正单元113中,当diag_dest2[i][j-1]分别指定FL和FR作为目标声道添
    加声道i的音频信号,由diag_mix_gain2[i][j-1]定义的增益因子被分别设置到乘法单元
    241-I-1和241-I-2(这里I=i+1)。

    乘法单元241-I-1和241-I-2(这里,I=1,2,…,7)将设置的增益因子与由开关
    221-I-1和221-I-2提供的音频信号相乘,并且将信号提供给添加单元114的加法器251-1和
    251-2。采用这种结构,对不是缩混目标的信道i的每个音频信号执行增益校正,并且信号被
    提供给添加单元114。

    缩混单元231将由输出选择单元141提供的7.1ch的音频信号缩混到5.1ch的音频
    信号,并且将信号提供到缩混单元232。从缩混单元231输出的5.1ch的音频信号由FC、FL、
    FR、LS和RS声道构成。

    缩混单元232将由缩混单元231提供的5.1ch的音频信号缩混到2ch的音频信号,并
    将信号提供给添加单元114。从缩混单元232输出的2ch的音频信号由FL和FR声道构成。

    FL和FR声道的各个缩混音频信号从混频单元232提供到添加单元114的相应的加
    法器251-1和251-2。

    加法器251-1和251-2将由乘法单元241提供的音频信号添加到由缩混单元232提
    供的音频信号,并提供到输出单元65。

    在下文中,当不特别需要区分加法器251-1和251-2,它们也简称为加法器251。

    如图13所示的缩混处理单元64在多个阶段中执行从7.1ch到5.1ch的缩混,并且然
    后从5.1ch缩混到2ch。当从7.1ch到2ch的缩混在4如图13所示的缩混处理单元6中如上面所
    描述地执行时,例如,执行下面的计算。

    此处,假设num_of_dest_chans2[0]=2、num_of_dest_chans2[1]=2、diag_dest2
    [0][0]=0、diag_dest2[0][1]=1、diag_dest2[1][0]=0和diag_dest2[1][1]=1。

    换句话说,假设在缩混前FC声道和FL声道是对话声音的声道,并且添加那些缩混
    的对话声音的目标是FL声道和FR声道。

    在这种情况下,输出选择单元141通过计算下面的公式(4)获得缩混输入信号。

    [数学公式4]

    FC_dmin=inv(diag_present_flag[0])×FC

    FL_dmin=inv(diag_present_flag[1])×FL

    FR_dmin=inv(diag_present_flag[2])×FR

    LS_dmin=inv(diag_present_flag[3])×LS

    RS_dmin=inv(diag_present_flag[4])×RS

    TpFL_dmin=inv(diag_present_flag[5])×TpFL

    TpFR_dmin=inv(diag_present_flag[6])×TpFR (4)

    换句话说,在公式(4)中,执行类似于上述公式(1)的计算。

    进一步地,缩混单元231基于FC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_
    dmin和TpFR_dmin的输入计算下面的公式(5),并获得作为缩混单元232输入的FC、FL、FR、LS
    和RS声道的缩混音频信号。

    [数学公式5]

    FC'=FC_dmin

    FL'=FL_dmin×dmx_f1+TpFL_dmin×dmx_f2

    FR'=FR_dmin×dmx_f1+TpFR_dmin×dmx_f2

    LS'=LS_dmin

    RS'=RS_dmin (5)

    换句话说,在公式(5)中,执行类似于上述公式(2)的计算。

    进一步地,缩混单元232基于FC'、FL'、FR'、LS'和RS'的输入和LFE声道音频信号
    LFE'计算下面的公式(6),并获得添加单元114的输入的缩混的FL和FR声道的音频信号。

    [数学公式6]

    FL”=FL'+FC'×dmx_b+LS'×dmx_a+LFE'×dmx_c

    FR”=FR'+FC'×dmx_b+RS'×dmx_a+LFE'×dmx_c (6)

    此处,在公式(6)中,FL”和FR”代表将要输入到加法器251-1和251-2中的FL和FR声
    道的音频信号。进一步地,dmx_a、dmx_b和dmx_c代表缩混系数。

    进一步地,乘法单元241和加法器251获得FL和FR声道的最终的音频信号。在该示
    例中,通过计算下面的公式(7),对话声音被添加到FL”和FR”,并且从而获得作为加法器251
    最终输出的FL声道和FR声道音频信号。

    [数学公式7]

    FL”'=FL”+diag_mix1

    FR”'=FR”+diag_mix2 (7)

    此处,在公式(7)中,FL”'和FR”'代表FL声道和FR的音频信号,其是加法器251的最
    终输出。进一步地,假设由下面的公式(8)获得diag_mix1和diag_mix2。

    [数学公式8]

    diag_mix1=FC×fac[diag_mix_gain2[0][0]]

    +FL×fac[diag_mix_gain2[1][0]]

    diag_mix2=FC×fac[diag_mix_gain2[0][1]]

    +FL×fac[diag_mix_gain2[1][1]] (8)

    此处,在公式(8)中,FC和FL代表由乘法单元241通过输出选择单元141提供的FC声
    道和FL声道的音频信号。

    进一步地,fac[diag_mix_gain2[0][0]]代表通过对函数系数设定diag_mix_
    gain2[0][0]获得的增益因子,并且fac[diag_mix_gain2[1][0]]代表通过对函数系数设定
    diag_mix_gain2[1][0]获得的增益因子。类似的,fac[diag_mix_gain2[0][1]]代表通过向
    函数系数设定diag_mix_gain2[0][1]获得的增益因子,并且fac[diag_mix_gain2[1][1]]
    代表通过向函数系数设定diag_mix_gain2[1][1]获得的增益因子。

    进一步地,在缩混处理单元64中,可以在执行从7.1ch到5.1ch的缩混和进一步执
    行从5.1ch到2ch的缩混后执行从2ch到1ch的缩混。在这种情况下,例如,执行下面的计算。

    此处,在这种情况下,假设num_of_dest_chans1[0]=1并且num_of_dest_chans1
    [1]=1?;痪浠八?,假设在缩混之前FC声道和FL声道是对话声音的声道,并且添加缩混对话
    声音的目标是FC声道。

    在这种情况下,选择单元111通过计算下面的公式(9)获取缩混输入信号。

    [数学公式9]

    FC_dmin=inv(diag_present_flag[0])×FC

    FL_dmin=inv(diag_present_flag[1])×FL

    FR_dmin=inv(diag_present_flag[2])×FR

    LS_dmin=inv(diag_present_flag[3])×LS

    RS_dmin=inv(diag_present_flag[4])×RS

    TpFL_dmin=inv(diag_present_flag[5])×TpFL

    TpFR_dmin=inv(diag_present_flag[6])×TpFR (9)

    换句话说,在公式(9)中,执行类似于上述公式(1)的计算。

    进一步地,缩混单元112基于FC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_
    dmin和TpFR_dmin的输入,通过计算下面的公式(10)执行从7.1ch到5.1ch的缩混。

    [数学公式10]

    FC'=FC_dmin

    FL'=FL_dmin×dmx_f1+TpFL_dmin×dmx_f2

    FR'=FR_dmin×dmx_f1+TpFR_dmin×dmx_f2

    LS'=LS_dmin

    RS'=RS_dmin (10)

    换句话说,在公式(10)中,执行类似于上述公式(2)的计算。

    进一步地,缩混单元112基于FC'、FL'、FR'、LS'和RS'以及LFE声道的音频信号
    LFE',通过计算下面的公式(11)执行从5.1ch到2ch的缩混。

    [数学公式11]

    FL”=FL'+FC'×dmx_b+LS'×dmx_a+LFE”×dmx_c

    FR”=FR'+FC'×dmx_b+RS'×dmx_a+LFE'×dmx_c (11)

    换句话说,在公式(11)中,执行类似于上述公式(6)的计算。

    最后,通过增益校正单元113和添加单元114计算下面的公式(12),并获得FC声道
    的最终音频信号。

    [数学公式12]

    FC”'=FL”+FR'+diag_mix (12)

    这里,在公式(12)中,FC”'代表FC声道的最终的音频声道,并假设diag_mix由下面
    的公式(13)获得。

    [数学公式13]

    diag_mix=FC×fac[diag_mix_gain1[0]]

    +FL×fac[diag_mix_gain1[1]] (13)

    在公式(13)中,FC和FL代表由增益校正单元111通过选择单元113提供的FC声道和
    FL声道的音频信号。

    进一步地,fac[diag_mix_gain1[0]]代表通过向函数系数设定diag_mix_gain1
    [0]获得的增益因子,并且fac[diag_mix_gain1[1]]代表向函数系数设定diag_mix_gain1
    [1]获得的增益因子。

    此处,在上面的描述中,已经说明了由于对话声音的声道没有用在缩混处理中,要
    输入到缩混的对话声音的音频信号被设置为“0”值的示例;然而,缩混系数可设置是“0”。在
    这种情况下,缩混处理单元64设置声道i的缩混系数,其中diag_present_flag[i]的值是
    “1”到“0”。在这样的配置下,对话声音的声道实际上从缩混处理被排除。

    进一步地,由于对话声道信息包括指示对话声音的声道的特性的diag_tag_idx
    [i],只有一些优选的对话声音可以通过利用diag_tag_idx[i]从多个对话声音中被选择并
    重现。

    更具体的,当多个对话声音用于开关时,缩混处理单元64的选择单元111基于
    diag_tag_idx[i]由上游装置从多个对话声音的声道中选择指定的一个或多个对话声音的
    声道,并且将声道提供给缩混单元112和增益校正单元113。在这种情况下,提供到缩混单元
    112的对话声音的声道的音频信号被设置为“0”值。进一步地,至于为选择的其它对话声音
    的声道,选择单元111丢弃那些声道的音频信号。在这样的配置下,可以容易地执行语言等
    的开关。

    此处,上述一系列处理可以通过硬件或软件执行。当一系列处理由软件执行时,包
    括软件的程序被安装在计算机中。此处,例如,计算机可以是安装在专用的硬件上的计算
    机,或者是能够通过安装各种程序执行各种功能的通用个人计算机。

    图14是示出使用程序执行上述一系列处理的计算机硬件的配置示例的方框图。

    在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器
    (RAM)503通过总线504彼此连接。

    输入/输出接口505也连接到总线504。输入单元506、输出单元507、记录单元508、
    通信单元509和驱动器510连接到输入/输出接口505。

    输入单元506包括键盘、鼠标、麦克风、图像捕捉元件等。输出单元507包括显示器、
    扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动
    器510驱动可移除介质511(例如,磁盘、光学、磁性光盘、半导体存储器等)。

    在具有上述配置的计算机中,例如,上述一系列处理由CPU501由输入/输出接口
    505和总线504向RAM503通过下载并执行记录在记录单元508中的程序执行。

    例如,由计算机(CPU 501)执行的程序可以通过记录在作为便携式介质等的可移
    除介质511中来提供。进一步地,程序可以通过有线或无线传输介质(例如,局域网、互联网、
    数字卫星广播等)提供。

    在计算机中,程序可以通过在驱动器510上附加可移除介质511经由输入/输出接
    口505安装在记录单元单元508中。进一步地,程序可以通过通信单元509经由有线或无线传
    输介质接收,并且然后安装在记录单元508中。除了上面的内容,程序可以提前安装在
    ROM502或记录单元508中。

    此处由计算机执行的程序可以是沿着本说明书描述的顺序的时间顺序执行处理
    的程序,或者可以是处理是并行执行或在需要的时机(例如,执行呼叫的时机)执行的程序。

    进一步地,本技术的实施方式没有限制在上述实施方式,并且可以在本技术的范
    围内进行各种改变。

    例如,本技术可以应用云计算的配置,该云计算的配置是由超过一个装置通过通
    络来共享或一起工作处理的一个函数。

    进一步地,在上面说明的流程图的每个步骤可以由单个装置执行或者通过在超过
    一个装置间共享执行。

    进一步地,当多个处理包括在一个步轴中时,该步骤中包括的多个处理可以由单
    个装置执行或者通过在超过一个装置间共享执行。

    进一步地,本技术可以采用下面的配置。

    (1)一种音频信号处理装置,包括:

    选择单元,被配置为基于与多声道音频信号的每个声道有关的信息从所述多声道
    音频信号选择对话声音的声道的音频信号以及待缩混的多个声道的音频信号;

    缩混单元,被配置为将所述待缩混的多个声道的音频信号缩混为一个或多个声道
    的音频信号;以及

    添加单元,被配置为将所述对话声音的声道的音频信号添加到通过缩混获得的所
    述一个或多个声道的音频信号中的预定声道的音频信号。

    (2)根据(1)所述的音频信号处理装置,其中,

    所述添加单元将所述对话声音的声道的音频信号添加到所述预定声道,所述预定
    声道是由添加目的地信息指定的声道,所述添加目的地信息指示待添加所述对话声音的声
    道的音频信号的目的地。

    (3)根据(2)所述的音频信号处理装置,进一步包括:

    增益校正单元,被配置为基于增益信息执行所述对话声音的声道的音频信号的增
    益校正,所述增益信息指示在向所述预定声道的音频信号添加所述对话声音的声道的音频
    信号时的增益,

    其中,所述添加单元将由所述增益校正单元校正了增益的音频信号添加到所述预
    定声道的音频信号中。

    (4)根据(3)所述的音频信号处理装置,进一步包括:

    提取单元,被配置为从比特流提取与每个声道有关的信息、所述添加目的地信息
    以及所述增益信息。

    (5)根据(4)所述的音频信号处理装置,

    其中,所述提取单元进一步从所述比特流提取经编码的多声道音频信号,并且

    所述音频信号处理装置进一步包括解码单元,所述解码单元被配置为将经编码的
    多声道音频信号解码并输出至所述选择单元。

    (6)根据(1)到(5)所述的音频信号处理装置,其中,

    所述缩混单元对所述待缩混的多个声道的音频信号执行多级缩混,并且

    所述添加单元将所述对话声音的声道的音频信号添加到在所述多级缩混中获得
    的所述一个或多个声道的音频信号中的所述预定声道的音频信号。

    (7)一种音频信号处理方法,包括以下步骤:

    基于与多声道音频信号的每个声道有关的信息从所述多声道音频信号选择对话
    声音的声道的音频信号以及待缩混的多个声道的音频信号;

    将所述待缩混的多个声道的音频信号缩混为一个或多个声道的音频信号;并且

    将所述对话声音的声道的音频信号添加到在缩混中获得的所述一个或多个声道
    的音频信号中的预定声道的音频信号。

    (8)一种使计算机执行步骤的程序,所述步骤包括:

    基于与多声道音频信号的每个声道有关的信息从所述多声道音频信号选择对话
    声音的声道的音频信号以及待缩混的多个声道的音频信号;

    将所述待缩混的多个声道的音频信号缩混为一个或多个声道的音频信号;并且

    将所述对话声音的声道的音频信号添加到在缩混中获得的所述一个或多个声道
    的音频信号中的预定声道的音频信号。

    (9)一种编码装置,包括:

    编码单元,被配置为对多声道音频信号进行编码;

    生成单元,被配置为生成标识信息,所述标识信息指示所述多声道音频信号的每
    个声道是否是对话声音的声道;以及

    封装单元,被配置为生成包含经编码的多声道音频信号和所述标识信息的比特
    流。

    (10)根据(9)所述的编码装置,其中

    当所述多声道音频信号被缩混时,所述生成单元进一步生成添加目的地信息,所
    述添加目标信息表示通过缩混获得的一个或多个声道的音频信号中作为待添加所述对话
    声音的声道的音频信号的目的地的音频信号的声道,并且

    所述封装单元生成包括经编码的多声道音频信号、所述标识信息以及所述添加目
    的地信息的所述比特流。

    (11)根据(10)所述的编码装置,其中,

    所述生成单元进一步在向由所述添加目的地信息表示的声道添加所述对话声音
    的声道的音频信号时生成增益信息,并且

    所述封装单元生成包括经编码的多声道音频信号、所述标识信息、所述添加目的
    地信息以及所述增益信息的所述比特流。

    (12)一种编码方法,包括以下步骤:

    对多声道音频信号进行编码;

    生成标识信息,所述标识信息表示所述多声道音频信号中的每个声道是否是对话
    声音的声道;并且

    生成包括经编码的多声道音频信号和所述标识信息的比特流。

    (13)一种使计算机执行包括步骤的处理的程序,所述步骤包括:

    对多声道音频信号进行编码;

    生成标识信息,所述标识信息表示所述多声道音频信号的每个声道是否是对话声
    音的声道;和

    生成包括编码的多声道音频信号和所述标识信息的比特流。

    符号说明

    11 编码器

    21 对话声道信息生成单元

    22 编码单元

    23 封装单元

    51 解码器

    63 解码单元

    64 缩混处理单元

    111 选择单元

    112 缩混单元

    113 增益校正单元

    114 添加单元

    关于本文
    本文标题:音频信号处理装置和方法、编码装置和方法以及程序.pdf
    链接地址://www.4mum.com.cn/p-6013870.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 七乐彩走势图带连线带坐标 幸运飞艇怎么玩稳赚 彩票跟计划 帝景江西时时 竞彩足球稳赚不赔方法 山东时时开奖号码 极速3d稳定计划 后一倍投方案稳赚 四川时时vv平台 时时彩包胆计划技巧 问道五行竞猜技巧规律 北京时时是正规的 老虎机的规律 pk10软件怎么制作 赛车每一天稳赚玩法 全网最新36码特围