• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 23
    • 下载费用:30 金币  

    重庆时时彩有什么规律嘛: 音频编码方法和设备、音频解码方法和设备.pdf

    关 键 词:
    音频 编码 方法 设备 解码
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201710035445.7

    申请日:

    2012.06.01

    公开号:

    CN106803425A

    公开日:

    2017.06.06

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G10L 19/00申请日:20120601|||公开
    IPC分类号: G10L19/00(2013.01)I; G10L19/02(2013.01)I; G10L19/032(2013.01)I 主分类号: G10L19/00
    申请人: 三星电子株式会社
    发明人: 安顿·普波沃; 康斯坦丁·奥斯波夫; 朱基岘
    地址: 韩国京畿道水原市
    优先权: 2011.06.01 RU 2011-121982
    专利代理机构: 北京铭硕知识产权代理有限公司 11286 代理人: 曾世骁;孔敏
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201710035445.7

    授权公告号:

    |||

    法律状态公告日:

    2017.06.30|||2017.06.06

    法律状态类型:

    实质审查的生效|||公开

    摘要

    提供一种音频编码方法和设备、音频解码方法和设备。所述音频编码方法包括:针对音频频谱基于预定的子频带获取包络;基于预定的子频带对包络进行量化;获得相邻子频带的量化的包络之间的差值并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损编码。因此,对音频频谱的包络信息进行编码所需的比特的数量可被减少到有限的比特范围内,从而增加对实际频谱分量进行编码所需的比特的数量。

    权利要求书

    1.一种音频编码方法,包括:
    对音频频谱的包络进行量化以获得包括先前子频带的量化索引和当前子频带的量化
    索引的多个量化索引,其中,所述音频频谱包括多个子频带;
    从先前子频带的量化索引和当前子频带的量化索引获得当前子频带的差分量化索引;
    通过使用先前子频带的差分量化索引来获得当前子频带的上下文;
    基于当前子频带的上下文对当前子频带的差分量化索引进行无损编码。
    2.如权利要求1所述的方法,其中,包络是相应的子频带的平均能量、平均幅度、功率和
    范数值中的一个。
    3.如权利要求1所述的方法,其中,无损编码的步骤包括:在将当前子频带的差分量化
    索引调整为具有特定范围之后对当前子频带的差分量化索引进行无损编码。
    4.如权利要求1所述的方法,其中,无损编码的步骤包括:通过将与所述上下文相应的
    当前子频带的差分量化索引分组为多个组中的一个组,并通过使用针对每个组定义的霍夫
    曼表来对当前子频带的差分量化索引执行霍夫曼编码,来对当前子频带的差分量化索引进
    行无损编码。
    5.如权利要求1所述的方法,其中,无损编码的步骤包括:通过将与所述上下文相应的
    当前子频带的差分量化索引分组为第一组至第三组中的一个组并分配包括用于第二组的
    第一霍夫曼表和为第一组和第三组共享的第二霍夫曼表的两个霍夫曼表,来对当前子频带
    的差分量化索引进行无损编码。
    6.如权利要求5所述的方法,其中,无损编码的步骤包括:当第二霍夫曼表被共享时,通
    过按原样地将先前子频带的差分量化索引用作上下文或在将先前子频带的差分量化索引
    反转之后用作上下文,来对当前子频带的差分量化索引进行无损编码。
    7.如权利要求1所述的方法,其中,无损编码的步骤包括:通过针对不存在先前子频带
    的第一子频带,按原样地对量化索引进行霍夫曼编码,并通过将第一子频带的量化索引与
    预定参考值之间的差用作上下文来对接着第一子频带的第二子频带的差分量化索引执行
    霍夫曼编码,来对当前子频带的差分量化索引进行无损编码。
    8.一种音频解码设备,包括:
    至少一个处理装置,被配置为:
    接收包括音频频谱的包络的经编码的量化差分索引的比特流;
    基于从先前子频带的量化差分索引获得的上下文来对当前子频带的经编码的量化差
    分索引进行无损解码。
    9.如权利要求8所述的设备,其中,包络是相应的子频带的平均能量、平均幅度、功率和
    范数值中的一个。
    10.如权利要求8所述的设备,其中,所述至少一个处理装置被配置为:通过参考针对组
    定义的表来对当前子频带的经编码的量化差分索引进行无损解码,其中,所述组通过对与
    所述上下文相应的量化差分索引进行分组来获得。
    11.如权利要求8所述的设备,其中,所述至少一个处理装置被配置为:通过参考包括用
    于第二组的第一表和为第一组和第三组共享的第二表的多个表来对当前子频带的经编码
    的量化差分索引进行无损解码,其中,第一组至第三组通过对与所述上下文相应的量化差
    分索引进行分组来获得。
    12.如权利要求11所述的设备,其中,当第二表被共享时,从先前子频带的量化差分索
    引获得的上下文按原样地被使用或在反转之后被使用。
    13.如权利要求8所述的设备,其中,所述至少一个处理装置被配置为:
    按原样地对不存在先前子频带的第一子频带的经编码的量化索引进行无损解码,并基
    于第一子频带的经编码的量化索引与预定参考值之间的差对接着第一子频带的第二子频
    带的经编码的量化差分索引进行解码。

    说明书

    音频编码方法和设备、音频解码方法和设备

    本申请是申请日为2012年6月1日,申请号为“201280037719.1”,标题为“音频编码
    方法和设备、音频解码方法和设备及其记录介质和采用音频编码方法和设备、音频解码方
    法和设备的多媒体装置”的发明专利申请的分案申请。

    技术领域

    与示例性实施例一致的设备和方法涉及音频编码/解码,更具体地讲,涉及一种能
    够在不增加复杂度和恢复的声音质量的恶化的情况下,通过减少在有限比特范围内对音频
    频谱的包络信息进行编码所需的比特的数量来增加对实际频谱分量进行编码所需的比特
    的数量的音频编码方法和设备、音频解码方法和设备、记录介质和采用该音频编码方法和
    设备、音频解码方法和设备的多媒体装置。

    背景技术

    当对音频信号进行编码时,除实际频谱分量以外的附加信息(诸如,包络)可包括
    在比特流中。在这种情况下,通过在使损失最小化的同时减少分配用于附加信息的编码的
    比特的数量,分配用于实际频谱分量的编码的比特的数量可被增加。

    也就是说,当对音频信号进行编码或解码时,需要通过以特别低的比特率有效地
    使用有限数量的比特来构建在相应比特范围内具有最优声音质量的音频信号。

    发明内容

    技术问题

    一个或更多个示例性实施例的多个方面提供一种音频编码方法和设备、音频解码
    方法和设备、记录介质和采用其的多媒体装置,其中,所述音频编码方法和设备能够在不增
    加复杂度和恢复的声音质量的恶化的情况下,在将对音频频谱的包络信息进行编码所需的
    比特的数量减少到有限的比特范围内的同时,增加对实际频谱分量进行编码所需的比特的
    数量。

    解决方案

    根据一个或更多个示例性实施例的一方面,提供一种音频编码方法,包括:针对音
    频频谱基于预定的子频带获取包络;基于预定的子频带对包络进行量化;获得相邻子频带
    的量化的包络之间的差值并通过将先前子频带的差值用作上下文来对当前子频带的差值
    进行无损编码。

    根据一个或更多个示例性实施例的一方面,提供一种音频编码设备,包括:包络获
    取单元,用于针对音频频谱基于预定的子频带获取包络;包络量化器,用于基于预定的子频
    带对包络进行量化;包络编码器,用于获得相邻子频带的量化的包络之间的差值,并通过将
    先前子频带的差值用作上下文来对当前子频带的差值进行无损编码;频谱编码器,用于对
    音频频谱进行量化和无损编码。

    根据一个或更多个示例性实施例的一方面,提供一种音频解码方法,包括:从比特
    流获得相邻子频带的量化的包络之间的差值,并通过将先前子频带的差值用作上下文来对
    当前子频带的差值进行无损解码;通过从作为无损解码的结果而被重构的当前子频带的差
    值获得基于子频带的量化的包络来执行反量化。

    根据一个或更多个示例性实施例的一方面,提供一种音频解码设备,包括:包络解
    码器,用于从比特流获得相邻子频带的量化的包络之间的差值,并通过将先前子频带的差
    值用作上下文来对当前子频带的差值进行无损解码;包络反量化器,用于通过从作为无损
    解码的结果而被重构的当前子频带的差值获得基于子频带的量化的包络来执行反量化;频
    谱解码器,用于对包括在比特流中的频谱分量进行无损解码和反量化。

    根据一个或更多个示例性实施例的一方面,提供一种包括编码??榈亩嗝教遄?br />置,其中,编码??橛糜谡攵砸羝灯灯谆谠ざǖ淖悠荡袢“?,基于预定的子频带对包
    络进行量化,获得相邻子频带的量化的包络之间的差值并通过将先前子频带的差值用作上
    下文来对当前子频带的差值进行无损编码。

    多媒体装置还可包括解码???,其中,解码??橛糜诖颖忍亓骰竦孟嗔谧悠荡?br />量化的包络之间的差值,并通过将先前子频带的差值用作上下文来对当前子频带的差值进
    行无损解码,通过从作为无损解码的结果而被重构的当前子频带的差值获得基于子频带的
    量化的包络来执行反量化。

    效果

    可在不增加复杂度和恢复的声音质量的恶化的情况下,通过减少在有限的比特范
    围内对音频频谱的包络信息进行编码所需的比特的数量,来增加对实际频谱分量进行编码
    所需的比特的数量。

    附图说明

    通过下面结合附图的示例性实施例的描述,这些和其他方面将变得清楚和更容易
    理解,其中:

    图1是根据示例性实施例的数字信号处理设备的框图;

    图2是根据另一示例性实施例的数字信号处理设备的框图;

    图3A和图3B分别示出在量化分辨率是0.5且量化步长是3.01时的相互比较的非优
    化的对数尺度和优化的对数尺度;

    图4A和图4B分别示出在量化分辨率是1且量化步长是6.02时的相互比较的非优化
    的对数尺度和优化的对数尺度;

    图5A和图5B是分别示出相互比较的非优化的对数尺度的量化结果和优化的对数
    尺度的量化结果的曲线图;

    图6是示出在先前子频带的量化差(delta)值被用作上下文时选择的三个组的概
    率分布的曲线图;

    图7是示出根据示例性实施例的图1的数字信号处理设备的包络编码器中的基于
    上下文的编码处理的流程图;

    图8是示出根据示例性实施例的图2的数字信号处理设备的包络解码器中的基于
    上下文的解码处理的流程图;

    图9是根据示例性实施例的包括编码??榈亩嗝教遄爸玫目蛲?;

    图10是根据示例性实施例的包括解码??榈亩嗝教遄爸玫目蛲?;

    图11是根据示例性实施例的包括编码??楹徒饴肽?榈亩嗝教遄爸玫目蛲?。

    具体实施方式

    示例性实施例可允许各种改变或修改以及形式上的各种改变,特定实施例将被示
    出在附图中并在说明书中被详细描述。然而,应理解特定实施例不将本发明构思限制为特
    定公开形式而是包括本发明构思的精神和技术范围内的所有修改的、等同的或替代的实施
    例。在以下描述中,由于公知的功能或构造将在不必要的细节上使本发明构思不清楚,因此
    不被详细描述。

    尽管诸如“第一”和“第二”的术语可用于描述各种元件,但所述元件可不被所述术
    语限制。所述术语可用于将特定元件与另一元件分开。

    在本申请中使用的术语仅用于描述特定实施例,而不具有任何限制本发明构思的
    意图。尽管在考虑在本发明构思中的功能的同时将当前尽可能广泛使用的通用术语选作在
    本发明构思中使用的术语,但它们可根据本领域的普通技术人员的意图、先前使用或新技
    术的出现改变。另外,在特定情况下,可使用由申请人有意地选择的术语,在这种情况下,将
    在本发明构思的相应描述中公开这些术语的意义。因此,在本发明构思中使用的术语不应
    仅由术语的名称而应由术语的含义和整个本发明构思中的内容来定义。

    除非在上下文中单数的表达与复数的表达明显彼此不同,否则单数的表达包括复
    数的表达。在本申请中,应理解诸如“包括”和“具有”的术语用于指示实施的特征、数字、步
    骤、操作、元件、部件或它们的组合的存在,而不是预先排除一个或更多个其他特征、数字、
    步骤、操作、元件、部件或它们的组合的存在或添加的可能性。

    在下文中,将参照示出本发明构思的示例性实施例的附图来更全面地描述本发明
    构思。附图中的相同的标号表示相同的元件,因此将省略它们的重复的描述。

    当诸如“…中的至少一个”的表述在一列元件之后时,其修饰整列元件而不修饰列
    出的单个元件。

    图1是根据示例性实施例的数字信号处理设备100的框图。

    图1中示出的数字信号处理设备100可包括变换器110、包络获取单元120、包络量
    化器130、包络编码器140、频谱归一化器150和频谱编码器160。数字信号处理设备100的组
    件可被集成到至少一个??橹?,并可由至少一个处理器实现。这里,数字信号可指示媒体信
    号,诸如,视频、图像、音频或语音、或指示通过对音频和语音进行合成来获得的信号的声
    音,但在下文中,为便于描述,数字信号通常指示音频信号。

    参照图1,变换器110可通过将音频信号从时域变换到频域来产生音频频谱??赏?br />过使用诸如改进的离散余弦变换(MDCT)的各种公知方法来执行时域到频域的变换。例如,
    用于时域的音频信号的MDCT可使用等式1来执行。


    在等式1中,N表示包括在单个帧中的采样的数量(即,帧大小),hj表示应用的窗
    口,sj表示时域的音频信号,xi表示MDCT系数??裳≡竦?,可使用正弦窗口(例如,hj=sin[π
    (j+1/2)/2N])替代等式1的余弦窗口。

    由变换器110获得的音频频谱的变换系数(例如,MDCT系数xi)被提供给包络获取
    单元120。

    包络获取单元120可从自变换器110提供的变换系数基于预定的子频带获取包络
    值。子频带是对音频频谱的采样进行分组的单位,并可通过反映临界频带具有均匀或不均
    匀的长度。当子频带具有不均匀的长度时,子频带可被设置为使得针对一帧包括在每个子
    频带中的从开始采样到最后采样的采样的数量渐渐增加。另外,当支持多比特率时,可进行
    设置使得包括在不同比特率的相应子频带的每个子频带中的采样的数量相同??稍は热范?br />包括在一个帧中的子频带的数量或包括在每个子频带中的采样数量。包络值可指示包括在
    每个子频带中的变换系数的平均幅度、平均能量、功率或范数(norm)值。

    每个子频带的包络值可使用等式2来计算,但不限于此。


    在等式2中,w表示包括在子频带中的变换系数的数量(即,子频带大小),xi表示变
    换系数,n表示子频带的包络值。

    包络量化器130可以以优化的对数尺度对每个子频带的包络值n进行量化。由包络
    量化器获得的每个子频带的包络值n的量化索引nq可使用例如等式3来获得。


    在等式3中,b表示取整系数,在优化之前的其初始值是r/2。另外,c表示对数尺度
    的底数,r表示量化分辨率。

    根据实施例,包络量化器130可可变地改变与每个量化索引相应的量化区域的左
    边界和右边界,从而与每个量化索引相应的量化区域中的总量化误差被最小化。为此,取整
    系数b可被调整,使得在量化索引与和每个量化索引相应的量化区域的左边界和右边界之
    间获得的左量化误差和右量化误差彼此相同。以下,描述包络量化器130的详细操作。

    可通过等式4执行每个子频带的包络值n的量化索引nq的反量化。


    在等式4中,表示每个子频带的反量化的包络值,r表示量化分辨率,c表示对数
    尺度的底数。

    由包络量化器130获得的每个子频带的包络值n的量化索引nq可被提供给包络编
    码器140,每个子频带的反量化的包络值可被提供到频谱归一化器150。

    尽管未示出,但基于子频带获得的包络值可用于对归一化的频谱(即,归一化的系
    数)进行编码所需的比特分配。在这种情况下,基于子频带量化和无损编码的包络值可包括
    在比特流中,并被提供给解码设备。与使用基于子频带获得的包络值的比特分配关联地,可
    应用反量化的包络值以在编码设备和相应的解码设备中使用相同的处理。

    例如,当包络值是范数值时,可使用基于子频带的范数值计算掩蔽(masking)阈
    值,并可使用掩蔽阈值预测感知上所需的比特数量。也就是说,掩蔽阈值是与恰可察觉失真
    (JND)相应的值,当量化噪声小于掩蔽阈值时,感知噪声可能不被感测到。因此,可使用掩蔽
    阈值计算感测不到感知噪声所需的比特的最小数量。例如,可使用范数值相对于基于子频
    带的掩蔽阈值的比例来计算信号掩蔽比(SMR),可使用对于SMR的6.025dB≒1比特的关系预
    测满足掩蔽阈值的比特数量。尽管预测的比特数量是感测不到感知噪声的所需的比特的最
    小数量,但在压缩方面不需要使用多于预测的比特数量的比特,所以预测的比特的数量可
    被认为是基于子频带允许的最大数量的比特(在下文中,被称为可允许的比特数量)??梢?br />以小数点单位表示每个子频带的可允许的比特数量,但不限于此。

    另外,可使用以小数点为单位的范数值来执行基于子频带的比特分配,但不限于
    此。从具有较大范数值的子频带顺序地分配比特,可调整分配的比特,从而通过基于每个子
    频带的感知上的重要性对每个子频带的范数值进行加权来将更多的比特分配到感知上更
    重要的子频带??赏ü缭贗TU-TG.719中定义的心理声学加权(psycho-acoustic
    weighting)来确定感知上的重要性。

    包络编码器140可获得用于从包络量化器130提供的每个子频带的包络值n的量化
    索引nq的量化差值,可基于用于量化差值的上下文执行无损编码,可将无损编码结果包括
    在比特流中,并可发送和存储比特流。先前子频带的量化差值可用作上下文。以下描述包络
    编码器140的详细操作。

    频谱归一化器150通过使用每个子频带的反量化包络值将变换系数归一
    化为从而使频谱平均能量为1。

    频谱编码器160可执行归一化的变化系数的量化和无损编码,可将量化和无损编
    码结果包括在比特流中,并可发送和存储比特流。这里,频谱编码器160可通过使用根据基
    于子频带的包络值最终确定的可允许的比特数量,来执行归一化的变换系数的量化和无损
    编码。

    归一化的变换系数的无损编码可使用例如阶乘脉冲编码(FPC)。FPC是通过使用单
    位幅度脉冲来有效地对信息信号进行编码的方法。根据FPC,可使用四个分量(即,非零脉冲
    位置的数量、非零脉冲的位置、非零脉冲的幅度和非零脉冲的符号)来表示信息内容。详细
    地,FPC可基于均方误差(MSE)范数确定的最优解,其中,在MSE
    中在满足(m表示单位幅度脉冲的总数量)的同时使子频带的原始矢量y和FPC
    矢量之间的差最小。

    可通过使用如等式5中的拉格朗日函数找到条件极值来获得最优解。




    在等式5中,L表示拉格朗日函数,m表示子频带中的单位幅度脉冲的总数量,λ表示
    作为拉格朗日乘子(即,优化系数)的用于寻找给定函数的最小值的控制参数,yi表示归一
    化的变换系数,表示在位置i处所需的脉冲的最优数量。

    当无损编码使用FPC被执行时,基于子频带获得的总集的可被包括在比特流中
    并被发送。另外,还可将最优乘子包括在比特流中并进行发送,其中,最优乘子用于使每个
    子频带中的量化误差最小化并执行平均能量的对齐(alignment)??赏ü仁?获得最优乘
    子。




    在等式6中,D表示量化误差,G表示最优乘子。

    图2是根据示例性实施例的数字信号解码设备200的框图。

    图2中示出的数字信号解码设备可包括包络解码器210、包络反量化器220、频谱解
    码器230、频谱反归一化器240和反变换器250。数字信号解码设备200的组件可集成到至少
    一个??橹胁⒂芍辽僖桓龃砥魇迪?。这里,数字信号可指示媒体信号,诸如,视频、图像、
    音频或语音、或指示通过对音频和语音进行合成而获得的信号的声音,但在下文中,数字信
    号通常指示音频信号以与图1的编码设备相应。

    参照图2,包络解码器210可经由通信信道或网络接收比特流,对包括在比特流中
    的每个子频带的量化差值进行无损解码,并重构每个子频带的包络值的量化索引nq。

    包络反量化器220可通过对每个子频带的包络值的量化索引nq进行反量化来获得
    反量化的包络值

    频谱解码器230可通过对接收的比特流进行无损解码和反量化来重构归一化的变
    换系数。例如,当编码设备已使用FPC时,包络反量化器可对关于每个子频带的总集的进
    行无损解码和反量化??砂凑盏仁?使用最优乘子G来执行每个子频带的平均能量对齐。


    如同在图1的频谱编码器160中,频谱解码器230可通过使用基于根据子频带的包
    络值最终确定的可允许的比特数量来执行无损解码和反量化。

    频谱反归一化器240可通过使用从包络反量化器220提供的反量化的包络值,对从
    包络解码器210提供的归一化的变换系数进行反量化。例如,当编码设备已使用FPC时,按照
    使用反量化的包络值将执行了能量对齐的反归一化。通过执行反归一化,重
    构每个子频带的原始频谱平均能量。

    反变换器250通过对从频谱反归一化器240提供的变换系数进行反变换来重构时
    域的音频信号。例如,可通过使用与等式1相应的等式8来对频谱分量进行反变换来获得
    时域的音频信号sj。


    在下文中,将更详细地描述图1的包络量化器130的操作。

    当包络量化器130以底数为c的对数尺度对每个子频带的包络值进行量化时,与量
    化索引相应的量化区域的边界Bi可由表示,近似点(即,量化索引)Ai可由
    表示,量化分辨率r可由r=Si-Si-1表示,量化步长可由201gAi-201gAi-1=20r1gc
    表示??赏ü仁?获得每个子频带的包络值n的量化索引nq。

    在非优化的线性尺度的情况下,与量化索引nq相应的量化区域的左边界和右边界
    从近似点远离不同的距离。由于该差异,如图3A和图4A所示,用于量化的信噪比(SNR)测量
    (即,量化误差)从近似点对于左边界和右边界具有不同的值。图3A示出非优化的对数尺度
    (底数为2)的量化,其中,量化分辨率为0.5和量化步长为3.01。如图3A所示,量化区域中的
    在左边界处和右边界处距离近似点的量化误差SNRL和SNRR分别是14.46dB和15.96dB。图4A
    示出非优化的对数尺度的量化(底数是2),其中,量化分辨率是1并且量化步长是6.02dB。如
    图4A所示,在量化区域中在左边界处和右边界处距离近似点的量化误差SNRL和SNRR分别是
    7.65dB和10.66dB。

    根据实施例,通过可变地改变与量化索引相应的量化区域的边界,与每个量化索
    引相应的量化区域中的总量化误差可被最小化。当在量化区域中的左边界处和右边界处获
    得的距离近似点的量化误差相同时,量化区域中的总量化误差可被最小化??赏ü杀涞?br />改变取整系数b来获得量化区域的边界位移。

    可通过等式9来表示在与量化索引i相应的量化区域中的左边界处和右边界处获
    得的距离近似点的量化误差SNRL和SNRR。



    在等式9中,c表示对数尺度的底数,Si表示与量化索引i相应的量化区域中的边界
    的指数。

    可使用由等式10定义的参数bL和bR来表示与量化索引相应的量化区域中的左边界
    和右边界的指数位移。

    bL=Si-(Si+Si-1)/2

    bR=(Si+Si+1)/2-Si (10)

    在等式10中,Si表示与量化索引i相应的量化区域中的边界处的指数,bL和bR表示
    量化区域中的左边界和右边界距离近似点的指数位移。

    量化区域中的左边界处和右边界处的距离近似点的指数位移之和与量化分辨率
    相同,因此,可通过等式11来表示。

    bL+bR=r (11)

    基于量化的一般特性,取整系数与和量化索引相应的量化区域中的左边界处的距
    离近似点的指数位移相同。因此,等式9可由等式12表示。



    通过使在与量化索引相应的量化区域中的左边界处和右边界处的距离近似点的
    量化误差SNRL和SNRR相同,参数bL可通过等式13来确定。



    因此,可通过等式14表示取整系数bL。

    bL=1-logc(1+c-r) (14)

    图3B示出优化的对数尺度(底数为2)的量化,其中,量化分辨率为0.5并且量化步
    长为3.01。如图3B所示,量化区域中的左边界处和右边界处的距离近似点的量化误差SNRL
    和SNRR两者都是15.31dB。图4B示出优化的对数尺度(底数为2)的量化,其中,量化分辨率为
    1并且量化步长为6.02。如图4B所示,量化区域中的左边界处和右边界处的距离近似点的量
    化误差SNRL和SNRR两者都是9.54dB。

    取整系数b=bL确定从与量化索引i相应的量化区域中的左边界和右边界中的每
    个到近似点的指数距离。因此,可通过等式15执行根据实施例的量化。


    在图5A和图5B中示出通过以底数为2的对数尺度执行量化而获得的测试结果。根
    据信息论,比特率失真函数H(D)可用作参考,其中,通过所述参考可比较和分析各种量化方
    法。量化索引集合的熵可看作比特率并具有维数b/s,dB尺度的SNR可看作失真测量。

    图5A是在正态分布下执行的量化的比较曲线图。在图5A中,实线指示非优化的对
    数尺度的量化的比特率失真函数,点划线指示优化的对数尺度的量化的比特率失真函数。
    图5B是在均匀分布下执行的量化的比较曲线图。在图5B中,实线指示非优化的对数尺度的
    量化的比特率失真函数,点划线指示优化的对数尺度的量化的比特率失真函数。根据相应
    的分布规律、零期望值和单个方差使用随机数量的传感器产生正态分布和均匀分布的采
    样??烧攵愿髦至炕直媛始扑惚忍芈适д婧鼿(D)。如图5A和图5B所示,点划线位于实线
    下面,这表示优化的对数尺度的量化的性能优于非优化的对数尺度的量化的性能。

    也就是说,根据优化的对数尺度的量化,可以以相同的比特率使用较少的量化误
    差执行量化,或以相同的比特率按照相同的量化误差,使用较少的比特执行量化。表1和表2
    中示出测试结果,其中,表1示出非优化的对数尺度的量化,表2示出优化的对数尺度的量
    化。

    表1



    表2


    根据表1和表2,在量化分辨率0.5特性值SNR提高0.1dB,在量化分辨率1.0特性值
    SNR提高0.45dB,在量化分辨率2.0特性值SNR提高1.5dB。

    由于根据实施例的量化方法仅更新基于取整系数的量化索引的搜索表,因此复杂
    度不增加。

    现将更详细地描述图1的包络解码器140的操作。

    使用差值编码(delta coding)执行包络值的基于上下文的编码??赏ü仁?6表
    示当前子频带和先前子频带的包络值之间的量化差值。

    d(i)=nq(i+1)-nq(i) (16)

    在等式16中,d(i)表示子频带(i+1)的量化差值,nq(i)表示子频带(i)的包络值的
    量化索引,nq(i+1)表示子频带(i+1)的包络值的量化索引。

    每个子频带的量化差值d(i)限制在[-15,16]的范围内,如下所述,首先调整负量
    化差值,随后调整正量化差值。

    首先,通过使用等式16以从高频子频带到低频子频带的顺序获得量化差值d(i)。
    在这种情况下,如果d(i)<-15,则通过nq(i)=nq(i+1)+15(i=42,…,0)来执行调整。

    接下来,通过使用等式16以从低频子频带到高频子频带的顺序获得量化差值d
    (i)。在这种情况下,如果d(i)>16,则通过d(i)=16,nq(i+1)=nq(i)+16(i=0,…,42)来执
    行调整。

    最后,通过将偏移15添加到所有获得的量化差值d(i)来产生范围为[0,31]的量化
    差值。

    根据等式16,当N个子频带存在于单个帧中时,获得nq(0),d(0),d(1),d(2),...,d
    (N-2)。使用上下文模型对当前子频带的量化差值进行编码,根据实施例,可将先前子频带
    的量化差值用作上下文。由于第一子频带的nq(0)存在于[0,31]的范围内,因此可通过使用
    5比特按照其原样对量化差值nq(0)进行无损编码。当第一子频带的nq(0)用作d(0)的上下文
    时,通过使用预定参考值从nq(0)获得的值可被使用。也就是说,当d(i)的霍夫曼编码被执
    行时,d(i-1)可用作上下文,当d(0)的霍夫曼编码被执行时,通过从nq(0)减去预定参考值
    而获得的值可用作上下文。预定参考值可以是例如通过仿真或实验预先设置为最优值的预
    定常数值。参考值可被包括在比特流中并被发送,或在编码设备或解码设备中预先被提供。

    根据实施例,包络编码器140可将用作上下文的先前子频带的量化差值的范围划
    分为多个组,并基于针对所述多个组预定义的霍夫曼表对当前子频带的量化差值执行霍夫
    曼编码??衫缤ü褂么笫菘獾难盗反聿舴蚵?。也就是说,基于预定范数收集
    数据,并基于收集的数据产生霍夫曼表。根据实施例,在先前子频带的量化差值的范围内收
    集当前子频带的量化差值的频率的数据,并且可针对所述多个组产生霍夫曼表。

    可使用当前子频带的量化差值的概率分布的分析结果选择各种分布模型,并因此
    可执行对具有类似分布模型的量化级别的分组,其中,通过将先前子频带的量化差值用作
    上下文来获得所述分析结果。在表3中示出三个组的参数。

    表3



    图6中示出了三个组的概率分布。组#1的概率分布于组#3的概率分布类似,它们基
    于x轴基本被反转(reverse)(或翻转(flip))。这表示在没有任何编码效率的损失的情况
    下,相同的概率模型可用于两个组#1和#3。也就是说,两个组#1和#3可使用相同的霍夫曼
    表。因此,可使用关于组#2的第一霍夫曼表和由组#1和#3共享的第二霍夫曼表。在这种情况
    下,组#1中的代码的索引可相对于组#3相反地表示。也就是说,当由于作为上下文的先前子
    频带的量化差值而将当前子频带的量化差值d(i)的霍夫曼表确定为组#1时,可通过对编码
    端的处理的反向处理来将当前子频带的量化差值d(i)改变为d’(i)=A-d(i),从而通过参
    考关于组#3的霍夫曼表来执行霍夫曼解码。在解码端,通过参考关于组#3的霍夫曼表来执
    行霍夫曼解码,并且通过d(i)=A-d’(i)的转换处理来从d’(i)提取最终值d(i)。这里,值A
    可被设置为使得组#1和#3的概率分布彼此对称??稍は冉礎设置为最优值而不是在编码
    和解码处理中提取??裳≡竦?,可使用关于组#1的霍夫曼表而不是关于组#3的霍夫曼表,并
    可改变组#3中的量化差值。根据实施例,当d(i)具有范围在[0,31]中的值时,值A可以是31。

    图7是示出根据示例性实施例的图1的数字信号处理设备100的包络编码器140中
    的基于上下文的霍夫曼编码处理的流程图。在图7中,使用根据三个组中的量化差值的概率
    分布确定的两个霍夫曼表。另外,当对当前子频带的量化差值d(i)执行霍夫曼编码时,先前
    子频带的量化差值d(i-1)用作上下文,例如,使用关于组#2的第一霍夫曼表和关于组#3的
    第二霍夫曼表。

    参照图7,在操作710,确定先前子频带的量化差值d(i-1)是否属于组#2。

    如果在操作710确定先前子频带的量化差值d(i-1)属于组#2,则在操作720,从第
    一霍夫曼表选择当前子频带的量化差值d(i)的代码。

    如果在操作710另外确定先前子频带的量化差值d(i-1)不属于组#2,则在操作
    730,确定先前子频带的量化差值d(i-1)是否属于组#1。

    如果在操作730确定先前子频带的量化差值d(i-1)不属于组#1,即,如果先前子频
    带的量化差值d(i-1)属于组#3,则在操作740,从第二霍夫曼表选择当前子频带的量化差值
    d(i)的代码。

    如果在操作730另外地确定先前子频带的量化差值d(i-1)属于组#1,则在操作
    750,对当前子频带的量化差值d(i)进行反转并且从第二霍夫曼表选择当前子频带的反转
    的量化差值d’(i)的代码。

    在操作760,使用在操作720、740或750选择的代码执行当前子频带的量化差值d
    (i)的霍夫曼编码。

    图8是示出根据示例性实施例的图2的数字信号解码设备200的包络解码器210中
    的基于上下文的霍夫曼解码处理的流程图。如在图7中,在图8中,使用根据在三个组中的量
    化差值的概率分布确定的两个霍夫曼表。另外,当对当前子频带的量化差值d(i)执行霍夫
    曼编码时,先前子频带的量化差值d(i-1)用作上下文,例如,使用关于组#2的第一霍夫曼表
    和关于组#3的第二霍夫曼表。

    参照图8,在操作810,确定先前子频带的量化差值d(i-1)是否属于组#2。

    如果在操作810确定先前子频带的量化差值d(i-1)属于组#2,则在操作820,从第
    一霍夫曼表选择当前子频带的量化差值d(i)的代码。

    如果在操作810另外地确定先前子频带的量化差值d(i-1)不属于组#2,则在操作
    830,确定先前子频带的量化差值d(i-1)是否属于组#1。

    如果在操作830确定先前子频带的量化差值d(i-1)不属于组#1,即,如果先前子频
    带的量化差值d(i-1)属于组#3,则在操作840,从第二霍夫曼表选择当前子频带的量化差值
    d(i)的代码。

    如果在操作830另外地确定先前子频带的量化差值d(i-1)属于组#1,则在操作
    850,对当前子频带的量化差值d(i)进行反转,并且从第二霍夫曼表选择当前子频带的反转
    的量化差值d’(i)的代码。

    在操作860,使用在操作820、840或850选择的代码执行当前子频带的量化差值d
    (i)的霍夫曼解码。

    在表4中示出了按照帧的比特代价差分析。如在表4中所示,根据图7的实施例的编
    码效率较原始霍夫曼编码算法平均增加9%。

    表4

    算法
    比特率,kbps
    增益,%
    霍夫曼编码
    6.25
    -
    上下文+霍夫曼编码
    5.7
    9

    图9是根据示例性实施例的包括编码???30的多媒体装置900的框图。

    图9的多媒体装置900可包括通信单元910和编码???30。另外,根据被获得作为
    编码结果的音频比特流的用途,图9的多媒体装置900还可包括存储单元950以存储音频比
    特流。另外,图9的多媒体装置900还可包括麦克风970。也就是说,存储单元950和麦克风970
    是可选的。图9的多媒体装置900还可包括解码???未示出),例如,用于执行一般解码功能
    的解码??榛蚋菔纠允凳├慕饴肽??。编码???30可与包括在多媒体装置900中的
    其他组件(未示出)集成并由至少一个处理器实现。

    参照图9,通信单元910可接收从外部提供的音频信号和编码的比特流中的至少一
    个,或可发送作为编码???30的编码的结果而获得的重构的音频信号和音频比特流的中
    的至少一个。

    通信单元910被配置为通过如下的无线网络将数据发送到外部多媒体装置并从外
    部多媒体装置接收数据:诸如,无线互联网、无线内联网、无线电话网、无线局域网(LAN)、
    Wi-Fi、Wi-Fi直连(WFD)、第三代(3G)、第四代(4G)、蓝牙、红外数据协会(IrDA)、射频识别
    (RFID)、超宽带(UWB)、Zigbee或近场通信(NFC)或有线网络(诸如,有线电话网络或有线互
    联网)。

    根据实施例,编码???30可通过以下操作来产生比特流:将通过通信单元910或
    麦克风970提供的时域的音频信号变换到频谱的音频频谱,基于关于音频频谱的预定的子
    频带获取包络,基于预定的子频带对包络进行量化,获得相邻的子频带的量化的包络之间
    的差,并通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损编码。

    根据另一实施例,当包络被量化时,编码???30可对与预定的量化索引相应的量
    化区域的边界进行调整,使得量化区域中的总量化误差被最小化并可使用通过调整更新的
    量化表来执行量化。

    存储单元950可存储由编码???30产生的编码的比特流。另外,存储单元950可存
    储操作多媒体装置900所需的各种程序。

    麦克风970可将来自用户或外部的音频信号提供给编码???30。

    图10是根据示例性实施例的包括解码???030的多媒体装置1000的框图。

    图10的多媒体装置1000可包括通信???010和解码???030。另外,根据作为解
    码结果而获得的重构的音频信号的用途,图10的多媒体装置1000还可包括存储单元1050以
    存储重构的音频信号。另外,图10的多媒体装置1000还可包括扬声器1070。也就是说,存储
    单元1050和扬声器1070是可选的。图10的多媒体装置1000还可包括编码???未示出),例
    如,用于执行一般编码功能的编码??榛蚋菔纠允凳├谋嗦肽??。解码???030可
    与包括在多媒体装置1000中的其他组件(未示出)集成并由至少一个处理来实现。

    参照图10,通信单元1010可接收从外部提供的音频信号和编码的比特流中的至少
    一个,或可发送作为解码???030的解码的结果而获得的重构的音频信号以及作为编码的
    结果而获得的音频比特流中的至少一个。通信单元1010可被实现为基本与图9的通信单元
    910相同。

    根据实施例,解码???030可通过以下操作执行反量化:接收通过通信单元1010
    提供的比特流,通过将先前子频带的差值用作上下文来对当前子频带的差值进行无损解
    码,从作为无损解码的结果而重构的当前子频带的差值基于子频带获得量化的包络。

    存储单元1050可存储由解码???030产生的重构的音频信号。另外,存储单元
    1050可存储操作多媒体装置1000所需的各种程序。

    扬声器1070可将由解码???030产生的重构的音频信号输出到外部。

    图11是根据示例性实施例的包括编码???120和解码???130的多媒体装置
    1100的框图。

    图11的多媒体装置1100可包括通信单元1110、编码???120和解码???130。另
    外,根据作为编码结果而获得的音频比特流或作为解码结果而获得的重构的音频信号的用
    途,图11的多媒体装置1100还可包括存储单元1140,用于存储音频比特流或重构音频信号。
    另外,图11的多媒体装置1110还可包括麦克风1150或扬声器1160。编码???120和解码模
    块1130可与包括在多媒体装置110中的其他组件(未示出)集成,并由至少一个处理器来实
    现。

    由于图11的多媒体装置1100中的组件与图9的多媒体装置900中的组件或图10的
    多媒体装置1000中的组件相同,因此省略其详细描述。

    图9、图10或图11的多媒体装置900、1000或1100可包括:包括电话或移动电话的仅
    语音通信的终端、包括TV或MP3播放器的仅广播或音乐的装置或仅语音通信终端和仅广播
    或音乐的装置的混合型终端装置,但不限于此。另外,图9、图10或图11的多媒体装置900、
    1000或1100可用作客户机、服务器或布置在客户机或服务器之间的变换器。

    例如,如果多媒体装置900、1000或1100是移动电话,则尽管未示出,但移动电话还
    可包括诸如键区的用户输入单元、用户界面或用于显示由移动电话处理的信息的显示单元
    和用于控制移动电话的一般功能的处理器。另外,移动电话还可包括具有图像拾取功能的
    相机单元和用于执行移动电话所需的功能的至少一个组件。

    作为另一示例,如果多媒体装置900、1000或1100是TV,则尽管未示出,但TV还可包
    括诸如键区的用户输入单元、用于显示接收的广播信息的显示单元和用于控制TV的一般功
    能的处理器。另外,TV还可包括用于执行TV所需的功能的至少一个组件。

    根据示例性实施例的方法可被编写为计算机可执行程序,并可被实现在通用数字
    计算机中,其中,通用数字计算机通过使用非暂时性计算机可读记录介质执行程序。另外,
    可在实施例中使用的数据结构、程序指令或数据文件可以以各种方式记录在计算机可读记
    录介质中。非暂时性计算机可读记录介质是可存储随后可由计算机系统读取的数据的任何
    数据存储装置。非暂时性计算机可读记录介质的示例包括:磁存储介质(诸如,硬盘、软盘和
    磁带)、光学记录介质(诸如,CD-ROM、DVD)、磁光介质(诸如,光盘)和专门被配置为存储和执
    行程序指令的硬件装置(诸如,ROM、RAM和闪存)。另外,非暂时性计算机可读记录介质可以
    是用于传输指定程序指令、数据结构等的信号的传输介质。程序指令的示例可不仅包括由
    编译器创建的机器语言代码,还包括由计算机使用解释器等可执行的高级语言代码。

    虽然以上已具体地示出和描述了示例性实施例,但本领域的普通技术人员将理
    解,在不脱离由权利要求限定的本发明构思的精神和范围的情况下,可在形式和细节上进
    行各种改变。示例性实施例应被理解为描述性意义,而不是限制的目的。因此,本发明构思
    的范围不由示例性实施例的详细描述而由权利要求限定,在范围内的所有不同将被解释为
    包括在本发明构思中。

    关于本文
    本文标题:音频编码方法和设备、音频解码方法和设备.pdf
    链接地址://www.4mum.com.cn/p-6001577.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 北京pk10冠军一码计划 电子竞技与玩 万人龙虎实时计划 11选5计划软件破解版 11选5免费手机计划软件 排列三7码组选六最大遗漏 香港小霸王www770678 彩票挂机稳赚 一肖二码爆特 看七星彩直码信息 pk10最牛稳赚单双公式 猜单双技巧 做啥生意稳赚不赔 时时彩赛车pk10的计划 新疆时时玩法和技巧 时时彩组六杀三码技巧