• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 41
    • 下载费用:30 金币  

    重庆时时彩下载哪个好: 具有多个语音跟踪摄像机的视频会议端点.pdf

    关 键 词:
    具有 语音 跟踪 摄像机 视频会议 端点
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110127301.7

    申请日:

    2011.05.17

    公开号:

    CN102256098A

    公开日:

    2011.11.23

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):H04N 7/15申请日:20110517|||公开
    IPC分类号: H04N7/15; G06K9/00; G10L15/00 主分类号: H04N7/15
    申请人: 宝利通公司
    发明人: 冯津伟; P·舒; W·邓拉普; J·加梅尔
    地址: 美国加利福尼亚
    优先权: 2010.05.18 US 12/782,137
    专利代理机构: 中国国际贸易促进委员会专利商标事务所 11038 代理人: 李颖
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110127301.7

    授权公告号:

    102256098B||||||

    法律状态公告日:

    2014.06.04|||2012.01.04|||2011.11.23

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本公开涉及具有多个语音跟踪摄像机的视频会议端点。视频会议设备自动跟踪房间中的发言人,并在受控的人物画面摄像机和固定的房间画面摄像机之间动态切换。当无人发言时,设备向远端显示房间画面。当在房间中存在一位主发言人时,设备使人物画面摄像机对着所述主发言人,并从房间画面摄像机切换到人物画面摄像机。当在房间中存在新的发言人时,设备首先切换到房间画面摄像机,使人物画面摄像机对着新的发言人,随后切换到对准新的发言人的人物画面摄像机。当存在进行会话的两位近端发言人时,设备跟踪和拉近人物画面摄像机,以致两位发言人都在画面中。

    权利要求书

    1.一种自动视频会议方法,包括:
    输出视频会议的第一视频,所述第一视频利用端点的第一摄像机拍
    摄,并且以环境的第一宽画面进行拍摄;
    利用端点的麦克风,确定表示环境中的话音的第一音频的第一位置;
    使端点的第二摄像机对着所述第一位置;和
    把视频会议的输出从第一视频切换成第二视频,第二视频利用第二
    摄像机、以第一位置的第一紧凑画面进行拍摄。
    2.按照权利要求1所述的方法,其中使第二摄像机对着所述第一位
    置包括用第一紧凑画面,对第一音频的第一来源取景。
    3.按照权利要求2所述的方法,其中对第一来源取景包括通过调整
    第二摄像机的摇移、俯仰和推拉中的一个或多个,调整第一紧凑画面。
    4.按照权利要求2所述的方法,其中对第一来源取景包括在利用第
    二摄像机拍摄的第二视频中检测运动。
    5.按照权利要求4所述的方法,其中检测运动包括:
    确定第二视频的第一帧的第一亮度值;
    确定第二视频的第二帧的第二亮度值;
    确定第一亮度值和第二亮度值之间的差值是否表示帧间的运动。
    6.按照权利要求2所述的方法,其中对第一来源取景包括在利用第
    二摄像机拍摄的第二视频中检测表示人类皮肤的色调。
    7.按照权利要求6所述的方法,其中检测表示人类皮肤的色调包括:
    确定在第二视频的一帧的至少一部分内的色度值;和
    确定所述色度值是否在人类皮肤色调的范围之内。
    8.按照权利要求2所述的方法,其中对第一来源取景包括在利用第
    二摄像机拍摄的第二视频中检测人脸。
    9.按照权利要求1所述的方法,其中在使第二摄像机对着第一位置
    时,输出利用第一摄像机拍摄的第一视频,其中在使第二摄像机对着第
    一位置之后,把输出从第一视频切换成第二视频。
    10.按照权利要求1所述的方法,其中确定第一位置包括通过分析
    利用麦克风捕捉的第一音频,确定至少两个正交的方位角。
    11.按照权利要求1所述的方法,其中确定第一位置包括:
    获得第一音频的样本;
    计算每个样本的坐标;和
    计算每个样本的瞬态性值,所述瞬态性值表示样本中的第一音频的
    瞬态性。
    12.按照权利要求11所述的方法,其中确定第一位置包括:
    聚类计算的样本的坐标;和
    根据瞬态性值和样本的聚类,确定第一位置的坐标。
    13.按照权利要求11所述的方法,其中计算每个样本的瞬态性值包
    括:
    利用高通滤波器对每个样本滤波;
    使每个滤波后的样本与匹配滤波器相关;和
    根据所述相关,得到标量值。
    14.按照权利要求1所述的方法,还包括:
    检测表示环境中的话音的音频的不存在;和
    响应检测到所述音频的不存在,把视频会议的输出从第二视频切换
    成第一视频。
    15.按照权利要求1所述的方法,还包括:
    检测表示环境中的话音的第二音频;和
    响应检测到所述第二音频,确定第二音频的第二位置。
    16.按照权利要求15所述的方法,还包括:
    把视频会议的输出从第二视频切换成第一视频;
    使第二摄像机对着第二位置;和
    把视频会议的输出从第一视频切换成第三视频,所述第三视频利用
    第二摄像机、以第二位置的第二紧凑画面进行拍摄。
    17.按照权利要求15所述的方法,还包括:
    检测第一位置和第二位置之间的音频交换;和
    响应检测到所述音频交换,把视频会议的输出从第二视频切换成第
    一视频。
    18.按照权利要求17所述的方法,还包括:
    使第二摄像机对着第一位置和第二位置;和
    把视频会议的输出从第一视频切换成第三视频,所述第三视频利用
    第二摄像机、以第一位置和第二位置的第三紧凑画面进行拍摄。
    19.按照权利要求1所述的方法,还包括:
    检测第一位置和远端端点之间的音频交换;和
    即使当确定不存在表示视频会议环境中的话音的音频时,仍然维持
    第二视频的输出。
    20.一种保存有程序指令的程序存储装置,所述程序指令使可编程
    控制装置执行按照权利要求1所述的方法。
    21.一种视频会议设备,包括:
    拍摄第一视频的第一摄像机;
    拍摄第二视频的第二摄像机;
    捕捉音频的多个麦克风;
    与网络通信耦接的网络接口;和
    操作上与网络接口、第一和第二摄像机以及麦克风耦接的处理单元,
    所述处理单元被编程,以便:
    输出利用第一摄像机、以视频会议环境的宽画面进行拍摄的第一视
    频;
    确定利用麦克风捕捉的表示话音的第一音频的第一位置;
    使第二摄像机以第一紧凑画面对着第一位置;和
    把输出从第一视频切换成第二视频。
    22.按照权利要求21所述的设备,其中第一摄像机包括电子云台摄
    像机,其中第二摄像机包括可操纵的云台摄像机。
    23.按照权利要求21所述的设备,还包括上面集成地放置第一和第
    二摄像机并且上面集成地放置麦克风的机架。
    24.按照权利要求21所述的设备,还包括上面可拆卸地放置第一和
    /或第二摄像机并且上面集成地放置麦克风的底座。

    说明书

    具有多个语音跟踪摄像机的视频会议端点

    相关申请的交叉引用

    本申请与题为“Automatic?Camera?Framing?for?Videoconferencing”
    (代理人案卷号199-0717US)和题为“Voice?Tracking?Camera?with?
    Speaker?Identification”(代理人案卷号199-0722US)的美国专利申请共
    同提出,其全部内容在此引用作为参考。

    技术领域

    本发明涉及视频会议。更具体地,本发明涉及视频会议方法和设备。

    背景技术

    一般来说,视频会议中的摄像机拍摄装进所有与会者的画面。不幸
    的是,远端与会者会失去视频中的许多有价值的内容,因为显示在远端
    的近端与会者的大小会很小。在一些情况下,远端与会者不能看清近端
    与会者的面部表情,难以确定谁正在发言。这些问题使视频会议具有难
    以使用的感觉,从而使与会者难以进行富有成效的会议。

    为了处理取景较差的问题,与会者不得不进行干预,执行摇移、俯
    仰和推拉摄像机的一系列操作,以拍摄较好的画面。正如所料,用???br />器人工指挥摄像机会不方便。有时,与会者实在不愿麻烦去调整摄像机
    的画面,而只是使用默认的全景。当然,当与会者的确人工调整摄像机
    的画面时,如果与会者在视频会议期间改变位置,或者在后来的视频会
    议中使用不同的座位安排,那么必须重复该过程。

    具有麦克风阵列的语音跟踪摄像机能够在视频会议期间,帮助把摄
    像机对着正在发言的与会者。尽管这些种类的摄像机非常有用,不过它
    们会遇到一些问题。例如,当发言人转身不再面对麦克风时,语音跟踪
    摄像机会失去发言人的踪迹。在回音大的环境中,语音跟踪摄像机可能
    对着反射点,而不是对着实际的声源。当发言人转身不再面对摄像机时,
    或者当发言人坐在会议桌的一端时,会产生典型的反射。如果反射足够
    讨厌,那么语音跟踪摄像机会被引导成指向墙壁、会议桌或者其它表面,
    而不是指向实际的发言人。

    由于这些原因,在视频会议期间,理想的是能够根据会议环境,与
    会者的排列,和正在发言的人物,动态调整与会者的画面。本发明的主
    题目的在于克服上述一个或多个问题,或者至少降低上述一个或多个问
    题的影响。

    发明内容

    公开了实现自动视频会议技术的方法,可编程存储装置和视频会议
    设备。

    在一种技术中,端点的至少两部摄像机按照适应发言人的动态性质
    的受控方式,拍摄环境中的与会者的视频。例如,在端点的第一部摄像
    机用视频会议环境的宽画面拍摄第一视频。当与会者发言,从而在端点
    确定他们的位置时,在端点的第二部摄像机对着发言人位置,端点把视
    频会议用输出从用第一部摄像机拍摄的环境的宽画面切换成用第二部摄
    像机拍摄的发言人的紧凑画面。

    如果随后另一位与会者开始发言,那么端点确定所述新发言人的位
    置。不过在把第二部摄像机对着新发言人的位置之前,端点把视频会议
    用输出从第二部摄像机的紧凑画面切换成第一部摄像机的宽画面。在输
    出所述宽画面的时候,把第二部摄像机对着新发言人的位置。一旦完成,
    端点就把视频会议用输出从第一部摄像机的宽画面切换成用第二部摄像
    机拍摄的新发言人的紧凑画面。各种技术,包括运动检测,肤色(skin?
    tone)检测和面部识别被用于利用摄像机,使发言人进入紧凑画面中。同
    样地,端点能够利用各种规则控制何时和是否切换视频输出,和是否进
    行了使第二部摄像机对着音源。

    在另一种技术中,用在端点的一部或多部摄像机拍摄的视频被用于
    在视频会议期间,自动用所述一部或多个摄像机的宽画面和紧凑画面对
    环境取景。例如,视频会议环境的宽画面可被分割成多个紧凑画面。端
    点指挥第一部摄像机对拍摄的视频和这些紧凑画面中的每个画面取景。
    随后,端点通过分析每个紧凑画面中用第一部摄像机拍摄的视频,确定
    每个紧凑画面的关联性。每个紧凑画面的关联性可根据运动检测,肤色
    检测和面部识别来确定。一旦在该过程中确定了关联的紧凑画面,端点
    就确定由相关紧凑画面定义的总的取景画面。例如,取景画面可由相关
    的最上面,最左边和最右边的紧凑画面限制。这样,能够指挥相同的摄
    像机或者不同的摄像机对该取景画面取景,从而能够为视频会议输出取
    景合适的视频。

    在又一种技术中,在视频会议期间,端点利用话音识别来控制一部
    或多部摄像机。在这种技术中,视频会议中的与会者的初始话音特性和
    视频会议环境中的与会者的相关位置被保存一起。随着视频会议的进行,
    端点检测表示话音的音频,并确定所述检测音频的当前话音特性。随后
    使所述当前话音特性与保存的话音特性之一匹配。通过获得匹配的与会
    者的相关位置,端点使摄像机对着匹配的与会者的相关位置。这样,端
    点不必仅仅依赖于端点及其麦克风阵列的语音跟踪能力。相反,与会者
    的话音特性可和通过所述语音跟踪能力得到的来源位置保存在一起。从
    而,如果语音跟踪失败,或者不能定位来源,那么可以利用话音识别技
    术使摄像机对着发言人的位置。

    上面的概述并不意图概括本发明的每个可能的实施例或者每个方
    面。

    附图说明

    图1A图解说明按照本发明的一些教导的视频会议端点。

    图1B图解说明图1A的视频会议端点的组件。

    图1C-1E表示视频会议端点的平面图。

    图2A表示按照本发明的端点用视频会议装置。

    图2B-2D表示视频会议装置的备选结构。

    图3图解说明图2A-2D的视频会议装置的组件。

    图4A图解说明所公开端点的利用音频和视频处理的控制方案。

    图4B图解说明视频会议期间,根据音频线索处理视频的判定过程。

    图5图解说明操作公开的具有至少两部摄像机的端点的过程。

    图6A-6B图解说明利用公开的端点的麦克风阵列,定位发言人的平
    面图和侧视图。

    图7A-7B是定位发言人时的声能量与方位角的曲线图。

    图8A表示处理在麦克风阵列捕捉的音频中检测到的话音和噪声的
    过程。

    图8B表示按照本发明的处理话音和噪声的瞬态信号检测器的方框
    图。

    图8C表示用于处理话音和噪声的摇移-俯仰坐标的聚类。

    图9A-9B图解说明当利用公开的端点定位发言人时的取景画面。

    图10图解说明利用公开的端点,自动取景与会者的画面的过程。

    图11A-11C图解说明确定用于自动取景的相关块的各种过程。

    图12A-12C图解说明在用公开的端点的自动取景期间的各个画面。

    图13图解说明为运动检测而分析的各个块。

    图14图解说明按照本发明的某些教导的另一个视频会议端点。

    图15表示用于发言人识别的数据库表。

    图16图解说明利用公开的端点,在视频会议期间识别发言人的过程。

    具体实施方式

    A.视频会议端点

    图1A中的视频会议设备或端点10通过网络12与一个或多个远程端
    点14通信。在一些常见的组件之中,端点10具有带有音频编解码器22
    的音频???0,和带有视频编解码器32的视频???0。这些???0/30
    在操作上与控制???0和网络???0耦接。

    在视频会议期间,两部或多部摄像机50A-B拍摄视频,并把拍摄的
    视频提供给视频???0和编解码器32,以便处理。另外,一个或多个麦
    克风28捕捉音频,并把音频提供给音频???0和编解码器22,以便处
    理。这些麦克风28可以是桌式麦克风或吸顶式麦克风,或者可以是麦克
    风箱(microphone?pod)等的一部分。端点10把利用这些麦克风28捕捉的
    音频主要用于会议音频。

    独立地,具有正交排列的麦克风62的麦克风阵列60A-B也捕捉音频,
    并把音频提供给音频???2,以便处理。最好,麦克风阵列60A-B包括
    垂直排列和水平排列的麦克风62,以便在视频会议期间确定音源的位置。
    于是,端点10把来自这些阵列60A-B的音频主要用于摄像机跟踪用途,
    而不是用于会议音频,尽管它们的音频可用于会议。

    在捕捉音频和视频之后,端点10利用任何普通的编码标准,比如
    MPEG-1,MPEG-2,MPEG-4,H.261,H.263和H.264对音频和视频编
    码。随后,网络???0利用任何适当的协议,经网络12,把编码的音频
    和视频输出给远程端点14。类似地,网络???0通过网络12,从远程
    端点14接收会议音频和视频,并把接收的会议音频和视频发给相应的编
    解码器22/32,以便处理。最终,扬声器26输出会议音频,显示器34输
    出会议视频。这些??楹推渌榧械男矶嗄?楹妥榧砂凑毡玖煊蛑?br />公知的常规方式工作,从而这里不再提供更多的细节。

    与常规的安排相反,端点10按照自动和协调的方式使用两部以上的
    摄像机50A-B,动态地处理视频会议环境的视频和画面。第一部摄像机
    50A可以是固定的或者房间画面摄像机,第二部摄像机50B可以是受控
    的或者人物画面摄像机。例如,通过利用房间画面摄像机50A,端点10
    拍摄房间的视频,或者至少拍摄房间的一般应包括所有的视频会议与会
    者以及一些周围环境的宽画面或拉远的画面。尽管被描述成固定的,不
    过实际上可通过摇移、俯仰和推拉,调整房间画面摄像机50A,以控制
    其画面和对环境取景。

    相反,端点10利用人物画面摄像机50B,以紧凑的或者拉近的画面
    拍摄一位或多位特定与会者,最好一位或多位当前发言人的视频。于是,
    人物画面摄像机50B尤其能够实现摇移、俯仰和推拉。

    在一个实施例中,人物画面摄像机50B是可操纵的云台(PTZ)摄像
    机,而房间画面摄像机50A是电子云台(PTZ)摄像机。因而,人物画面摄
    像机50B能够被操纵,而房间画面摄像机50A能够用电子方式操作,以
    改变其取景方向,而不是可操纵的。不过,端点10可以利用摄像机的其
    它安排和种类。事实上,摄像机50A-B都可以是可操纵的PTZ摄像机。
    此外,可在所述两部可操纵的摄像机50A-B之间共享和更迭在宽画面和
    推拉画面之间的切换,以致当合适时,一部摄像机拍摄宽画面,而另一
    部摄像机拍摄拉近的画面,反之亦然。

    对本发明来说,一部摄像机50A被称为房间画面摄像机50A,而另
    一部摄像机50B被称为人物画面摄像机50B。尽管理想的是在发言人的
    紧凑画面和房间的宽画面之间交替,不过,可存在端点10能够在相同或
    者不同发言人的两个不同紧凑画面之间交替的情形。为此,如前所述,
    最好具有都是可操纵的PTZ摄像机的两部摄像机50A-B。于是,在另一
    种安排中,第一和第二摄像机50A-B可以都是受控的或者人物画面摄像
    机,比如可操纵的PTZ摄像机。端点10能够利用这些摄像机50A-B中
    的每部摄像机,以紧凑画面或者拉近的画面拍摄一位或多位特定与会者,
    最好一位或多位当前发言人的视频,以及在需要时提供房间的宽画面或
    者拉远的画面。

    在一种实现中,在特意特定的时间端点10只输出来自两部摄像机
    50A-B之一的视频。随着视频会议的进行,来自端点10的输出视频随后
    能够不时在房间画面和人物画面摄像机50A-B之间切换。通常,当没有
    与会者发言(或者操作质量降低)时,系统10输出来自房间画面摄像机50A
    的视频,当一位或多位与会者在发言时,端点10输出来自人物画面摄像
    机50B的视频。一种好处是这些摄像机画面之间的切换使视频会议的远
    端可以注意到当前发言人的拉近的画面,同时仍然不时获得会议室的宽
    画面。

    作为备选方案,端点10能够同时传送来自两部摄像机的视频,端点
    10能够使远程端点76决定显示哪个画面,尤其是如果端点10发送选择
    一个或另一个摄像机画面的某些指令的话。在另一种备选方案中,端点
    10能够同时传送来自两部摄像机的视频,从而视频图像之一能够被合成
    为另一个视频图像的画中画。例如,来自摄像机50B的人物画面视频能
    够与来自摄像机50A的房间画面合成,从而以画中画(PIP)格式被发给远
    端。

    为了控制用这两部摄像机50A-B拍摄的画面,端点10利用基于音频
    的定位器42和基于视频的定位器44来确定与会者的位置,及环境和与
    会者的取景画面(frame?view)。随后,操作上与音频和视频???0/30
    耦接的控制???0利用来自这些定位器42/44的音频和/或视频信息,把
    摄像机命令发给摄像机50A和/或50B,以改变它们的定向和它们拍摄的
    画面。对人物画面摄像机50B来说,这些摄像机命令可由具有机械操纵
    摄像机50B的电动机、伺服系统等的致动器或本地控制单元52实现。对
    房间画面摄像机50A来说,这些摄像机命令可被实现成将由摄像机50A
    处理的电子信号。

    为了确定使用哪部摄像机50A-B,以及如何构成其画面,控制???br />40利用从基于音频的定位器42获得的音频信息,和/或从基于视频的定
    位器44获得的视频信息。例如,并且如下更详细所述,控制???0利
    用来自水平和垂直排列的麦克风阵列24的,由基于音频的定位器42处
    理的音频信息?;谝羝档亩ㄎ黄?2利用话音检测器43检测来自阵列
    24的捕捉音频中的话音,随后确定当前发言人的位置??刂颇??0随后
    利用确定的位置操纵人物画面摄像机50B对着该位置。同样如下面更详
    细所述,控制???0利用来自摄像机50A-B的,由基于视频的定位器
    44处理的视频信息确定与会者的位置,以确定画面的取景,和操纵人物
    画面摄像机50B对着与会者。

    来自房间画面摄像机50A的宽画面可向人物画面摄像机50B提供背
    景,并且可被这样使用,以致当人物画面摄像机50B移向某位与会者时,
    远端的与会者看不见来自人物画面摄像机50B的画面。另外,当近端的
    多位与会者在发言时,或者当人物画面摄像机50B正在移动,以对着多
    位发言人时,在远端可以显示宽画面。当需要时,可淡变和融合来自摄
    像机50A-B的两个画面之间的过渡,以避免当切换摄像机画面时的急剧
    切换。

    例如,当使人物画面摄像机50B移向发言人时,来自人物画面摄像
    机50B的移动视频最好不被传给视频会议的远端。改为传送来自房间画
    面摄像机50A的视频。不过,一旦人物画面摄像机50B已恰当地对当前
    发言人取景,端点10就切换来自摄像机50A-B的视频。

    即使如此,端点10最好不是简单地自动切换,以拍摄发言人的画面。
    相反,摄像机变化最好被计时。一段时间内过多的摄像机切换会使与会
    者分心。因此,端点10最好利用发言人的位置,发言人的语音特性,发
    言人的说话频率等,跟踪这些发言人。随后,当一位发言人开始发言人
    时,端点10能够快速把人物画面摄像机50B对着频繁发言的发言人,不
    过端点10能够避免或者延迟跳转到仅仅答复以简短的回答或评论的另一
    位发言人。

    尽管端点10最好在无用户干预的情况下工作,不过端点10允许用
    户干预和控制。于是,来自远端和/或近端的摄像机命令可被用于控制摄
    像机50A-B。例如,与会者可确定当无人发言时,显示最佳的宽画面。
    同时,当视频会议继续进行时,动态摄像机命令可控制人物画面摄像机
    50B。按照这种方式,端点10能够自动控制由人物画面摄像机50B提供
    的画面。

    图1B表示图1A的视频会议端点10的一些例证组合。如上面所示
    和所述,端点10具有两部以上的摄像机50A-B,和几个麦克风28/62A-B。
    除此之外,端点10具有都借助总线101耦接的处理单元100,网络接口
    102,存储器104和通用输入/输出(I/O)接口108。

    存储器104可以是诸如SDRAM之类的常规存储器,能够保存用于
    控制端点10的成软件和固件形式的???06。除了前面讨论的视频和音
    频编解码器及其它??橹?,???06可包括操作系统,使用户能够控
    制端点10的图形用户界面(GUI),和如后所述,处理音频/视频信号和控
    制摄像机50A-B的算法。

    网络接口102提供端点10和远程端点(未示出)之间的通信。相反,
    通用I/O接口108向诸如键盘、鼠标、打印机、高射投影机、显示器、
    外部扬声器、另外的摄像机、麦克风箱之类的本地装置提供数据传输。
    端点10还可包含内部扬声器26。

    摄像机50A-B和麦克风阵列60A-B分别在视频会议环境中捕捉视频
    和音频,产生经总线101传给处理单元100的视频信号和音频信号。这
    里,处理单元100利用???06中的算法,处理视频和音频。例如,端
    点10处理由麦克风28/62A-B捕捉的音频,以及由摄像机50A-B拍摄的
    视频,以确定与会者的位置,和指引摄像机50A-B的画面。最后,处理
    后的音频和视频可被发给与接口102/108耦接的本地和远程装置。

    在图1C的平面图中,端点10的一种布置利用视频会议装置80,视
    频会议装置80具有与之集成的麦克风阵列60A-B和两部摄像机50A-B。
    麦克风箱28可被放置在会议桌上,不过可以使用其它种类的麦克风,比
    如吸顶式麦克风,个人桌式麦克风等等。麦克风箱28与视频会议装置80
    通信连接,捕捉视频会议的音频。对装置80来说,装置80可被合并到
    显示器和/或视频会议单元(未示出)中,或者安装在之上。

    图1D表示端点10的另一种布置的平面图。这里,端点10具有安装
    在房间四周的几个装置80/81,并且具有在会议桌上的麦克风箱28。和前
    面一样,一个主装置80具有麦克风阵列60A-B和两部摄像机50A-B,并
    且可被合并到显示器和/或视频会议单元(未示出)中,或者安装在之上。
    其它装置81与主装置81耦接,并可被布置在视频会议环境的侧面。

    辅助装置81至少具有人物画面摄像机50B,不过它们可以具有房间
    画面摄像机50A,麦克风阵列60A-B,或者这两者,从而能够与主装置
    80相同。不管怎样,这里说明的音频和视频处理都能够识别在该环境中,
    哪部人物画面摄像机50B具有发言人的最佳画面。随后,可从在房间四
    周的人物画面摄像机50B中,选择对发言人来说最佳的人物画面摄像机
    50B,以致正面画面(或者最接近正面画面的画面)可被用于会议视频。

    在图1E中,端点10的另一种布置包括视频会议装置80和远程发射
    器64。这种布置可用于跟踪在演讲期间移动的发言人。同样地,装置80
    具有摄像机50A-B和麦克风阵列60A-B。不过在这种布置中,麦克风阵
    列60A-B响应从发射器64发出的超声波,以跟踪主持人。按照这种方式,
    当主持人移动时,并且当发射器64继续发射超声波时,装置80能够跟
    踪主持人。除了超声波之外,麦克风阵列60A-B还能够响应语音,以致
    除了超声波跟踪之外,装置80还能够利用语音跟踪。当装置80自动检
    测到超声波时,或者当装置80被人工配置,以便进行超声波跟踪时,装
    置80能够按照超声波跟踪模式工作。

    如图所示,发射器64可以是由主持人佩戴的组件。发射器64可具
    有产生超声波音调的一个或多个超声换能器66,并且可具有集成的麦克
    风68和射频(RF)发射器67。使用时,当集成的麦克风68获得主持人发
    言时,发射器单元64被启动。另一方面,主持人可人工启动发射器单元
    64,以致向RF单元97传送RF信号,指示该特定主持人要被跟踪。在
    美国专利公报No.2008/0095401中公开了与基于超声波的摄像机跟踪有
    关的细节,该专利在此整体引为参考。

    B.视频会议装置

    在转向视频会议期间,端点10的操作之前,首先讨论按照本发明的
    视频会议装置的细节。如图2A中所示,视频会议装置80具有上面布置
    麦克风62A的水平阵列60A的机架。从所述机架伸出的垂直阵列60B也
    具有几个麦克风62B。如图所示,阵列60A-B都可具有三个麦克风62A-B,
    不过任何一个阵列60A-B可具有数目与描述的数目不同的麦克风。

    第一部摄像机50A是用来获得视频会议环境的宽画面或拉远的画面
    的房间画面摄像机。第二部摄像机50B是用来获得视频会议与会者的紧
    凑画面或者拉近的画面的人物画面摄像机。这两部摄像机50A-B被安装
    在装置80的机架上,可以与机架集成在一起。如果不是EPTZ摄像机的
    话,那么房间画面摄像机50A具有可包括致动器的图像处理组件52A。
    人物画面摄像机50B也具有包括控制摄像机的摇移-俯仰-推拉操作的致
    动器的图像处理组件52B。这些组件52A-B可在操作上与置于装置80中
    的本地控制单元90耦接。

    对控制单元90来说,控制单元90可包括进行视频会议的所有或部
    分必需组件,包括音频和视频???,网络???,摄像机控制??榈鹊?。
    另一方面,所有或一些必需的视频会议组件可被置于与装置80耦接的独
    立视频会议单元95中。因而,装置80可以是具有摄像机50A-B,麦克
    风阵列60A-B和其它有关组件的独立单元,而视频会议单元95负责所有
    的视频会议功能。当然需要时,装置80和单元95可被结合成一个单元。

    公开的如图2B中所示的装置80可具有一个集成的摄像机53,而不
    是具有如图2A的两个以上的集成的摄像机50A-B。另一方面,如图2C-2D
    中所示,装置80可包括具有麦克风阵列60A-B,通信端口(未示出),和
    其它处理组件(未示出)的底座单元85。两个以上的独立的摄像机单元
    55A-B可连接到底座单元85,从而构成装置80(图2C),或者一个独立的
    摄像机单元55可连接到底座单元85(图2D)。因此,底座单元85可拥有
    麦克风阵列60A-B和所有其它需要的电子和信号处理组件,并且通过利
    用适当形式的附件,能够支持一个或多个摄像机单元55。

    尽管装置80被表示成具有被设置成彼此相邻的两部摄像机50A-B,
    不过摄像机50A和/或50B可以完全与装置80分离,并连接到机架的输
    入端。另外,装置80可被配置成支持另外的摄像机,而不仅仅是两部摄
    像机。这样,用户能够安装能够与装置80无线连接并被布置在房间四周
    的其它摄像机,以致装置80总是能够选择发言人的最佳画面。

    图3简要表示可为图2A-2D的装置80的一部分的一些例证组件。如
    图所示,装置80包括麦克风阵列60A-B,控制处理器110,现场可编程
    门阵列(FPGA)120,音频处理器130和视频处理器140。如前所述,装置
    80可以是具有与之集成的两部以上的摄像机50A-B的集成单元(参见图
    2A),或者这些摄像机50A-B可以是具有它们自己的组件并且连接到装置
    的底座单元的独立单元(参见图2C)。另外,装置80可具有一个集成的摄
    像机(53;图2B),或者一个独立的摄像机(55;图2D)。

    工作期间,FPGA?120捕捉来自摄像机50A-B的视频输入,产生给
    视频会议单元95的输出视频,并把输入视频发给视频处理器140。FPGA
    120还可比例缩放和合成视频和图形覆盖图??梢允鞘中藕糯砥鞯囊?br />频处理器130捕捉来自麦克风阵列60A-B的音频,并进行音频处理,包
    括回声消除,音频滤波,和来源跟踪。音频处理器130还负责切换摄像
    机画面,检测会话模式,和这里公开的其它用途的规则。

    也可以是数字信号处理器(DSP)的视频处理器140捕捉来自FPGA
    120的视频,并负责运动检测,面部检测和其它视频处理,以帮助跟踪发
    言人。如下更详细所述,例如,视频处理器140可对从人物画面摄像机
    50B捕捉的视频执行运动检测算法,以检查由发言人跟踪算法找到的候
    选发言人位置的当前画面中的运动。这可避免使摄像机50B对着源自墙
    壁、会议桌等的反射。另外,视频处理器140可利用面部寻找算法,通
    过确认确实构成具有人脸的画面的候选发言人位置,进一步提高跟踪准
    确性。

    可以是通用处理器(GPP)的控制处理器110负责与视频会议单元95
    的通信,并负责装置80的摄像机控制和全部系统控制。例如,控制处理
    器110控制照相机的组件的摇移-俯仰-推拉通信,并且控制FPGA?120进
    行的摄像机切换。

    C.控制方案

    在了解上面说明的视频会议端点和组件的情况下,下面讨论公开的
    端点10的操作。首先,图4A表示公开的端点10用于进行视频会议的控
    制方案150。如前所述,在视频会议期间,控制方案150利用视频处理
    160和音频处理170控制摄像机50A-B的操作。处理160和170可以单
    独进行,或者结合在一起进行,以增强端点10的操作。尽管在下面进行
    了简要说明,不过各种音频和视频处理技术中的几种技术将在后面更详
    细地讨论。

    简要地,视频处理160可利用离摄像机50A-B的焦距来确定到与会
    者的距离,并且可以利用以颜色,运动和面部识别为基础的基于视频的
    技术来跟踪与会者。于是如图所示,视频处理160可以利用运动检测,
    肤色检测,面部检测和其它算法来处理摄像机50A-B的视频和控制操作。
    在视频处理160中,还能够利用在视频会议期间获得的记录信息的历史
    数据。

    对音频处理170来说,音频处理170利用借助麦克风阵列60A-B的
    话音跟踪。为了提高跟踪准确性,音频处理170能够利用本领域中已知
    的许多滤波操作。例如,当进行话音跟踪时,音频处理170最好进行回
    声消除,以致不会因端点的扬声器仿佛是主发言人似地拾取来自所述扬
    声器的耦合声音。音频处理170还利用滤波从语音跟踪中消除非语音音
    频,和忽略源于反射的较大声音频。

    音频处理170可以利用来自另外的音频线索的处理,比如利用桌面
    麦克风元件或麦克风箱(28;图1)。例如,音频处理170能够进行语音识
    别,以识别发言人的语音,并且能够确定视频会议期间话音中的会话模
    式。在另一个例子中,音频处理170能够从独立的麦克风箱(28)获得音源
    的方向(即,摇移),并将其与借助麦克风阵列60A-B获得的位置信息结
    合。由于麦克风箱(28)可具有沿着不同方向布置的几个麦克风,因此能够
    确定音源相对于这些方向的位置。

    当某位与会者最初发言时,麦克风箱(28)能够获得该与会者相对于麦
    克风箱(28)的方向。在映射表等中,所述方向可被映射到利用阵列(60A-B)
    获得的与会者的位置。在稍后某一时候,只有麦克风箱(28)可检测到当前
    发言人,以致只能获得其方向信息。不过,根据映射表,端点10能够利
    用映射信息定位当前发言人的位置(摇移,俯仰,推拉坐标),以便利用摄
    像机对该发言人取景。

    D.操作概述

    在给出该概括的控制方案的情况下,下面讨论图4B中的,所公开端
    点在视频会议期间的操作的更详细过程180。当开始视频会议时,端点
    10捕捉视频(方框182),并输出视频会议中的包含物的当前画面(方框
    184)。一般来说,在视频会议开始时,房间画面摄像机50A对房间取景,
    最好调整房间画面摄像机50A的摇移,俯仰和推拉,以包括所有与会者(如
    果可能的话)。

    随着视频会议的进行,端点10监控关于几个发生的事情之一的捕捉
    音频(方框186)。当这样做时,端点10利用各种判定和规则来管理端点
    10的行为,和确定哪部摄像机50A-B为会议视频进行输出。对于给定的
    实现,可按照任意特定的方式安排和构成所述各种判定和规则。由于一
    种判定会影响另一种判定,一种规则会影响另一种规则,因此可不同于
    图4B中所述地安排所述判定和规则。

    1.一位发言人

    在视频会议中的某一时刻,房间中的近端与会者之一开始发言,端
    点10确定有一位明确的发言人(判定190)。如果有一位发言人,那么端
    点10应用各种规则191,确定是否把端点10输出的当前画面切换成另一
    个画面(判定188),从而输出当前画面(方框184),或者改变画面(方框
    189)。

    例如,在一位与会者发言的情况下,端点10指令人物画面摄像机50B
    对该发言人取景(最好用“头部和肩部”特写镜头)。当端点10移动摄像机
    50B时,端点10最好输出来自房间画面摄像机50A的宽画面,一旦端点
    10已移动和对当前发言人取景,就只输出来自人物画面摄像机50B的视
    频。另外,端点10最好要求在发言人最初开始发言之后,和在端点10
    实际移动人物画面摄像机50B之前,过去等待时期。这能够避免频繁地
    移动摄像机,尤其是在当前发言人只简要发言时。

    考虑了准确性,端点10可利用多种算法定位和取景发言人,这里更
    详细地说明其中的一些算法。一般来说,通过分析用麦克风阵列60A-B
    捕捉的音频,端点10能够估计当前发言人的方位角(bearing?angle)和
    目标距离。利用面部识别技术,能够调整摄像机50B的缩放系数,以致
    来自人物画面摄像机50B的头部镜头始终如一??梢允褂谜庑┘际鹾推?br />它技术。

    2.无发言人

    在视频会议中的某些时候,房间中的与会者都未发言,端点10确定
    没有明确的发言人(判定192)。这种判定可以在视频会议环境中,检测到
    最后的话音音频之后过去一定量的时间为基础。如果没有当前发言人,
    那么端点10应用各种规则193,确定是否把端点10输出的当前画面切换
    成另一个画面(判定188),从而输出当前画面(184)或改变画面(189)。

    例如,输出的当前画面可以是来自人物画面摄像机50B的、最近发
    言的与会者的拉近画面。尽管该与会者已停止发言,不过端点10可决定
    保持该画面,或者切换到来自房间画面摄像机50A的拉远的画面。决定
    是否切换画面可取决于在一定时间内,其它与会者是否开始发言,或者
    在一定时间内,某位近端或远端与会者开始发言?;痪浠八?,一旦在拉
    近的画面中被取景的近端与会者停止发言,在远端的与会者可能开始持
    续较长时间地发言。在这种情况下,端点10可从拉近的画面切换到包括
    所有与会者的房间镜头。

    3.新的或者先前的发言人

    在视频会议中的某些时候,新的或者先前的发言人开始发言,端点
    10判定是否有新的发言人或者先前的发言人(判定194)。新的或者先前的
    发言人的判定可以来自确定视频会议环境中的不同音源的位置的麦克风
    阵列60A-B的话音跟踪为基础。当通过跟踪定位某个音源时,端点10
    能够把其确定为新的或者先前的发言人。另一方面,新的或者先前的发
    言人的判定可以检测发言人的语音特性的语音识别为基础。

    随着时间的过去,端点10能够记录在视频会议环境中发言的与会者
    的位置??梢允拐庑┘锹嫉奈恢糜肷阆窕?例如,摇移,俯仰和推拉)
    相关联。端点10还可记录来自被定位与会者的话音的特性,与会者发言
    的次数和时间,和其它历史数据。端点10又可根据规则和判定,利用该
    历史数据判定是否,何时,何处和如何把摄像机50A-B对着与会者。

    无论如何,端点10应用各种规则195,判定是否把端点10输出的当
    前画面切换成另一个画面(判定188),从而输出当前画面(184)或者改变画
    面(189)。例如,即使有新的或者先前的发言人,在该发言人已讲话一定
    时间之前,端点10可不切换到该发言人的拉近画面。这可避免在与会者
    和宽镜头之间不必要地跳转摄像机画面。

    4.近端对话

    在视频会议中的某些时候,两位以上的发言人可能在近端大约同时
    地相互谈话。此时,端点10能够判定是否正在发生近端对话或者音频交
    换(判定196)。例如,近端的多位与会者可能同时相互交谈或者发言。如
    果所述与会者进行对话,那么端点10最好同时拍摄对话双方的视频。如
    果与会者未进行对话,一位与会者只是在另一位与会者之后简短地插嘴,
    那么端点10最好保持主要发言人的当前画面。

    响应近端对话,人物画面摄像机50B可对两位发言人取景,拍摄视
    频。另一方面,人物画面摄像机50B可拍摄一位发言人的拉近画面,同
    时房间画面摄像机50A被指令拍摄另一位发言人的拉近画面。端点10
    的合成软件随后能够把这两个视频馈送放入合成布局中,以便输出给远
    端,或者端点10能够根据当前发言人,在要输出哪个摄像机的视频之间
    切换。在当不止两位与会者在近端谈话的其它情形下,端点10可改为切
    换到包括所有与会者的房间画面。

    不管怎样,端点10能够利用多种规则来确定何时发生近端对话,和
    近端对话何时结束。例如,随着视频会议的进行,端点10可确定在相同
    的两位与会者(摄像机位置)之间,指定的当前发言人已更替,以致在第一
    时间范围(例如,最后的10秒左右)内,每位与会者至少两次是当前发言
    人。当确定了这种情况时,在第三位发言人变成当前发言人,或者所述
    两位发言人之一持续第二时间范围(例如,15秒左右)以上,一直是唯一
    的发言人之前,端点10最好指令人物画面摄像机50B至少对这两位与会
    者取景。

    为了帮助进行判定,端点10最好保存频繁发言的发言人,他们的位
    置,和他们是否倾向于相互交谈的指示。如果在刚刚结束一个对话后的
    一定时间(例如,5分钟)内,频繁发言的发言人开始后一个对话,那么一
    旦第二位发言人开始在对话中说话,端点10就可直接返回过去使用的先
    前的对话取景。

    作为另一种考虑,端点10能够确定对话中的发言人之间的视角。如
    果他们被大于45°左右的视角隔开,那么完成人物画面摄像机50B的对准
    和拉远所用的时间会大于期望的时间。在这种情况下,端点10可改为切
    换到房间画面摄像机50A,以拍摄房间的宽画面,或者对话中的与会者
    的取景画面。

    5.远端对话

    在视频会议中的某些时候,近端与会者之一可能正在和一位远端与
    会者对话,端点10确定正在进行远端对话或者音频交换(判定198),并
    应用某些规则(199)。例如,当近端发言人参加与远端发言人的会话时,
    近端发言人通常停止讲话,以倾听远端发言人。端点10会把这种情况识
    别成与远端的对话,并保持近端与会者的当前人物画面,而不是把这种
    情况识别成等同于没有近端发言人并切换到房间画面。

    为此,端点10可利用借助视频会议单元95,从远端获得的音频信息。
    所述音频信息可指示在会议期间,从远端检测到的话音音频的持续时间
    和频率。在近端,端点10可获得话音的类似持续时间和频率,并把其与
    远端音频信息相关。根据所述相关,端点10判定近端与会者在与远端对
    话,从而当近端发言人停止讲话时,端点10不切换到房间画面,而不管
    在近端房间中有多少其他与会者。

    E.切换画面和对发言人取景

    在视频会议中可预料的是,当与会者相互交互和与远端交互时,在
    与会者之中,当前发言人会动态更替。于是,管理输出什么视频的各种
    决策和规则最好按照避免过多切换摄像机画面和避免显示不太重要的或
    者题外的画面的方式,应付视频会议环境的动态性质。

    现在参见图5,过程200提供端点10如何切换画面,和对当前发言
    人取景的更多细节。操作从端点10利用摄像机50A和/或50B拍摄视频
    开始(方框202)。当没有与会者发言时,端点10可利用来自房间画面摄
    像机50A的宽画面,并可输出该视频,尤其是在视频会议开始时(方框
    204)。

    随着视频会议的进行,端点10分析用麦克风28和/或阵列60A-B捕
    捉的音频(方框206),确定与会者之一何时在发言(判定208)。所述判定可
    利用本领域中已知的处理技术,根据话音的可识别特性检测话音,和通
    过追踪确定来源的位置。一旦与会者开始发言(判定208),端点10确定
    该与会者是否是新的发言人(判定210)。如果视频会议刚刚开始,那么情
    况会是这样。不过,在稍后的处理中,端点10可根据下面概述的发言人
    识别,或者根据分析方框中的最后发言人的定位是否不同于现在发言人
    的当前估计的比较,确定正在发言的人物是新的发言人。

    如果确定了新的发言人(或者由于任何其它原因而需要处理),那么端
    点10确定发言人的位置(方框212),并操纵人物画面摄像机50B对着确
    定的位置(方框214)??梢岳眯矶嗉际趵慈范ǚ⒀匀讼喽杂谌宋锘嫔?br />像机50B的位置。下面说明这些技术中的一些技术。

    在一个例子中,端点10处理来自各个麦克风阵列60A-B的音频信号,
    利用定位音源的技术,确定当前发言人的位置。在美国专利No.5778082;
    6922206和6980485中公开了这些技术的细节,这些专利均在此引为参
    考。在另一个例子中,可以利用发言人识别技术和历史信息,根据发言
    人的话音特性识别发言人。随后,端点10能够使摄像机50B转向与识别
    的发言人相关的最后位置,只要所述最后位置至少与该发言人的当前位
    置相符。

    一旦发言人被定位,端点10就把发言人的候选位置转换成摄像机命
    令(摇移-俯仰-推拉坐标),以操纵人物画面摄像机50B拍摄正在发言的与
    会者(方框214)。一旦人物画面摄像机50B被移动,就使当前发言人进入
    该摄像机的画面中(方框216)。

    由于使发言人进入画面存在许多挑战,因此端点10确定是否适当地
    使当前发言人进入当前画面(判定218)。如果否,那么端点10搜索当前
    画面和/或摄像机的画面的相邻部分,以调整画面,使发言人的实际物理
    位置进入画面,所述实际物理位置可能不同于通过话音跟踪而确定的位
    置(方框220)??砂葱枰啻沃馗吹髡?。最后,如果不能确定发言人
    的位置,或者如果不能恰当地使发言人进入画面,那么端点10可继续显
    示来自房间画面摄像机50A的宽画面(方框204),而不是切换到人物画面
    摄像机50B。

    这里公开用于确定人物画面摄像机50B的当前画面是否恰当地使当
    前发言人进入画面中的几种技术。例如,一旦人物画面摄像机50B完成
    了转向,端点10就能够利用下面讨论的基于运动的视频处理算法,使发
    言人进入画面。如果所述算法报告取景良好(判定218),那么端点10从
    宽画面(由房间画面摄像机50A提供)切换到定向画面(由人物画面摄像机
    50B提供),并选择来自摄像机50B的当前画面,以便输出给远程端点(方
    框220)。如果未报告取景良好,那么微调人物画面摄像机50B的位置,
    以继续搜索良好的取景(方框222)。如果仍然不能得到良好的取景,那么
    端点10保持房间画面摄像机50A的宽画面(方框204)。

    1.音频跟踪细节

    如上所述,定位发言人和指挥人物画面摄像机50B利用的是正交排
    列的阵列60A-B的麦克风62A-B。例如,图6A表示视频会议环境中的
    水平阵列60A的平面图,而图6B表示垂直阵列60B的正视图。端点10
    利用水平阵列60A确定发言人的水平方位角,利用垂直阵列60B确定垂
    直方位角。由于位置差异的缘故,每个麦克风62A-B捕捉相位和幅度稍
    微与由其它麦克风62A-B捕捉的音频信号不同的音频信号。通过利用如
    在引入的美国专利No.5778082,6922206和6980485中公开的波束形成
    技术,这些差异的音频处理随后确定发言人的水平方位角和垂直方位角。

    简要地,对多个位置来说,音频处理把与每个点相关的波束形成参
    数应用于麦克风阵列60A-B发送的音频信号。随后,音频处理确定哪组
    波束形成参数使麦克风阵列60A-B接收的音频信号的和振幅达到最大。
    随后,音频处理识别与使麦克风阵列的信号的和振幅达到最大的一组波
    束形成参数相关的水平方位角和垂直方位角。通过利用这些水平方位角
    和垂直方位角,音频处理最终确定人物画面摄像机50B的对应摇移-俯仰
    -推拉坐标。

    取决于环境的动态特性,根据利用阵列60A-B的音源跟踪,用人物
    画面摄像机50B对当前发言人取景存在一些挑战。如前所述,在周围物
    体上的反射会使摄像机50不正确地对着音源的反射,以致不会使发言人
    恰当地进入摄像机的画面中。

    例如,如图6B中所示,由于音频可能在反射点(例如,桌面)反射,
    因此反射使摇移坐标的正确确定变复杂。对麦克风阵列60B来说,反射
    点看来似乎是从音源指向它的。如果与从发言的与会者的方向相比,从
    该反射点的方向收到更多的声能量,那么端点10会错误地把该反射点确
    定为要跟踪的音源。

    为了克服这个问题,端点10可利用识别这种反射的技术。例如,如
    图7A-7B中所示,相对于方位角,用图表示由阵列60A-B之一检测的能
    量。从图7A中可看出,音源的声音和音源的反射产生两个能量峰,一个
    是音频的能量峰,一个是反射的能量峰(通常稍后)。这和图7B中的曲线
    图形成对照,在图7B的曲线图中没有任何反射。相对于方位角分析所述
    能量,端点10能够确定来自音源的反射,并忽略所述反射。最后,这能
    够帮助避免把人物画面摄像机50B对着反射点。

    就与反射类似的问题来说,在视频会议环境中出现的其它噪声会使
    定位发言人,和用摄像机50A-B对发言人取景变得复杂。源于键盘打字,
    轻敲铅笔,转动椅子等的噪声会与来自与会者的话音混合。例如,与会
    者可能把膝上型计算机带到视频会议中,并回答电子邮件,做记录等等。
    由于在给定时间捕捉的音频可能包含散布有这种噪声(比如打字)的话音,
    因此基于音频的定位器42的话音检测器42需要处理这种外来噪声。

    如前所述,端点10利用话音检测器43(图1A)确定麦克风阵列24捕
    捉的信号是话音还是非话音。一般来说,当信号是话音或者键盘噪声时,
    话音检测器43能够有效地工作,当话音检测器43把音频检测为非话音
    时,端点10只是忽略捕捉的音频。不过,当话音和噪声混合时,话音检
    测器43会不那么有效。如果出现误差,那么端点10会错误地把人物画
    面摄像机50B对着噪声源(例如,键盘)。

    公开的端点10的几个优点有助于处理与外来噪声混合的话音。如前
    所述,端点10最好不太频繁地移动摄像机50A-B,以消除过度的画面切
    换。为此,在把音源的位置发给摄像机50A-B之前,端点10最好利用等
    待期(例如,2秒)。因此,在向人物画面摄像机50B宣告音源的位置之前,
    端点10能够积累来自麦克风阵列60A-B的2秒钟的捕捉音频。键盘噪声
    和话音不会在整个等待期(2秒)内都重叠,对多数人来说,连续两次键盘
    击键之间的时间间隔一般至少为100毫秒。因此,2秒的等待期足够了,
    不过可以使用其它时限。

    图8A表示在话音检测中,处理话音和非话音音频的过程300。在一
    种实现中,端点10通过每20毫秒采样捕捉的音频(方框304),开始积累
    用麦克风阵列60A-B捕捉的等待期中的音频(方框302)。端点10利用这
    些20毫秒的样本,根据话音跟踪技术计算音源的摇移-俯仰坐标(方框
    306)。但是,这些摇移-俯仰坐标并不作为音频的位置被传给人物画面摄
    像机50B。端点10改为分多步处理所述20毫秒的样本,以区分由话音
    和/或噪声造成的来源位置。

    除了计算20毫秒样本中的假设音源的摇移-俯仰坐标之外,端点10
    利用瞬态信号检测器(TSD)计算每个20毫秒样本的瞬态信号值(方框
    308)。图8B表示瞬态信号检测器340的方框图。如图所示,检测器340
    具有滤出低于4000Hz的频率的4000Hz高通滤波器。在高通滤波器之后,
    检测器340具有匹配滤波器(匹配滤波器的形状表示在该方框之下),用于
    使匹配滤波器的模板信号与20毫秒样本的未知信号相关。对每个20毫
    秒样本来说,检测器340的输出是标量数(scalar?number),即,匹配滤
    波输出中的最大值。

    根据该瞬态信号处理,来自检测器340的结果值可指示20毫秒样本
    是表示话音还是非话音。例如,如果检测器340产生较大的瞬态信号值,
    那么20毫秒样本可能对应于键盘噪声。如果检测器340产生较小的瞬态
    信号值,那么20毫秒样本可能对应于话音。一旦产生了瞬态信号值,就
    使它们与20毫秒样本的摇移-俯仰坐标相联系。

    到2秒等待期结束时(图8A中的判定310),可能存在多达100个具
    有摇移-俯仰坐标和瞬态信号值的20毫秒样本(只具有背景噪声的那些样
    本不产生有效坐标)。利用聚类技术,比如高斯混合模型(GMM)算法,端
    点10使20毫秒样本的摇移-俯仰坐标聚类(方框312),得出群集的数目,
    求每个群集的值的平均值(方框314)。也可以使用其它聚类技术,比如
    Linde-Buzo-Gray(LBG)算法。

    例如,图8C表示在使等待期中的20毫秒样本的摇移-俯仰坐标聚类
    之后的结果。每个摇移-俯仰坐标用“x”表示,每个群集的平均值(即,音
    源的位置)用“*”表示。在这个例子中,聚类表明集合在两个群集中的两个
    音源。

    这些群集具有不同的摇移和俯仰坐标,大概因为两个音源在视频会
    议环境的分离部分中。然而,即使发言人一边发言一边还在打字,聚类
    也能够依据群集的不同俯仰坐标区分群集,纵使所述群集具有相同的摇
    移坐标。这样,即使与会者同时打字和发言,端点10能够定位话音来源,
    以对准人物画面摄像机50B。

    一旦如上所述完成了聚类,图8A的过程300中的端点10计算每个
    确定的群集的瞬态信号值的平均值(方框316)。如果群集的平均瞬态信号
    值小于定义的阈值(判定318),那么端点10宣告该群集可能对应于话音
    (方框320)。否则,端点10宣告该群集为瞬态声音,比如源于键盘击键
    噪声。阈值和其它变量的值取决于要检查的噪声的种类(例如,键盘击键),
    以及来自瞬态信号检测器340的匹配滤波的输出。因此,可关于给定的
    实现,配置这些变量的特定值。

    一旦所有群集的平均值已和阈值相比较,端点10就确定是否所有群
    集都不指示话音(判定324),如果是,那么结束。如果只有一个群集指示
    话音,那么端点10能够容易地确定具有其平均摇移-俯仰坐标的该群集对
    应于话音源的位置(方框328)。如果不止一个群集指示话音(判定326),那
    么端点10把具有最多摇移-俯仰坐标的群集宣告为话音源的位置(方框
    330)。

    从而,图8C中所示的聚类可具有如下的四种可能结果:(1)群集A
    是话音,而群集B是噪声,(2)群集A是噪声,而群集B是话音,(3)群
    集A是话音,而群集B也是话音,(4)群集A是噪声,而群集B也是噪
    声。尽管图8C表示这个例子中的两个群集,不过端点10可被扩展,以
    处理任意数目的话音和噪声源。

    在图8C的例子中,在第一种和第二种组合中,端点10能够容易地
    确定群集A和B中的哪个对应于话音源。在这些情况下,在2秒等待期
    结束时,端点10能够把音源位置(话音群集的平均摇移-俯仰坐标)传给人
    物画面摄像机50B,从而如果需要的话,能够使摄像机50B对着该音源。

    如果出现其中两个群集A和B都指示话音的第三种组合,那么端点
    10利用群集中的摇移-俯仰坐标“x”的数目来确定哪个群集代表主要的发
    言人。从而,具有关于等待期内的20毫秒样本计算的最多摇移-俯仰坐标
    的群集可被宣告为音源的位置。就其中群集都不指示话音的第四种组合
    来说,端点10的话音检测器43已指出检测到的声音全部(或者大部分)
    是噪声。

    如上所述,端点10利用等待期来检测麦克风阵列60A-B是否在捕捉
    话音和/或噪声。最后,通过对瞬态信号值的滤波,和坐标的聚类,端点
    10能够确定哪个摇移-俯仰坐标可能对应于话音源。这样,端点10更可
    能提供在操作期间,指挥人物画面摄像机50B的更可靠的音源位置信息。

    2.取景细节

    为了克服方位判定不正确的问题,端点10还可把这里公开的基于运
    动的技术和其它技术用于会议期间发言人的自动取景。此外,端点10可
    具有摄像机画面中的可配置的不拍摄区域。按照这种方式,用户能够定
    义摄像机视场中的不使摄像机50A-B对着以拍摄视频的区域。一般来说,
    这些不拍摄区域应是视场中,主要会拍摄到会议桌、墙壁等的区域。

    参见图9A-9B,表示了来自房间画面摄像机(50A)的宽画面230A。另
    外,表示了在以不正确的方位判定为基础的第一次取景之后,以一位视
    频会议与会者为中心取景的来自人物画面摄像机(50B)的紧凑画面230B。
    在宽画面230A中定义了不拍摄区232,以供参考??稍诠赜谔囟ǚ考湫?br />准端点(10)的过程中实现这些不拍摄区232,并且这些不拍摄区232不会
    因会议而异。

    在图9A中,在视频会议与会者开始发言之后,人物画面摄像机(50B)
    已对着紧凑画面230B中的该视频会议与会者。由于一些误差(即,反射,
    发言人把脸躲开等),紧凑画面230B未恰当地对该与会者取景。为了核
    实正确的取景,端点(10)搜索紧凑画面230B的拍摄视频中的特性,比如
    运动,肤色或面部特征。

    为了检测运动,端点(10)顺序比较出自用人物画面摄像机(50B)拍摄
    的紧凑画面230B的视频的采样帧,并识别由移动引起的差异。例如,如
    下更详细所述,端点(10)能够通过计算帧或帧的一部分中的像素的亮度值
    的总和,确定移动,并在顺序各帧之间相互比较所述总和。如果两个总
    和之间的差异大于预定阈值,那么该帧或帧的一部分可被标记为具有运
    动的区域。最后,可迭代地调整紧凑画面230B,或者使其以该检测到的
    运动为中心。

    例如,人物画面摄像机50B可能使发言人进入过高或过低,或者过
    右或过左的紧凑画面230B中。首先根据运动像素调整摄像机50B的对准。
    如果摄像机50B过高地指向发言人(即,发言人的头部被显示在画面230B
    的下半部),那么根据运动像素(即,通过处理找到的最上面的运动块),
    降低摄像机的对准。

    如果根本不存在与摄像机50B取景的当前紧凑画面230B相关的运动
    块,那么端点(10)能够采取对着用阵列60A-B捕捉的音频中的第二个声
    音峰。如果当前摄像机(即,人物画面摄像机50B)具有自动特征(即,自
    动聚焦,自动增益,自动光圈等),那么在进行上面说明的运动检测的时
    候,端点10可禁用这些特征。这有助于运动检测更可靠地工作。

    作为运动检测的备选方案,端点(10)利用本领域中已知的各种技术,
    检测紧凑画面230B的视频中的肤色。简要地说,端点(10)能够计算帧或
    帧的一部分内的色度值的平均值。如果所述平均值在与肤色相关的范围
    内,那么该帧或其一部分被认为具有肤色特性。另外,端点(10)可利用面
    部识别技术来检测和定位摄像机的画面230B中的面部。例如,端点(10)
    可通过找出可能包含人类皮肤的区域,随后从这些区域中找出指示画面
    中的面部位置的区域,来找出面部。在美国专利No.6593956,“Locating?
    an?Audio?Source”中公开了与肤色和面部检测(以及音频定位)有关的细
    节,该专利在此引为参考。随后可迭代地调整紧凑画面230B,或者使其
    以检测到的肤色和/或面部识别为中心。

    在核实取景时,端点(10)能够利用来自摄像机(50A-B)的两个画面
    230A-B分析诸如运动,肤色或面部之类的特性??晒赜谠硕?,肤色或面
    部分析来自人物画面摄像机(50B)的宽画面230B,以确定它目前是否对着
    与会者。如果人物画面摄像机(50B)最后指向墙壁或者天花板,那么关于
    紧凑画面230B中的运动,肤色或面部的视频处理能够确定情况是这样,
    从而端点(10)能够避免输出这种不合需要的画面。随后,可使人物画面摄
    像机(50B)转向周围区域,以确定是否由于来自这些周围区域的后续运动,
    肤色或面部识别的值更大,能够实现更好的取景。

    另一方面,围绕通过话音跟踪而获得的当前取景画面230B,可关于
    运动,肤色或面部确定,分析来自房间画面摄像机50A的宽画面230A。
    如果在宽画面230A中找到源于这些周围区域的运动,肤色或面部确定的
    更大值,那么端点(10)能够使人物画面摄像机(50B)转向该周围区域。在
    已知两部摄像机(50A-B)之间的设定距离,和它们的两个画面的相对取向
    的情况下,端点(10)能够把画面230A-B之间的区域转换成用于移动人物
    画面摄像机(50B),以对适当区域取景的坐标。

    如何分析周围区域可涉及缩放人物画面摄像机(50B),以改变被取景
    环境的大小。随后,视频处理能够确定两个不同的缩放画面之间在运动,
    肤色或面部确定方面的差异。另一方面,人物画面摄像机(50B)的摇移和/
    或俯仰能够被自动从初始的取景画面230B调整到调整后的取景画面。这
    种情况下,视频处理能够确定不同调整的画面之间在运动,肤色或面部
    确定方面的差异,以找出哪个画面更好地对与会者取景。另外,运动,
    肤色或面部确定都可被组合在一起,也可利用调整人物画面摄像机(50B)
    的当前取景和利用房间画面摄像机(50A)的组合。

    最后,取景技术可以利用在人物画面摄像机(50B)和房间画面摄像机
    (50A)之间交换的信息来帮助对发言人取景。两部摄像机(50A-B)的物理位
    置是已知和固定的,以致可使一部摄像机的操作(摇移、俯仰、推拉)与另
    一部摄像机的操作(摇移、俯仰、推拉)相关。例如,人物画面摄像机(50B)
    可被用于对发言人取景。其信息随后可以与房间画面摄像机(50A)共享,
    以帮助房间画面摄像机(50A)对房间的取景。另外,来自房间画面摄像机
    (50A)的信息可以与人物画面摄像机(50B)共享,以帮助更好地对发言人取
    景。

    通过利用这些取景技术,视频会议端点10减小了端点10产生不是
    发言人、或者未被很好取景的某物的拉近画面的可能性?;痪浠八?,端
    点10减小了在常规系统中会发生的不恰当取景(例如,对会议桌、空白墙
    壁的拉近,或者由于麦克风阵列产生的不完美的音频结果,对发言人的
    膝上型计算机的拉近)的可能性。事实上,一些常规系统可能从不定位某
    些发言人。例如,常规系统可能不定位位于会议桌端部的、其到麦克风
    阵列60A-B的直接声通路因会议桌反射而变得模糊的发言人。通过利用
    这里公开的视频和音频处理技术,公开的端点10能够成功地拉近这样的
    发言人。

    F.自动取景过程

    如上简要所述,当动态地使人物画面摄像机50B对着当前发言人时,
    公开的端点10能够利用运动,肤色和面部识别恰当地对与会者取景。作
    为取景技术的一部分,公开的端点10可首先通过在视频会议开始时,或
    者相隔不同的时间间隔检测房间的拍摄视频中的相关块,估计与会者的
    位置。通过查看拍摄的视频中的运动,肤色,面部识别,或者它们的组
    合,能够确定这些相关块。该自动取景过程可由视频会议与会者在会议
    开始时,或者在任何其它适当的时候启动。另一方面,自动取景过程可
    在开始视频会议呼叫时,或者在某一其它触发时间自动发生。通过了解
    拍摄的视频中,和与会者的位置对应的相关块,当用摄像机50A-B自动
    对在房间内各处的与会者取景时,端点10就能够利用这些已知的相关块。

    图10表示按照本发明的利用自动取景的过程400。下面关于如在图
    1A和2A中公开的双摄像机系统讨论过程400。不过,自动取景技术同
    样可用于如在图2B和2D中公开的具有一部摄像机的视频会议系统。

    在视频会议开始之前的发起期间(即,当连接呼叫和与会者作好准备
    时),端点10启动时限(方框402),并对由摄像机之一拍摄的视频采样(方
    框404)。为此,端点10通过一直变焦拉远摄像机,获得整个房间的视频,
    或者端点10可关于环境的最宽画面,直接了解摄像机的整个摇移-俯仰-
    推拉范围。在获得房间的宽画面之后,端点10随后把宽画面分成多个块,
    以便单独分析(方框406)?;痪浠八?,关心的房间空间的默认宽画面被分
    成多个部分或块(N=2,3等)。这些块都代表摄像机的特定紧凑画面。这样,
    各个块可被识别成摄像机的特定摇移、俯仰和推拉坐标。

    在具有两部摄像机50A-B的情况下,端点10能够变焦拉远摄像机
    50A和/或50B,以获得总的宽画面。最好,使用可操纵的人物画面摄像
    机50B,从而人物画面摄像机50B能够获得环境的可能的最宽画面。如
    前所述,摄像机50B的摇移、俯仰和推拉的整个范围可能已为端点10所
    知。因此,端点10能够自动把可能的最宽画面分成多个块或紧凑画面,
    每个块或紧凑画面由摄像机50B的特定摇移、俯仰和推拉坐标代表。

    另一方面,人物画面摄像机50B能够分别在不同的方向获得几个视
    频图像,并把它们接合在一起,从而创建房间的宽画面。例如,图12A
    表示利用人物画面摄像机50B获得的视频会议环境的四个象限的拍摄图
    像460。为了获得图像460,人物画面摄像机50B可被变焦拉远和摇移到
    各个象限,从而获得房间的可能的最宽画面。这能够增大搜索区域。尽
    管图中表示图像460间没有重叠,不过实际上它们会重叠,不过通过处
    理能够恰当地处理所述重叠。

    每个图像460被表示成分成几个块462(本例中,15个,不过可以使
    用其它值)???62至少和一个像素一样大,可以是视频压缩算法通常使
    用的宏块的大小。同样地,这些块462都与可依据给定的几何形状确定
    的摄像机50B的特定摇移、俯仰和推拉坐标相关。

    在图10中,把房间的宽画面分成多个块的情况下,端点10选择每
    个块(方框408),并检查每个块,以确定该块对自动取景来说的关联性。
    为了检查每个块462,人物画面摄像机50B被拉近成包含该块的紧凑画
    面,以确定在房间的整个画面中,该块具有什么关联性(即,运动,肤色,
    面部识别等)(方框410)。通过拉近,利用人物画面摄像机50B获得的视
    频图像能够更好地检测运动,肤色和其它细节。

    从而,端点10确定所选块的拉近图像是否相关(判定412)。如果块
    被确定为相关的,那么端点10把该块标记为相关(方框414),并把它的
    关联位置信息(摄像机摇移、俯仰和推拉坐标)保存在存储器中,供以后使
    用。

    相关块是重要的是,因为它们定义用于当在视频会议期间动态需要
    时,利用摄像机50A-B恰当地构成画面的关心区域?;痪浠八?,相关块
    包含具有指示它至少是视频会议与会者的关心对象的一部分的特性的画
    面的一部分。通常在视频会议中,与会者是关心的对象。在这种情况下,
    表示视频会议与会者的可搜索特性可包括如前所述的运动,肤色和面部
    特征。

    在检查所有块(判定416)和确定所述时限是否结束(判定418)之后,视
    频处理确定最外面的相关块(方框420)。这些最外面的相关块可包括最左
    边,最右边和最上面的相关块。如果需要的话,可忽略最下面的相关块。
    根据这样的最外面的块,端点10计算用于构成环境中的与会者的最适配
    画面(方框422)。例如,利用三角形计算和保存在存储器中的块-摄像机位
    置数据,最左边,最右边和最上面的相关块的位置能够被转换成用于自
    动取景的摇移-俯仰-推拉坐标。

    最后,端点10根据从分析块获得的合成结果,对房间取景。为了图
    解说明,图12B表示了广角画面460中的相关块462的取景区域470。
    在考虑区域470中的最左边,最右边和最上面的相关块462之后,图12C
    随后表示广角画面460中的最后得到的取景画面472。通过了解最佳画面
    472,端点(10)能够调整房间画面摄像机(50A)的摇移-俯仰-推拉坐标,以
    构成画面472,从而视频会议室的多余部分不被拍摄。同样地,端点(10)
    关于人物画面摄像机(50B)进行的与会者的话音跟踪和自动取景通??杀?br />限制于该取景画面472。这样,当试图对发言的与会者恰当取景时,端点
    (10)能够避免对着在取景画面472之外的音源反射,并且能够避免搜索在
    取景画面472之外的,围绕该与会者的相邻区域。

    1.利用运动的自动取景

    可利用如上所述的几种技术,确定块为相关块。在图11A中所示的
    一个实施例中,视频处理通过确定哪些块指示与会者移动,识别相关块。
    如图所示,视频处理选择一个块(方框408),并如前所述,用紧凑画面拉
    近该块(方框410)。随后,视频处理对所选块的由拉近的摄像机50B捕捉
    的视频帧速率进行抽选(decimate),以降低计算复杂性。例如,在一种
    实现中,帧速率可被抽选到约6帧/秒。在此时或者任意其它时刻,可以
    应用时间和空间滤波以改善检测,和消除噪声或干扰。

    通过利用连续各帧,视频处理计算块的各帧之一内的各个像素的亮
    度值之和,并把该值与在块的另一帧内的亮度值之和相比较(方框434)。
    如果这两个和数之间的差异大于预定阈值(判定436),那么视频处理把该
    对象块标记为相关块,并且可能包含运动(方框414)。

    最后,逐块地计算连续各帧之间在亮度值方面的差异,直到分析了
    所有块为止(判定416)。一旦分析了所有块,端点10根据运动确定了哪
    些块是相关块。此时,端点10继续图10中的过程步骤,以根据相关块,
    对房间的宽画面自动取景。

    为了图解说明,图13表示了块的与会者在第一位置的第一帧464,
    并且表示了该块的与会者已移动的后续帧465。上面讨论的基于运动的技
    术计算这两帧464/465的亮度的平均值,并比较这些平均值。如果亮度方
    面的差异大于阈值,那么与这些帧464/465相关的块被确定为能够被指定
    成取景画面的一部分的相关运动块。

    相反,帧466/467表示视频会议室的保持静止的一部分。当在这些帧
    466/467之间比较亮度平均值时,所述差异低于所述阈值,以致与这些帧
    466/467关联的块不被确定为相关块。

    关于亮度差的阈值可取决于使用的摄像机,白平衡,光量和其它因
    素。于是,所述阈值是可自动或人工配置的。例如,端点10可采用低阈
    值,以根据视频会议与会者的有意识和无意识运动,检测相关块。当视
    频处理利用这样的低阈值时,它对运动的灵敏度较高。相反,随着阈值
    的增大,端点对运动的灵敏度降低。从而,定位参加发言的视频会议与
    会者所必需的最小阈值高于定位仅仅表现出被动运动的视频会议与会者
    所必需的最小阈值。于是,通过调整阈值,在视频会议与会者发言时,
    视频处理能够检测到该与会者,当该与会者只是被动地坐着时,视频处
    理能够避免检测到该与会者。由于这些原因,运动检测中涉及的任何阈
    值都是可配置的,并且可在操作中自动调整。

    2.利用肤色的自动取景

    在图11B中所示的另一个实施例中,视频处理根据块的像素是否包
    含肤色,确定相关块。本领域中已知在图像内寻找肤色的多种方法。在
    这个例子中,和前面一样,视频处理选择一个块(方框408),并用紧凑画
    面拉近该块(方框410)。随后,视频处理对块或其各个部分的拍摄视频的
    一帧或多帧采样(方框440),需要的话,对其滤波(方框442),并计算对象
    块内的色度值的平均值(方框444)。如果所述平均值在与人类肤色相关的
    范围之内(判定446),那么该块被标记为相关块(方框414)。

    在引用的美国专利No.6593956中公开了与肤色检测相关的细节。肤
    色检测可取决于许多因素,也可以是人工配置和自动配置的。在任何情
    况下,逐块地计算平均色度值,直到对所有块分析了相关性为止(判定
    416)。此时,端点10继续图10中的过程处理,以根据相关块,自动构成
    房间的宽画面。

    G.利用面部识别的自动取景

    在图11C中表示的另一个实施例中,视频处理可利用面部识别来确
    定相关块。本领域中已知识别面部特征的许多方法。在引用的美国专利
    No.6593956中公开了与面部检测相关的细节。在这个例子中,视频处理
    选择已被分析和标记为具有肤色的各个邻接块(方框450)。面部识别算法
    随后关于面部特征,对一组邻接的块进行分析(方框452)。如果检测到面
    部特征(判定454),那么该组邻接的块被标记为可用于稍后的自动取景的
    相关面部块(方框456)。

    最后,逐组地关于面部识别分析所有邻接块,直到分析了所有各个
    块为止(判定416)。此时,端点10继续图10中的过程处理,以根据相关
    块自动构成房间的宽画面。

    H.另外的自动取景细节

    操作中,如果画面内的条件发生变化,那么端点10需要对由摄影机
    50A和/或50B获得的当前画面重新取景。例如,在视频会议期间,视频
    会议与会者可能离开画面,或者新的与会者可能进入房间中。端点10可
    定期重新扫描宽画面,以发现任何变化(即,任何新的或旧的相关块)。当
    重新扫描时,视频处理能够定位包含与会者或者没有与会者的那些块,
    从而在重新计算摄像机画面的摇移-俯仰-推拉坐标时,可以考虑这些块。
    另一方面,视频会议与会者可利用用户界面或者??仄?,开始重新取景
    序列。

    对重新扫描来说,特别有利的是利用具有至少两部摄像机50A-B的
    端点10。例如,在双摄像机端点10中,人物画面摄像机50B能够依据
    图10的过程,定期重新扫描房间的总的宽画面,而房间画面摄像机50A
    拍摄和输出会议视频。另一方面,当人物画面摄像机50B跟踪和拉近当
    前发言人时,房间画面摄像机50A可开始重新扫描程序,以确定宽画面
    中的相关块。

    尽管这些取景技术有益于前面公开的双摄像机端点10,不过,这些
    技术也可用在如在图2B和2D中公开的单摄像机装置中。此外,这些取
    景技术可以和具有如前公开的麦克风阵列,或者具有麦克风的任何其它
    排列的系统一起使用。

    I.发言人识别

    除了话音跟踪,运动,肤色和面部识别之外,或者作为它们的备选
    方案,端点10可利用发言人识别来识别哪个特定与会者正在视频会议环
    境中发言。发言人识别技术可以和前面说明的双摄像机端点10一起使用,
    不过它也可和具有更多或更少摄像机的其它视频会议系统一起使用。对
    双摄像机端点10来说,可为拉远的房间画面,设定房间画面摄像机50A,
    而人物画面摄像机50B可跟踪和拉近当前的发言人,如前所述。端点10
    随后能够部分根据发言人识别,确定输出哪个摄像机画面。

    图14表示具有双摄像机50A-B,麦克风阵列60A-B,外部麦克风28
    和前面讨论的其它组件的视频会议端点10,以供参考。端点10还具有发
    言人识别特征,包括发言人识别???4和数据库25。这些可以与音频模
    块20相联系,音频???0用于处理来自外部麦克风28和阵列60A-B的
    音频。

    发言人识别???4分析主要采样自外部麦克风28的音频。利用该
    音频,发言人识别???4能够确定或识别在视频会议期间,哪位与会者
    正在发言。对数据库25来说,数据库25保存用于进行所述确定或识别
    的信息。

    如图15中所示,图中表示了包含可被图14的发言人识别???4使
    用的一些信息的数据库表480。提供数据库表480只是出于举例说明的目
    的,因为本领域的技术人员会认识到可按照本领域中已知的任何可用方
    式,保存供发言人识别???4之用的各种信息。

    如图所示,数据库表480能够保存视频会议中的每位近端与会者的
    多条记录。对每位与会者来说,数据库表480能够包含该与会者的标识
    信息(姓名,头衔等),确定的该与会者的位置(摇移、俯仰、推拉坐标)和
    该与会者的话音的特性。

    除此之外,数据库表480可包含该与会者在视频会议期间发言的平
    均持续时间,该与会者在视频会议期间发言的次数,和可用于跟踪和识
    别发言与会者的其它细节。该信息也可用于收集和报告会议的统计资料。
    例如,该信息可指出会议中的发言人的数目,每位发言人发言的时间有
    多长,该发言人在什么时候参加该会议,等等。最后,当检查会议的记
    录时,该信息可用于快速定位视频会议的特定部分。

    通过利用比如包含在数据库表480中的信息,当检测到话音时,图
    14中的端点10的发言人识别???4能够从视频会议的各位与会者中,
    识别出特定的发言人。例如,图16表示可在视频会议期间实现的发言人
    识别过程500。首先,端点100发起视频会议(方框502)。作为会议的建
    立的一部分,与会者可在发言人识别界面中进行登记(方框504),不过这
    不是这里公开的发言人识别严格必需的。

    当使用登记程序时,与会者利用用户界面,输入标识信息,比如姓
    名、头衔等。随后,与会者向发言人识别???4提供一个或多个话音样
    本。为了获得所述样本,???4可以要求,或者可不要求与会者说出某
    些文稿、短语、单词等等。不管怎样,???4分析与会者的话音样本,
    确定该与会者的话音的特性。一旦完成登记,???4随后把每位与会者
    的话音特性和标识信息保存在数据库25中,供以后使用(方框506)。

    在一种实现中,???4提供的发言人识别可以梅尔频率倒谱(MFC)
    为基础,以致保存在数据库25中的话音特性可包括梅尔频率倒谱系数
    (MFCC)。在本领域中,得到这些系数的技术是已知的,从而这里不再详
    述。然而,???4可以利用本领域中已知的任何其它技术来识别话音特
    性,从而根据话音特性识别发言人。

    在与会者已登记的情况下,端点10开始进行视频会议(方框508)。
    在人物画面摄像机50B对着发言人之前,端点10拍摄视频,并且最初输
    出来自房间画面摄像机50A的宽画面(方框510)。同时,端点10分析用
    外部麦克风28和/或麦克风阵列60A-B捕捉的本地音频(方框512)。

    在某一时刻,端点10利用本领域中已知的话音检测技术,确定是否
    检测到话音(判定514)。为此,端点10的话音检测器43能够对捕捉的音
    频采样,用滤波器组把音频滤波成多个频带??梢苑治鲇牖耙粝喙氐恼?br />些频带的脉冲或振幅,以确定目前采样的音频是否表示话音。最好,分
    析的捕捉音频是利用外部麦克风28获得的会议音频,而不是利用阵列
    60A-B获得的会议音频,不过也可使用利用阵列60A-B获得的会议音频。

    如果检测到话音,那么发言人识别???4对检测到的话音采样,以
    确定其特性,随后,???4搜索数据库25,寻找具有这些特性的与会者
    (方框514)。同样地,???4能够利用本领域中已知的技术,确定梅尔
    频率倒谱系数(MFCC)。一旦完成,端点10就通过比较目前得到的特性
    和保存在数据库25中的各个与会者的特性,识别当前发言人。从而可根
    据这些特性的最佳匹配,获得当前发言人的身份。

    如果与会者已登记,那么???4在数据库中查找该发言人(判定
    518),端点10随后把人物画面摄像机50B对着发言人的坐标或方向(方框
    520)。这样,端点10检测话音,利用借助阵列60A-B的波束形成确定发
    言人的位置,确定当前发言人的身份,并指令人物画面摄像机50B拉近
    当前发言人的画面。此时,发言人的姓名能够被自动显示在输出给远端
    的视频上。正如所料,能够在远端显示当前发言人的姓名是有益的,尤
    其是当近端和远端的与会者互相不认识时更有益。

    作为一种附加措施,通过借助麦克风阵列60A-B的波束形成而获得
    的当前发言人的确定位置(人物画面摄像机50B的摇移、俯仰和推拉)可以
    和发言人的标识和话音特性一起被保存在数据库25中。这样,一旦该发
    言人稍后在会议中发言,???4能够根据话音特性识别该发言人,从而
    端点10能够直接把人物画面摄像机50B对着从数据库25获得的保存的
    位置(摇移、俯仰和推拉)。从而,端点10可放弃必须利用阵列60A-B进
    行发言人的音频跟踪,不过发言人识别可被用于提高在困难情况下,定
    位发言人的可靠性。

    在当前发言人的位置已知,并与话音特性相联系时,端点10能够对
    照保存在数据库25中的发言人的位置,核实当前音源的位置(方框522)。
    可能存在发言人识别和与数据库条目的匹配错误地把与会者之一识别为
    当前发言人的情况。为了避免把人物画面摄像机50B对着所述错误的人
    物或者反射点,端点10进行检查,判定确定的位置是否匹配预先保存在
    数据库25中的位置(判定524)。当存在许多与会者时,和在当前话音与
    保存的特性之间的匹配在识别当前发言人方面不那么权威时,这是有益
    的。另外,如果预期与会者在视频会议期间会移动,以致保存在数据库
    25中的位置可能不正确或者过时,那么这种检查是有益的。

    当试图在已登记的发言人的数据库25中找出当前发言人时(判定
    518),???4可能判定发言人未包括在数据库24中。例如,某人可能迟
    到参加视频会议,从而未在发言人识别过程中进行登记。另一方面,端
    点10可不利用登记过程,而只是随着会议的进行,识别新的发言人。

    无论如何,???4判定从当前发言人得到的话音特性并不与保存在
    数据库25中的任意话音特性和身份最佳匹配。这种情况下,???4把
    该话音特性保存在数据库25中(方框526)。这种情况下,该发言人的姓
    名未被附加到该数据库条目上,除非在会议期间,端点10提示输入。此
    时,端点10可利用麦克风阵列60A-B和前面说明的波束形成技术,确定
    该发言人的位置,并把所述位置保存在数据库25中(方框528)。如果端
    点10未能匹配定位的发言人和保存的候选者,那么也进行这个步骤。即
    使如此,该发言人的当前位置可能已在先前的处理中知道了,以致端点
    10不需要重新确定该发言人的位置。

    重庆时时彩单双窍门 www.4mum.com.cn 通常,端点10可利用它能够利用的每种方式定位当前发言人,并正
    确地对该发言人取景。这样,当一种方式失败时,来自麦克风阵列(60A-B)
    的信息,用摄像机(50A-B)拍摄的视频,来自麦克风箱(28)的音频,和发
    言人识别能够相互补充,它们可被用于确认彼此的结果。例如,利用麦
    克风箱(28)获得的测向可用于检查发言人识别。

    一旦直接地或者根据存储内容确定了位置(方框528),端点10就使
    人物画面摄像机50B转向确定的位置(方框530),并继续进行使发言人进
    入摄像机的画面中的过程(方框532)。和前面一样,端点10根据运动,
    肤色,面部识别等,判定发言人是否被恰当地取景(判定534),如果需要
    的话,搜索摄像机的画面和相邻部分(方框536),并视需要重复这些步骤,
    直到对发言人取景的选择画面能够被输出给远端为止(方框538)。

    如果在数据库中没有找到当前发言人,和不能通过波束形成确定位
    置,那么端点10可以简单恢复输出来自房间画面摄像机50A的视频。最
    后,即使当其所有定位和识别技术都失败时,端点10也能够避免输出会
    议室的不合需要的画面,或者人物画面摄像机50B的运动。

    发言人识别不仅有助于显示发言的与会者的姓名,或者帮助核实波
    束形成已确定正确的位置,而且在不能容易地通过波束形成等定义发言
    人的情况下,发言人识别也是有用的。例如,在当前发言人转动头部,
    从而避开麦克风阵列60A-B时,端点10可能不能利用波束形成等定位当
    前发言人。不过,发言人识别???4仍然能够根据话音特性,识别哪位
    与会者与保存的发言人匹配。根据所述匹配,端点10得到已保存的位置
    (摇移、俯仰和推拉),以便使人物画面摄像机50B对着当前的发言人。

    另外,发言人识别???4能够防止端点10在视频会议期间过早切
    换画面。例如,在某些时候,当前发言人转动头部,从而避开麦克风阵
    列60A-B,环境中的一些变化可能产生新的反射点,或者可能发生其它
    一些变化,以致端点10不再能够定位当前发言人,或者得到当前发言人
    的不同位置。尽管利用阵列60A-B的端点10能够知道某人在发言,但是
    端点10可能不能判定是同一人在继续发言,还是新的发言人开始发言。
    在这种情况下,发言人识别???4能够向端点10指出是否是相同的发
    言人在发言。于是,端点10能够借助人物画面摄像机50B,继续当前发
    言人的拉近画面,而不是切换到另一个画面。

    举例说明的操作方法的细节方面的各种变化都是可能的,而不脱离
    下述权利要求的范围。例如,图解说明的流程图步骤或过程步骤可按照
    与这里公开的顺序不同的顺序执行识别的步骤。另一方面,一些实施例
    可以结合这里被描述成独立步骤的活动。类似地,取决于实现所述方法
    的具体操作环境,一个或多个说明的步骤可被省略。

    另外,与流程图或过程步骤相应的动作可用可编程控制装置实现,
    所述可编程控制装置执行组织成在非暂时性可编程存储装置上的一个或
    多个程序??榈闹噶???杀喑炭刂谱爸每梢允堑ジ黾扑慊砥?,专用
    处理器(例如,数字信号处理器,“DSP”),用通信链路耦接的多个处理器,
    或者定制设计的状态机。定制设计的状态机可被嵌入诸如集成电路之类
    的硬件装置中,所述集成电路包括(但不限于)专用集成电路(“ASIC”)或者
    现场可编程门阵列(“FPGA”)。适合于有形地包含程序指令的非暂时性可
    编程存储装置(有时称为计算机可读介质)包括(但不限于):磁盘(硬盘,软
    盘和可拆卸磁盘)和磁带;光学介质,比如CD-ROM和数字视频光盘
    (“DVDs”);和半导体存储器装置,比如电可编程只读存储器(“EPROM”),
    电可擦可编程只读存储器(“EEPROM”),可编程门阵列和闪速装置。

    优选实施例和其它实施例的上述说明并不意图限制或约束申请人设
    想的发明原理的范围或适用性。通过公开这里包含的发明原理,申请人
    要求换取附加权利要求给予的所有专利。于是,附加权利要求最大程度
    地包括在下述权利要求或其等同物的范围内的所有修改和变化。

    关于本文
    本文标题:具有多个语音跟踪摄像机的视频会议端点.pdf
    链接地址://www.4mum.com.cn/p-5878416.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 彩票大小倍投方案 pk10五码三期投注方法 北京pk10现场直播 pk10赛车群pk10 手机北京pk10app 2019篮球世界杯赛程表 重庆时时开奖号码公告 排三6码遗漏组六分析 财神爷北京pk10手机版 看飞艇计划 江苏快三怎么玩稳赚 北京pk赛车官网计划 6码2期打法 四川时时走势图开奖结果查询 小胆神3b独胆 pk10计划群加