本公開提供用于視頻會議的方法、設備以及系統。本實現方式更具體地涉及能夠用于識別視頻會議中的說話者的音頻信號處理技術。在一些方面中,音頻信號處理器可以將視頻會議中的每個說話者映射到相應空間方向,并且使用與說話者所映射到的空間方向關聯的一個或多個傳遞函數來使從每個說話者接收的音頻信號變換。音頻信號處理器可以進一步將經變換的音頻信號傳送到音頻輸出設備,音頻輸出設備發射具有與變換關聯的定向性的聲波。例如,音頻信號處理器可以將一個或多個頭部相關傳遞函數應用于從特定說話者接收的音頻信號,使得由音頻輸出設備發射的聲波被感知為源自說話者所映射到的空間方向。的空間方向。的空間方向。
【技術實現步驟摘要】
用于視頻電話會議的虛擬聲音定位
[0001]對相關申請的交叉引用本申請根據35 USC
?§?
119(e)而要求提交于2021年8月4日的美國臨時專利申請No. 63/203,941的優先權和權益,該臨時專利申請通過引用而以其整體并入于本文中。
[0002]目前的實現方式一般涉及電話會議,并且具體地涉及用于視頻電話會議的虛擬聲音定位。
技術介紹
[0003]視頻電話會議(也被稱為“視頻會議”)是允許兩個或更多個人從不同地點接近實時地看到彼此且聽到彼此的通信技術。視頻會議能夠通過從多個參與者傳送和接收視頻信號和音頻信號的設備或終端的網絡來建立。例如,每個終端一般至少包括用以捕獲用戶的視頻的照相機、用以從用戶捕獲音頻的麥克風、用以回放其他參與者的所捕獲的視頻的顯示部件以及用以回放從其他參與者捕獲的音頻的音頻輸出部件。
[0004]視頻會議技術上的進步已導致具有越來越多數量的參與者的更大規模的視頻會議。然而,在許多視頻會議中,在任何給定時間,可能僅一個(或幾個)參與者(也被稱為“說話者”)正在說話。隨著視頻會議中的參與者的數量增加,(一個或多個)說話者的身份可能變得模糊。換言之,參與具有大量的參與者的視頻會議的用戶可能具有在任何給定時間辨別所述參與者中的哪個參與者正在說話的困難。因而,需要改進與視頻會議關聯的用戶體驗。
技術實現思路
[0005]提供本
技術實現思路
,以按簡化形式介紹在下文中在具體實施方式中進一步描述的概念的選擇。本
技術實現思路
不旨在識別要求保護的主題的關鍵特征或基本特征,也不旨在限制要求保護的主題的范圍。
[0006]本公開的主題的一個創新性方面能夠以一種處理音頻信號的方法實現。該方法包括如下的步驟:接收與包括多個參與者的視頻會議關聯的第一音頻信號;檢測與第一音頻信號關聯的第一說話者,其中第一說話者是視頻會議中的多個參與者中的一個參與者;將第一說話者映射到第一空間方向;基于與第一空間方向關聯的一個或多個傳遞函數而使第一音頻信號變換;以及將經變換的第一音頻信號傳送到音頻輸出設備。
[0007]本公開的主題的另一個創新性方面能夠以一種視頻會議系統實現,該視頻會議系統包括處理系統和存儲器。該存儲器存儲指令,所述指令在由處理系統執行時,使得視頻會議系統:接收與包括多個參與者的視頻會議關聯的第一音頻信號;檢測與第一音頻信號關聯的第一說話者,第一說話者是視頻會議中的多個參與者中的一個參與者;將第一說話者映射到第一空間方向;基于與第一空間方向關聯的一個或多個傳遞函數而使第一音頻信號變換;以及將經變換的第一音頻信號傳送到音頻輸出設備。
[0008]本公開的主題的另一個創新性方面能夠以一種視頻會議系統實現,該視頻會議系統包括顯示設備、音頻輸出設備以及音頻信號處理器。顯示設備配置成顯示包括多個參與者的視頻會議。音頻輸出設備配置成發射表示與視頻會議關聯的音頻信號的聲波。音頻信號處理器配置成:接收與視頻會議關聯的第一音頻信號;檢測與第一音頻信號關聯的第一說話者,第一說話者是視頻會議中的多個參與者中的一個參與者;將第一說話者映射到第一空間方向;基于與第一空間方向關聯的一個或多個傳遞函數而使第一音頻信號變換;以及向音頻輸出設備提供經變換的第一音頻信號。
附圖說明
[0009]目前的實現方式通過示例的方式說明,并且不旨在受附圖的圖限制。
[0010]圖1示出示例性的視頻會議系統。
[0011]圖2示出根據一些實現方式的示例性的視頻會議系統的框圖。
[0012]圖3示出根據一些實現方式的示例性的音頻信號處理器的框圖。
[0013]圖4示出利用虛擬聲音定位的示例性的視頻會議操作。
[0014]圖5示出根據一些實現方式的示例性的音頻信號處理器的另一個框圖。
[0015]圖6示出描繪根據一些實現方式的用于處理音頻信號的示例性操作的說明性流程圖。
具體實施方式
[0016]在以下的描述中,闡明許多具體細節,諸如具體部件、電路以及過程的示例,以提供對本公開的透徹理解。如本文中所使用的術語“耦合”意味著直接地連接到或通過一個或多個中間部件或電路連接。術語“電子系統”和“電子設備”可以可互換地使用以指代能夠電子地處理信息的任何系統。而且,在以下的描述中并且出于解釋目的,闡明具體術語以提供對本公開的方面的透徹理解。然而,將對本領域技術人員顯而易見的是,可以不要求這些具體細節來實踐示例性實施例。在其他實例中,公知的電路和設備以框圖形式示出,以避免使本公開難以理解。詳細描述的隨后的一些部分依據程序、邏輯塊、處理以及對計算機存儲器內的數據位的操作的其他符號表示而呈現。
[0017]這些描述和表示是被數據處理領域中的技術人員使用來向本領域中的其他技術人員最有效地傳達他們的工作的實質的手段。在本公開中,程序、邏輯塊、過程等等被認為是導致期望的結果的步驟或指令的自相容序列。所述步驟是要求物理量的物理操作的那些步驟。通常,盡管不一定,但這些量采取能夠在計算機系統中被存儲、傳遞、組合、比較并且以其他方式操作的電信號或磁信號的形式。然而,應當記住,所有的這些術語和類似術語將與適當的物理量關聯,并且僅僅是應用于這些量的便利標記。
[0018]除非另外具體地聲明,否則如從以下的討論顯而易見的,意識到,貫穿本申請,利用諸如“存取”、“接收”、“發送”、“使用”、“選擇”、“確定”、“歸一化”、“相乘”、“平均”、“監測”、“比較”、“應用”、“更新”、“測量”、“推導”等等的術語的討論指代如下的計算機系統或類似的電子計算設備的動作和過程:將在計算機系統的寄存器和存儲器內表示為物理(電子)量的數據操作并變換成在計算機系統存儲器或寄存器或其他這樣的信息存儲、傳輸或顯示設備內類似地表示為物理量的其他數據。
[0019]在附圖中,單個塊可以被描述為執行一個或多個功能;然而,在實際實踐中,由該塊執行的一個或多個功能可以在單個部件中或跨多個部件執行,和/或可以使用硬件、使用軟件或使用硬件和軟件的組合來執行。為了清楚地說明硬件和軟件的該可互換性,各種說明性部件、塊、模塊、電路以及步驟已在下文中一般地依據其功能性而描述。這樣的功能性是實現為硬件還是實現為軟件取決于特定應用和強加于總體系統上的設計約束。技術人員可以針對每個特定應用而以不同方式實現所描述的功能性,但這樣的實現決策不應當被解釋為使得脫離本公開的范圍。而且,示例性輸入設備可以包括與所示出的那些部件不同的部件,包括諸如處理器、存儲器等等的公知的部件。
[0020]除非本文中所描述的技術具體地描述為以具體方式實現,否則所述技術可以以硬件、軟件、固件或其任何組合來實現。描述為模塊或部件的任何特征也可以一起在集成邏輯設備中實現或單獨地實現為分立但可互操作的邏輯設備。如果以軟件實現,則所述技術可以至少部分地由非暫時性處理器可讀存儲介質實現,該介質包括指令,所述指令在被執行時,執行上文中所描述的方法中的一個或多個方法。非暫時性處理器可讀數據存儲介質可以形成計算機程序產品的部分,該計算機程序產品可以包括封本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種處理音頻信號的方法,包括:接收與包括多個參與者的視頻會議關聯的第一音頻信號;檢測與所述第一音頻信號關聯的第一說話者,所述第一說話者是所述視頻會議中的所述多個參與者中的一個參與者;將所述第一說話者映射到第一空間方向;基于與所述第一空間方向關聯的一個或多個傳遞函數而使所述第一音頻信號變換;以及將經變換的第一音頻信號傳送到音頻輸出設備。2.根據權利要求1所述的方法,其中所述第一說話者到所述第一空間方向的映射包括:確定所述第一說話者在與所述視頻會議關聯的顯示器上的位置,所述第一說話者的所述位置與所述第一空間方向關聯。3.根據權利要求2所述的方法,其中所述第一說話者的所述位置的確定包括:接收指示所述多個參與者中的每個參與者在所述顯示器上的相對位置的位置信息。4.根據權利要求2所述的方法,其中所述第一說話者的所述位置的確定包括:接收與所述視頻會議關聯的視頻幀,所述第一說話者的所述位置至少部分地基于所接收的視頻幀而確定。5. 根據權利要求1所述的方法,其中與所述第一音頻信號關聯的所述第一說話者的檢測包括:接收與所述視頻會議關聯的視頻幀;以及對所接收的視頻幀執行識別與所述第一音頻信號關聯的所述第一說話者的圖像處理操作。6.根據權利要求1所述的方法,其中所述一個或多個傳遞函數包括使得由所述音頻輸出設備發射的聲波被感知為源自所述第一空間方向的頭部相關傳遞函數(HRTF)。7.根據權利要求1所述的方法,其中所述一個或多個傳遞函數包括與所述音頻輸出設備的左音頻通道關聯的第一傳遞函數和與所述音頻輸出設備的右音頻通道關聯的第二傳遞函數,所述第一傳遞函數不同于所述第二傳遞函數。8. 根據權利要求1所述的方法,進一步包括:接收與所述第一音頻信號關聯的反饋;以及基于所接收的反饋而調整所述一個或多個傳遞函數。9.根據權利要求1所述的方法,進一步包括:接收與所述視頻會議關聯的第二音頻信號;檢測與所述第二音頻信號關聯的第二說話者,所述第二說話者是所述多個參與者中的與所述第一說話者不同的一個參與者;將所述第二說話者映射到與所述第一空間方向不同的第二空間方向;基于與所述第二空間方向關聯的一個或多個傳遞函數而使所述第二音頻信號變換;以及將經變換的第二音頻信號傳送到所述音頻輸出設備。10. 一種視頻會議系統,包括:處理系統;以及
存儲器,其存儲指令,所述指令在由所述處理系統執行時,使得所述視頻會議系統:接收與包括多個參與者的視頻會議關聯的第一音頻信號;檢測與所述第一音頻信號關聯的第一說話者,所述第一說話者是所述視頻會議中的所述多個參與者中的一個參與者;將所述第一說話者映射到第一空間方向;基于與所述第一空間方向關聯的一個或多個傳遞函數而使所述第一音頻信號變換;以及將經變換的第一音頻信號傳送到音頻輸出設備。11.根據權利要求10所述的視頻會議系統,其中所述第一說話者到所述第一空間方向的映射包括:確...
【專利技術屬性】
技術研發人員:A,
申請(專利權)人:DSP集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。