• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于語音和群智感知的人群數量監測方法技術

    技術編號:15507830 閱讀:88 留言:0更新日期:2017-06-04 02:21
    本發明專利技術公開了一種基于語音和群智感知的人群數量監測方法,通過對收集的語音片段取MFCC和Pitch等語音特征參數,再基于Pitch和MFCC聯合特征參數進行性別識別、個體區分和人數統計,最后將人數統計的結果以熱力圖形式進行可視化顯示。這樣彌補了簡單利用Pitch線性區分男女的不足,實現了人群規模監測,也提高了人群規模統計的快速性、準確性。

    A method for monitoring population size based on speech and swarm intelligence

    The invention discloses a voice and crowd sensing monitoring method based on the number of people, through the collection of speech segments from MFCC and Pitch speech feature parameters, and then combined with the features of Pitch and MFCC parameters based on gender recognition, individual discrimination and a number of statistics, the number of statistics is visualized by thermodynamic diagram form. This makes up for the shortcomings of simply using Pitch to linearly distinguish between men and women, and realize the monitoring of population size, and also improve the rapidity and accuracy of population scale statistics.

    【技術實現步驟摘要】
    一種基于語音和群智感知的人群數量監測方法
    本專利技術屬于群智感知
    ,更為具體地講,涉及一種基于語音和群智感知的人群數量監測方法。
    技術介紹
    智能移動設備的快速發展為群智感知的應用奠定了基礎。群智感知是指普通用戶的移動設備(手機、平板電腦等)作為基本感知單元,通過移動互聯網進行有意識或無意識的協作,實現感知任務分發與感知數據收集,完成大規模的、復雜的社會感知任務。群智感知在社會感知的應用方面有很多。例如,Ubigreen項目跟蹤用戶活動對環境帶來的影響,鼓勵用戶綠色出行;BikeNet項目采集自行車用戶的騎行數據,讓參與者分享最喜愛的騎行路線與環境狀況;im2GPS項目利用互聯網數百萬計的GPS標記圖片,估計用戶的地理位置信息。以語音為載體的群智感知,可廣泛應用于城市熱點感知、人群監測等。例如:通過人群監測,可以判斷:一家餐館是否顧客盈門?演講中演講者與聽眾的互動是否熱烈?某個人在日常生活中是否社交活動非常活躍?該應用是利用用戶手機自帶的錄音功能收集周邊講話人的語音數據,對其分析處理后計算出說話人數。然而,目前語音群智感知應用的人群統計準確率不高,其主要原因在于性別誤判和相同性別下不同個體的區分度不夠。以典型的Crowd++系統為例,它在性別識別中只是使用基頻(Pitch)閾值法區分男女,忽略了中性人群Pitch重疊區域的處理,性別誤判導致了統計誤差累加。更重要的是,在相同性別下,它采用的基于MFCC的距離度量方法根本不能有效區分不同個體。
    技術實現思路
    本專利技術的目的在于克服現有技術的不足,提供一種基于語音和群智感知的人群數量監測方法,通過Pitch和MFCC聯合特征參數進行性別識別,完成人數統計,實現了人群規模統計的快速性和準確性。為實現上述專利技術目的,本發一種基于語音和群智感知的人群數量監測方法,其特征在于,包括以下步驟:(1)、提取MFCC和Pitch特征參數,并將這兩個特征參數融合成聯合均值(1.1)、將收集的語音S切分為t秒的若干個片段,S={S1,S2,...};(1.2)、MFCC向量處理設第k個語音片段Sk中包含K幀語音,從每幀語音中提取n維的MFCC向量(m0,m1,...,mn-1),將K個MFCC向量求均值再將作為語音片段Sk的MFCC特征參數;其中,mij表示語音片段Sk的第i幀MFCC向量的第j維MFCC系數;(1.3)、Pitch向量處理設每幀語音中提取的Pitch值為p,語音片段Sk中共計提取出K個p,比較每個p值是否在50~450Hz之間,如果在則保留該幀語音,如果不在則刪除該幀語音;將保留的K'(K'≤K)幀語音的K'個p求均值再比較是否在50~450Hz之間,如果在,則保留該語音片段Sk,并將作為語音片段Sk的Pitch特征參數;如果不在,則刪除該語音片段Sk;(1.4)、將MFCC和Pitch特征參數融合成聯合均值向量在n維MFCC向量均值的第n+1維位置處增加Pitch向量均值的對數組成n+1維的聯合均值向量(2)、基于MFCC和Pitch特征參數的性別識別(2.1)、定義一個人數監測集合R,并初始R為1;以第一個語音片段S1為基準,在語音S中依次挑選兩個語音片段S1、S2,并按照步驟(1)所述方法進行處理;(2.2)、將MFCC和Pitch特征參數歸一化到同一量級,再對這兩個歸一化值加權求和,如下:其中,Smfcc表示MFCC向量均值的n維系數的和,Fpitch表示Pitch向量均值表示Smfcc的均值;λmfcc表示男女Smfcc調節參數;λpitch表示男女Pitch分界值;α表示權重調節系數,用于調節MFCC和Pitch歸一化值在加權和中所占的比例;(2.3)、根據S大小分別識別這兩段語音的性別,如果S>0時,則識別為男性;否則為女性;(2.4)、判斷這兩語音片段的性別是否相同,如果性別不同,則R+1,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;如果性別相同,則進行進入步驟(3);(3)、相同性別下基于聯合均值向量的不同個體區分(3.1)、在相同性別下,利用余弦相似法計算兩語音片段的聯合均值向量的余弦相似度dcs其中,P、Q分別代表兩個語音片段的聯合均值向量||表示取模;(3.2)、相同性別下的不同個體區分若余弦相似度dcs大于預設的上限閾值θd,即dcs>θd,則判斷這兩段語音片段來自不同的個體,則將R+1,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;若余弦相似度dcs小于預設的下限閾值θs,即dcs<θs,則這兩段語音片段來自同一個體,再進入步驟(4);若相似度dcs介于θd和θs之間,即θs≤dcs≤θd,則R不變,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;(4)、相同個體的正向聚類(4.1)、利用Pitch的K-L散度方法計算兩語音片段的K-L散度dkl其中,p、q表示兩個語音片段特征參數Pitch的均值向量;σ表示兩個語音片段特征參數Pitch方差;I表示單位矩陣;(4.2)、判斷散度dkl是否小于預設的閾值T,如果dkl小于T,將兩語音片段的特征參數進行合并;如果dkl大于等T,則R不變,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;(5)、判斷以語音片段S1為基準時,所有語音片段是否都與S1比較完成,如果未比較完成,則返回步驟(2.1),重新挑選下一個語音片段與S1比較;如果比較完成,則以語音片段S2為基準,進入一下輪語音片段的比較,并依次類推,直到所有的語音片段兩兩比對結束。本專利技術的專利技術目的是這樣實現的:本專利技術一種基于語音和群智感知的人群數量監測方法,通過對收集的語音片段取MFCC和Pitch等語音特征參數,再基于Pitch和MFCC聯合特征參數進行性別識別、個體區分和人數統計,最后將人數統計的結果以熱力圖形式進行可視化顯示。這樣彌補了簡單利用Pitch線性區分男女的不足,實現了人群規模監測,也提高了人群規模統計的快速性、準確性。同時,本專利技術一種基于語音和群智感知的人群數量監測方法還具有以下有益效果:(1)、采用基于Pitch和MFCC聯合特征的性別識別方法,解決了中性人群Pitch重疊區域處理問題;(2)、基于MFCC和Pitch聯合特征參數重新定義了余弦相似度,并基于該定義提出了不同個體區分方法,不同特征結合能取得更好的識別性能,這樣解決了針對影響數統計準確率的性別誤判和相同性別下不同個體的區分度不夠的問題;(3)、本專利技術提出了一種基于Pitch的K-L散度正向聚類方法,以無需性別判別即可實現同一個體不同語音幀間的特征歸并,彌補了基于性別的正向聚類方法的不足,減少統計誤差積累。附圖說明圖1是本專利技術基于語音和群智感知的人群數量監測方法流程圖;圖2是本專利技術中不同個體區分示意圖;圖3是本專利技術系統部署示意圖。具體實施方式下面結合附圖對本專利技術的具體實施方式進行描述,以便本領域的技術人員更好地理解本專利技術。需要特別提醒注意的是,在以下的描述中,當已知功能和設計的詳細描述也許會淡化本專利技術的主要內容時,這些描述在這里將被忽略。實施例為了方便描述,先對具體實施方式中出現的相關專業術語進行說明:MFCC(MelFrequencyCepstrumCoefficient):Mel頻率倒譜系數;Pit本文檔來自技高網...
    一種基于語音和群智感知的人群數量監測方法

    【技術保護點】
    一種基于語音和群智感知的人群數量監測方法,其特征在于,包括以下步驟:(1)、提取MFCC和Pitch特征參數,并將這兩個特征參數融合成聯合均值(1.1)、將收集的語音S切分為t秒的若干個片段,S={S

    【技術特征摘要】
    1.一種基于語音和群智感知的人群數量監測方法,其特征在于,包括以下步驟:(1)、提取MFCC和Pitch特征參數,并將這兩個特征參數融合成聯合均值(1.1)、將收集的語音S切分為t秒的若干個片段,S={S1,S2,...};(1.2)、MFCC向量處理設第k個語音片段Sk中包含K幀語音,從每幀語音中提取n維的MFCC向量(m0,m1,...,mn-1),將K個MFCC向量求均值再將作為語音片段Sk的MFCC特征參數;其中,mij表示語音片段Sk的第i幀MFCC向量的第j維MFCC系數;(1.3)、Pitch向量處理設每幀語音中提取的Pitch值為p,語音片段Sk中共計提取出K個p,比較每個p值是否在50~450Hz之間,如果在則保留該幀語音,如果不在則刪除該幀語音;將保留的K'(K'≤K)幀語音的K'個p求均值再比較是否在50~450Hz之間,如果在,則保留該語音片段Sk,并將作為語音片段Sk的Pitch特征參數;如果不在,則刪除該語音片段Sk;(1.4)、將MFCC和Pitch特征參數融合成聯合均值向量在n維MFCC向量均值的第n+1維位置處增加Pitch向量均值的對數組成n+維的聯合均值向量(2)、基于MFCC和Pitch特征參數的性別識別(2.1)、定義一個人數統計集合R,并初始R為1;以第一個語音片段S1為基準,在語音S中依次挑選兩個語音片段S1、S2,并按照步驟(1)所述方法進行處理;(2.2)、將MFCC和Pitch特征參數歸一化到同一量級,再對這兩個歸一化值加權求和,如下:其中,Smfcc表示MFCC向量均值的n維系數的和,Fpitch表示Pitch向量均值表示Smfcc的均值;λmfcc表示男女Smfcc調節參數;λpitch表示男女Pitch分界值;α表示權重調節系數,用于調節MFCC和Pitch歸一化值在加權和中所占的比例;(2.3)、根據S大小分別識別這兩段語音的性別,如果S>0時,則識別為男性;否則為女性;(2.4)、判斷這兩語音片段的性別是否相同,如果性別不同,則R+1,并返回步驟...

    【專利技術屬性】
    技術研發人員:陽小龍洪鷺燕孫奇福
    申請(專利權)人:北京科技大學
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费无码看av的网站| 亚洲成?Ⅴ人在线观看无码| 中文字幕乱码人妻无码久久 | 亚洲综合av永久无码精品一区二区| 日日摸夜夜爽无码毛片精选| 无码人妻精品一区二区三区久久 | 无码内射中文字幕岛国片| 中文无码字慕在线观看| av无码精品一区二区三区四区| 国产精品VA在线观看无码不卡| 自拍偷在线精品自拍偷无码专区| 亚洲日韩精品A∨片无码加勒比 | 五月天无码在线观看| 亚洲AV综合色区无码一二三区| 日韩精品久久无码中文字幕| 亚洲av永久无码精品秋霞电影影院| 成年轻人电影www无码| 免费无码中文字幕A级毛片| 韩日美无码精品无码| HEYZO无码综合国产精品227| 潮喷无码正在播放| 无码一区二区三区免费视频| 中文午夜人妻无码看片| 无码丰满少妇2在线观看| 亚洲中文字幕无码永久在线 | 无码人妻一区二区三区免费| 人妻丰满熟妞av无码区| 无码人妻精品一区二区三| 国产成人亚洲综合无码精品 | 成在人线av无码免费高潮喷水| 天堂无码在线观看| 国产精品无码素人福利| 精品人妻少妇嫩草AV无码专区 | 亚洲中文字幕无码久久精品1| 国产自无码视频在线观看| h无码动漫在线观看| 国产成人精品无码免费看| 亚洲AV无码一区二区三区DV| 无码日韩人妻精品久久蜜桃| 久久精品亚洲中文字幕无码麻豆 | 亚洲精品无码成人|