一種基于語音和群智感知的人群數量監測方法技術

技術編號：15507830 閱讀：88 留言：0更新日期：2017-06-04 02:21

本發明專利技術公開了一種基于語音和群智感知的人群數量監測方法，通過對收集的語音片段取MFCC和Pitch等語音特征參數，再基于Pitch和MFCC聯合特征參數進行性別識別、個體區分和人數統計，最后將人數統計的結果以熱力圖形式進行可視化顯示。這樣彌補了簡單利用Pitch線性區分男女的不足，實現了人群規模監測，也提高了人群規模統計的快速性、準確性。

A method for monitoring population size based on speech and swarm intelligence

The invention discloses a voice and crowd sensing monitoring method based on the number of people, through the collection of speech segments from MFCC and Pitch speech feature parameters, and then combined with the features of Pitch and MFCC parameters based on gender recognition, individual discrimination and a number of statistics, the number of statistics is visualized by thermodynamic diagram form. This makes up for the shortcomings of simply using Pitch to linearly distinguish between men and women, and realize the monitoring of population size, and also improve the rapidity and accuracy of population scale statistics.

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于語音和群智感知的人群數量監測方法
本專利技術屬于群智感知
，更為具體地講，涉及一種基于語音和群智感知的人群數量監測方法。
技術介紹
智能移動設備的快速發展為群智感知的應用奠定了基礎。群智感知是指普通用戶的移動設備(手機、平板電腦等)作為基本感知單元，通過移動互聯網進行有意識或無意識的協作，實現感知任務分發與感知數據收集，完成大規模的、復雜的社會感知任務。群智感知在社會感知的應用方面有很多。例如，Ubigreen項目跟蹤用戶活動對環境帶來的影響，鼓勵用戶綠色出行；BikeNet項目采集自行車用戶的騎行數據，讓參與者分享最喜愛的騎行路線與環境狀況；im2GPS項目利用互聯網數百萬計的GPS標記圖片，估計用戶的地理位置信息。以語音為載體的群智感知，可廣泛應用于城市熱點感知、人群監測等。例如：通過人群監測，可以判斷：一家餐館是否顧客盈門？演講中演講者與聽眾的互動是否熱烈？某個人在日常生活中是否社交活動非常活躍？該應用是利用用戶手機自帶的錄音功能收集周邊講話人的語音數據，對其分析處理后計算出說話人數。然而，目前語音群智感知應用的人群統計準確率不高，其主要原因在于性別誤判和相同性別下不同個體的區分度不夠。以典型的Crowd++系統為例，它在性別識別中只是使用基頻(Pitch)閾值法區分男女，忽略了中性人群Pitch重疊區域的處理，性別誤判導致了統計誤差累加。更重要的是，在相同性別下，它采用的基于MFCC的距離度量方法根本不能有效區分不同個體。
技術實現思路
本專利技術的目的在于克服現有技術的不足，提供一種基于語音和群智感知的人群數量監測方法，通過Pitch和...

【技術保護點】
一種基于語音和群智感知的人群數量監測方法，其特征在于，包括以下步驟：(1)、提取MFCC和Pitch特征參數，并將這兩個特征參數融合成聯合均值(1.1)、將收集的語音S切分為t秒的若干個片段，S＝{S

【技術特征摘要】
1.一種基于語音和群智感知的人群數量監測方法，其特征在于，包括以下步驟：(1)、提取MFCC和Pitch特征參數，并將這兩個特征參數融合成聯合均值(1.1)、將收集的語音S切分為t秒的若干個片段，S＝{S1,S2,...}；(1.2)、MFCC向量處理設第k個語音片段Sk中包含K幀語音，從每幀語音中提取n維的MFCC向量(m0,m1,...,mn-1)，將K個MFCC向量求均值再將作為語音片段Sk的MFCC特征參數；其中，mij表示語音片段Sk的第i幀MFCC向量的第j維MFCC系數；(1.3)、Pitch向量處理設每幀語音中提取的Pitch值為p，語音片段Sk中共計提取出K個p，比較每個p值是否在50～450Hz之間，如果在則保留該幀語音，如果不在則刪除該幀語音；將保留的K'(K'≤K)幀語音的K'個p求均值再比較是否在50～450Hz之間，如果在，則保留該語音片段Sk，并將作為語音片段Sk的Pitch特征參數；如果不在，則刪除該語音片段Sk；(1.4)、將MFCC和Pitch特征參數融合成聯合均值向量在n維MFCC向量均值的第n+1維位置處增加Pitch向量均值的對數組成n+維的聯合均值向量(2)、基于MFCC和Pitch特征參數的性別識別(2.1)、定義一個人數統計集合R，并初始R為1；以第一個語音片段S1為基準，在語音S中依次挑選兩個語音片段S1、S2，并按照步驟(1)所述方法進行處理；(2.2)、將MFCC和Pitch特征參數歸一化到同一量級，再對這兩個歸一化值加權求和，如下：其中，Smfcc表示MFCC向量均值的n維系數的和，Fpitch表示Pitch向量均值表示Smfcc的均值；λmfcc表示男女Smfcc調節參數；λpitch表示男女Pitch分界值；α表示權重調節系數，用于調節MFCC和Pitch歸一化值在加權和中所占的比例；(2.3)、根據S大小分別識別這兩段語音的性別，如果S>0時，則識別為男性；否則為女性；(2.4)、判斷這兩語音片段的性別是否相同，如果性別不同，則R+1，并返回步驟...

【專利技術屬性】
技術研發人員：陽小龍，洪鷺燕，孫奇福，
申請(專利權)人：北京科技大學，
類型：發明
國別省市：北京,11

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術