本申請涉及一種語音文本分類模型的更新系統(tǒng)及方法,所述語音文本分類模型的更新系統(tǒng)包括:模型裝置、日志裝置和數(shù)據(jù)裝置。日志裝置,用于對用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù);數(shù)據(jù)裝置,當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,所述數(shù)據(jù)裝置將所述篩選數(shù)據(jù)中的實體名稱進行替換和標注,所述數(shù)據(jù)裝置獲得訓練數(shù)據(jù),且所述數(shù)據(jù)裝置根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)、用于更新句式分類模塊的第二數(shù)據(jù)、用于更新語句分類模塊的第三數(shù)據(jù)。新語句分類模塊的第三數(shù)據(jù)。新語句分類模塊的第三數(shù)據(jù)。
【技術實現(xiàn)步驟摘要】
一種語音文本分類模型的更新系統(tǒng)及方法
[0001]本申請涉及自然語言處理
,特別是涉及一種語音文本分類模型的更新系統(tǒng)及方法。
技術介紹
[0002]隨著神經(jīng)網(wǎng)絡技術以及計算機算力的提高,使得人工智能產(chǎn)業(yè)得到長足的發(fā)展,可通過部署分類模型來完成語音文本的分類,現(xiàn)已應用到各個領域,例如,車機交互、智能客服、信息分推等等。為確保分類模型的性能可靠,在上線之后,需要不斷更新才能滿足場景需求,在此過程,需要開發(fā)人員、運營人員、測試人員根據(jù)測試結果進行反饋,并根據(jù)反饋結果進行模型更新,進而造成模型更新的滯后,不僅難以覆蓋真實的場景需求以及確保及時性,而且測試結果的主觀性較大,難以保證準確性。
技術實現(xiàn)思路
[0003]基于此,提供一種語音文本分類模型的更新系統(tǒng)及方法,改善模型更新滯后的問題。
[0004]一方面,提供一種語音文本分類模型的更新系統(tǒng),包括:
[0005]模型裝置,包括:詞匯分類模塊、句式分類模塊以及語句分類模塊;
[0006]詞匯分類模塊,所述詞匯分類模塊包括用于分類的詞典,通過所述詞典對待處理的語音文本信息進行分類處理,獲得第一分類結果和第一輸出結果,所述詞匯分類模塊的第一輸出端用于輸出所述第一分類結果,所述詞匯分類模塊的第二輸出端用于輸出所述第一輸出結果;
[0007]句式分類模塊,所述句式分類模塊包括用于計算向量相似度的向量空間單元,所述向量空間單元對所述第一輸出結果進行分類處理,獲得第二分類結果和第二輸出結果,所述句式分類模塊的第一輸出端用于輸出所述第二分類結果,所述句式分類模塊的第二輸出端用于輸出所述第二輸出結果;
[0008]語句分類模塊,所述語句分類模塊包括用于語句分類的神經(jīng)網(wǎng)絡單元,所述神經(jīng)網(wǎng)絡單元對所述第二輸出結果進行分類處理,獲得第三分類結果并由所述語句分類模塊的輸出端輸出;
[0009]日志裝置,用于對用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù),其中,所述分類結果包括第一分類結果、第二分類結果和第三分類結果;
[0010]數(shù)據(jù)裝置,當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,所述數(shù)據(jù)裝置將所述篩選數(shù)據(jù)中的實體名稱進行替換和標注,所述數(shù)據(jù)裝置獲得訓練數(shù)據(jù),且所述數(shù)據(jù)裝置根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第一輸出端輸出、用于更新句式分類模塊的第二數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第二輸出端輸出、用于更新語句分類模塊的第三數(shù)據(jù)并通過所述
數(shù)據(jù)裝置的第三輸出端輸出。
[0011]可選的,所述句式分類模塊還包括數(shù)據(jù)庫接口,所述數(shù)據(jù)庫接口用于獲取遠程字典服務,所述遠程字典服務用于確定所述第二分類結果是否大于等于相似度閾值,若所述第二分類結果大于等于所述相似度閾值,則通過所述句式分類模塊的第一輸出端進行輸出所述第二分類結果,若所述第二分類結果小于所述相似度閾值,則所述句式分類模塊的第二輸出端進行輸出所述第二輸出結果。
[0012]可選的,所述語句分類模塊還包括預處理單元,所述預處理單元用于對所述第二輸出結果進行向量化;
[0013]所述神經(jīng)網(wǎng)絡單元包括輸入層、全連接層和輸出層;
[0014]其中,所述預處理單元的輸入端與所述句式分類模塊的第二輸出端連接,所述預處理單元的輸出端與所述輸入層連接。
[0015]本專利技術提供一種語音文本分類模型的更新方法,更新所述的模型裝置,所述方法包括:
[0016]對所述用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與所述分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù),其中,所述分類結果包括第一分類結果、第二分類結果和第三分類結果;
[0017]當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,將所述篩選數(shù)據(jù)中的實體名稱進行替換和標注,獲得訓練數(shù)據(jù),且根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)、用于更新句式分類模塊的第二數(shù)據(jù)和用于更新語句分類模塊的第三數(shù)據(jù);
[0018]根據(jù)所述第一數(shù)據(jù)更新所述詞典,獲得更新后的詞匯分類模塊;
[0019]根據(jù)所述第二數(shù)據(jù)更新所述向量空間單元,獲得更新后的句式分類模塊;
[0020]將所述第三數(shù)據(jù)進行向量化以及標注,獲得語句向量及對應的語句標簽;
[0021]將所述語句向量以及對應的所述語句標簽輸入到初始的神經(jīng)網(wǎng)絡單元中進行分類處理,獲得樣本結果;
[0022]根據(jù)所述樣本結果和所述語句標簽的匹配度,迭代訓練所述初始的神經(jīng)網(wǎng)絡單元,獲得訓練好的神經(jīng)網(wǎng)絡單元;
[0023]將訓練好的神經(jīng)網(wǎng)絡單元配置到所述語句分類模塊中,獲得更新后的語句分類模塊。
[0024]可選的,根據(jù)所述第二數(shù)據(jù)更新所述向量空間單元,包括:
[0025]根據(jù)所述第二數(shù)據(jù)更新所述向量空間單元,將更新后的所述向量空間單元通過數(shù)據(jù)庫接口進行傳輸,以使遠程字典服務進行存儲。
[0026]可選的,根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)、用于更新句式分類模塊的第二數(shù)據(jù)和用于更新語句分類模塊的第三數(shù)據(jù),包括:
[0027]獲取數(shù)據(jù)長度小于或者等于長度閾值的訓練數(shù)據(jù),確定為所述第一數(shù)據(jù);
[0028]獲取所述數(shù)據(jù)長度大于所述長度閾值,且所述實體名稱的數(shù)量大于或者等于數(shù)量閾值的訓練數(shù)據(jù),確定為所述第二數(shù)據(jù);
[0029]獲取所述數(shù)據(jù)長度大于所述長度閾值,且所述實體名稱的數(shù)量小于所述數(shù)量閾值
的訓練數(shù)據(jù),確定為所述第三數(shù)據(jù)。
[0030]可選的,根據(jù)所述樣本結果和所述語句標簽的匹配度,迭代訓練所述初始的神經(jīng)網(wǎng)絡單元,獲得訓練好的神經(jīng)網(wǎng)絡單元,包括:
[0031]基于交叉熵損失函數(shù)來訓練所述初始的神經(jīng)網(wǎng)絡單元,減少所述樣本結果與所述語句標簽之間的損失,以增加所述樣本結果和所述語句標簽的匹配度;
[0032]迭代訓練所述神經(jīng)網(wǎng)絡單元,并更新所述神經(jīng)網(wǎng)絡單元中神經(jīng)元節(jié)點的權重參數(shù),獲得訓練好的神經(jīng)網(wǎng)絡單元。
[0033]可選的,還包括:
[0034]將更新后的詞匯分類模塊的輸入端與文本模塊連接,所述詞匯分類模塊的第一輸出端用于輸出第一分類結果,所述詞匯分類模塊的第二輸出端用于輸出第一輸出結果,其中,所述文本模塊用于采樣用戶語音并轉化為語音文本信息;
[0035]將更新后的句式分類模塊的輸入端與所述詞匯分類模塊的第二輸出端連接,所述句式分類模塊的第一輸出端用于輸出第二分類結果,所述句式分類模塊的第二輸出端用于輸出第二輸出結果;
[0036]將更新后的語句分類模塊輸入端與所述句式分類模塊的第二輸出端連接,所述語句分類模塊的輸出端用于輸出第三分類結果。
[0037]本專利技術提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)任一項所述方法的步驟。
[0038]本發(fā)本文檔來自技高網(wǎng)...
【技術保護點】
【技術特征摘要】
1.一種語音文本分類模型的更新系統(tǒng),其特征在于,包括:模型裝置,包括:詞匯分類模塊、句式分類模塊以及語句分類模塊;詞匯分類模塊,所述詞匯分類模塊包括用于分類的詞典,通過所述詞典對待處理的語音文本信息進行分類處理,獲得第一分類結果和第一輸出結果,所述詞匯分類模塊的第一輸出端用于輸出所述第一分類結果,所述詞匯分類模塊的第二輸出端用于輸出所述第一輸出結果;句式分類模塊,所述句式分類模塊包括用于計算向量相似度的向量空間單元,所述向量空間單元對所述第一輸出結果進行分類處理,獲得第二分類結果和第二輸出結果,所述句式分類模塊的第一輸出端用于輸出所述第二分類結果,所述句式分類模塊的第二輸出端用于輸出所述第二輸出結果;語句分類模塊,所述語句分類模塊包括用于語句分類的神經(jīng)網(wǎng)絡單元,所述神經(jīng)網(wǎng)絡單元對所述第二輸出結果進行分類處理,獲得第三分類結果并由所述語句分類模塊的輸出端輸出;日志裝置,用于對用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù),其中,所述分類結果包括第一分類結果、第二分類結果和第三分類結果;數(shù)據(jù)裝置,當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,所述數(shù)據(jù)裝置將所述篩選數(shù)據(jù)中的實體名稱進行替換和標注,所述數(shù)據(jù)裝置獲得訓練數(shù)據(jù),且所述數(shù)據(jù)裝置根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第一輸出端輸出、用于更新句式分類模塊的第二數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第二輸出端輸出、用于更新語句分類模塊的第三數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第三輸出端輸出。2.根據(jù)權利要求1所述的語音文本分類模型的更新系統(tǒng),其特征在于,所述句式分類模塊還包括數(shù)據(jù)庫接口,所述數(shù)據(jù)庫接口用于獲取遠程字典服務,所述遠程字典服務用于確定所述第二分類結果是否大于等于相似度閾值,若所述第二分類結果大于等于所述相似度閾值,則通過所述句式分類模塊的第一輸出端進行輸出所述第二分類結果,若所述第二分類結果小于所述相似度閾值,則所述句式分類模塊的第二輸出端進行輸出所述第二輸出結果。3.根據(jù)權利要求1所述的語音文本分類模型的更新系統(tǒng),其特征在于,所述語句分類模塊還包括預處理單元,所述預處理單元用于對所述第二輸出結果進行向量化;所述神經(jīng)網(wǎng)絡單元包括輸入層、全連接層和輸出層;其中,所述預處理單元的輸入端與所述句式分類模塊的第二輸出端連接,所述預處理單元的輸出端與所述輸入層連接。4.一種語音文本分類模型的更新方法,其特征在于,更新如權利要求1至3任一項所述的模型裝置,所述方法包括:對所述用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與所述分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù),其中,所述分類結果包括第一分類結果、第二分類結果和第三分類結果;當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,將所述篩選數(shù)據(jù)中的實體名稱進行替換
和標注,獲得訓練數(shù)據(jù),且根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)、用于更...
【專利技術屬性】
技術研發(fā)人員:葉松林,代秀瓊,張正源,
申請(專利權)人:成都賽力斯科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。