• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種語音文本分類模型的更新系統(tǒng)及方法技術方案

    技術編號:36703431 閱讀:30 留言:0更新日期:2023-03-01 09:22
    本申請涉及一種語音文本分類模型的更新系統(tǒng)及方法,所述語音文本分類模型的更新系統(tǒng)包括:模型裝置、日志裝置和數(shù)據(jù)裝置。日志裝置,用于對用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù);數(shù)據(jù)裝置,當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,所述數(shù)據(jù)裝置將所述篩選數(shù)據(jù)中的實體名稱進行替換和標注,所述數(shù)據(jù)裝置獲得訓練數(shù)據(jù),且所述數(shù)據(jù)裝置根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)、用于更新句式分類模塊的第二數(shù)據(jù)、用于更新語句分類模塊的第三數(shù)據(jù)。新語句分類模塊的第三數(shù)據(jù)。新語句分類模塊的第三數(shù)據(jù)。

    【技術實現(xiàn)步驟摘要】
    一種語音文本分類模型的更新系統(tǒng)及方法


    [0001]本申請涉及自然語言處理
    ,特別是涉及一種語音文本分類模型的更新系統(tǒng)及方法。

    技術介紹

    [0002]隨著神經(jīng)網(wǎng)絡技術以及計算機算力的提高,使得人工智能產(chǎn)業(yè)得到長足的發(fā)展,可通過部署分類模型來完成語音文本的分類,現(xiàn)已應用到各個領域,例如,車機交互、智能客服、信息分推等等。為確保分類模型的性能可靠,在上線之后,需要不斷更新才能滿足場景需求,在此過程,需要開發(fā)人員、運營人員、測試人員根據(jù)測試結果進行反饋,并根據(jù)反饋結果進行模型更新,進而造成模型更新的滯后,不僅難以覆蓋真實的場景需求以及確保及時性,而且測試結果的主觀性較大,難以保證準確性。

    技術實現(xiàn)思路

    [0003]基于此,提供一種語音文本分類模型的更新系統(tǒng)及方法,改善模型更新滯后的問題。
    [0004]一方面,提供一種語音文本分類模型的更新系統(tǒng),包括:
    [0005]模型裝置,包括:詞匯分類模塊、句式分類模塊以及語句分類模塊;
    [0006]詞匯分類模塊,所述詞匯分類模塊包括用于分類的詞典,通過所述詞典對待處理的語音文本信息進行分類處理,獲得第一分類結果和第一輸出結果,所述詞匯分類模塊的第一輸出端用于輸出所述第一分類結果,所述詞匯分類模塊的第二輸出端用于輸出所述第一輸出結果;
    [0007]句式分類模塊,所述句式分類模塊包括用于計算向量相似度的向量空間單元,所述向量空間單元對所述第一輸出結果進行分類處理,獲得第二分類結果和第二輸出結果,所述句式分類模塊的第一輸出端用于輸出所述第二分類結果,所述句式分類模塊的第二輸出端用于輸出所述第二輸出結果;
    [0008]語句分類模塊,所述語句分類模塊包括用于語句分類的神經(jīng)網(wǎng)絡單元,所述神經(jīng)網(wǎng)絡單元對所述第二輸出結果進行分類處理,獲得第三分類結果并由所述語句分類模塊的輸出端輸出;
    [0009]日志裝置,用于對用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù),其中,所述分類結果包括第一分類結果、第二分類結果和第三分類結果;
    [0010]數(shù)據(jù)裝置,當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,所述數(shù)據(jù)裝置將所述篩選數(shù)據(jù)中的實體名稱進行替換和標注,所述數(shù)據(jù)裝置獲得訓練數(shù)據(jù),且所述數(shù)據(jù)裝置根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第一輸出端輸出、用于更新句式分類模塊的第二數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第二輸出端輸出、用于更新語句分類模塊的第三數(shù)據(jù)并通過所述
    數(shù)據(jù)裝置的第三輸出端輸出。
    [0011]可選的,所述句式分類模塊還包括數(shù)據(jù)庫接口,所述數(shù)據(jù)庫接口用于獲取遠程字典服務,所述遠程字典服務用于確定所述第二分類結果是否大于等于相似度閾值,若所述第二分類結果大于等于所述相似度閾值,則通過所述句式分類模塊的第一輸出端進行輸出所述第二分類結果,若所述第二分類結果小于所述相似度閾值,則所述句式分類模塊的第二輸出端進行輸出所述第二輸出結果。
    [0012]可選的,所述語句分類模塊還包括預處理單元,所述預處理單元用于對所述第二輸出結果進行向量化;
    [0013]所述神經(jīng)網(wǎng)絡單元包括輸入層、全連接層和輸出層;
    [0014]其中,所述預處理單元的輸入端與所述句式分類模塊的第二輸出端連接,所述預處理單元的輸出端與所述輸入層連接。
    [0015]本專利技術提供一種語音文本分類模型的更新方法,更新所述的模型裝置,所述方法包括:
    [0016]對所述用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與所述分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù),其中,所述分類結果包括第一分類結果、第二分類結果和第三分類結果;
    [0017]當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,將所述篩選數(shù)據(jù)中的實體名稱進行替換和標注,獲得訓練數(shù)據(jù),且根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)、用于更新句式分類模塊的第二數(shù)據(jù)和用于更新語句分類模塊的第三數(shù)據(jù);
    [0018]根據(jù)所述第一數(shù)據(jù)更新所述詞典,獲得更新后的詞匯分類模塊;
    [0019]根據(jù)所述第二數(shù)據(jù)更新所述向量空間單元,獲得更新后的句式分類模塊;
    [0020]將所述第三數(shù)據(jù)進行向量化以及標注,獲得語句向量及對應的語句標簽;
    [0021]將所述語句向量以及對應的所述語句標簽輸入到初始的神經(jīng)網(wǎng)絡單元中進行分類處理,獲得樣本結果;
    [0022]根據(jù)所述樣本結果和所述語句標簽的匹配度,迭代訓練所述初始的神經(jīng)網(wǎng)絡單元,獲得訓練好的神經(jīng)網(wǎng)絡單元;
    [0023]將訓練好的神經(jīng)網(wǎng)絡單元配置到所述語句分類模塊中,獲得更新后的語句分類模塊。
    [0024]可選的,根據(jù)所述第二數(shù)據(jù)更新所述向量空間單元,包括:
    [0025]根據(jù)所述第二數(shù)據(jù)更新所述向量空間單元,將更新后的所述向量空間單元通過數(shù)據(jù)庫接口進行傳輸,以使遠程字典服務進行存儲。
    [0026]可選的,根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)、用于更新句式分類模塊的第二數(shù)據(jù)和用于更新語句分類模塊的第三數(shù)據(jù),包括:
    [0027]獲取數(shù)據(jù)長度小于或者等于長度閾值的訓練數(shù)據(jù),確定為所述第一數(shù)據(jù);
    [0028]獲取所述數(shù)據(jù)長度大于所述長度閾值,且所述實體名稱的數(shù)量大于或者等于數(shù)量閾值的訓練數(shù)據(jù),確定為所述第二數(shù)據(jù);
    [0029]獲取所述數(shù)據(jù)長度大于所述長度閾值,且所述實體名稱的數(shù)量小于所述數(shù)量閾值
    的訓練數(shù)據(jù),確定為所述第三數(shù)據(jù)。
    [0030]可選的,根據(jù)所述樣本結果和所述語句標簽的匹配度,迭代訓練所述初始的神經(jīng)網(wǎng)絡單元,獲得訓練好的神經(jīng)網(wǎng)絡單元,包括:
    [0031]基于交叉熵損失函數(shù)來訓練所述初始的神經(jīng)網(wǎng)絡單元,減少所述樣本結果與所述語句標簽之間的損失,以增加所述樣本結果和所述語句標簽的匹配度;
    [0032]迭代訓練所述神經(jīng)網(wǎng)絡單元,并更新所述神經(jīng)網(wǎng)絡單元中神經(jīng)元節(jié)點的權重參數(shù),獲得訓練好的神經(jīng)網(wǎng)絡單元。
    [0033]可選的,還包括:
    [0034]將更新后的詞匯分類模塊的輸入端與文本模塊連接,所述詞匯分類模塊的第一輸出端用于輸出第一分類結果,所述詞匯分類模塊的第二輸出端用于輸出第一輸出結果,其中,所述文本模塊用于采樣用戶語音并轉化為語音文本信息;
    [0035]將更新后的句式分類模塊的輸入端與所述詞匯分類模塊的第二輸出端連接,所述句式分類模塊的第一輸出端用于輸出第二分類結果,所述句式分類模塊的第二輸出端用于輸出第二輸出結果;
    [0036]將更新后的語句分類模塊輸入端與所述句式分類模塊的第二輸出端連接,所述語句分類模塊的輸出端用于輸出第三分類結果。
    [0037]本專利技術提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)任一項所述方法的步驟。
    [0038]本發(fā)本文檔來自技高網(wǎng)
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種語音文本分類模型的更新系統(tǒng),其特征在于,包括:模型裝置,包括:詞匯分類模塊、句式分類模塊以及語句分類模塊;詞匯分類模塊,所述詞匯分類模塊包括用于分類的詞典,通過所述詞典對待處理的語音文本信息進行分類處理,獲得第一分類結果和第一輸出結果,所述詞匯分類模塊的第一輸出端用于輸出所述第一分類結果,所述詞匯分類模塊的第二輸出端用于輸出所述第一輸出結果;句式分類模塊,所述句式分類模塊包括用于計算向量相似度的向量空間單元,所述向量空間單元對所述第一輸出結果進行分類處理,獲得第二分類結果和第二輸出結果,所述句式分類模塊的第一輸出端用于輸出所述第二分類結果,所述句式分類模塊的第二輸出端用于輸出所述第二輸出結果;語句分類模塊,所述語句分類模塊包括用于語句分類的神經(jīng)網(wǎng)絡單元,所述神經(jīng)網(wǎng)絡單元對所述第二輸出結果進行分類處理,獲得第三分類結果并由所述語句分類模塊的輸出端輸出;日志裝置,用于對用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù),其中,所述分類結果包括第一分類結果、第二分類結果和第三分類結果;數(shù)據(jù)裝置,當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,所述數(shù)據(jù)裝置將所述篩選數(shù)據(jù)中的實體名稱進行替換和標注,所述數(shù)據(jù)裝置獲得訓練數(shù)據(jù),且所述數(shù)據(jù)裝置根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第一輸出端輸出、用于更新句式分類模塊的第二數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第二輸出端輸出、用于更新語句分類模塊的第三數(shù)據(jù)并通過所述數(shù)據(jù)裝置的第三輸出端輸出。2.根據(jù)權利要求1所述的語音文本分類模型的更新系統(tǒng),其特征在于,所述句式分類模塊還包括數(shù)據(jù)庫接口,所述數(shù)據(jù)庫接口用于獲取遠程字典服務,所述遠程字典服務用于確定所述第二分類結果是否大于等于相似度閾值,若所述第二分類結果大于等于所述相似度閾值,則通過所述句式分類模塊的第一輸出端進行輸出所述第二分類結果,若所述第二分類結果小于所述相似度閾值,則所述句式分類模塊的第二輸出端進行輸出所述第二輸出結果。3.根據(jù)權利要求1所述的語音文本分類模型的更新系統(tǒng),其特征在于,所述語句分類模塊還包括預處理單元,所述預處理單元用于對所述第二輸出結果進行向量化;所述神經(jīng)網(wǎng)絡單元包括輸入層、全連接層和輸出層;其中,所述預處理單元的輸入端與所述句式分類模塊的第二輸出端連接,所述預處理單元的輸出端與所述輸入層連接。4.一種語音文本分類模型的更新方法,其特征在于,更新如權利要求1至3任一項所述的模型裝置,所述方法包括:對所述用戶語音進行語義識別,獲得日志數(shù)據(jù),并將與所述分類結果不一致的所述日志數(shù)據(jù)確定為篩選數(shù)據(jù),其中,所述分類結果包括第一分類結果、第二分類結果和第三分類結果;當所述篩選數(shù)據(jù)大于或者等于數(shù)據(jù)量閾值時,將所述篩選數(shù)據(jù)中的實體名稱進行替換
    和標注,獲得訓練數(shù)據(jù),且根據(jù)訓練數(shù)據(jù)的長度以及實體名稱的數(shù)量,對所述訓練數(shù)據(jù)進行聚類,獲得用于更新詞匯分類模塊的第一數(shù)據(jù)、用于更...

    【專利技術屬性】
    技術研發(fā)人員:葉松林代秀瓊張正源
    申請(專利權)人:成都賽力斯科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中日精品无码一本二本三本| 久久精品中文字幕无码绿巨人| 无码被窝影院午夜看片爽爽jk| 国产成人无码午夜福利软件| 亚洲另类无码一区二区三区| 人妻无码一区二区不卡无码av| 99精品人妻无码专区在线视频区| 精品深夜AV无码一区二区| 亚洲大尺度无码无码专区| 亚洲久热无码av中文字幕| 久久亚洲av无码精品浪潮| 国产日韩AV免费无码一区二区| 亚洲AV无码国产丝袜在线观看| 久久亚洲精品无码aⅴ大香| 国产成人无码网站| 无码精品人妻一区二区三区漫画 | 亚洲AV无码乱码在线观看裸奔| 98久久人妻无码精品系列蜜桃| 日韩精品无码视频一区二区蜜桃 | 国产精品JIZZ在线观看无码| 人妻无码视频一区二区三区| 亚洲精品无码久久久影院相关影片 | 无码色AV一二区在线播放| 孕妇特级毛片WW无码内射| 中文字幕无码播放免费| 国产AV无码专区亚洲精品| 亚洲精品无码久久久久去q | 亚洲av永久无码精品表情包| 中文字幕无码免费久久9一区9| HEYZO无码中文字幕人妻| 亚洲AV成人无码久久WWW| 亚洲AV成人无码网站| 九九无码人妻一区二区三区| 久久中文字幕无码一区二区| 特级小箩利无码毛片| 日韩精品无码成人专区| 亚洲AV永久无码精品一区二区国产| 无码色AV一二区在线播放| 亚洲精品无码不卡在线播HE| 日韩人妻无码精品久久免费一| 麻豆aⅴ精品无码一区二区|