本申請提供一種語句處理方法、裝置、電子設備及可讀存儲介質,當運營商設置的用于語句識別的服務器獲取待處理語音數據時,根據待處理語音數據的清晰度,選擇計算量不同的第一機器學習模型或者第二機器學習模型,對待處理語音數據中的語句進行分詞和詞性標注等處理,從而在保證對語句進行處理的準確性的同時,提高對語句進行處理的速度和效率。對語句進行處理的速度和效率。對語句進行處理的速度和效率。
【技術實現步驟摘要】
語句處理方法、裝置、電子設備及可讀存儲介質
[0001]本申請涉及自然語言處理(Natural Language Processing,NLP)
,尤其涉及一種語句處理方法、裝置、電子設備及可讀存儲介質。
技術介紹
[0002]隨著科技的不斷發展,運營商為用戶所提供的客戶服務也更加智能化,例如,用戶可以通過撥打運營商的客戶服務電話,并通過語音方式說出想要辦理的業務后,運營商可以采集用戶的語音數據,并對語音數據中的語句進行識別,進而執行用戶的語句所對應的指令。則對于運營商來說,在獲取到用戶說出的語句后,首先要保證能夠準確對語句進行處理,進而識別出語句中用戶發出的指令的意圖,才能夠確保后續執行的準確。
[0003]現有技術中,為了對獲取到的用戶的語句進行識別,運營商所設置的服務器通常首先使用分詞模型對語句進行分詞處理,將一個完整的語句劃分為多個詞匯,隨后使用詞性標注模型對每個詞匯進行詞性標注。最終,根據標注的詞性進一步確定整個語句中用戶的指令所對應的意圖。
[0004]但是,采用現有技術,為了對語句進行更加精準的分詞和詞性標注處理,運營商通常設置數據量和計算量較大的分詞和詞性標注的模型來提高識別準確性,但是當模型的數據量和計算量較大時,又會降低對語句進行處理的速度和效率。因此,如何在保證對語句進行處理的準確性的同時,還能夠提高對語句進行處理的速度和效率,是本領域亟需解決的技術問題。
技術實現思路
[0005]本申請提供一種語句處理方法、裝置、電子設備及可讀存儲介質,用于解決現有技術中,在對語句進行處理時,無法在保證準確性的同時提高速度和效率的技術問題。
[0006]本申請第一方面提供一種語句處理方法,包括:
[0007]獲取待處理語音數據;
[0008]識別所述語音數據中包括的語句;
[0009]確定所述語音數據中的語句的清晰度信息;
[0010]當所述清晰度信息滿足預設條件時,使用第一機器學習模型對所述語句進行分詞和詞性標注處理;
[0011]當所述清晰度信息不滿足所述預設條件時,使用第二機器學習模型對所述語句進行分詞和詞性標注處理;其中,所述第一機器學習模型的數據量小于所述第二機器學習模型的數據量。
[0012]在一些實施例中,所述清晰度信息包括所述語音數據的強度,所述預設條件包括所述語音數據的強度大于第一閾值;和/或,
[0013]所述清晰度信息包括所述語音數據中噪聲的強度,所述預設條件包括所述噪聲的強度小于第二閾值;和/或,
[0014]所述清晰度信息包括所述語音數據中包括的來自不同用戶的聲紋特征的數量,所述預設條件包括所述數量為1。
[0015]在一些實施例中,所述第二機器學習模型包括:用于分詞的第一雙向長短期記憶網絡(Long Short
?
Term Memory,LSTM)模型和用于詞性標注的第二雙向LSTM模型;
[0016]所述使用第二機器學習模型對所述語句進行分詞和詞性標注處理,包括:
[0017]將所述語句輸入所述第一雙向LSTM模型,使所述第一雙向LSTM模型對所述語句進行分詞處理,得到所述語句中的至少一個詞匯;
[0018]將所述語句中的至少一個詞匯輸入所述第二雙向LSTM模型,使所述第二雙向LSTM模型對所述語句中的至少一個詞匯進行詞性標注。
[0019]在一些實施例中,所述將所述語句輸入所述第一雙向LSTM模型之前,還包括:
[0020]確定所述語句中存在與存儲空間中存儲的預設文字相同的目標文字,將所述預設文字的分詞結果確定為所述目標文字對應的分詞結果;其中,所述存儲空間中存儲有多個預設文字,以及每個預設文字對應的分詞結果;
[0021]所述將所述語句輸入所述第一雙向LSTM模型,包括:
[0022]將所述語句以及用于指示所述目標文字的分詞結果的標注信息,輸入所述第一雙向LSTM模型。
[0023]在一些實施例中,所述將所述至少一個詞匯依次輸入所述第二雙向LSTM模型之前,還包括:
[0024]確定所述至少一個詞匯中存在與存儲空間中存儲的預設詞匯相同的目標詞匯,將所述目標詞匯的詞性標注結果確定為所述目標詞匯對應的詞性標注結果;其中,所述存儲空間中存儲有多個預設詞匯,以及每個預設詞匯對應的詞性標注結果;
[0025]所述將所述至少一個詞匯依次輸入所述第二雙向LSTM模型,包括:
[0026]將所述至少一個詞匯中的目標詞匯以及用于指示所述目標詞匯的詞性標注結果的標注信息,輸入所述第二雙向LSTM模型。
[0027]在一些實施例中,所述方法還包括:
[0028]獲取多個預設語句,以及每個語句中的分詞信息和詞性標注信息;
[0029]將所述多個預設語句和所述分詞信息輸入所述第一雙向LSTM模型,使所述第一雙向LSTM模型從所述預設語句的正向和反向分別訓練用于分詞的模型參數;
[0030]將所述多個預設語句和所述詞性標注信息輸入所述第二雙向LSTM模型,使所述第二雙向LSTM模型從所述預設語句的正向和反向分別訓練用于詞性標注的模型參數。
[0031]在一些實施例中,所述識別所述語音數據中包括的語句之后,包括:
[0032]確定所述語句與存儲空間中存儲的預設語句相同,將所述預設語句的分詞結果和詞性標注結果作為所述語句的分詞結果和詞性標注結果;其中,所述存儲空間中存儲有多個預設語句,以及每個預設語句對應的分詞結果和詞性標注結果。
[0033]本申請第二方面提供一種語句處理裝置,包括:
[0034]獲取模塊,用于獲取待處理語音數據;
[0035]識別模塊,用于識別所述語音數據中包括的語句;
[0036]確定模塊,用于確定所述語音數據中的語句的清晰度信息;
[0037]第一處理模塊,用于當所述清晰度信息滿足預設條件時,使用第一機器學習模型
對所述語句進行分詞和詞性標注處理;
[0038]第二處理模塊,用于當所述清晰度信息不滿足所述預設條件時,使用第二機器學習模型對所述語句進行分詞和詞性標注處理;其中,所述第一機器學習模型的數據量小于所述第二機器學習模型的數據量。
[0039]本申請第三方面提供一種電子設備,包括:存儲器和處理器;所述存儲器存儲計算機執行指令;所述處理器執行所述存儲器存儲的計算機執行指令,使得所述處理器執行如本申請第一方面提供的語句處理方法。
[0040]本申請第四方面提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機執行指令,所述計算機執行指令被處理器執行時用于實現如本申請第一方面提供的語句處理方法。
[0041]本申請提供的語句處理方法、裝置、電子設備及可讀存儲介質,當運營商設置的用于語句識別的服務器,獲取包括語句的待處理語音數據時,根據待處理語音數據的清晰度,選擇計算量不同的第一機器學習模型或者第二機器學習模型,對待處理語音數據中的語句進行分詞和詞性標注等處理,本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種語句處理方法,其特征在于,包括:獲取待處理語音數據;識別所述語音數據中包括的語句;確定所述語音數據中的語句的清晰度信息;當所述清晰度信息滿足預設條件時,使用第一機器學習模型對所述語句進行分詞和詞性標注處理;當所述清晰度信息不滿足所述預設條件時,使用第二機器學習模型對所述語句進行分詞和詞性標注處理;其中,所述第一機器學習模型的數據量小于所述第二機器學習模型的數據量。2.根據權利要求1所述的方法,其特征在于,所述清晰度信息包括所述語音數據的強度,所述預設條件包括所述語音數據的強度大于第一閾值;和/或,所述清晰度信息包括所述語音數據中噪聲的強度,所述預設條件包括所述噪聲的強度小于第二閾值;和/或,所述清晰度信息包括所述語音數據中包括的來自不同用戶的聲紋特征的數量,所述預設條件包括所述數量為1。3.根據權利要求1或2所述的方法,其特征在于,所述第二機器學習模型包括:用于分詞的第一雙向長短期記憶網絡LSTM模型和用于詞性標注的第二雙向LSTM模型;所述使用第二機器學習模型對所述語句進行分詞和詞性標注處理,包括:將所述語句輸入所述第一雙向LSTM模型,使所述第一雙向LSTM模型對所述語句進行分詞處理,得到所述語句中的至少一個詞匯;將所述語句中的至少一個詞匯輸入所述第二雙向LSTM模型,使所述第二雙向LSTM模型對所述語句中的至少一個詞匯進行詞性標注。4.根據權利要求3所述的方法,其特征在于,所述將所述語句輸入所述第一雙向LSTM模型之前,還包括:確定所述語句中存在與存儲空間中存儲的預設文字相同的目標文字,將所述預設文字的分詞結果確定為所述目標文字對應的分詞結果;其中,所述存儲空間中存儲有多個預設文字,以及每個預設文字對應的分詞結果;所述將所述語句輸入所述第一雙向LSTM模型,包括:將所述語句以及用于指示所述目標文字的分詞結果的標注信息,輸入所述第一雙向LSTM模型。5.根據權利要求3所述的方法,其特征在于,所述將所述至少一個詞匯依次輸入所述第二雙向LSTM模型之前,還包括:確定所述至少一個詞匯中存在與存儲空間中存儲的預設詞匯相同的目標詞匯,將所述目標詞匯的詞性標注結果確定為所述目標詞...
【專利技術屬性】
技術研發人員:王瑞,王濤,劉金財,
申請(專利權)人:中國聯合網絡通信集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。