【技術實現步驟摘要】
文本處理方法、裝置、電子設備和可讀存儲介質
[0001]本申請涉及計算機
,特別是涉及一種文本處理方法、裝置、電子設備和可讀存儲介質。
技術介紹
[0002]目前,用戶在通過計算機等電子設備輸入文本時,電子設備往往可以針對用戶輸入的文本進行糾錯,即檢查、標記或者更正該文本中的錯誤。
[0003]在相關技術中,相關技術會通過模型實現對文本的糾錯,但是,模型處理文本的維度相對單一,即模型無法全面的檢測文本中出現的多種類型的錯誤。
技術實現思路
[0004]有鑒于此,本申請實施例提供一種文本處理方法、裝置、電子設備和可讀存儲介質,以從多個維度對目標文本進行糾錯,實現對目標文本的全面糾錯。
[0005]第一方面,提供了一種文本處理方法,所述方法包括:
[0006]獲取目標文本。
[0007]對所述目標文本進行文本規則檢測,確定規則檢測結果。
[0008]將所述目標文本輸入文本檢測模型,確定模型檢測結果。
[0009]根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。
[0010]在一些實施例中,所述規則檢測結果包括重復字段檢測結果。
[0011]所述對所述目標文本進行文本規則檢測,確定規則檢測結果包括:
[0012]根據預先設置的重復字段檢測規則,對所述目標文本進行重復字段檢測,以確定重復字段檢測結果。
[0013]在一些實施例中,所述規則檢測結果包括常見詞檢測結果。 >[0014]所述對所述目標文本進行文本規則檢測,確定規則檢測結果包括:
[0015]根據預先設置的常見詞詞表對所述目標文本進行常見詞檢測,標記所述目標文本中的非常見詞,以確定常見詞檢測結果。
[0016]在一些實施例中,所述根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本包括:
[0017]根據所述規則檢測結果和所述模型檢測結果,確定至少一個糾錯類型標簽。
[0018]根據各所述糾錯類型標簽分別對應的糾錯規則,確定各所述糾錯類型標簽分別對應的糾錯候選集,所述糾錯候選集中包括用于更正所述目標文本的候選字或候選詞。
[0019]根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。
[0020]在一些實施例中,所述根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本包括:
[0021]根據預先設置的語言模型和各所述糾錯候選集,對所述目標文本進行模擬糾錯,以確定各所述糾錯候選集中的候選字或候選詞所對應的評分。
[0022]根據所述評分的大小,確定各所述糾錯候選集對應的目標字或者目標詞。
[0023]根據各所述糾錯候選集對應的目標字或者目標詞,對所述目標文本進行更正,以確定所述目標文本對應的糾錯文本。
[0024]在一些實施例中,所述糾錯類型標簽包括發音相似標簽、字形相似標簽、位置顛倒標簽、多字標簽、少字標簽和助詞錯誤標簽中的一項或多項。
[0025]在一些實施例中,所述方法還包括:
[0026]根據預先設置的結果糾正詞典,對所述規則檢測結果和所述模型檢測結果進行校驗。
[0027]響應于所述規則檢測結果和/或所述模型檢測結果命中所述結果糾正詞典中的字或詞,更新所述規則檢測結果和/或所述模型檢測結果。
[0028]第二方面,提供了一種文本處理裝置,所述裝置包括:
[0029]目標文本獲取模塊,被配置為執行獲取目標文本。
[0030]規則檢測模塊,被配置為執行對所述目標文本進行文本規則檢測,確定規則檢測結果。
[0031]模型檢測模塊,被配置為執行將所述目標文本輸入文本檢測模型,確定模型檢測結果。
[0032]糾錯模塊,被配置為執行根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。
[0033]在一些實施例中,所述規則檢測結果包括重復字段檢測結果。
[0034]所述規則檢測模塊具體被配置為執行:
[0035]根據預先設置的重復字段檢測規則,對所述目標文本進行重復字段檢測,以確定重復字段檢測結果。
[0036]在一些實施例中,所述規則檢測結果包括常見詞檢測結果。
[0037]所述規則檢測模塊具體被配置為執行:
[0038]根據預先設置的常見詞詞表對所述目標文本進行常見詞檢測,標記所述目標文本中的非常見詞,以確定常見詞檢測結果。
[0039]在一些實施例中,所述糾錯模塊具體被配置為執行:
[0040]根據所述規則檢測結果和所述模型檢測結果,確定至少一個糾錯類型標簽。
[0041]根據各所述糾錯類型標簽分別對應的糾錯規則,確定各所述糾錯類型標簽分別對應的糾錯候選集,所述糾錯候選集中包括用于更正所述目標文本的候選字或候選詞。
[0042]根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。
[0043]在一些實施例中,所述糾錯模塊具體被配置為執行:
[0044]根據預先設置的語言模型和各所述糾錯候選集,對所述目標文本進行模擬糾錯,以確定各所述糾錯候選集中的候選字或候選詞所對應的評分。
[0045]根據所述評分的大小,確定各所述糾錯候選集對應的目標字或者目標詞。
[0046]根據各所述糾錯候選集對應的目標字或者目標詞,對所述目標文本進行更正,以
確定所述目標文本對應的糾錯文本。
[0047]在一些實施例中,所述糾錯類型標簽包括發音相似標簽、字形相似標簽、位置顛倒標簽、多字標簽、少字標簽和助詞錯誤標簽中的一項或多項。
[0048]在一些實施例中,所述裝置還包括:
[0049]校驗模塊,被配置為執行根據預先設置的結果糾正詞典,對所述規則檢測結果和所述模型檢測結果進行校驗。
[0050]更新模塊,被配置為執行響應于所述規則檢測結果和/或所述模型檢測結果命中所述結果糾正詞典中的字或詞,更新所述規則檢測結果和/或所述模型檢測結果。
[0051]第三方面,本申請實施例提供了一種電子設備,包括存儲器和處理器,所述存儲器用于存儲一條或多條計算機程序指令,其中,所述一條或多條計算機程序指令被所述處理器執行以實現如第一方面所述的方法。
[0052]第四方面,本申請實施例提供了一種計算機可讀存儲介質,其上存儲計算機程序指令,所述計算機程序指令在被處理器執行時實現如第一方面所述的方法。
[0053]在本申請實施例中,本申請實施例可以接收目標文本,并對目標文本進行文本規則檢測和模型檢測。進一步的,本申請實施例可以根據規則檢測的結果和模型檢測的結果,對目標文本進行糾錯處理,從而確定目標文本對應的糾錯文本。其中,由于本申請實施例在對目標文本進行糾錯的過程中,既對目標文本進行了文本規則檢測,也對本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種文本處理方法,其特征在于,所述方法包括:獲取目標文本;對所述目標文本進行文本規則檢測,確定規則檢測結果;將所述目標文本輸入文本檢測模型,確定模型檢測結果;以及根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。2.根據權利要求1所述的方法,其特征在于,所述規則檢測結果包括重復字段檢測結果;所述對所述目標文本進行文本規則檢測,確定規則檢測結果包括:根據預先設置的重復字段檢測規則,對所述目標文本進行重復字段檢測,以確定重復字段檢測結果。3.根據權利要求1所述的方法,其特征在于,所述規則檢測結果包括常見詞檢測結果;所述對所述目標文本進行文本規則檢測,確定規則檢測結果包括:根據預先設置的常見詞詞表對所述目標文本進行常見詞檢測,標記所述目標文本中的非常見詞,以確定常見詞檢測結果。4.根據權利要求1所述的方法,其特征在于,所述根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本包括:根據所述規則檢測結果和所述模型檢測結果,確定至少一個糾錯類型標簽;根據各所述糾錯類型標簽分別對應的糾錯規則,確定各所述糾錯類型標簽分別對應的糾錯候選集,所述糾錯候選集中包括用于更正所述目標文本的候選字或候選詞;以及根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。5.根據權利要求4所述的方法,其特征在于,所述根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本包括:根據預先設置的語言模型和各所述糾錯候選集,對所述目標文本進行模擬糾錯,以確定各所述糾錯候選集中...
【專利技術屬性】
技術研發人員:王亭,李志飛,
申請(專利權)人:上海墨百意信息科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。