• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    文本處理方法、裝置、電子設備和可讀存儲介質制造方法及圖紙

    技術編號:36690970 閱讀:30 留言:0更新日期:2023-02-27 19:58
    本申請實施例提供了一種文本處理方法、裝置、電子設備和可讀存儲介質,涉及計算機技術領域。在本申請實施例中,本申請實施例可以接收目標文本,并對目標文本進行文本規則檢測和模型檢測。進一步的,本申請實施例可以根據規則檢測的結果和模型檢測的結果,對目標文本進行糾錯處理,從而確定目標文本對應的糾錯文本。其中,由于本申請實施例在對目標文本進行糾錯的過程中,既對目標文本進行了文本規則檢測,也對目標文本進行了模型檢測,因此,本申請實施例可以從多個維度對目標文本進行糾錯,實現了對目標文本的全面糾錯。現了對目標文本的全面糾錯。現了對目標文本的全面糾錯。

    【技術實現步驟摘要】
    文本處理方法、裝置、電子設備和可讀存儲介質


    [0001]本申請涉及計算機
    ,特別是涉及一種文本處理方法、裝置、電子設備和可讀存儲介質。

    技術介紹

    [0002]目前,用戶在通過計算機等電子設備輸入文本時,電子設備往往可以針對用戶輸入的文本進行糾錯,即檢查、標記或者更正該文本中的錯誤。
    [0003]在相關技術中,相關技術會通過模型實現對文本的糾錯,但是,模型處理文本的維度相對單一,即模型無法全面的檢測文本中出現的多種類型的錯誤。

    技術實現思路

    [0004]有鑒于此,本申請實施例提供一種文本處理方法、裝置、電子設備和可讀存儲介質,以從多個維度對目標文本進行糾錯,實現對目標文本的全面糾錯。
    [0005]第一方面,提供了一種文本處理方法,所述方法包括:
    [0006]獲取目標文本。
    [0007]對所述目標文本進行文本規則檢測,確定規則檢測結果。
    [0008]將所述目標文本輸入文本檢測模型,確定模型檢測結果。
    [0009]根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。
    [0010]在一些實施例中,所述規則檢測結果包括重復字段檢測結果。
    [0011]所述對所述目標文本進行文本規則檢測,確定規則檢測結果包括:
    [0012]根據預先設置的重復字段檢測規則,對所述目標文本進行重復字段檢測,以確定重復字段檢測結果。
    [0013]在一些實施例中,所述規則檢測結果包括常見詞檢測結果。
    >[0014]所述對所述目標文本進行文本規則檢測,確定規則檢測結果包括:
    [0015]根據預先設置的常見詞詞表對所述目標文本進行常見詞檢測,標記所述目標文本中的非常見詞,以確定常見詞檢測結果。
    [0016]在一些實施例中,所述根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本包括:
    [0017]根據所述規則檢測結果和所述模型檢測結果,確定至少一個糾錯類型標簽。
    [0018]根據各所述糾錯類型標簽分別對應的糾錯規則,確定各所述糾錯類型標簽分別對應的糾錯候選集,所述糾錯候選集中包括用于更正所述目標文本的候選字或候選詞。
    [0019]根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。
    [0020]在一些實施例中,所述根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本包括:
    [0021]根據預先設置的語言模型和各所述糾錯候選集,對所述目標文本進行模擬糾錯,以確定各所述糾錯候選集中的候選字或候選詞所對應的評分。
    [0022]根據所述評分的大小,確定各所述糾錯候選集對應的目標字或者目標詞。
    [0023]根據各所述糾錯候選集對應的目標字或者目標詞,對所述目標文本進行更正,以確定所述目標文本對應的糾錯文本。
    [0024]在一些實施例中,所述糾錯類型標簽包括發音相似標簽、字形相似標簽、位置顛倒標簽、多字標簽、少字標簽和助詞錯誤標簽中的一項或多項。
    [0025]在一些實施例中,所述方法還包括:
    [0026]根據預先設置的結果糾正詞典,對所述規則檢測結果和所述模型檢測結果進行校驗。
    [0027]響應于所述規則檢測結果和/或所述模型檢測結果命中所述結果糾正詞典中的字或詞,更新所述規則檢測結果和/或所述模型檢測結果。
    [0028]第二方面,提供了一種文本處理裝置,所述裝置包括:
    [0029]目標文本獲取模塊,被配置為執行獲取目標文本。
    [0030]規則檢測模塊,被配置為執行對所述目標文本進行文本規則檢測,確定規則檢測結果。
    [0031]模型檢測模塊,被配置為執行將所述目標文本輸入文本檢測模型,確定模型檢測結果。
    [0032]糾錯模塊,被配置為執行根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。
    [0033]在一些實施例中,所述規則檢測結果包括重復字段檢測結果。
    [0034]所述規則檢測模塊具體被配置為執行:
    [0035]根據預先設置的重復字段檢測規則,對所述目標文本進行重復字段檢測,以確定重復字段檢測結果。
    [0036]在一些實施例中,所述規則檢測結果包括常見詞檢測結果。
    [0037]所述規則檢測模塊具體被配置為執行:
    [0038]根據預先設置的常見詞詞表對所述目標文本進行常見詞檢測,標記所述目標文本中的非常見詞,以確定常見詞檢測結果。
    [0039]在一些實施例中,所述糾錯模塊具體被配置為執行:
    [0040]根據所述規則檢測結果和所述模型檢測結果,確定至少一個糾錯類型標簽。
    [0041]根據各所述糾錯類型標簽分別對應的糾錯規則,確定各所述糾錯類型標簽分別對應的糾錯候選集,所述糾錯候選集中包括用于更正所述目標文本的候選字或候選詞。
    [0042]根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。
    [0043]在一些實施例中,所述糾錯模塊具體被配置為執行:
    [0044]根據預先設置的語言模型和各所述糾錯候選集,對所述目標文本進行模擬糾錯,以確定各所述糾錯候選集中的候選字或候選詞所對應的評分。
    [0045]根據所述評分的大小,確定各所述糾錯候選集對應的目標字或者目標詞。
    [0046]根據各所述糾錯候選集對應的目標字或者目標詞,對所述目標文本進行更正,以
    確定所述目標文本對應的糾錯文本。
    [0047]在一些實施例中,所述糾錯類型標簽包括發音相似標簽、字形相似標簽、位置顛倒標簽、多字標簽、少字標簽和助詞錯誤標簽中的一項或多項。
    [0048]在一些實施例中,所述裝置還包括:
    [0049]校驗模塊,被配置為執行根據預先設置的結果糾正詞典,對所述規則檢測結果和所述模型檢測結果進行校驗。
    [0050]更新模塊,被配置為執行響應于所述規則檢測結果和/或所述模型檢測結果命中所述結果糾正詞典中的字或詞,更新所述規則檢測結果和/或所述模型檢測結果。
    [0051]第三方面,本申請實施例提供了一種電子設備,包括存儲器和處理器,所述存儲器用于存儲一條或多條計算機程序指令,其中,所述一條或多條計算機程序指令被所述處理器執行以實現如第一方面所述的方法。
    [0052]第四方面,本申請實施例提供了一種計算機可讀存儲介質,其上存儲計算機程序指令,所述計算機程序指令在被處理器執行時實現如第一方面所述的方法。
    [0053]在本申請實施例中,本申請實施例可以接收目標文本,并對目標文本進行文本規則檢測和模型檢測。進一步的,本申請實施例可以根據規則檢測的結果和模型檢測的結果,對目標文本進行糾錯處理,從而確定目標文本對應的糾錯文本。其中,由于本申請實施例在對目標文本進行糾錯的過程中,既對目標文本進行了文本規則檢測,也對本文檔來自技高網...

    【技術保護點】

    【技術特征摘要】
    1.一種文本處理方法,其特征在于,所述方法包括:獲取目標文本;對所述目標文本進行文本規則檢測,確定規則檢測結果;將所述目標文本輸入文本檢測模型,確定模型檢測結果;以及根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。2.根據權利要求1所述的方法,其特征在于,所述規則檢測結果包括重復字段檢測結果;所述對所述目標文本進行文本規則檢測,確定規則檢測結果包括:根據預先設置的重復字段檢測規則,對所述目標文本進行重復字段檢測,以確定重復字段檢測結果。3.根據權利要求1所述的方法,其特征在于,所述規則檢測結果包括常見詞檢測結果;所述對所述目標文本進行文本規則檢測,確定規則檢測結果包括:根據預先設置的常見詞詞表對所述目標文本進行常見詞檢測,標記所述目標文本中的非常見詞,以確定常見詞檢測結果。4.根據權利要求1所述的方法,其特征在于,所述根據所述規則檢測結果和所述模型檢測結果,對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本包括:根據所述規則檢測結果和所述模型檢測結果,確定至少一個糾錯類型標簽;根據各所述糾錯類型標簽分別對應的糾錯規則,確定各所述糾錯類型標簽分別對應的糾錯候選集,所述糾錯候選集中包括用于更正所述目標文本的候選字或候選詞;以及根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本。5.根據權利要求4所述的方法,其特征在于,所述根據各所述糾錯候選集對所述目標文本進行糾錯處理,確定所述目標文本對應的糾錯文本包括:根據預先設置的語言模型和各所述糾錯候選集,對所述目標文本進行模擬糾錯,以確定各所述糾錯候選集中...

    【專利技術屬性】
    技術研發人員:王亭李志飛
    申請(專利權)人:上海墨百意信息科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: HEYZO无码综合国产精品227| 在线无码视频观看草草视频| 黑人无码精品又粗又大又长 | 无码人妻啪啪一区二区| 日本无码WWW在线视频观看| 无码人妻丰满熟妇区96| 最新高清无码专区| 亚洲av无码成人精品国产 | 未满小14洗澡无码视频网站| 免费无码又爽又刺激高潮| 久久亚洲精品无码| 国产av无码专区亚洲av果冻传媒 | 国产亚洲?V无码?V男人的天堂| 久久久久亚洲av无码专区| 东京热加勒比无码视频| 国产精品国产免费无码专区不卡| 人妻无码中文久久久久专区| 97无码人妻福利免费公开在线视频| 亚洲av无码专区首页| 久久精品无码专区免费青青| 人妻系列AV无码专区| 粉嫩大学生无套内射无码卡视频| 免费无码av片在线观看| 无码色AV一二区在线播放| 久久AV无码精品人妻糸列| 无码137片内射在线影院| 亚洲av永久无码精品网站 | 亚洲午夜无码久久久久软件 | av色欲无码人妻中文字幕| 亚洲中文字幕久久精品无码VA| 日韩精品人妻系列无码专区免费| 亚洲日韩乱码中文无码蜜桃臀网站 | 麻豆aⅴ精品无码一区二区 | 亚洲中文字幕无码专区| 无码少妇一区二区浪潮免费| 亚洲爆乳精品无码一区二区| 亚洲精品无码久久久久久久 | 日韩国产成人无码av毛片| 午夜不卡无码中文字幕影院| 无码人妻熟妇AV又粗又大| 乱人伦中文无码视频在线观看|