System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国99精品无码一区二区三区,日韩人妻无码一区二区三区综合部,无码人妻精品一二三区免费
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種檢索系統的文本排序方法、裝置、電子設備制造方法及圖紙

    技術編號:43243936 閱讀:17 留言:0更新日期:2024-11-05 17:27
    本申請提供一種檢索系統的文本排序方法、裝置、電子設備及存儲介質,其中,該方法包括:獲取經過預處理后的用戶輸入文本;對所述用戶輸入文本進行多維度特征解析,得到待檢索數據;根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據;根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果。實施本申請,可以實現檢索過程中對候選文本的精準排序,提高候選數據的質量以及對文檔解析效果,利用粗略排序和精確排序兩種方式,增強對于文本主語、主題的理解,強化多粒度語義特征,顯著提升了檢索系統的整體性能和用戶滿意度。

    【技術實現步驟摘要】

    本申請涉及自然語言處理,具體而言,涉及一種檢索系統的文本排序方法、裝置、電子設備及存儲介質。


    技術介紹

    1、現有技術的生成式搜索引擎中,粗召回策略主要著眼于段落文本的局部語義特性,忽視了全局上下文、關鍵詞和主題等結構中蘊含的豐富語義信息。這種偏頗可能導致對文本深層含義和上下文背景的理解不足,從而使得檢索結果與用戶的查詢意圖產生偏差。精排方法主要采用的是基于cross-encoding結構的模型,這種模型能夠有效地實現用戶查詢與候選集之間的直接交互,從而達成更優的語義匹配效果。然而,當用戶查詢的主語與候選集的主語不一致,而其他描述內容相同時,這種情況下往往無法實現理想的匹配結果。

    2、加之生成式檢索系統中,由于文本分塊向量化的處理方式,候選集數據的質量不高,直接影響了初步召回和精確排序的效果。文本的可讀性較低和質量不佳,會對答案生成產生不利影響。


    技術實現思路

    1、本申請的目的在于提供一種檢索系統的文本排序方法、裝置、電子設備及存儲介質,可以實現檢索過程中對候選文本的精準排序,提高候選數據的質量以及對文檔解析效果,利用粗略排序和精確排序兩種方式,增強對于文本主語、主題的理解,強化多粒度語義特征,顯著提升了檢索系統的整體性能和用戶滿意度。

    2、第一方面,本申請實施例提供了一種檢索系統的文本排序方法,所述方法包括:

    3、獲取經過預處理后的用戶輸入文本;

    4、對所述用戶輸入文本進行多維度特征解析,得到待檢索數據;

    5、根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據;

    6、根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果。

    7、在上述實現過程中,通過對用戶輸入的文本進行多維度解析,再結合知識庫文檔進行粗略排序和精確排序,可以實現檢索過程中對候選文本的精準排序,提高候選數據的質量以及對文檔解析效果,利用粗略排序和精確排序兩種方式,增強對于文本主語、主題的理解,強化多粒度語義特征,顯著提升了檢索系統的整體性能和用戶滿意度。

    8、進一步地,構建知識庫文檔的步驟,包括:

    9、提取用于構建所述知識庫文檔的初始文檔中的表格信息、圖片信息和文本數據;

    10、對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本;

    11、對所述分段文本進行優化,得到優化后的分段文本;

    12、根據所述優化后的分段文本構建所述知識庫文檔,所述知識庫文檔為包含多個子文檔的文檔集合,每個所述子文檔包含至少一個所述分段文本。

    13、在上述實現過程中,分別對表格信息、圖片信息和文本數據進行處理,進而再進行向量化,可以提高向量化過程中各類數據的融合程度,減少向量化過程中關鍵信息的丟失,提高精確度。

    14、進一步地,所述對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本的步驟,包括:

    15、獲取所述表格信息的上下文信息;

    16、根據所述上下文信息生成所述表格信息的總結性文本;

    17、根據所述圖片信息獲得所述圖片信息的總結性文本;

    18、對所述表格信息的總結性文本、所述圖片信息的總結性文本和所述文本數據進行向量化,并保留對應的層級結構關系,得到所述分段文本。

    19、在上述實現過程中,對表格信息的總結性文本、所述圖片信息的總結性文本和所述文本數據進行向量化,保留文本數據的層級結構關系,使得到的分段文本語義特征更加明確,可以增加分段文本的信息熵。

    20、進一步地,所述根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據的步驟,包括:

    21、對所述知識庫文檔進行查詢,得到所述知識庫中每個子文檔的主題信息以及每個所述子文檔中的分段文本的主題信息;

    22、分別將所述待檢索數據的主題信息與每個所述子文檔的主題信息以及每個所述子文檔中的分段文本的主題信息進行匹配;

    23、若所述待檢索數據的主題信息與每個所述子文檔的主題信息以及每個所述子文檔中的分段文本的主題信息均一致,確定所述子文檔為第一候選數據;

    24、根據所述第一候選數據獲得所述候選數據。

    25、在上述實現過程中,根據分段文本對知識庫文檔進行檢索,并選取出候選數據進行粗略排序,可以快速、準確地將知識庫文檔中符合分段文本主題的數據進行篩選,減少出錯概率,降低誤差。

    26、進一步地,所述根據所述第一候選數據獲得所述候選數據的步驟,包括:

    27、提取所述第一候選數據中具有不同細粒度的語義特征;

    28、將所述待檢索數據的語義特征與所述第一候選數據的語義特征根據細粒度進行匹配;

    29、去除所述第一候選數據中,語義信息的細粒度與所述待檢索數據的語義信息的細粒度不匹配的第一候選數據,得到所述候選數據。

    30、在上述實現過程中,針對不同細粒度的語義特征進行匹配,選取出第一候選數據中語義特征最匹配的是數據,提高候選數據的可用性和精確性,確保檢索過程的有效進行。

    31、進一步地,所述根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果的步驟,包括:

    32、根據所述精確排序模型對所述候選數據進行評估,得到所述候選數據的預估評分;

    33、確定所述預估評分符合評估閾值的候選數據為第二候選數據;

    34、對所述第二候選數據進行二次校驗,得到第三候選數據;

    35、對所述第三候選數據進行數據填充,得到所述排序結果。

    36、在上述實現過程中,根據精確排序模型對候選數據進行評估后進而進行二次校驗、數據填充,可以多維度對候選數據進行校準,提高精確排序的結果,并且可以細化對候選數據的選取,使得排序結果更加接近用戶意圖。

    37、進一步地,所述對所述第二候選數據進行二次校驗,得到第三候選數據的步驟,包括:

    38、獲取所述待檢索數據的主語信息;

    39、將所述待檢索數據的主語信息與所述第二候選數據的主語信息進行匹配;

    40、過濾所述第二候選數據中主語信息與所述待檢索數據的主語信息不匹配的數據,得到所述第三候選數據。

    41、在上述實現過程中,根據主語信息進行匹配,實現對第二候選數據的二次過濾和校準,可以提高數據精度,完善排序過程。

    42、第二方面,本申請實施例還提供了一種檢索系統的文本排序裝置,所述裝置包括:

    43、獲取模塊,用于獲取經過預處理后的用戶輸入文本;

    44、多維度特征解析模塊,用于對所述用戶輸入文本進行多維度特征解析,得到待檢索數據;

    45、粗略排序模塊,用于根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據;

    46、精確排序模塊,用于根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果。

    47、在上述實現本文檔來自技高網...

    【技術保護點】

    1.一種檢索系統的文本排序方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,構建知識庫文檔的步驟,包括:

    3.根據權利要求2所述的檢索系統的文本排序方法,其特征在于,所述對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本的步驟,包括:

    4.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,所述根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據的步驟,包括:

    5.根據權利要求4所述的檢索系統的文本排序方法,其特征在于,所述根據所述第一候選數據獲得所述候選數據的步驟,包括:

    6.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,所述根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果的步驟,包括:

    7.根據權利要求6所述的檢索系統的文本排序方法,其特征在于,所述對所述第二候選數據進行二次校驗,得到第三候選數據的步驟,包括:

    8.一種檢索系統的文本排序裝置,其特征在于,所述裝置包括:

    9.一種電子設備,其特征在于,包括存儲器及處理器,所述存儲器用于存儲計算機程序,所述處理器運行所述計算機程序以使所述電子設備執行根據權利要求1至7中任一項所述的檢索系統的文本排序方法。

    10.一種存儲介質,其特征在于,其存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的檢索系統的文本排序方法。

    ...

    【技術特征摘要】

    1.一種檢索系統的文本排序方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,構建知識庫文檔的步驟,包括:

    3.根據權利要求2所述的檢索系統的文本排序方法,其特征在于,所述對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本的步驟,包括:

    4.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,所述根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據的步驟,包括:

    5.根據權利要求4所述的檢索系統的文本排序方法,其特征在于,所述根據所述第一候選數據獲得所述候選數據的步驟,包括:

    6.根據權利要求1所述的檢索系統的文本排序方法,...

    【專利技術屬性】
    技術研發人員:黃思遠唐江濤薛鋒趙巍巍陳杰
    申請(專利權)人:北京微步在線科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产午夜精品无码| 国产福利电影一区二区三区久久老子无码午夜伦不 | 精品亚洲A∨无码一区二区三区| 在线高清无码A.| 亚洲av无码乱码在线观看野外| 国产午夜鲁丝片AV无码| 亚洲综合久久精品无码色欲| 中文字幕人妻无码系列第三区| 日韩乱码人妻无码中文字幕久久| 国产精品无码成人午夜电影| 亚洲真人无码永久在线| 国产成人无码av片在线观看不卡| 国产精品无码一区二区三区毛片| 一区二区三区无码高清视频| 亚洲不卡中文字幕无码| 亚洲精品人成无码中文毛片| 日韩av无码中文字幕| 免费无码黄网站在线看| 久久精品无码一区二区三区不卡| 亚洲VA中文字幕无码毛片| 永久免费av无码网站大全| 中文字幕人成无码免费视频| 无码少妇一区二区三区浪潮AV| 国产网红主播无码精品| 亚洲欧洲免费无码| 无码精品一区二区三区| 蜜桃无码AV一区二区| AAA级久久久精品无码片| 久久久无码精品亚洲日韩按摩| 人妻丰满熟妞av无码区| 无码任你躁久久久久久| 久久午夜无码免费| 2020无码专区人妻系列日韩| 午夜无码国产理论在线| 国产免费无码AV片在线观看不卡| 中文字幕久无码免费久久| 亚洲中久无码不卡永久在线观看| 亚无码乱人伦一区二区| 成人h动漫精品一区二区无码| 亚洲av无码专区在线电影天堂| 中文字幕人成无码人妻综合社区|