System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV永久无码天堂影院,国产V片在线播放免费无码,中文字幕无码日韩专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>復旦大學專利>正文

    一種面向大規模英文專利文本的關鍵詞提取方法技術

    技術編號:44432729 閱讀:3 留言:0更新日期:2025-02-28 18:44
    本發明專利技術涉及文本信息處理領域,公開了一種面向大規模英文專利文本的關鍵詞提取方法,包括以下步驟:S01、輸入大規模英文專利文本;S02、對大規模英文專利文本進行預處理,獲取包含單詞和二元組的詞匯集合;S03、基于TF?IDF算法對預處理后的專利文本進行初步關鍵詞篩選,生成每份文本的關鍵詞候選集;S04、調用大語言模型,對關鍵詞候選集進行優化篩選,結合英文專利文本的上下文語義,確定每份文本的最終關鍵詞集合。本發明專利技術中,在專利文本預處理階段以及收集單詞關鍵詞的同時,生成二元組集合作為候選關鍵詞,通過TF?IDF算法篩選出關鍵詞候選集,再調用大語言模型進行進一步優化,能有效排除無關詞匯,并解決英文多義詞釋義問題,從而有效提升大規模英文專利文本關鍵詞提取的效率和準確性。

    【技術實現步驟摘要】

    本專利技術涉及文本信息處理領域,尤其涉及一種面向大規模英文專利文本的關鍵詞提取方法


    技術介紹

    1、隨著科技創新的快速發展,專利成為保護專利技術創造、促進技術交流的重要手段,對專利文本進行深入分析,可以挖掘出有價值的技術情報,為企業研發和知識產權保護提供有力支持。

    2、現有的專利關鍵詞提取方法主要分為無監督方法及有監督方法。無監督方法指不依賴于提前標注的標簽來提取關鍵詞的方法,有監督方法則指基于有標注的訓練數據集進行關鍵詞提取的方法。其中,有監督方法通常需要消耗大量的人力資源進行關鍵詞標注,尤其是在當今專利信息劇增的背景下,為應對專利侵權訴訟或進行專利申請,專業人員動輒需要挖掘上百乃至上千份專利文本,更有需要分析多達上萬份專利文本的數據挖掘任務,在這些面對大規模專利文本的任務上,人工進行關鍵詞標注的難度可想而知。

    3、因此,在缺少專利文本關鍵詞標注資源的情況下,為了提取大量專利文本的關鍵詞,無監督方法更具可行性。然而,現有的許多無監督方法只考慮詞頻或詞的共現關系,無法結合文本的上下文語義進行關鍵詞提取,其效果往往差強人意。


    技術實現思路

    1、針對現有技術的不足,本專利技術提供了一種面向大規模英文專利文本的關鍵詞提取方法,解決了英文專利文本的關鍵詞提取方法只考慮詞頻或詞的共現關系,無法結合文本的上下文語義進行關鍵詞提取的問題。

    2、為實現以上目的,本專利技術通過以下技術方案予以實現:一種面向大規模英文專利文本的關鍵詞提取方法,包括以下步驟:

    3、s01、輸入大規模英文專利文本;

    4、s02、對大規模英文專利文本進行預處理,獲取包含單詞和二元組的詞匯集合;

    5、s03、基于tf-idf算法對預處理后的專利文本進行初步關鍵詞篩選,生成每份文本的關鍵詞候選集;

    6、s04、調用大語言模型,對關鍵詞候選集進行優化篩選,結合英文專利文本的上下文語義,確定每份文本的最終關鍵詞集合。

    7、優選的,所述步驟s01中的大規模英文專利文本包含超過十萬份英文專利文本,所述文本來自專利局或專利網站的公開數據,公開數據以結構性文件形式存儲,結構性文件中包含專利標題與摘要,專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。

    8、優選的,所述步驟s02中的專利文本預處理過程,包括對專利文本進行分詞、去除停用詞及去除標點符號。

    9、優選的,所述步驟s02中的詞匯集合包括原專利文本的單詞集合與二元組集合,所述二元組集合中的二元組為文本中的任意兩個單詞的組合。

    10、優選的,所述步驟s03中的tfidf用于做詞頻和逆文檔統計,通過tf-idf值的排序,得到tfidf得分前n的關鍵詞候選詞,再將關鍵詞候選詞與二元組轉換為全小寫,去除重復二元組,并去除已包含在二元組中的關鍵詞候選詞,得到所述關鍵詞候選集。

    11、優選的,所述步驟s03中的tf-idf算法的計算公式為:

    12、tf-idfi,j=tfi,j×idfi,j????(1)

    13、其中,tfi,j表示詞頻,idfi,j表示逆文檔頻率,二者計算公式如下所示:

    14、

    15、上式中,tfi,j表示詞條i在文檔j中出現的頻率,ni,j表示詞條i在文檔j中出現的次數,nk,j表示詞條k在文檔j中出現的次數,∑knk,j表示文檔j中所有詞條出現次數的總和。

    16、

    17、上式中,d是所有文檔的數量總和;|{j:ti∈d}|是整個文檔集d中,包含詞條tj的文檔數。

    18、tf-idf值越高,表明該詞在文中出現的頻率較高,同時在其他文檔中出現的次數較少,因而更能突出該文檔的特征或關鍵內容。

    19、優選的,所述步驟s04中所用的大語言模型為一種基于深度學習的自然語言處理模型gpt-4omini,所述自然語言處理模型根據用戶提出的要求,結合上下文內容對關鍵詞候選集進行進一步過濾,排除基于詞頻的方法篩選出的無意義詞匯,在專利文本預處理階段以及收集單詞關鍵詞的同時,生成二元組集合作為候選關鍵詞;隨后,結合詞匯集合與二元組集合,通過tf-idf算法篩選出關鍵詞候選集,再調用大語言模型進行進一步優化,能有效排除無關詞匯,并解決英文多義詞釋義問題。

    20、優選的,所述步驟s04中所述的最終關鍵詞集合,其包含的詞匯全部來源于所述步驟s03生成的關鍵詞候選集。

    21、優選的,所述步驟s04的輸入為大規模英文專利文本中的專利文本,以及與當前文本對應的關鍵詞候選集。

    22、優選的,所述步驟s04的輸出為大規模英文專利文本中每份文本的最終關鍵詞集合。

    23、有益效果

    24、本專利技術提供了一種面向大規模英文專利文本的關鍵詞提取方法。與現有技術相比具備以下有益效果:

    25、1、本專利技術中,通過結合tf-idf算法和大語言模型的無監督關鍵詞提取方法,在專利文本預處理階段以及收集單詞關鍵詞的同時,生成二元組集合作為候選關鍵詞;隨后,結合詞匯集合與二元組集合,通過tf-idf算法篩選出關鍵詞候選集,再調用大語言模型進行進一步優化,能有效排除無關詞匯,并解決英文多義詞釋義問題,從而有效提升大規模英文專利文本關鍵詞提取的效率和準確性。該方法適用于處理超過十萬份專利文本的批量操作,可確保關鍵詞提取的相關性和精準性,為專利信息檢索提供了更強的支持和便利。

    26、2、本專利技術中,通過結合大語言模型和tf-idf算法對大規模英文專利文本進行處理,能夠有效提升關鍵詞提取的效率和準確性。該方法首先輸入大規模英文專利文本;其次對大規模英文專利文本進行預處理,獲取包含單詞和二元組的詞匯集合;然后,基于tfidf算法對預處理后的專利文本進行初步關鍵詞篩選,生成每份文本的關鍵詞候選集;最后,調用大語言模型,對關鍵詞候選集進行優化篩選,結合英文專利文本的上下文語義,確定每份文本的最終關鍵詞集合。該方法可處理多達數十萬個專利文本,解決了傳統方法中詞頻統計帶來的無效詞匯問題,同時提高了多義詞釋義的準確性。

    本文檔來自技高網
    ...

    【技術保護點】

    1.一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:包括以下步驟:

    2.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S01中的大規模英文專利文本包含超過十萬份英文專利文本,所述文本來自專利局或專利網站的公開數據,公開數據以結構性文件形式存儲,結構性文件中包含專利標題與摘要,專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。

    3.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S02中的專利文本預處理過程,包括對專利文本進行分詞、去除停用詞及去除標點符號。

    4.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S02中的詞匯集合包括原專利文本的單詞集合與二元組集合,所述二元組集合中的二元組為文本中的任意兩個單詞的組合。

    5.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S03中的TF-IDF用于做詞頻和逆文檔統計,通過TFIDF值的排序,得到TF-IDF得分前N的關鍵詞候選詞,再將關鍵詞候選詞與二元組轉換為全小寫,去除重復二元組,并去除已包含在二元組中的關鍵詞候選詞,得到所述關鍵詞候選集。

    6.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S03中的TF-IDF算法的計算公式為:

    7.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04中所用的大語言模型為一種基于深度學習的自然語言處理模型gpt-4omini,所述自然語言處理模型根據用戶提出的要求,結合上下文內容對關鍵詞候選集進行進一步過濾,排除基于詞頻的方法篩選出的無意義詞匯。

    8.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04中所述的最終關鍵詞集合,其包含的詞匯全部來源于所述步驟S03生成的關鍵詞候選集。

    9.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04的輸入為大規模英文專利文本中的專利文本,以及與當前文本對應的關鍵詞候選集。

    10.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04的輸出為大規模英文專利文本中每份文本的最終關鍵詞集合。

    ...

    【技術特征摘要】

    1.一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:包括以下步驟:

    2.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s01中的大規模英文專利文本包含超過十萬份英文專利文本,所述文本來自專利局或專利網站的公開數據,公開數據以結構性文件形式存儲,結構性文件中包含專利標題與摘要,專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。

    3.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s02中的專利文本預處理過程,包括對專利文本進行分詞、去除停用詞及去除標點符號。

    4.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s02中的詞匯集合包括原專利文本的單詞集合與二元組集合,所述二元組集合中的二元組為文本中的任意兩個單詞的組合。

    5.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s03中的tf-idf用于做詞頻和逆文檔統計,通過tfidf值的排序,得到tf-idf得分前n的關鍵詞候選詞,再將關鍵詞候選詞與二元組轉換為全小寫,去除重復二...

    【專利技術屬性】
    技術研發人員:牟堯佳朱國牛甘中學
    申請(專利權)人:復旦大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码专区电影在线观看| 国产网红无码精品视频| 免费人妻无码不卡中文字幕18禁| 中文字幕无码中文字幕有码| 爆乳无码AV一区二区三区| 亚洲AV无码AV男人的天堂| 精品人妻无码一区二区三区蜜桃一 | 亚洲AV无码成人精品区狼人影院| 亚洲伊人成无码综合网| 亚洲AV无码AV男人的天堂不卡 | 无码精品人妻一区二区三区漫画 | 成人年无码AV片在线观看| 国产精品无码a∨精品| 亚洲午夜无码久久久久小说| 亚洲成AV人片在线播放无码| 亚洲av午夜国产精品无码中文字| 中文字幕丰满伦子无码| 一本大道东京热无码一区| 亚洲欧洲免费无码| 日韩精品无码一区二区三区不卡 | 亚洲VA中文字幕不卡无码| (无码视频)在线观看| 亚洲av日韩av无码av| 99久久人妻无码精品系列| 人妻系列AV无码专区| 国产亚洲精品无码拍拍拍色欲 | 精品无码国产一区二区三区AV| 成人无码视频97免费| 久久精品日韩av无码| 91精品日韩人妻无码久久不卡| 亚洲VA中文字幕无码一二三区 | 无码永久免费AV网站| 18禁免费无码无遮挡不卡网站 | 无码人妻精品一区二区三区不卡| 无码国产精品一区二区免费vr | 91久久精品无码一区二区毛片 | 日韩av片无码一区二区不卡电影| 四虎成人精品无码| 无码A级毛片免费视频内谢| 无码一区二区三区免费| 久久久久成人精品无码中文字幕 |