一種面向大規模英文專利文本的關鍵詞提取方法技術

技術編號：44432729 閱讀：3 留言：0更新日期：2025-02-28 18:44

本發明專利技術涉及文本信息處理領域，公開了一種面向大規模英文專利文本的關鍵詞提取方法，包括以下步驟：S01、輸入大規模英文專利文本；S02、對大規模英文專利文本進行預處理，獲取包含單詞和二元組的詞匯集合；S03、基于TF?IDF算法對預處理后的專利文本進行初步關鍵詞篩選，生成每份文本的關鍵詞候選集；S04、調用大語言模型，對關鍵詞候選集進行優化篩選，結合英文專利文本的上下文語義，確定每份文本的最終關鍵詞集合。本發明專利技術中，在專利文本預處理階段以及收集單詞關鍵詞的同時，生成二元組集合作為候選關鍵詞，通過TF?IDF算法篩選出關鍵詞候選集，再調用大語言模型進行進一步優化，能有效排除無關詞匯，并解決英文多義詞釋義問題，從而有效提升大規模英文專利文本關鍵詞提取的效率和準確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及文本信息處理領域，尤其涉及一種面向大規模英文專利文本的關鍵詞提取方法。

技術介紹

1、隨著科技創新的快速發展，專利成為保護專利技術創造、促進技術交流的重要手段，對專利文本進行深入分析，可以挖掘出有價值的技術情報，為企業研發和知識產權保護提供有力支持。

2、現有的專利關鍵詞提取方法主要分為無監督方法及有監督方法。無監督方法指不依賴于提前標注的標簽來提取關鍵詞的方法，有監督方法則指基于有標注的訓練數據集進行關鍵詞提取的方法。其中，有監督方法通常需要消耗大量的人力資源進行關鍵詞標注，尤其是在當今專利信息劇增的背景下，為應對專利侵權訴訟或進行專利申請，專業人員動輒需要挖掘上百乃至上千份專利文本，更有需要分析多達上萬份專利文本的數據挖掘任務，在這些面對大規模專利文本的任務上，人工進行關鍵詞標注的難度可想而知。

3、因此，在缺少專利文本關鍵詞標注資源的情況下，為了提取大量專利文本的關鍵詞，無監督方法更具可行性。然而，現有的許多無監督方法只考慮詞頻或詞的共現關系，無法結合文本的上下文語義進行關鍵詞提取，其效果往往差強人意。

技術實現思路

1、針對現有技術的不足，本專利技術提供了一種面向大規模英文專利文本的關鍵詞提取方法，解決了英文專利文本的關鍵詞提取方法只考慮詞頻或詞的共現關系，無法結合文本的上下文語義進行關鍵詞提取的問題。

2、為實現以上目的，本專利技術通過以下技術方案予以實現：一種面向大規模英文專利文本的關鍵詞提取方法，包括以下步驟：

3、s01、輸入大規模英文專利文本；

4、s02、對大規模英文專利文本進行預處理，獲取包含單詞和二元組的詞匯集合；

5、s03、基于tf-idf算法對預處理后的專利文本進行初步關鍵詞篩選，生成每份文本的關鍵詞候選集；

6、s04、調用大語言模型，對關鍵詞候選集進行優化篩選，結合英文專利文本的上下文語義，確定每份文本的最終關鍵詞集合。

7、優選的，所述步驟s01中的大規模英文專利文本包含超過十萬份英文專利文本，所述文本來自專利局或專利網站的公開數據，公開數據以結構性文件形式存儲，結構性文件中包含專利標題與摘要，專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。

8、優選的，所述步驟s02中的專利文本預處理過程，包括對專利文本進行分詞、去除停用詞及去除標點符號。

9、優選的，所述步驟s02中的詞匯集合包括原專利文本的單詞集合與二元組集合，所述二元組集合中的二元組為文本中的任意兩個單詞的組合。

10、優選的，所述步驟s03中的tfidf用于做詞頻和逆文檔統計，通過tf-idf值的排序，得到tfidf得分前n的關鍵詞候選詞，再將關鍵詞候選詞與二元組轉換為全小寫，去除重復二元組，并去除已包含在二元組中的關鍵詞候選詞，得到所述關鍵詞候選集。

11、優選的，所述步驟s03中的tf-idf算法的計算公式為：

12、tf-idfi,j＝tfi，j×idfi，j????(1)

13、其中，tfi，j表示詞頻，idfi，j表示逆文檔頻率，二者計算公式如下所示：

14、

15、上式中，tfi，j表示詞條i在文檔j中出現的頻率，ni，j表示詞條i在文檔j中出現的次數，nk,j表示詞條k在文檔j中出現的次數，∑knk,j表示文檔j中所有詞條出現次數的總和。

16、

17、上式中，d是所有文檔的數量總和；|{j：ti∈d}|是整個文檔集d中，包含詞條tj的文檔數。

18、tf-idf值越高，表明該詞在文中出現的頻率較高，同時在其他文檔中出現的次數較少，因而更能突出該文檔的特征或關鍵內容。

19、優選的，所述步驟s04中所用的大語言模型為一種基于深度學習的自然語言處理模型gpt-4omini，所述自然語言處理模型根據用戶提出的要求，結合上下文內容對關鍵詞候選集進行進一步過濾，排除基于詞頻的方法篩選出的無意義詞匯，在專利文本預處理階段以及收集單詞關鍵詞的同時，生成二元組集合作為候選關鍵詞；隨后，結合詞匯集合與二元組集合，通過tf-idf算法篩選出關鍵詞候選集，再調用大語言模型進行進一步優化，能有效排除無關詞匯，并解決英文多義詞釋義問題。

20、優選的，所述步驟s04中所述的最終關鍵詞集合，其包含的詞匯全部來源于所述步驟s03生成的關鍵詞候選集。

21、優選的，所述步驟s04的輸入為大規模英文專利文本中的專利文本，以及與當前文本對應的關鍵詞候選集。

22、優選的，所述步驟s04的輸出為大規模英文專利文本中每份文本的最終關鍵詞集合。

23、有益效果

24、本專利技術提供了一種面向大規模英文專利文本的關鍵詞提取方法。與現有技術相比具備以下有益效果：

25、1、本專利技術中，通過結合tf-idf算法和大語言模型的無監督關鍵詞提取方法，在專利文本預處理階段以及收集單詞關鍵詞的同時，生成二元組集合作為候選關鍵詞；隨后，結合詞匯集合與二元組集合，通過tf-idf算法篩選出關鍵詞候選集，再調用大語言模型進行進一步優化，能有效排除無關詞匯，并解決英文多義詞釋義問題，從而有效提升大規模英文專利文本關鍵詞提取的效率和準確性。該方法適用于處理超過十萬份專利文本的批量操作，可確保關鍵詞提取的相關性和精準性，為專利信息檢索提供了更強的支持和便利。

26、2、本專利技術中，通過結合大語言模型和tf-idf算法對大規模英文專利文本進行處理，能夠有效提升關鍵詞提取的效率和準確性。該方法首先輸入大規模英文專利文本；其次對大規模英文專利文本進行預處理，獲取包含單詞和二元組的詞匯集合；然后，基于tfidf算法對預處理后的專利文本進行初步關鍵詞篩選，生成每份文本的關鍵詞候選集；最后，調用大語言模型，對關鍵詞候選集進行優化篩選，結合英文專利文本的上下文語義，確定每份文本的最終關鍵詞集合。該方法可處理多達數十萬個專利文本，解決了傳統方法中詞頻統計帶來的無效詞匯問題，同時提高了多義詞釋義的準確性。

本文檔來自技高網...

【技術保護點】

1.一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：包括以下步驟：

2.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟S01中的大規模英文專利文本包含超過十萬份英文專利文本，所述文本來自專利局或專利網站的公開數據，公開數據以結構性文件形式存儲，結構性文件中包含專利標題與摘要，專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。

3.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟S02中的專利文本預處理過程，包括對專利文本進行分詞、去除停用詞及去除標點符號。

4.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟S02中的詞匯集合包括原專利文本的單詞集合與二元組集合，所述二元組集合中的二元組為文本中的任意兩個單詞的組合。

5.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟S03中的TF-IDF用于做詞頻和逆文檔統計，通過TFIDF值的排序，得到TF-IDF得分前N的關鍵詞候

6.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟S03中的TF-IDF算法的計算公式為：

7.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟S04中所用的大語言模型為一種基于深度學習的自然語言處理模型gpt-4omini，所述自然語言處理模型根據用戶提出的要求，結合上下文內容對關鍵詞候選集進行進一步過濾，排除基于詞頻的方法篩選出的無意義詞匯。

8.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟S04中所述的最終關鍵詞集合，其包含的詞匯全部來源于所述步驟S03生成的關鍵詞候選集。

9.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟S04的輸入為大規模英文專利文本中的專利文本，以及與當前文本對應的關鍵詞候選集。

10.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟S04的輸出為大規模英文專利文本中每份文本的最終關鍵詞集合。

...

【技術特征摘要】

1.一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：包括以下步驟：

2.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟s01中的大規模英文專利文本包含超過十萬份英文專利文本，所述文本來自專利局或專利網站的公開數據，公開數據以結構性文件形式存儲，結構性文件中包含專利標題與摘要，專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。

3.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟s02中的專利文本預處理過程，包括對專利文本進行分詞、去除停用詞及去除標點符號。

4.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟s02中的詞匯集合包括原專利文本的單詞集合與二元組集合，所述二元組集合中的二元組為文本中的任意兩個單詞的組合。

5.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法，其特征在于：所述步驟s03中的tf-idf用于做詞頻和逆文檔統計，通過tfidf值的排序，得到tf-idf得分前n的關鍵詞候選詞，再將關鍵詞候選詞與二元組轉換為全小寫，去除重復二...

【專利技術屬性】
技術研發人員：牟堯佳，朱國牛，甘中學，
申請(專利權)人：復旦大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術