The invention relates to a multi language automatic text summarization method, which comprises the following steps: 101, to obtain more predicates the plurality of target language document in the argument structure; step 102, the plurality of predicates on each predicate argument structure element in the importance of scoring; step 103, according to the importance of each predicate argument points, generate the target language abstract. In the present invention, a summary of a given language is achieved, and readability is improved when the amount of information that contains more important information is guaranteed.
【技術實現步驟摘要】
多語言自動文摘方法
本專利技術涉及自然語言處理
,尤其涉及一種多語言自動文摘方法。
技術介紹
隨著大數據時代到來,多語言信息,例如多語言新聞文檔隨處可見。有效地分析多語言文檔集合,獲取其中的重要信息,并按照用戶需求的語言呈現給用戶,可以幫助用戶快速、便利地理解該文檔集合的主體信息。以中文、英文文檔集合生成中文摘要為例,最簡單的做法是首先將英文文檔通過機器翻譯翻譯為中文,然后將其與中文文檔一起,通過傳統的多文檔自動摘要方法,生成中文摘要。然而,機器翻譯的效果往往不能令人滿意,存在很多錯誤,使得機器翻譯譯文的可讀性較差。多語言自動文摘評測會議(MSE)在2005年進行了多語言自動文摘評測,DaumeIII和Marcu獲得了評測的冠軍,并和其他隊伍得出類似的結論:當不使用機器翻譯譯文文檔集合時,摘要的ROUGE得分(一種評價生成摘要和參考摘要重合度的指標)最高。一方面,機器翻譯譯文存在很多錯誤,使用機器翻譯譯文會引入很多噪音,降低可讀性;另一方面,機器翻譯譯文文檔中的信息不會被非譯文文檔完全覆蓋,即機器翻譯譯文文檔仍然會給我們提供很多有價值的信息,我們還是需要利用機器翻譯譯文增強摘要的信息量。多語言自動文摘方法需要平衡可讀性和信息量。
技術實現思路
為了解決現有技術中的上述問題,即為了實現如何獲取指定語言的摘要,且在保證該摘要含有更多的重要信息的信息量時,提高可讀性。基于此,本專利技術提供了一種多語言自動文摘方法,包括以下步驟:步驟1,獲取多個目標語言文檔中的多個謂詞論元結構;步驟2,對所述多個謂詞論元結構中的每一個謂詞論元進行重要性打分;步驟3,根據所述每一 ...
【技術保護點】
一種多語言自動文摘方法,其特征在于,包括以下步驟:步驟101,獲取多個目標語言文檔中的多個謂詞論元結構;步驟102,對所述多個謂詞論元結構中的每一個謂詞論元進行重要性打分;步驟103,根據所述每一個謂詞論元的重要性得分,生成目標語言摘要。
【技術特征摘要】
1.一種多語言自動文摘方法,其特征在于,包括以下步驟:步驟101,獲取多個目標語言文檔中的多個謂詞論元結構;步驟102,對所述多個謂詞論元結構中的每一個謂詞論元進行重要性打分;步驟103,根據所述每一個謂詞論元的重要性得分,生成目標語言摘要。2.根據權利要求1所述的多語言自動文摘方法,其特征在于,對所述謂多個詞論元結構中的每一個謂詞論元進行重要性打分,包括如下步驟:步驟201,計算組成所述謂詞論元的詞向量的加權平均數,得到所述謂詞論元的短語向量;步驟202,根據所述謂詞論元的短語向量計算所述謂詞論元結構中謂詞論元的相似度;步驟203,利用所述相似度獲取語義相同的謂詞論元;步驟204,根據所述相似度計算謂詞論元的重要性得分。3.根據權利要求2所述的多語言自動文摘方法,其特征在于,所述根據所述謂詞論元的短語向量計算所述謂詞論元結構中謂詞論元的相似度,具體包括:在每一目標語言文檔中分別任選一個謂詞論元,每兩個謂詞論元根據各自的短語向量計算該兩個間的相似度,直至所有目標語言文檔中的所有個謂詞論元均任意兩個匹配計算完相似度為止。4.根據權利要求2或3所述的多語言自動文摘方法,其特征在于,所述利用所述相似...
【專利技術屬性】
技術研發人員:張家俊,李浩然,宗成慶,
申請(專利權)人:中國科學院自動化研究所,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。