• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    多語言自動文摘方法技術

    技術編號:15690955 閱讀:61 留言:0更新日期:2017-06-24 03:46
    本發明專利技術涉及一種多語言自動文摘方法,包括以下步驟:步驟101,獲取多個目標語言文檔中的多個謂詞論元結構;步驟102,對所述多個謂詞論元結構中的每一個謂詞論元進行重要性打分;步驟103,根據所述每一個謂詞論元的重要性得分,生成目標語言摘要。本發明專利技術中,實現了獲取指定語言的摘要,且在保證該摘要含有更多的重要信息的信息量時,提高可讀性。

    Multilingual automatic summarization method

    The invention relates to a multi language automatic text summarization method, which comprises the following steps: 101, to obtain more predicates the plurality of target language document in the argument structure; step 102, the plurality of predicates on each predicate argument structure element in the importance of scoring; step 103, according to the importance of each predicate argument points, generate the target language abstract. In the present invention, a summary of a given language is achieved, and readability is improved when the amount of information that contains more important information is guaranteed.

    【技術實現步驟摘要】
    多語言自動文摘方法
    本專利技術涉及自然語言處理
    ,尤其涉及一種多語言自動文摘方法。
    技術介紹
    隨著大數據時代到來,多語言信息,例如多語言新聞文檔隨處可見。有效地分析多語言文檔集合,獲取其中的重要信息,并按照用戶需求的語言呈現給用戶,可以幫助用戶快速、便利地理解該文檔集合的主體信息。以中文、英文文檔集合生成中文摘要為例,最簡單的做法是首先將英文文檔通過機器翻譯翻譯為中文,然后將其與中文文檔一起,通過傳統的多文檔自動摘要方法,生成中文摘要。然而,機器翻譯的效果往往不能令人滿意,存在很多錯誤,使得機器翻譯譯文的可讀性較差。多語言自動文摘評測會議(MSE)在2005年進行了多語言自動文摘評測,DaumeIII和Marcu獲得了評測的冠軍,并和其他隊伍得出類似的結論:當不使用機器翻譯譯文文檔集合時,摘要的ROUGE得分(一種評價生成摘要和參考摘要重合度的指標)最高。一方面,機器翻譯譯文存在很多錯誤,使用機器翻譯譯文會引入很多噪音,降低可讀性;另一方面,機器翻譯譯文文檔中的信息不會被非譯文文檔完全覆蓋,即機器翻譯譯文文檔仍然會給我們提供很多有價值的信息,我們還是需要利用機器翻譯譯文增強摘要的信息量。多語言自動文摘方法需要平衡可讀性和信息量。
    技術實現思路
    為了解決現有技術中的上述問題,即為了實現如何獲取指定語言的摘要,且在保證該摘要含有更多的重要信息的信息量時,提高可讀性。基于此,本專利技術提供了一種多語言自動文摘方法,包括以下步驟:步驟1,獲取多個目標語言文檔中的多個謂詞論元結構;步驟2,對所述多個謂詞論元結構中的每一個謂詞論元進行重要性打分;步驟3,根據所述每一個謂詞論元的重要性得分,生成目標語言摘要。優選地,對所述謂多個詞論元結構中的每一個謂詞論元進行重要性打分,包括如下步驟:步驟21,計算組成所述謂詞論元的詞向量的加權平均數,得到所述謂詞論元的短語向量;步驟22,根據所述謂詞論元的短語向量計算所述謂詞論元結構中謂詞論元的相似度;步驟23,利用所述相似度獲取語義相同的謂詞論元;步驟24,根據所述相似度計算謂詞論元的重要性得分。優選地,所述根據所述謂詞論元的短語向量計算所述謂詞論元結構中謂詞論元的相似度,具體包括:在每一目標語言文檔中分別任選一個謂詞論元,每兩個謂詞論元根據各自的短語向量計算該兩個間的相似度,直至所有目標語言文檔中的所有個謂詞論元均任意兩個匹配計算完相似度為止。優選地,所述利用所述相似度獲取語義相同的謂詞論元,具體包括:當所述相似度大于預設閾值時,確認所述相似度所屬的謂詞論元語義相同。優選地,在根據所述相似度計算謂詞論元的重要性得分時,通過如下計算公式:利用上述兩個公式分別進行迭代計算,直到迭代計算結果穩定時得到各謂詞論元的重要性得分;其中,ci和cj為任意兩個謂詞論元,u(ci)為ci的重要性得分,u(cj)為cj的重要性得分,μ是平滑因子,Mij表示ci與cj的相似度,N為謂詞論元總數。優選地,所述根據所述每一個謂詞論元的重要性得分,生成目標語言摘要,具體包括:根據每一個謂詞論元的重要性得分、謂詞論元生成目標語言摘要的目標函數以及約束集合,選取符合的謂詞論元集合;將所述謂詞論元集合中的各個謂詞論元構成所述目標語言摘要。優選地,所述步驟1之前還包括:對多個請求語言文檔進行翻譯,得到多個統一為目標語言的目標語言文檔。與現有技術相比,本專利技術至少具有以下優點:通過本專利技術中的多語言自動文摘設計,實現了獲取指定語言的摘要,且在保證該摘要含有更多的重要信息的信息量時,提高可讀性。附圖說明圖1是本專利技術提出的多語言自動文摘方法的流程示意圖;圖2是本專利技術提供的語義角色標注的實例示意圖;圖3是本專利技術提出的是通過融合謂詞論元結構生成摘要的示意圖;其中,(a)、(b)和(c)來自輸入文檔;(d)是(c)的機器翻譯譯文;(e)是最終生成的摘要。具體實施方式下面參照附圖來描述本專利技術的優選實施方式。本領域技術人員應當理解的是,這些實施方式僅僅用于解釋本專利技術的技術原理,并非旨在限制本專利技術的保護范圍。在本專利技術中,提供了一種多語言自動文摘方法,該多語言包含了目標語言和非目標語言,如圖1所示,具體包括如下步驟:步驟101,獲取多個目標語言文檔中的多個謂詞論元結構。在本步驟之前,還包括:對多個請求語言文檔進行翻譯,得到多個統一為目標語言的目標語言文檔;即將非目標語言文檔全部翻譯為目標語言文檔。其中,該翻譯可以是通過機器翻譯,可以使用本地機器翻譯系統,或者在線機器翻譯,例如百度翻譯,但并不僅局限于該種翻譯方式。本步驟中,在獲取謂詞論元結構時,依據語義角色標注處理,將原句劃分為多個謂詞、論元,利用重要謂詞和論元構成摘要。語義角色標注是一種自然語言處理領域的淺層語義分析技術。它以句子為單位,分析句子中的謂詞與其相關成分之間的語義關系,進而獲取句子所表達語義的淺層表示。由于語義角色標注可以提供較為簡潔、準確、有益的分析結果,因此近年來受到了學術界的普遍重視,并已經成功地應用到信息抽取、自動問答、機器翻譯等任務中。語義角色標注以句子中的謂詞為核心,分析句子中的其相關成分與謂詞之間的相互關系,因此謂詞在句子的語義表達中處于核心的支配地位,其它成分均為謂詞服務。一個謂詞代表了一個事件,而與謂詞相關的句子成分通常代表與事件相關的成分,比如該事件的施事者、受事者,以及事件發生的時間、地點、方式、原因等。在語義角色標注任務中,上述與事件相關的成分被稱為謂詞的一個論元,而且每個論元都有一個相對于謂詞的語義角色,比如施事者、受事者。下面是一個語義角色標注的例子:[警方]Agent[正在]Time[詳細]Adverbial[調查]Pred[事故原因]Patient其中“調查”是謂詞,代表了一個事件,“警方”是施事者,“事故原因”是受事者,“正在”是事件發生的時間,“詳細”是事件的修飾語。由此可見,語義角色標注能夠抽取出一個句子表達的事件的全部重要信息。命題庫(PropositionBank,PropBank)是受到語義角色與句法信息的研究啟發而建立的。命題庫把語義角色分為兩大類。第一類語義角色是與具體謂詞直接相關的,這些角色用ARG0,ARG2,ARG3,ARG4,ARG5表示,比如ARG0通常表示動作的施事,ARG1通常表示動作的影響等,ARG2-ARG5對于不同的謂語動詞會有不同的語義含義;第二類語義角色是起修飾作用的輔助性角色,其角色標簽都以ARGM開頭,常見的有表示時間的角色ARGM-TMP,表示地理位置的角色ARGM-LOC,表示一般性修飾成分的角色ARGM-ADV等。如圖2所示,是三個標注實例。對于每一個至少包含一個ARG0和一個ARG1的謂詞論元結構,我們提取其謂詞,ARG0,ARG1,ARGM-LOC和ARGM-TMP作為謂詞和重要論元,用于構建摘要。其他論元,比如ARG3-5,ARGM-MOD和ARGM-ADV等被認為是次要論元,不參與摘要構建。步驟102,對所述多個謂詞論元結構中的每一個謂詞論元進行重要性打分。在該步驟中,具體包括:步驟201,計算組成所述謂詞論元的詞向量的加權平均數,得到所述謂詞論元的短語向量;其中,利用Word2Vec工具在大規模中文單語語料上訓練300維的詞向量;對于每一個謂詞論元,我們將組成其謂詞或論元的本文檔來自技高網...
    多語言自動文摘方法

    【技術保護點】
    一種多語言自動文摘方法,其特征在于,包括以下步驟:步驟101,獲取多個目標語言文檔中的多個謂詞論元結構;步驟102,對所述多個謂詞論元結構中的每一個謂詞論元進行重要性打分;步驟103,根據所述每一個謂詞論元的重要性得分,生成目標語言摘要。

    【技術特征摘要】
    1.一種多語言自動文摘方法,其特征在于,包括以下步驟:步驟101,獲取多個目標語言文檔中的多個謂詞論元結構;步驟102,對所述多個謂詞論元結構中的每一個謂詞論元進行重要性打分;步驟103,根據所述每一個謂詞論元的重要性得分,生成目標語言摘要。2.根據權利要求1所述的多語言自動文摘方法,其特征在于,對所述謂多個詞論元結構中的每一個謂詞論元進行重要性打分,包括如下步驟:步驟201,計算組成所述謂詞論元的詞向量的加權平均數,得到所述謂詞論元的短語向量;步驟202,根據所述謂詞論元的短語向量計算所述謂詞論元結構中謂詞論元的相似度;步驟203,利用所述相似度獲取語義相同的謂詞論元;步驟204,根據所述相似度計算謂詞論元的重要性得分。3.根據權利要求2所述的多語言自動文摘方法,其特征在于,所述根據所述謂詞論元的短語向量計算所述謂詞論元結構中謂詞論元的相似度,具體包括:在每一目標語言文檔中分別任選一個謂詞論元,每兩個謂詞論元根據各自的短語向量計算該兩個間的相似度,直至所有目標語言文檔中的所有個謂詞論元均任意兩個匹配計算完相似度為止。4.根據權利要求2或3所述的多語言自動文摘方法,其特征在于,所述利用所述相似...

    【專利技術屬性】
    技術研發人員:張家俊李浩然宗成慶
    申請(專利權)人:中國科學院自動化研究所
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻精品一区二区三区在线 | 亚洲午夜无码久久久久小说| 人妻丰满熟妇AV无码区免| 无码人妻一区二区三区av| 久久无码AV中文出轨人妻| 精品久久久久久无码专区| 一本大道无码人妻精品专区| 久久久久久久人妻无码中文字幕爆| 99久无码中文字幕一本久道| 人妻中文字系列无码专区| 久久亚洲AV无码西西人体| 亚洲av无码兔费综合| 精品无码日韩一区二区三区不卡| 亚洲&#228;v永久无码精品天堂久久| 国产∨亚洲V天堂无码久久久| 无码人妻一区二区三区免费| 久久精品岛国av一区二区无码| 亚洲熟妇少妇任你躁在线观看无码| 精品多人p群无码| 亚洲Av无码精品色午夜| 亚洲中文字幕久久精品无码喷水| 亚洲Av无码乱码在线观看性色| 免费人妻无码不卡中文字幕系| 国产av无码专区亚洲av果冻传媒| 特级无码毛片免费视频| 亚洲av成人中文无码专区| 日韩精品真人荷官无码| 无码人妻精品一区二区三区久久| 一本色道无码道在线观看| 免费无码黄动漫在线观看| 麻豆人妻少妇精品无码专区| 国产精品亚洲专区无码唯爱网| 东京热一精品无码AV| 亚洲AV无码一区二区三区鸳鸯影院| 久久亚洲AV无码精品色午夜| 无码夫の前で人妻を犯す中字| 精品亚洲A∨无码一区二区三区| 久久久久无码精品国产| 亚洲日韩看片无码电影| 无码人妻丰满熟妇区毛片18| 亚洲AV永久无码精品一区二区国产|