The invention discloses a novel method and a system for generating News Summarization Based on paragraphs, and relates to the field of language processing. There are a lot of news reports about the same event, and the news reports are edited by people. The cost is high, and it is difficult to guarantee timeliness. The invention provides a method and a system for generating News Summarization Based on segmentation, sorting, selection and fusion of paragraphs, so as to effectively improve the timeliness of news review and reduce the editing cost. It includes the following steps: according to the original news material paragraphs re segmentation of news material construction; re constructed paragraph importance prediction; section selection, according to the importance of paragraph fusion; to reorder the selected paragraph, a news summary. The invention is suitable for introducing a large number of news reports of the same event.
【技術實現步驟摘要】
一種新聞綜述生成方法與系統
本專利技術涉及語言文字處理領域,特別涉及一種新聞綜述生成方法與系統。
技術介紹
目前有很多關于同一事件的新聞報道,并且新聞摘要可以幫助讀者更好地了解新聞內容。但是傳統的新聞摘要多局限在100-150字左右,內容覆蓋面小,不可很好得使讀者多方面全面的了解事件發展過程,綜述生成應運而生。與綜述生成的方法最相近的是傳統的多文檔摘要方法。多文檔摘要方法多基于句子進行抽取,基于句子的方法在面對生成文章長度較長時會出現句子過多,不容易進行排序等問題。經典的多文檔摘要方法包括:基于圖的排序方法,例如Erkan和Radev在2004年提出的LexRank方法,Mihalcea和Tarau在2004年提出的TextRank方法;YouOuyang等人在2007年提出的基于句子分類回歸的模型;Gillick和Favre在2009年提出的基于整數線性規劃的方法等。除了多文檔摘要的方法,相關的工作還有Sauper和Barzilay提出的自動生成結構完整的維基百科的工作。
技術實現思路
本專利技術提供一種新聞綜述生成方法,該方法通過對面向同一事件的新聞的段落重新分割,重要性排序,選擇并且合并以及最后的重新排序,最終基于重組得到的新聞段落構建新聞綜述。該方法方便快捷,可行性強,效果明顯好于原先的多文檔摘要方法所得到的新聞綜述,有效節省人力物力。本專利技術采用的技術方案包括:一種基于段落重新分割,重要性預測,選擇融合和重新排序的新聞綜述生成方法,包括如下步驟:(1)針對原始新聞材料的段落重新分割構建;(2)對新聞材料重新構建出的段落進行重要性預測;(3)根據段落 ...
【技術保護點】
一種新聞綜述生成方法,其特征在于,該方法通過對面向同一事件的新聞的段落重新分割,重要性排序,選擇并且合并以及最后的重新排序,最終基于重組得到的新聞段落構建新聞綜述;該方法方便快捷,可行性強,效果明顯好于原先的多文檔摘要方法所得到的新聞綜述,有效節省人力物力。
【技術特征摘要】
1.一種新聞綜述生成方法,其特征在于,該方法通過對面向同一事件的新聞的段落重新分割,重要性排序,選擇并且合并以及最后的重新排序,最終基于重組得到的新聞段落構建新聞綜述;該方法方便快捷,可行性強,效果明顯好于原先的多文檔摘要方法所得到的新聞綜述,有效節省人力物力。2.一種新聞綜述生成方法,其特征在于包括如下步驟:(1)針對原始新聞材料的段落重新分割構建;(2)對新聞材料重新構建出的段落進行重要性預測;(3)根據段落重要性進行段落選擇,融合;(4)對選擇出來的段落進行重排序,構成新聞綜述。3.根據權利要求2所述的新聞綜述生成方法,其特征在于,針對原始新聞材料的段落重新分割構建,其目的在于將原來新聞材料中有關于同一個子話題的相鄰的句子或者小段落構建成新的意義更加完整的段落,避免使用句子為綜述構建單位造成語言過于零散;就語言通順性來講,從一篇文章中抽取相鄰的幾句話要比從多個文章中抽取意義相近的多句話更好;針對原始新聞材料的段落重新分割構建,其具體做法包括四個部分:對新聞材料進行分詞(預處理),計算句子間隔的語義學分數,計算句子間隔的“深度”分數,最后對新聞進行劃分;第一步:原始新聞材料進行分詞等預處理;如果是英文的語料需要將單詞都轉化為小寫字母,然后進行詞干化,即將經過各種人稱及時態變化的單詞轉化為其詞干,如果是中文語料那么只需要進行分詞;第二步:計算句子間隔的語義學分數;由于句子是表達語義的較完整的單位,所以段落重新分割以句子的結束作為潛在的分割點是合理的;句子間隔的語義學分數來表明句子間隔前后兩個單元的語義學相似度;而由于文章原有句子的長短十分不統一,不可以直接作為評價語義學相似度的單元,所以使用每個句子間隔前后的100個詞語組成的文本單元作為計算語義相似度的內容;對于每一個語義間隔,其前后的文本單位分別用b1和b2表示,那么句子間隔的語義學相似度可以用如下公式表示;其中t表示所有在預處理過程中得到的原始新聞中的所有非停用詞的詞語;并且wt,b代表詞語t在語義單元b中的權重,這里的權重用詞語t在語義單元b中出現的頻數決定;這個權重的取值在0到1之間;第三步:計算句子間隔i的“深度”分數di;對于句子間隔所謂的“深度”分數代表了前后兩個子話題在這個句子間隔發生改變的程度;這個分數取決于如果這個句子間隔是谷底的話,相對于兩邊的最高峰的語義相似度分數距離;相對的,這個“深度”分數越大,那么說明這個句子間隔最為最終進行段落分割的分割點越合適,反之越不合適;計算過程中首先尋找相對于句子間隔i的左邊的高峰位置l和右邊的高峰位置r;左邊的高峰位置l就是相對于i向左找到第一個位置,使其滿足dl-1<dl;那么di=(dl-di)+(dr-di)。第四步:對新聞進行劃分;在得到每一個句子間隔的“深度”分數di之后,我們根據不同新聞類型可以取不同的“深度”分數閾值來決定劃分段落的個數,即設置閾值為d,如果句子間隔的“深度”分數大于d,那么說明這個間隔前后的子話題變化足夠大,可以作為新的段落分割;我們可以假...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。