• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>北京大學專利>正文

    一種新聞綜述生成方法與系統技術方案

    技術編號:15691062 閱讀:104 留言:0更新日期:2017-06-24 03:57
    本發明專利技術公開了一種新穎的基于段落進行新聞綜述生成的方法與系統,涉及語言文字處理領域。目前有大量關于同一個事件的新聞報道,且新聞報道的綜述都是由人工編輯的,經濟成本高,且很難保證時效性。本發明專利技術提出基于段落重新分割,排序,選擇并融合的新聞綜述生成方法與系統,有效提高新聞綜述的時效性,降低編輯成本。其包括如下步驟:針對原始新聞材料的段落重新分割構建;對新聞材料重新構建出的段落進行重要性預測;根據段落重要性進行段落選擇,融合;對選擇出來的段落進行重排序,構成新聞綜述。本發明專利技術適用于介紹同一事件的大量新聞報道。

    Method and system for generating News Summarization

    The invention discloses a novel method and a system for generating News Summarization Based on paragraphs, and relates to the field of language processing. There are a lot of news reports about the same event, and the news reports are edited by people. The cost is high, and it is difficult to guarantee timeliness. The invention provides a method and a system for generating News Summarization Based on segmentation, sorting, selection and fusion of paragraphs, so as to effectively improve the timeliness of news review and reduce the editing cost. It includes the following steps: according to the original news material paragraphs re segmentation of news material construction; re constructed paragraph importance prediction; section selection, according to the importance of paragraph fusion; to reorder the selected paragraph, a news summary. The invention is suitable for introducing a large number of news reports of the same event.

    【技術實現步驟摘要】
    一種新聞綜述生成方法與系統
    本專利技術涉及語言文字處理領域,特別涉及一種新聞綜述生成方法與系統。
    技術介紹
    目前有很多關于同一事件的新聞報道,并且新聞摘要可以幫助讀者更好地了解新聞內容。但是傳統的新聞摘要多局限在100-150字左右,內容覆蓋面小,不可很好得使讀者多方面全面的了解事件發展過程,綜述生成應運而生。與綜述生成的方法最相近的是傳統的多文檔摘要方法。多文檔摘要方法多基于句子進行抽取,基于句子的方法在面對生成文章長度較長時會出現句子過多,不容易進行排序等問題。經典的多文檔摘要方法包括:基于圖的排序方法,例如Erkan和Radev在2004年提出的LexRank方法,Mihalcea和Tarau在2004年提出的TextRank方法;YouOuyang等人在2007年提出的基于句子分類回歸的模型;Gillick和Favre在2009年提出的基于整數線性規劃的方法等。除了多文檔摘要的方法,相關的工作還有Sauper和Barzilay提出的自動生成結構完整的維基百科的工作。
    技術實現思路
    本專利技術提供一種新聞綜述生成方法,該方法通過對面向同一事件的新聞的段落重新分割,重要性排序,選擇并且合并以及最后的重新排序,最終基于重組得到的新聞段落構建新聞綜述。該方法方便快捷,可行性強,效果明顯好于原先的多文檔摘要方法所得到的新聞綜述,有效節省人力物力。本專利技術采用的技術方案包括:一種基于段落重新分割,重要性預測,選擇融合和重新排序的新聞綜述生成方法,包括如下步驟:(1)針對原始新聞材料的段落重新分割構建;(2)對新聞材料重新構建出的段落進行重要性預測;(3)根據段落重要性進行段落選擇,融合;(4)對選擇出來的段落進行重排序,構成新聞綜述。進一步,針對原始新聞材料的段落重新分割構建的具體做法包括四個部分:對新聞材料進行分詞(預處理),計算句子間隔的語義學分數,計算句子間隔的“深度”分數,最后對新聞進行劃分。第一步:原始新聞材料進行分詞等預處理。如果是英文的語料需要將單詞都轉化為小寫字母,然后進行詞干化,即將經過各種人稱及時態變化的單詞轉化為其詞干,如果是中文語料那么只需要進行分詞。第二步:計算句子間隔的語義學分數。由于句子是表達語義的較完整的單位,所以段落重新分割以句子的結束作為潛在的分割點是合理的。句子間隔的語義學分數來表明句子間隔前后兩個單元的語義學相似度。而由于文章原有句子的長短十分不統一,不可以直接作為評價語義學相似度的單元,所以使用每個句子間隔前后的100個詞語組成的文本單元作為計算語義相似度的內容。對于每一個語義間隔,其前后的文本單位分別用b1和b2表示,那么句子間隔的語義學相似度可以用如下公式表示:其中t表示所有在預處理過程中得到的原始新聞中的所有非停用詞的詞語。并且wt,b代表詞語t在語義單元b中的權重,這里的權重用詞語t在語義單元b中出現的頻數決定;這個權重的取值在0到1之間。第三步:計算句子間隔i的“深度”分數di。對于句子間隔所謂的“深度”分數代表了前后兩個子話題在這個句子間隔發生改變的程度。這個分數取決于如果這個句子間隔是谷底的話,相對于兩邊的最高峰的語義相似度分數距離。相對的,這個“深度”分數越大,那么說明這個句子間隔最為最終進行段落分割的分割點越合適,反之越不合適。計算過程中首先尋找相對于句子間隔i的左邊的高峰位置l和右邊的高峰位置r。左邊的高峰位置l就是相對于i向左找到第一個位置,使其滿足dl-1<dl。那么di=(dl-di)+(dr-di)。第四步:對新聞進行劃分。在得到每一個句子間隔的“深度”分數di之后,我們根據不同新聞類型可以取不同的“深度”分數閾值來決定劃分段落的個數,即設置閾值為d,如果句子間隔的“深度”分數大于d,那么說明這個間隔前后的子話題變化足夠大,可以作為新的段落分割。我們可以假設d滿足正態分布,那么一般可以取閾值為d的平均值與d的標準差σ之間的差值,即進一步,對新聞材料重新構建出的段落進行重要性預測的步驟如下:使用基于節點重新加強的隨機游走圖模型進行重要性排序。這種重要性排序方法的優勢在于可以在選出重要節點的同時保證節點間盡量多樣,減少不必要的冗余,相當于全局的去冗余。圖模型的信息圖建立過程是將每一個劃分得到的新聞段落作為節點,節點之間的TFIDF向量相似度作為初始的轉移概率,特殊的是在同一篇新聞中的段落,轉移概率均為0,避免同一篇新聞之間的段落互相轉移過多的概率,造成冗余。假設pT(v)是T時刻游走于狀態v概率,pT(u,v)是T時刻狀態u轉移到狀態v的轉移概率,這個算法需要迭代計算,計算公式如下:pT(v)=∑u∈VpT-1(u,v)pT-1(u)其中DT(u)=∑v∈Vp0(u,v)·pT(v),而且p*(v)是平均分布概率,表示初始每一個段落即圖中的節點被訪問的概率相同。這個算法迭代計算到滿足下面的公式即可,即達到收斂狀態;∑v∈VpT(v)-pT-1(v)<0.00001達到收斂之后,pT(v)便是每個段落的重要性分數。進一步,根據段落重要性進行段落選擇,融合的步驟如下:根據需要生成的綜述的字數限制,選擇重要性高的段落構成最終的新聞綜述。選擇的過程中進行段落的融合。段落融合的過程可以根據下面的算法描述進行:算法:段落融合輸入:段落集合G={g1,…gn},并且每個段落都有一個重要性分數p(gi)每兩個段落gi和gj之間的余弦相似度值gSimi,j輸出:新聞綜述的段落集合O算法過程:進一步,對選擇出來的段落進行重排序,構建新聞綜述的步驟如下:使用拓撲排序的方法對新聞綜述的段落集合進行重新排序。重新排序滿足兩大準則:第一大準則是如果段落u和段落v來自于同一篇原始新聞,那么段落的前后順序保持原來的順序,且位置在結果中相鄰;第二大準則是如果段落u和段落v不是來自于同一篇原始新聞,那么含有重要性分數高的段落及與其來自于同一篇原始新聞的段落靠前排列。以上完成了新聞綜述的自動構建過程。本專利技術提供一種新聞綜述生成系統,首先對原始新聞進行段落重新劃分,接下來對新聞材料重新構建出的段落進行重要性預測,然后選擇和融合段落,最后對段落進行重新排序構成新聞綜述。其包括以下單元:新聞段落分割單元,段落重要性預測單元,段落選擇和融合單元,段落重排序單元;其中新聞段落分割單元通過計算段落中每個句子間隔的語義相似度分數,“深度”分數,決定段落重新分割的“深度”閾值,并得到重新分割的新聞段落。段落重要性預測單元使用節點重新加強的隨機游走算法迭代得預測段落的重要性。段落選擇和融合單元選擇重要性高的段落,并且在選擇的過程中進行段落的融合。段落重新排序單元遵循兩大原則,使用拓撲排序方法對經過選擇和融合的段落進行重新排序,完成新聞綜述的構建。附圖說明圖1.一種新聞綜述生成方法流程圖具體實施方式下面結合實施例和附圖進一步闡述本專利技術所述的技術方案:一種基于段落重新分割,重要性預測,選擇融合和重新排序的新聞綜述生成方法,包括如下步驟:(1)針對原始新聞材料的段落重新分割構建;具體做法包括四個部分:對新聞材料進行分詞(預處理),計算句子間隔的語義學分數,計算句子間隔的“深度”分數,最后對新聞進行劃分。第一步:原始新聞材料進行分詞等預處理。如果是英文的語料需要將單詞都轉化為小寫字母,然后進本文檔來自技高網...
    一種新聞綜述生成方法與系統

    【技術保護點】
    一種新聞綜述生成方法,其特征在于,該方法通過對面向同一事件的新聞的段落重新分割,重要性排序,選擇并且合并以及最后的重新排序,最終基于重組得到的新聞段落構建新聞綜述;該方法方便快捷,可行性強,效果明顯好于原先的多文檔摘要方法所得到的新聞綜述,有效節省人力物力。

    【技術特征摘要】
    1.一種新聞綜述生成方法,其特征在于,該方法通過對面向同一事件的新聞的段落重新分割,重要性排序,選擇并且合并以及最后的重新排序,最終基于重組得到的新聞段落構建新聞綜述;該方法方便快捷,可行性強,效果明顯好于原先的多文檔摘要方法所得到的新聞綜述,有效節省人力物力。2.一種新聞綜述生成方法,其特征在于包括如下步驟:(1)針對原始新聞材料的段落重新分割構建;(2)對新聞材料重新構建出的段落進行重要性預測;(3)根據段落重要性進行段落選擇,融合;(4)對選擇出來的段落進行重排序,構成新聞綜述。3.根據權利要求2所述的新聞綜述生成方法,其特征在于,針對原始新聞材料的段落重新分割構建,其目的在于將原來新聞材料中有關于同一個子話題的相鄰的句子或者小段落構建成新的意義更加完整的段落,避免使用句子為綜述構建單位造成語言過于零散;就語言通順性來講,從一篇文章中抽取相鄰的幾句話要比從多個文章中抽取意義相近的多句話更好;針對原始新聞材料的段落重新分割構建,其具體做法包括四個部分:對新聞材料進行分詞(預處理),計算句子間隔的語義學分數,計算句子間隔的“深度”分數,最后對新聞進行劃分;第一步:原始新聞材料進行分詞等預處理;如果是英文的語料需要將單詞都轉化為小寫字母,然后進行詞干化,即將經過各種人稱及時態變化的單詞轉化為其詞干,如果是中文語料那么只需要進行分詞;第二步:計算句子間隔的語義學分數;由于句子是表達語義的較完整的單位,所以段落重新分割以句子的結束作為潛在的分割點是合理的;句子間隔的語義學分數來表明句子間隔前后兩個單元的語義學相似度;而由于文章原有句子的長短十分不統一,不可以直接作為評價語義學相似度的單元,所以使用每個句子間隔前后的100個詞語組成的文本單元作為計算語義相似度的內容;對于每一個語義間隔,其前后的文本單位分別用b1和b2表示,那么句子間隔的語義學相似度可以用如下公式表示;其中t表示所有在預處理過程中得到的原始新聞中的所有非停用詞的詞語;并且wt,b代表詞語t在語義單元b中的權重,這里的權重用詞語t在語義單元b中出現的頻數決定;這個權重的取值在0到1之間;第三步:計算句子間隔i的“深度”分數di;對于句子間隔所謂的“深度”分數代表了前后兩個子話題在這個句子間隔發生改變的程度;這個分數取決于如果這個句子間隔是谷底的話,相對于兩邊的最高峰的語義相似度分數距離;相對的,這個“深度”分數越大,那么說明這個句子間隔最為最終進行段落分割的分割點越合適,反之越不合適;計算過程中首先尋找相對于句子間隔i的左邊的高峰位置l和右邊的高峰位置r;左邊的高峰位置l就是相對于i向左找到第一個位置,使其滿足dl-1<dl;那么di=(dl-di)+(dr-di)。第四步:對新聞進行劃分;在得到每一個句子間隔的“深度”分數di之后,我們根據不同新聞類型可以取不同的“深度”分數閾值來決定劃分段落的個數,即設置閾值為d,如果句子間隔的“深度”分數大于d,那么說明這個間隔前后的子話題變化足夠大,可以作為新的段落分割;我們可以假...

    【專利技術屬性】
    技術研發人員:張建敏,萬小軍
    申請(專利權)人:北京大學
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码成人精品区日韩| 日韩人妻无码精品无码中文字幕| 亚洲AV无码国产剧情| 久久亚洲AV成人无码国产电影 | 国产成人无码A区精油按摩| 久久亚洲中文无码咪咪爱| 手机永久无码国产AV毛片| 成年男人裸j照无遮挡无码| 无码av免费一区二区三区试看| 免费A级毛片无码免费视| 色情无码WWW视频无码区小黄鸭| 亚洲&#228;v永久无码精品天堂久久 | 国产成人无码免费视频97| 亚洲国产精品无码久久久蜜芽| 亚洲av无码成人精品区一本二本 | 无码人妻丰满熟妇区96| 国产亚洲精品无码专区| 免费无码黄网站在线观看| 日韩精品专区AV无码| 国产AV无码专区亚洲AV漫画| 男人av无码天堂| 无码国产精品一区二区免费虚拟VR| 无码精品不卡一区二区三区 | 无码精品不卡一区二区三区 | 亚洲AV成人无码天堂| 高h纯肉无码视频在线观看| 免费无码黄网站在线看| 亚洲中文字幕无码爆乳av中文| 波多野结衣VA无码中文字幕电影| 中文字幕人成无码人妻| 亚洲成A∨人片在线观看无码| 亚洲av无码一区二区三区不卡| 亚洲午夜福利AV一区二区无码| 东京热加勒比无码视频| 亚洲人成人无码网www国产| 少妇无码AV无码一区| 国内精品人妻无码久久久影院导航| 精品无码黑人又粗又大又长| 精品一区二区三区无码视频| 国产午夜无码福利在线看网站 | 亚洲AV无码一区二三区|