• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種事件陳述句素材庫的生成方法技術(shù)

    技術(shù)編號:6865205 閱讀:327 留言:0更新日期:2012-04-11 18:40
    本發(fā)明專利技術(shù)公開了一種事件陳述句素材庫的生成方法。首先將一篇文章轉(zhuǎn)換為多個長句的集合;針對轉(zhuǎn)換后的長句的集合,進(jìn)行時(shí)間點(diǎn)識別抽取處理,然后再進(jìn)行事件描述動詞的抽取;對于上述步驟獲得的長句,進(jìn)行人名、地名、機(jī)構(gòu)名、產(chǎn)品名的命名實(shí)體識別與抽取,然后對包括事件發(fā)生時(shí)間、發(fā)生地點(diǎn)、事件類型在內(nèi)的要素信息進(jìn)行抽取標(biāo)引,獲得結(jié)構(gòu)化結(jié)果;將事件陳述句的原始片段和結(jié)構(gòu)化結(jié)果抽取出來存入數(shù)據(jù)庫中,從而生成事件陳述句素材庫。利用本方法所生成的事件陳述句素材庫,可以在互聯(lián)網(wǎng)中提供更新、搜索、查詢等服務(wù),也可以在媒體資訊領(lǐng)域?yàn)閷懽鳌⒕庉嫛n}制作等提供應(yīng)用。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及一種語言素材庫的生成方法,尤其涉及一種針對事件陳述句的句子級素材庫生成方法,屬于計(jì)算語言學(xué)

    技術(shù)介紹
    素材庫也稱語料庫(corpus),是存儲于計(jì)算機(jī)中并可利用計(jì)算機(jī)進(jìn)行檢索、查詢、 分析的語言素材的總體。素材庫具有“大規(guī)模”和“真實(shí)性”這兩個特點(diǎn),因此是最理想的語言知識資源。文本是最基本、最常用的信息載體。在計(jì)算機(jī)語言處理工作中,文本的加工與處理技術(shù)顯得尤為重要。文本信息通常以篇章形式存在。在當(dāng)前互聯(lián)網(wǎng)諸多信息加工應(yīng)用中, 也均以篇章為處理單元,如網(wǎng)絡(luò)資訊、搜索引擎等。句子作為能夠表達(dá)完整意思的最小語言單位,在信息處理與應(yīng)用中,具有多種形式和價(jià)值,尤其是在媒體資訊的檢索、寫作、整理等過程中更是如此。而在當(dāng)前存在的各種語言處理技術(shù)中,以句子為處理顆粒的尚不多見。在2003年舉行的全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議中,苗傳江、劉智穎合作發(fā)表了論文《現(xiàn)代漢語語料的句子級語義標(biāo)注》。在該論文中,討論了一種標(biāo)注現(xiàn)代漢語語料的方案。它有兩個特點(diǎn)一是采取自下而上的標(biāo)注方式,即先標(biāo)注大的語言單位,再標(biāo)注小的語言單位;二是對句子進(jìn)行語義標(biāo)注,標(biāo)注了句子及句內(nèi)子句的語義類型和它們的下一級語義構(gòu)成成分。按此方案建立的語料庫是現(xiàn)代漢語句子語義研究和處理的重要資源。另外,在申請?zhí)枮?00810065527. 7的中國專利技術(shù)專利申請中,公開了一種用電子裝置對文章句子進(jìn)行快速分類及檢索的方法。在該技術(shù)方案中,電子裝置按特定的分類方法生成文章句子的分類目錄表。在檢索時(shí)用戶打開的電子書內(nèi)容,處理器逐個提取每個句子,并查找到該句子所在的分類目錄,將分類目錄名稱作為分類標(biāo)記附注添加到該句子上, 帶分類標(biāo)記的句子被用戶選中后,句子讀取指針定位到分類目錄,對其中的句子進(jìn)行輸出。 電子裝置可對文章句子進(jìn)行分類貯存,其步驟如下1)顯示屏上顯示由若干條句子組成的文章內(nèi)容;幻通過編輯器為其中的任意句子做上特定分類標(biāo)記;幻貯存器中建立與上述每個分類標(biāo)記對應(yīng)的類別目錄,如果目錄已經(jīng)存在,則不建立;4)處理器對有分類標(biāo)記的句子進(jìn)行檢測及識別,自動將每個有分類標(biāo)記的句子保存到對應(yīng)的上述類別目錄中。但是,該專利申請中對句子的挖掘與整理在很大程度上依賴于人工,工作效率并不高,根本無法滿足海量中文文本數(shù)據(jù)的處理要求。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)所要解決的技術(shù)問題在于提供一種針對事件陳述句的句子級素材庫生成方法。該方法以句子為顆粒抽取文本中的事件陳述句,并對其進(jìn)行事件發(fā)生時(shí)間等字段的標(biāo)引,從而將原始的文章數(shù)據(jù)庫轉(zhuǎn)換為所需的句子級素材庫。為實(shí)現(xiàn)上述的專利技術(shù)目的,本專利技術(shù)采用下述的技術(shù)方案,其特征在于包括如下的步驟(1)對于一篇文章,首先從左至右掃描,當(dāng)掃描到的字符為表示長句結(jié)束的標(biāo)點(diǎn)符號時(shí),則將前面的內(nèi)容記錄為一個長句,從而將一篇文章轉(zhuǎn)換為多個長句的集合;(2)針對轉(zhuǎn)換后的長句的集合,結(jié)合文章的發(fā)表時(shí)間,進(jìn)行時(shí)間點(diǎn)識別抽取處理;(3)在進(jìn)行時(shí)間點(diǎn)識別抽取處理后,對于不存在時(shí)間點(diǎn)表達(dá)的長句放棄后續(xù)處理, 對于存在時(shí)間點(diǎn)表達(dá)的長句進(jìn)行后續(xù)處理;(4)對于存在時(shí)間點(diǎn)表達(dá)的長句,進(jìn)行事件描述動詞的抽取,如果不存在事件描述動詞,則放棄后續(xù)處理;(5)對于上述步驟獲得的長句,進(jìn)行人名、地名、機(jī)構(gòu)名、產(chǎn)品名的命名實(shí)體識別與抽取,如果這幾種命名實(shí)體均不存在,則放棄后續(xù)處理;(6)根據(jù)長句進(jìn)行分詞與命名實(shí)體識別處理后的詞序列結(jié)果,進(jìn)行淺層句法分析, 分析出主語、謂語、賓語,確定事件發(fā)生的主客體;(7)針對上述步驟確認(rèn)的事件陳述句,結(jié)合步驟(2)、步驟(5)的命名實(shí)體抽取結(jié)果,對包括事件發(fā)生時(shí)間、發(fā)生地點(diǎn)、事件類型在內(nèi)的要素信息進(jìn)行抽取標(biāo)引,獲得結(jié)構(gòu)化結(jié)果;(8)將事件陳述句的原始片段和結(jié)構(gòu)化結(jié)果抽取出來存入數(shù)據(jù)庫中,從而生成事件陳述句素材庫。其中,在所述步驟(1)中,所述表示長句結(jié)束的標(biāo)點(diǎn)符號為全角句號、全角問號、 全角嘆號、全角省略號、半角問號和半角嘆號中的任意一種。所述步驟O)中,所述時(shí)間點(diǎn)識別抽取處理是以人工收集的時(shí)間點(diǎn)表達(dá)基本用字與用詞作為識別的觸發(fā)條件,先對文本進(jìn)行分詞處理;然后對候選的時(shí)間點(diǎn)表達(dá)詞顆粒序列,根據(jù)人工統(tǒng)計(jì)得到的時(shí)間表達(dá)模式進(jìn)行確認(rèn)判別,并驗(yàn)證時(shí)間表達(dá)的合法性。對于確認(rèn)為時(shí)間點(diǎn)的表達(dá),依據(jù)其內(nèi)部的數(shù)詞和量詞,以輸入的文本發(fā)布時(shí)間為基準(zhǔn)時(shí)間參考點(diǎn),將表達(dá)式歸一化為公元紀(jì)元方式。所述步驟中,抽取事件描述動詞的步驟為對于長句進(jìn)行分詞處理,考察分詞結(jié)果的詞性;對動詞結(jié)果則到人工篩選的事件描述動詞中進(jìn)行查詢,如果查詢結(jié)果為存在則將其標(biāo)記抽取出來。所述步驟(5)中,以人工收集的各類命名實(shí)體后綴詞和常用構(gòu)成詞作為識別觸發(fā)條件,然后根據(jù)隱馬爾科夫模型或者最大熵模型與規(guī)則結(jié)合進(jìn)行識別人名、地名、機(jī)構(gòu)名、 產(chǎn)品名的計(jì)算。所述步驟(6)之后,對具有下述情況的事件陳述句進(jìn)行過濾①事件陳述句的開頭處含有資訊報(bào)道的電頭內(nèi)容;②事件陳述句為包含直接引語,或?yàn)橹苯右Z的一部分; ③事件陳述句包含有依據(jù)上下文才能確定的指代詞語。所述步驟(7)中,所述結(jié)構(gòu)化結(jié)果至少包含三項(xiàng)內(nèi)容事件發(fā)生時(shí)間、事件主客體和事件類型詞。所述步驟(8)中,以數(shù)據(jù)庫方式保存事件陳述句的原始片段和結(jié)構(gòu)化結(jié)果,即在數(shù)據(jù)庫中設(shè)立七個字段,分別為事件陳述句的原始片段、發(fā)生時(shí)間、發(fā)生地點(diǎn)、事件類型、 涉及人物、涉及機(jī)構(gòu)、涉及產(chǎn)品。或者,以文本方式保存事件陳述句的原始片段和結(jié)構(gòu)化結(jié)果。本專利技術(shù)所提供的事件陳述句素材庫生成方法具有如下的優(yōu)點(diǎn)1.事件陳述句的準(zhǔn)確識別可實(shí)現(xiàn)對于陳述事件完整信息這一句子類型的準(zhǔn)確判別;2.時(shí)間點(diǎn)表達(dá)的準(zhǔn)確識別實(shí)現(xiàn)了對各種時(shí)間點(diǎn)表達(dá)形式的準(zhǔn)確識別,并統(tǒng)一歸一化為公元紀(jì)元方式;3.事件陳述句內(nèi)部要素信息的結(jié)構(gòu)化抽取計(jì)算通過自然語言處理計(jì)算,將事件陳述句中的發(fā)生時(shí)間、發(fā)生地點(diǎn)、事件類型、涉及的人物、機(jī)構(gòu)、產(chǎn)品等要素信息準(zhǔn)確地分析抽取出來。利用本方法所生成的事件陳述句素材庫,可以在互聯(lián)網(wǎng)中提供更新、搜索、查詢等服務(wù),也可以在媒體資訊領(lǐng)域?yàn)閷懽鳌⒕庉嫛n}制作等提供應(yīng)用。附圖說明下面結(jié)合附圖和具體實(shí)施方式對本專利技術(shù)作進(jìn)一步的詳細(xì)說明。圖1為從文章庫轉(zhuǎn)換為句子級素材庫的基本操作流程示意圖;圖2為事件陳述句素材庫的生成過程示意圖。具體實(shí)施例方式圖1為本事件陳述句素材庫生成方法中,從文章庫轉(zhuǎn)換為句子級素材庫的基本流程示意圖。從圖1可以看出,對于文章庫中的每一篇中文文章,可以通過句子級素材抽取操作獲得各種類型的句子素材,例如“事件陳述”句子、“直接引語”句子等。這些“事件陳述” 句子、“直接引語”等可以分別放入相應(yīng)的事件陳述句素材庫或者直接引語素材庫中進(jìn)行保存。需要說明的是,對于文本中的諸多句子,并非每一個句子都可以形成有價(jià)值、有意義的素材。只有那些確定類型,并進(jìn)行結(jié)構(gòu)化處理后的句子類型,才可以形成對應(yīng)的句子級素材。根據(jù)網(wǎng)絡(luò)編輯工作的實(shí)際需要,句子級素材庫中的一個子集-事件陳述句素材庫十分有用。下面對它的生成過程進(jìn)行詳細(xì)的說明。事件陳述句是指文本中能夠完整陳述事件發(fā)生內(nèi)容的句子。與一般陳述句子不同的是,事件陳述句中至少要包含三種要素事件發(fā)生時(shí)間、事件主體或客體、事件類型詞 (一般為動詞)。通過事件陳述句,可以使用戶較為清晰地了解一個事件的基本信息。在文本中,事件陳述句是大量存在的,尤其是在采用敘述文體的文章中。本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    1.一種事件陳述句素材庫的生成方法,其特征在于包括如下的步驟:(1)對于一篇文章,首先從左至右掃描,當(dāng)掃描到的字符為表示長句結(jié)束的標(biāo)點(diǎn)符號時(shí),則將前面的內(nèi)容記錄為一個長句,從而將一篇文章轉(zhuǎn)換為多個長句的集合;(2)針對轉(zhuǎn)換后的長句的集合,結(jié)合文章的發(fā)表時(shí)間,進(jìn)行時(shí)間點(diǎn)識別抽取處理;(3)在進(jìn)行時(shí)間點(diǎn)識別抽取處理后,對于不存在時(shí)間點(diǎn)表達(dá)的長句放棄后續(xù)處理,對于存在時(shí)間點(diǎn)表達(dá)的長句進(jìn)行后續(xù)處理;(4)對于存在時(shí)間點(diǎn)表達(dá)的長句,進(jìn)行事件描述動詞的抽取,如果不存在事件描述動詞,則放棄后續(xù)處理;(5)對于上述步驟獲得的長句,進(jìn)行人名、地名、機(jī)構(gòu)名、產(chǎn)品名的命名實(shí)體識別與抽取,如果這幾種命名實(shí)體均不存在,則放棄后續(xù)處理;(6)根據(jù)長句進(jìn)行分詞與命名實(shí)體識別處理后的詞序列結(jié)果,進(jìn)行淺層句法分析,分析出主語、謂語、賓語,確定事件發(fā)生的主客體;(7)針對上述步驟確認(rèn)的事件陳述句,結(jié)合步驟(2)、步驟(5)的命名實(shí)體抽取結(jié)果,對包括事件發(fā)生時(shí)間、發(fā)生地點(diǎn)、事件類型在內(nèi)的要素信息進(jìn)行抽取標(biāo)引,獲得結(jié)構(gòu)化結(jié)果;(8)將事件陳述句的原始片段和結(jié)構(gòu)化結(jié)果抽取出來存入數(shù)據(jù)庫中,從而生成事件陳述句素材庫。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:宋傳寶
    申請(專利權(quán))人:天津海量信息技術(shù)有限公司
    類型:發(fā)明
    國別省市:12

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: AV无码人妻中文字幕| 无码的免费不卡毛片视频| 国产精品无码久久av| 无码日韩精品一区二区人妻| 亚洲男人在线无码视频| 极品粉嫩嫩模大尺度无码视频| 小泽玛丽无码视频一区 | 亚洲免费无码在线| 亚洲A∨无码一区二区三区| 久久亚洲精品无码网站| 亚洲AV无码精品无码麻豆| 少妇人妻av无码专区| 亚洲av无码一区二区乱子伦as| 人妻少妇看A偷人无码精品| 久久老子午夜精品无码| 无码人妻精品一区二| 久久久久亚洲av无码专区导航| YW尤物AV无码国产在线观看| 精品国产v无码大片在线观看 | 免费无码成人AV片在线在线播放| 中文有码vs无码人妻| 精品无码专区亚洲| 99国产精品无码| 无码一区二区三区老色鬼| 好硬~好爽~别进去~动态图, 69式真人无码视频免| 亚洲大尺度无码专区尤物| 国产成人无码精品久久久免费| 亚洲av无码兔费综合| 精品无码日韩一区二区三区不卡| 国产精品多人p群无码| 中文字幕无码免费久久9一区9| 久久人妻无码一区二区| 无码中文人妻在线一区| 亚洲真人无码永久在线观看| 亚洲a∨无码男人的天堂| 久久精品国产亚洲AV无码麻豆 | 中日精品无码一本二本三本| 日韩加勒比一本无码精品| 无码人妻精品一区二区蜜桃AV| 人妻精品无码一区二区三区| 无码少妇丰满熟妇一区二区|