本發(fā)明專利技術(shù)公開了一種知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系生成系統(tǒng)及生成方法。該生成系統(tǒng)包括非結(jié)構(gòu)化文本庫、去標(biāo)簽?zāi)K、分詞引擎、規(guī)則庫、規(guī)則引擎和知識(shí)網(wǎng)絡(luò)庫,其中首先將預(yù)定領(lǐng)域的非結(jié)構(gòu)化文本通過去標(biāo)簽?zāi)K進(jìn)行預(yù)處理,然后由分詞引擎對(duì)處理后的文本進(jìn)行分詞處理,形成有確切語義的詞匯;詞匯輸入規(guī)則引擎中,規(guī)則引擎調(diào)用規(guī)則庫中的規(guī)則,對(duì)知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)之間的屬性關(guān)系進(jìn)行判別,并將判別后的結(jié)果輸入知識(shí)網(wǎng)絡(luò)庫中。利用本發(fā)明專利技術(shù)可以通過機(jī)器生成的方式獲得知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間的屬性關(guān)系,從而解決由人工生成預(yù)定領(lǐng)域的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系存在的工作量大、更新不及時(shí)的問題。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及一種知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系的生成系統(tǒng)及生成方法,尤其涉及一種針對(duì)預(yù)定領(lǐng)域的知識(shí)網(wǎng)絡(luò),基于規(guī)則組合實(shí)現(xiàn)的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系生成系統(tǒng)及生成方法,屬于信息抽取
技術(shù)介紹
隨著互聯(lián)網(wǎng)的發(fā)展,一個(gè)典型的信息抽取應(yīng)用是從無結(jié)構(gòu)化或者半結(jié)構(gòu)化的文本中,通過信息抽取技術(shù)提取人們所感興趣的內(nèi)容,并以結(jié)構(gòu)化的形式,例如關(guān)系數(shù)據(jù)庫形式或者XML形式保存下來。從應(yīng)用的廣泛程度以及研究的深入程度來看,信息抽取技術(shù)主要包含兩個(gè)方面命名實(shí)體識(shí)別技術(shù)和實(shí)體關(guān)系抽取技術(shù)。命名實(shí)體識(shí)別技術(shù)的目標(biāo)是識(shí)別文本中包含的各種命名實(shí)體,比如人名、地名、公司組織名和時(shí)間短語等等。而實(shí)體關(guān)系抽取技術(shù)的目標(biāo)主要是發(fā)現(xiàn)和識(shí)別隱含在實(shí)體與實(shí)體之間的關(guān)系。目前,人們利用知識(shí)網(wǎng)絡(luò)來研究人及企業(yè)間的知識(shí)傳播、合作及創(chuàng)新行為,表示各類知識(shí)資源,分析個(gè)人及組織知識(shí)體系的結(jié)構(gòu)、組成等。其中,知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)是組成知識(shí)網(wǎng)絡(luò)的基本單元,具有獨(dú)立性、繼承性、變異性、多維性等特點(diǎn)。知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)可以多向成簇。即每一個(gè)知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)都可同其他知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)通過多種多樣的形象、屬性、關(guān)系相連,這種多維性來源于構(gòu)成知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)的知識(shí)單元內(nèi)在構(gòu)成元素、結(jié)構(gòu)和外在形態(tài)的多元性。因此,在構(gòu)建知識(shí)網(wǎng)絡(luò)的過程中,生成并利用知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間的屬性關(guān)系是一項(xiàng)十分重要的工作。但是,利用人工生成預(yù)定領(lǐng)域的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系存在工作量大、更新不及時(shí)的問題,亟需采取技術(shù)措施加以解決。生成知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系的關(guān)鍵在于命名實(shí)體的關(guān)系挖掘,即上述的實(shí)體關(guān)系抽取技術(shù)。在這一領(lǐng)域內(nèi),目前有多種不同的技術(shù)方案。例如深圳騰訊公司在公開號(hào)為102129427A的中國專利技術(shù)專利申請(qǐng)中,公開了一種詞關(guān)系挖掘方法和裝置。該方法包括獲取兩個(gè)詞條之間的候選關(guān)系、所述候選關(guān)系的頻度以及所述詞條的詞頻;根據(jù)所述候選關(guān)系、所述頻度及所述詞頻獲取互信息的統(tǒng)計(jì)值和對(duì)數(shù)似然比的統(tǒng)計(jì)值;根據(jù)所述互信息的統(tǒng)計(jì)值和所述對(duì)數(shù)似然比的統(tǒng)計(jì)值獲取可信度歸一值;根據(jù)所述可信度歸一值進(jìn)行排序,將符合預(yù)設(shè)閾值的候選關(guān)系作為詞關(guān)系輸出。該技術(shù)方案的實(shí)質(zhì)是統(tǒng)計(jì)判別,即在指定兩個(gè)詞間的備選關(guān)系中判別,從而提高了挖掘的詞關(guān)系的正確率,改善了用戶的使用體驗(yàn)。目前,現(xiàn)有的實(shí)體關(guān)系抽取技術(shù)仍然面臨著很多困難。例如成熟的信息抽取系統(tǒng)往往采用模式匹配的方法,因而只能局限于某些特定的實(shí)體類型和實(shí)體關(guān)系類型或者只能局限于某些特定的領(lǐng)域。而采用統(tǒng)計(jì)學(xué)習(xí)的信息抽取系統(tǒng),往往局限于對(duì)文本淺層特征的利用以及依賴于少量特定領(lǐng)域的訓(xùn)練文本,使得它們的效果不盡如人意。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)所要解決的技術(shù)問題在于提供一種知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系生成系統(tǒng)及生成方法。為實(shí)現(xiàn)上述的專利技術(shù)目的,本專利技術(shù)采用下述的技術(shù)方案一種知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng),包括非結(jié)構(gòu)化文本庫、去標(biāo)簽?zāi)K、分詞引擎、規(guī)則庫、規(guī)則引擎和知識(shí)網(wǎng)絡(luò)庫;所述非結(jié)構(gòu)化文本庫與所述去標(biāo)簽?zāi)K連接,所述去標(biāo)簽?zāi)K連接所述分詞引擎,所述分詞引擎與所述規(guī)則引擎連接,所述規(guī)則引擎分別與所述規(guī)則庫和所述知識(shí)網(wǎng)絡(luò)庫連接;所述分詞引擎向所述規(guī)則引擎提供有確切語義的詞匯;所述規(guī)則引擎從所述規(guī)則庫中獲得進(jìn)行屬性關(guān)系判斷的規(guī)則,對(duì)所述詞匯生成知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間的屬性關(guān)系,并將知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)以及知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)之間的屬性關(guān)系存儲(chǔ)在所述知識(shí)網(wǎng)絡(luò)庫中。其中較優(yōu)地,所述知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng)中還包括輔助概念樹;所述輔助概念樹與所述規(guī)則庫連接,用于向所述規(guī)則庫提供知識(shí)支持。其中較優(yōu)地,在所述知識(shí)網(wǎng)絡(luò)庫中,所述知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)擁有預(yù)定領(lǐng)域知識(shí)術(shù)語的詞形及預(yù)定領(lǐng)域的類別屬性。其中較優(yōu)地,在所述知識(shí)網(wǎng)絡(luò)庫中,所述知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)之間的屬性關(guān)系通過節(jié)點(diǎn)之間的關(guān)系邊表不。一種知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成方法,基于上述的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng)實(shí)現(xiàn),其中首先將預(yù)定領(lǐng)域的非結(jié)構(gòu)化文本通過去標(biāo)簽?zāi)K進(jìn)行預(yù)處理,然后由分詞引擎對(duì)處理后的文本進(jìn)行分詞處理,形成有確切語義的詞匯;所述詞匯輸入規(guī)則引擎中,所述規(guī)則引擎調(diào)用規(guī)則庫中的規(guī)則,對(duì)知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)之間的屬性關(guān)系進(jìn)行判別,并將判別后的結(jié)果輸入知識(shí)網(wǎng)絡(luò)庫中。其中較優(yōu)地,在所述規(guī)則庫中,利用規(guī)則組合的方式表達(dá)預(yù)定的邏輯判斷。其中較優(yōu)地,所述規(guī)則引擎選擇所述規(guī)則庫中需要激活的規(guī)則,并按照預(yù)定的順序運(yùn)行所激活的規(guī)則。利用本專利技術(shù)可以通過機(jī)器生成的方式獲得知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間的屬性關(guān)系,從而解決由人工生成預(yù)定領(lǐng)域的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系存在的工作量大、更新不及時(shí)的問題,有效節(jié)省人工創(chuàng)建的時(shí)間、節(jié)約創(chuàng)建的成本。附圖說明圖1是本專利技術(shù)所提供的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系生成系統(tǒng)的結(jié)構(gòu)示意圖;圖2是一個(gè)醫(yī)藥領(lǐng)域的知識(shí)網(wǎng)絡(luò)示例圖;圖3是圖2所示的醫(yī)藥領(lǐng)域知識(shí)網(wǎng)絡(luò)中,知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)的示例圖;圖4是圖2所示的醫(yī)藥領(lǐng)域知識(shí)網(wǎng)絡(luò)中,知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系的生成界面示例圖;圖5是本知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系生成方法中,屬性表達(dá)方式的示意圖。具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例,對(duì)本專利技術(shù)所采用的技術(shù)方案做進(jìn)一步的詳細(xì)說明。本專利技術(shù)提供了一種針對(duì)預(yù)定領(lǐng)域的知識(shí)網(wǎng)絡(luò),基于規(guī)則組合的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系生成系統(tǒng),同時(shí)也提供了相應(yīng)的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系生成方法。如圖1所示,該知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系生成系統(tǒng)包括非結(jié)構(gòu)化文本庫、去標(biāo)簽?zāi)K、分詞引擎、規(guī)則庫、輔助概念樹、規(guī)則引擎和知識(shí)網(wǎng)絡(luò)庫等,其中非結(jié)構(gòu)化文本庫作為屬性關(guān)系挖掘的訓(xùn)練集,可以從預(yù)定領(lǐng)域相關(guān)的網(wǎng)頁上直接采集任意文本。去標(biāo)簽?zāi)K與非結(jié)構(gòu)化文本庫連接,從中接收非結(jié)構(gòu)化的任意文本并完成相應(yīng)的文本標(biāo)簽去除任務(wù),形成整潔有意義的文本。分詞引擎連接去標(biāo)簽?zāi)K,將經(jīng)去標(biāo)簽?zāi)K預(yù)處理后的文本進(jìn)行分詞處理,生成有確切語義的詞匯。該分詞引擎連接規(guī)則引擎,規(guī)則引擎分別與規(guī)則庫和知識(shí)網(wǎng)絡(luò)庫進(jìn)行連接。規(guī)則庫用于存儲(chǔ)大量屬性關(guān)系的判別規(guī)則,是規(guī)則引擎進(jìn)行屬性關(guān)系判斷的支撐單元。該規(guī)則庫與輔助概念樹進(jìn)行連接。輔助概念樹是規(guī)則庫的知識(shí)支持,用以構(gòu)建靈活的規(guī)則組合。上述規(guī)則引擎是由通過分詞處理的數(shù)據(jù)驅(qū)動(dòng)的邏輯判斷引擎。該規(guī)則引擎利用所激活的規(guī)則,實(shí)現(xiàn)高效的屬性關(guān)系判斷。知識(shí)網(wǎng)絡(luò)庫用于存儲(chǔ)預(yù)定領(lǐng)域的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)以及由規(guī)則引擎識(shí)別出的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)之間的屬性關(guān)系。上述去標(biāo)簽?zāi)K、分詞引擎等可以采用計(jì)算機(jī)自然語言處理領(lǐng)域的成熟算法,以軟件或者固件方式實(shí)現(xiàn)。非結(jié)構(gòu)化文本庫、規(guī)則庫、輔助概念樹和知識(shí)網(wǎng)絡(luò)庫等可以以非易失性存儲(chǔ)器方式實(shí)現(xiàn)。這些是本領(lǐng)域技術(shù)人員都能掌握的慣用技術(shù)手段,在此就不詳細(xì)說明了。生成知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系是通過規(guī)則形式表達(dá),應(yīng)用規(guī)則引擎實(shí)現(xiàn)的邏輯判斷。在知識(shí)網(wǎng)絡(luò)庫中的初始內(nèi)容中,知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)是預(yù)定領(lǐng)域,例如醫(yī)藥領(lǐng)域、天文領(lǐng)域、環(huán)境領(lǐng)域等的知識(shí)點(diǎn)。這些知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)擁有預(yù)定領(lǐng)域知識(shí)術(shù)語的詞形及預(yù)定領(lǐng)域的類別屬性。這些詞形和類別屬性是后續(xù)進(jìn)行規(guī)則判斷的必須部分。例如圖2顯示了一個(gè)醫(yī)藥領(lǐng)域的知識(shí)網(wǎng)絡(luò)庫示例,其中初始的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)是醫(yī)藥領(lǐng)域相關(guān)的類別名稱節(jié)點(diǎn),例如有檢查項(xiàng)目、疾病癥狀、藥品、疾病部位、病因、疾病名稱等。每個(gè)類別名稱節(jié)點(diǎn)下,又有各自的子節(jié)點(diǎn),指向具體的子節(jié)點(diǎn)。圖3是圖2所示的醫(yī)藥領(lǐng)域知識(shí)網(wǎng)絡(luò)中,知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)的示例圖。其中疾病類別節(jié)點(diǎn)下的子節(jié)點(diǎn),指向各個(gè)具體的疾病名稱。在生成知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性關(guān)系的過程中,首先將從預(yù)定領(lǐng)域相關(guān)的網(wǎng)頁上直接采集的非結(jié)構(gòu)化文本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng),其特征在于:所述知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng)包括非結(jié)構(gòu)化文本庫、去標(biāo)簽?zāi)K、分詞引擎、規(guī)則庫、規(guī)則引擎和知識(shí)網(wǎng)絡(luò)庫;所述非結(jié)構(gòu)化文本庫與所述去標(biāo)簽?zāi)K連接,所述去標(biāo)簽?zāi)K連接所述分詞引擎,所述分詞引擎與所述規(guī)則引擎連接,所述規(guī)則引擎分別與所述規(guī)則庫和所述知識(shí)網(wǎng)絡(luò)庫連接;所述分詞引擎向所述規(guī)則引擎提供有確切語義的詞匯;所述規(guī)則引擎從所述規(guī)則庫中獲得進(jìn)行屬性關(guān)系判斷的規(guī)則,對(duì)所述詞匯生成知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間的屬性關(guān)系,并將知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)以及知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)之間的屬性關(guān)系存儲(chǔ)在所述知識(shí)網(wǎng)絡(luò)庫中。
【技術(shù)特征摘要】
1.一種知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng),其特征在于 所述知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng)包括非結(jié)構(gòu)化文本庫、去標(biāo)簽?zāi)K、分詞引擎、規(guī)則庫、規(guī)則引擎和知識(shí)網(wǎng)絡(luò)庫; 所述非結(jié)構(gòu)化文本庫與所述去標(biāo)簽?zāi)K連接,所述去標(biāo)簽?zāi)K連接所述分詞引擎,所述分詞引擎與所述規(guī)則引擎連接,所述規(guī)則引擎分別與所述規(guī)則庫和所述知識(shí)網(wǎng)絡(luò)庫連接; 所述分詞引擎向所述規(guī)則引擎提供有確切語義的詞匯; 所述規(guī)則引擎從所述規(guī)則庫中獲得進(jìn)行屬性關(guān)系判斷的規(guī)則,對(duì)所述詞匯生成知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間的屬性關(guān)系,并將知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)以及知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)之間的屬性關(guān)系存儲(chǔ)在所述知識(shí)網(wǎng)絡(luò)庫中。2.如權(quán)利要求1所述的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng),其特征在于 所述知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng)中還包括輔助概念樹;所述輔助概念樹與所述規(guī)則庫連接,用于向所述規(guī)則庫提供知識(shí)支持。3.如權(quán)利要求1所述的知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間屬性生成系統(tǒng),其特征在于 在所述知識(shí)網(wǎng)絡(luò)庫中,所述知識(shí)網(wǎng)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊偉鋒,宋傳寶,張作職,
申請(qǐng)(專利權(quán))人:北京海量融通軟件技術(shù)有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。