【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請涉及實(shí)體解析領(lǐng)域,特別是涉及一種實(shí)體解析方法、設(shè)備、介質(zhì)及產(chǎn)品。
技術(shù)介紹
1、實(shí)體解析(entityresolution?er)是數(shù)據(jù)庫、信息檢索、機(jī)器學(xué)習(xí)、自然語言處理等領(lǐng)域的研究重點(diǎn),是實(shí)現(xiàn)數(shù)據(jù)集成的先決條件,旨在識別來自兩個不同來源的元組是否指向真實(shí)世界中的同一對象,或稱兩者為等價匹配。
2、早期解決實(shí)體解析任務(wù)的方法主要是基于規(guī)則的方法和基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,近幾年,基于深度學(xué)習(xí)的方法在實(shí)體解析中被廣泛使用,并取得了理想的結(jié)果。目前,基于深度學(xué)習(xí)解決實(shí)體解析分為兩類:(1)基于屬性特征的實(shí)體解析模型;(2)基于實(shí)體類型的實(shí)體解析模型。其中,基于屬性特征的實(shí)體解析模型包括結(jié)合注意力機(jī)制的rnn(循環(huán)神經(jīng)網(wǎng)絡(luò))和lstm(長短期記憶網(wǎng)絡(luò)),這些模型能夠捕獲語義和句法信息,以更好地表示語義相似性,特別是對于文本屬性。基于實(shí)體類型的實(shí)體解析模型,如grapher模型,主要通過圖卷積網(wǎng)絡(luò)(gcn)表示實(shí)體記錄,直接提取類型的比較特征,將語義和結(jié)構(gòu)信息軟性嵌入到圖網(wǎng)絡(luò)中;grapher模型依賴端到端的深度學(xué)習(xí)框架,解決了屬性中心方法所面臨的一些挑戰(zhàn);
3、然而,grapher模型存在一些不足。首先,在特征提取方面,雖然grapher從字符的角度出發(fā)提取實(shí)體類型,在捕獲單詞語義及其結(jié)構(gòu)特征表現(xiàn)出色,但不擅長理解句子的整體語義,而整體語義的理解有助于解決實(shí)體名稱的歧義問題,提升實(shí)體解析的準(zhǔn)確性;因此,grapher模型在特征提取方面的處理使得實(shí)體解析的準(zhǔn)確性不高。
4、在可擴(kuò)展性方面,gra
5、在泛化能力方面,grapher模型基于的圖神經(jīng)網(wǎng)絡(luò),在面對不同領(lǐng)域和類型的文本時,可能需要花費(fèi)大量工作對圖結(jié)構(gòu)進(jìn)行調(diào)整和優(yōu)化,以適應(yīng)特定任務(wù)。
6、綜上所述,基于現(xiàn)有g(shù)rapher模型不擅長理解整體句子語義以及在數(shù)據(jù)量增多或面對新領(lǐng)域數(shù)據(jù)時,可擴(kuò)展性和泛化能力受限的問題,亟需提供一種新的實(shí)體解析方法。
技術(shù)實(shí)現(xiàn)思路
1、本申請的目的是提供一種實(shí)體解析方法、設(shè)備、介質(zhì)及產(chǎn)品,能夠理解整體句子,實(shí)現(xiàn)實(shí)體解析模型的強(qiáng)泛化能力和高擴(kuò)展性,提高實(shí)體解析的準(zhǔn)確性。
2、為實(shí)現(xiàn)上述目的,本申請?zhí)峁┝巳缦路桨福?/p>
3、第一方面,本申請?zhí)峁┝艘环N實(shí)體解析方法,所述實(shí)體解析方法包括:
4、獲取基于實(shí)體解析任務(wù)的數(shù)據(jù)集;所述數(shù)據(jù)集中每一條樣本數(shù)據(jù)包括兩個來源不同的實(shí)體以及對應(yīng)的相似結(jié)果;
5、根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子;
6、利用生成句子的數(shù)據(jù)集訓(xùn)練bert-pair-networks網(wǎng)絡(luò),得到實(shí)體解析模型;
7、利用實(shí)體解析模型對待解析的實(shí)體進(jìn)行實(shí)體解析。
8、可選地,所述根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子,具體包括:
9、利用公式si=fg(ri1,ri2,...,rik,...,rim)將實(shí)體ri生成句子si;
10、利用公式sj=fg(rj1,rj2,...,rjk,...,rjm)將實(shí)體rj生成句子sj;
11、其中,實(shí)體ri=(ri1,ri2,...,rik,...,rim),rik為第i個實(shí)體的第k個屬性數(shù)據(jù),實(shí)體rj=(rj1,rj2,…,rjk,…,rjm),rjk為第j個實(shí)體的第k個屬性數(shù)據(jù),m表示屬性數(shù)據(jù)的個數(shù),fg為利用屬性數(shù)據(jù)產(chǎn)生句子的語法映射函數(shù)。
12、可選地,所述bert-pair-networks網(wǎng)絡(luò)的訓(xùn)練過程,具體包括:
13、利用bert-pair-networks網(wǎng)絡(luò)中的預(yù)訓(xùn)練語言表示模型分別對句子si和句子sj進(jìn)行編碼,得到句子編碼ei和句子編碼ej;
14、利用bert-pair-networks網(wǎng)絡(luò)中的池化策略將句子編碼ei和句子編碼ej映射為固定維度向量ui和固定維度向量uj;
15、利用bert-pair-networks網(wǎng)絡(luò)中的mlp網(wǎng)絡(luò)將固定維度向量ui和固定維度向量uj進(jìn)行分類,得到分類結(jié)果;分類結(jié)果包括兩個實(shí)體相似或兩個實(shí)體不相似。
16、可選地,所述池化策略為平均池化、最大池化或cls三種映射函數(shù)。
17、可選地,所述利用bert-pair-networks網(wǎng)絡(luò)中的mlp網(wǎng)絡(luò)將固定維度向量ui和固定維度向量uj進(jìn)行分類,得到分類結(jié)果,具體包括:
18、利用公式o=softmax(wt(ui,uj,|ui-uj|))確定分類結(jié)果;
19、其中,softmax為分類函數(shù),wt為訓(xùn)練的參數(shù),wt∈r3n×d,r為實(shí)數(shù)集,n表示句子嵌入的維度,d為分類標(biāo)簽的個數(shù),對于實(shí)體解析任務(wù),d=2,o∈{0,1}為分類結(jié)果,1表示兩個實(shí)體相似,0表示兩個實(shí)體不相似。
20、可選地,訓(xùn)練bert-pair-networks網(wǎng)絡(luò)的目標(biāo)函數(shù)為:
21、||sa-sp||+ε<||sa-sq||;
22、其中,sa、sp、sq為句子的嵌入向量,||.||為句子度量,ε為邊界,a為給定的原始句子,p為給定的正面例子,q為給定的負(fù)面例子。
23、第二方面,本申請?zhí)峁┝艘环N實(shí)體解析設(shè)備,所述實(shí)體解析設(shè)備包括:
24、數(shù)據(jù)集獲取模塊,用于獲取基于實(shí)體解析任務(wù)的數(shù)據(jù)集;所述數(shù)據(jù)集中每一條樣本數(shù)據(jù)包括兩個來源不同的實(shí)體以及對應(yīng)的相似結(jié)果;
25、句子生成模塊,用于根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子;
26、實(shí)體解析模型確定模塊,用于利用生成句子的數(shù)據(jù)集訓(xùn)練bert-pair-networks網(wǎng)絡(luò),得到實(shí)體解析模型;
27、實(shí)體解析模塊,用于利用實(shí)體解析模型對待解析的實(shí)體進(jìn)行實(shí)體解析。
28、第三方面,本申請?zhí)峁┝艘环N計算機(jī)設(shè)備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序以實(shí)現(xiàn)所述的實(shí)體解析方法。
29、第四方面,本申請?zhí)峁┝艘环N計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)所述的實(shí)體解析方法。
30、第五方面,本申請?zhí)峁┝艘环N計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)所述的實(shí)體解析方法。
31、根據(jù)本申請?zhí)峁┑木唧w實(shí)施例,本申請公開了以下技術(shù)效果:
32、本申請?zhí)峁┝艘环N實(shí)體解析方法、設(shè)備、介質(zhì)及產(chǎn)品,通過根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子,從句子角度出發(fā),通過生成句子,有效整合屬性數(shù)據(jù),從而對屬性數(shù)據(jù)進(jìn)行更加精確的語義理解;通過bert-pair-networks訓(xùn)練得到的實(shí)體解析模型,進(jìn)而基于bert-pair-ne本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種實(shí)體解析方法,其特征在于,所述實(shí)體解析方法包括:
2.根據(jù)權(quán)利要求1所述的實(shí)體解析方法,其特征在于,所述根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子,具體包括:
3.根據(jù)權(quán)利要求2所述的實(shí)體解析方法,其特征在于,所述BERT-Pair-Networks網(wǎng)絡(luò)的訓(xùn)練過程,具體包括:
4.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,所述池化策略為平均池化、最大池化或CLS三種映射函數(shù)。
5.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,所述利用BERT-Pair-Networks網(wǎng)絡(luò)中的MLP網(wǎng)絡(luò)將固定維度向量Ui和固定維度向量Uj進(jìn)行分類,得到分類結(jié)果,具體包括:
6.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,訓(xùn)練BERT-Pair-Networks網(wǎng)絡(luò)的目標(biāo)函數(shù)為:
7.一種實(shí)體解析設(shè)備,其特征在于,所述實(shí)體解析設(shè)備包括:
8.一種計算機(jī)設(shè)備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序以實(shí)現(xiàn)權(quán)利要求1
9.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-6中任一項(xiàng)所述的實(shí)體解析方法。
10.一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,其特征在于,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-6中任一項(xiàng)所述的實(shí)體解析方法。
...【技術(shù)特征摘要】
1.一種實(shí)體解析方法,其特征在于,所述實(shí)體解析方法包括:
2.根據(jù)權(quán)利要求1所述的實(shí)體解析方法,其特征在于,所述根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子,具體包括:
3.根據(jù)權(quán)利要求2所述的實(shí)體解析方法,其特征在于,所述bert-pair-networks網(wǎng)絡(luò)的訓(xùn)練過程,具體包括:
4.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,所述池化策略為平均池化、最大池化或cls三種映射函數(shù)。
5.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,所述利用bert-pair-networks網(wǎng)絡(luò)中的mlp網(wǎng)絡(luò)將固定維度向量ui和固定維度向量uj進(jìn)行分類,得到分類結(jié)果,具體包括:
6...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉鑫,姚俊萍,王佳碩,陳菁,李曉軍,郭毅,
申請(專利權(quán))人:中國人民解放軍火箭軍工程大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。