• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種實(shí)體解析方法、設(shè)備、介質(zhì)及產(chǎn)品技術(shù)

    技術(shù)編號:44186104 閱讀:19 留言:0更新日期:2025-02-06 18:27
    本申請公開了一種實(shí)體解析方法、設(shè)備、介質(zhì)及產(chǎn)品,涉及實(shí)體解析領(lǐng)域,該方法包括獲取基于實(shí)體解析任務(wù)的數(shù)據(jù)集;所述數(shù)據(jù)集中每一條樣本數(shù)據(jù)包括兩個來源不同的實(shí)體以及對應(yīng)的相似結(jié)果;根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子;利用生成句子的數(shù)據(jù)集訓(xùn)練BERT?Pair?Networks網(wǎng)絡(luò),得到實(shí)體解析模型;利用實(shí)體解析模型對待解析的實(shí)體進(jìn)行實(shí)體解析。本申請能夠理解整體句子,實(shí)現(xiàn)實(shí)體解析模型的強(qiáng)泛化能力和高擴(kuò)展性,提高實(shí)體解析的準(zhǔn)確性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本申請涉及實(shí)體解析領(lǐng)域,特別是涉及一種實(shí)體解析方法、設(shè)備、介質(zhì)及產(chǎn)品


    技術(shù)介紹

    1、實(shí)體解析(entityresolution?er)是數(shù)據(jù)庫、信息檢索、機(jī)器學(xué)習(xí)、自然語言處理等領(lǐng)域的研究重點(diǎn),是實(shí)現(xiàn)數(shù)據(jù)集成的先決條件,旨在識別來自兩個不同來源的元組是否指向真實(shí)世界中的同一對象,或稱兩者為等價匹配。

    2、早期解決實(shí)體解析任務(wù)的方法主要是基于規(guī)則的方法和基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,近幾年,基于深度學(xué)習(xí)的方法在實(shí)體解析中被廣泛使用,并取得了理想的結(jié)果。目前,基于深度學(xué)習(xí)解決實(shí)體解析分為兩類:(1)基于屬性特征的實(shí)體解析模型;(2)基于實(shí)體類型的實(shí)體解析模型。其中,基于屬性特征的實(shí)體解析模型包括結(jié)合注意力機(jī)制的rnn(循環(huán)神經(jīng)網(wǎng)絡(luò))和lstm(長短期記憶網(wǎng)絡(luò)),這些模型能夠捕獲語義和句法信息,以更好地表示語義相似性,特別是對于文本屬性。基于實(shí)體類型的實(shí)體解析模型,如grapher模型,主要通過圖卷積網(wǎng)絡(luò)(gcn)表示實(shí)體記錄,直接提取類型的比較特征,將語義和結(jié)構(gòu)信息軟性嵌入到圖網(wǎng)絡(luò)中;grapher模型依賴端到端的深度學(xué)習(xí)框架,解決了屬性中心方法所面臨的一些挑戰(zhàn);

    3、然而,grapher模型存在一些不足。首先,在特征提取方面,雖然grapher從字符的角度出發(fā)提取實(shí)體類型,在捕獲單詞語義及其結(jié)構(gòu)特征表現(xiàn)出色,但不擅長理解句子的整體語義,而整體語義的理解有助于解決實(shí)體名稱的歧義問題,提升實(shí)體解析的準(zhǔn)確性;因此,grapher模型在特征提取方面的處理使得實(shí)體解析的準(zhǔn)確性不高。

    4、在可擴(kuò)展性方面,grapher模型表現(xiàn)效果依賴于圖結(jié)構(gòu)的質(zhì)量和結(jié)構(gòu),也使得grapher模型訓(xùn)練相對復(fù)雜,導(dǎo)致需要更多的計算資源。尤其是隨著數(shù)據(jù)量的增加,模型的擴(kuò)展性可能成為問題。

    5、在泛化能力方面,grapher模型基于的圖神經(jīng)網(wǎng)絡(luò),在面對不同領(lǐng)域和類型的文本時,可能需要花費(fèi)大量工作對圖結(jié)構(gòu)進(jìn)行調(diào)整和優(yōu)化,以適應(yīng)特定任務(wù)。

    6、綜上所述,基于現(xiàn)有g(shù)rapher模型不擅長理解整體句子語義以及在數(shù)據(jù)量增多或面對新領(lǐng)域數(shù)據(jù)時,可擴(kuò)展性和泛化能力受限的問題,亟需提供一種新的實(shí)體解析方法。


    技術(shù)實(shí)現(xiàn)思路

    1、本申請的目的是提供一種實(shí)體解析方法、設(shè)備、介質(zhì)及產(chǎn)品,能夠理解整體句子,實(shí)現(xiàn)實(shí)體解析模型的強(qiáng)泛化能力和高擴(kuò)展性,提高實(shí)體解析的準(zhǔn)確性。

    2、為實(shí)現(xiàn)上述目的,本申請?zhí)峁┝巳缦路桨福?/p>

    3、第一方面,本申請?zhí)峁┝艘环N實(shí)體解析方法,所述實(shí)體解析方法包括:

    4、獲取基于實(shí)體解析任務(wù)的數(shù)據(jù)集;所述數(shù)據(jù)集中每一條樣本數(shù)據(jù)包括兩個來源不同的實(shí)體以及對應(yīng)的相似結(jié)果;

    5、根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子;

    6、利用生成句子的數(shù)據(jù)集訓(xùn)練bert-pair-networks網(wǎng)絡(luò),得到實(shí)體解析模型;

    7、利用實(shí)體解析模型對待解析的實(shí)體進(jìn)行實(shí)體解析。

    8、可選地,所述根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子,具體包括:

    9、利用公式si=fg(ri1,ri2,...,rik,...,rim)將實(shí)體ri生成句子si;

    10、利用公式sj=fg(rj1,rj2,...,rjk,...,rjm)將實(shí)體rj生成句子sj;

    11、其中,實(shí)體ri=(ri1,ri2,...,rik,...,rim),rik為第i個實(shí)體的第k個屬性數(shù)據(jù),實(shí)體rj=(rj1,rj2,…,rjk,…,rjm),rjk為第j個實(shí)體的第k個屬性數(shù)據(jù),m表示屬性數(shù)據(jù)的個數(shù),fg為利用屬性數(shù)據(jù)產(chǎn)生句子的語法映射函數(shù)。

    12、可選地,所述bert-pair-networks網(wǎng)絡(luò)的訓(xùn)練過程,具體包括:

    13、利用bert-pair-networks網(wǎng)絡(luò)中的預(yù)訓(xùn)練語言表示模型分別對句子si和句子sj進(jìn)行編碼,得到句子編碼ei和句子編碼ej;

    14、利用bert-pair-networks網(wǎng)絡(luò)中的池化策略將句子編碼ei和句子編碼ej映射為固定維度向量ui和固定維度向量uj;

    15、利用bert-pair-networks網(wǎng)絡(luò)中的mlp網(wǎng)絡(luò)將固定維度向量ui和固定維度向量uj進(jìn)行分類,得到分類結(jié)果;分類結(jié)果包括兩個實(shí)體相似或兩個實(shí)體不相似。

    16、可選地,所述池化策略為平均池化、最大池化或cls三種映射函數(shù)。

    17、可選地,所述利用bert-pair-networks網(wǎng)絡(luò)中的mlp網(wǎng)絡(luò)將固定維度向量ui和固定維度向量uj進(jìn)行分類,得到分類結(jié)果,具體包括:

    18、利用公式o=softmax(wt(ui,uj,|ui-uj|))確定分類結(jié)果;

    19、其中,softmax為分類函數(shù),wt為訓(xùn)練的參數(shù),wt∈r3n×d,r為實(shí)數(shù)集,n表示句子嵌入的維度,d為分類標(biāo)簽的個數(shù),對于實(shí)體解析任務(wù),d=2,o∈{0,1}為分類結(jié)果,1表示兩個實(shí)體相似,0表示兩個實(shí)體不相似。

    20、可選地,訓(xùn)練bert-pair-networks網(wǎng)絡(luò)的目標(biāo)函數(shù)為:

    21、||sa-sp||+ε<||sa-sq||;

    22、其中,sa、sp、sq為句子的嵌入向量,||.||為句子度量,ε為邊界,a為給定的原始句子,p為給定的正面例子,q為給定的負(fù)面例子。

    23、第二方面,本申請?zhí)峁┝艘环N實(shí)體解析設(shè)備,所述實(shí)體解析設(shè)備包括:

    24、數(shù)據(jù)集獲取模塊,用于獲取基于實(shí)體解析任務(wù)的數(shù)據(jù)集;所述數(shù)據(jù)集中每一條樣本數(shù)據(jù)包括兩個來源不同的實(shí)體以及對應(yīng)的相似結(jié)果;

    25、句子生成模塊,用于根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子;

    26、實(shí)體解析模型確定模塊,用于利用生成句子的數(shù)據(jù)集訓(xùn)練bert-pair-networks網(wǎng)絡(luò),得到實(shí)體解析模型;

    27、實(shí)體解析模塊,用于利用實(shí)體解析模型對待解析的實(shí)體進(jìn)行實(shí)體解析。

    28、第三方面,本申請?zhí)峁┝艘环N計算機(jī)設(shè)備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序以實(shí)現(xiàn)所述的實(shí)體解析方法。

    29、第四方面,本申請?zhí)峁┝艘环N計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)所述的實(shí)體解析方法。

    30、第五方面,本申請?zhí)峁┝艘环N計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)所述的實(shí)體解析方法。

    31、根據(jù)本申請?zhí)峁┑木唧w實(shí)施例,本申請公開了以下技術(shù)效果:

    32、本申請?zhí)峁┝艘环N實(shí)體解析方法、設(shè)備、介質(zhì)及產(chǎn)品,通過根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子,從句子角度出發(fā),通過生成句子,有效整合屬性數(shù)據(jù),從而對屬性數(shù)據(jù)進(jìn)行更加精確的語義理解;通過bert-pair-networks訓(xùn)練得到的實(shí)體解析模型,進(jìn)而基于bert-pair-ne本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種實(shí)體解析方法,其特征在于,所述實(shí)體解析方法包括:

    2.根據(jù)權(quán)利要求1所述的實(shí)體解析方法,其特征在于,所述根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子,具體包括:

    3.根據(jù)權(quán)利要求2所述的實(shí)體解析方法,其特征在于,所述BERT-Pair-Networks網(wǎng)絡(luò)的訓(xùn)練過程,具體包括:

    4.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,所述池化策略為平均池化、最大池化或CLS三種映射函數(shù)。

    5.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,所述利用BERT-Pair-Networks網(wǎng)絡(luò)中的MLP網(wǎng)絡(luò)將固定維度向量Ui和固定維度向量Uj進(jìn)行分類,得到分類結(jié)果,具體包括:

    6.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,訓(xùn)練BERT-Pair-Networks網(wǎng)絡(luò)的目標(biāo)函數(shù)為:

    7.一種實(shí)體解析設(shè)備,其特征在于,所述實(shí)體解析設(shè)備包括:

    8.一種計算機(jī)設(shè)備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序以實(shí)現(xiàn)權(quán)利要求1-6中任一項(xiàng)所述的實(shí)體解析方法。

    9.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-6中任一項(xiàng)所述的實(shí)體解析方法。

    10.一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,其特征在于,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-6中任一項(xiàng)所述的實(shí)體解析方法。

    ...

    【技術(shù)特征摘要】

    1.一種實(shí)體解析方法,其特征在于,所述實(shí)體解析方法包括:

    2.根據(jù)權(quán)利要求1所述的實(shí)體解析方法,其特征在于,所述根據(jù)語法知識將數(shù)據(jù)集中每一條樣本數(shù)據(jù)中的兩個實(shí)體生成相應(yīng)的句子,具體包括:

    3.根據(jù)權(quán)利要求2所述的實(shí)體解析方法,其特征在于,所述bert-pair-networks網(wǎng)絡(luò)的訓(xùn)練過程,具體包括:

    4.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,所述池化策略為平均池化、最大池化或cls三種映射函數(shù)。

    5.根據(jù)權(quán)利要求3所述的實(shí)體解析方法,其特征在于,所述利用bert-pair-networks網(wǎng)絡(luò)中的mlp網(wǎng)絡(luò)將固定維度向量ui和固定維度向量uj進(jìn)行分類,得到分類結(jié)果,具體包括:

    6...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:劉鑫姚俊萍王佳碩陳菁李曉軍郭毅
    申請(專利權(quán))人:中國人民解放軍火箭軍工程大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲无码一区二区三区| 东京热加勒比无码视频| 高清无码午夜福利在线观看| 亚洲自偷自偷偷色无码中文| 无码国产精品一区二区免费式影视 | 久久国产亚洲精品无码| 无码夜色一区二区三区| 亚洲AV综合色区无码一区爱AV| 亚洲一区二区三区无码国产| 人妻无码一区二区视频| 久久久无码精品亚洲日韩蜜臀浪潮| 国产成人无码精品一区在线观看| 精品视频无码一区二区三区| 国产成人无码一区二区在线观看| 毛片一区二区三区无码| 久久无码中文字幕东京热| 亚洲综合无码AV一区二区| 亚洲色偷拍区另类无码专区| 人妻少妇精品无码专区动漫| 亚洲看片无码在线视频| 日韩人妻无码一区二区三区99| 亚洲色偷拍另类无码专区| 自拍中文精品无码| 亚洲精品无码专区久久同性男| 熟妇人妻无码中文字幕老熟妇| 日韩精品人妻系列无码专区免费| 中文精品无码中文字幕无码专区| 亚洲?v无码国产在丝袜线观看| 免费看国产成年无码AV片| 精品久久久无码人妻中文字幕豆芽| 亚洲一区二区三区无码国产 | 无码毛片内射白浆视频| 92午夜少妇极品福利无码电影| 亚洲国产超清无码专区| 18禁无遮挡无码国产免费网站| 亚洲国产超清无码专区| 亚洲啪AV永久无码精品放毛片| 日韩精品成人无码专区免费| 西西大胆无码视频免费| 激情无码人妻又粗又大| 国产精品亚韩精品无码a在线|