本申請屬于自然語言處理技術領域,具體涉及一種實體簡介生成方法、設備及存儲介質。該方法包括,獲取待生成簡介的目標實體的三元組數據;確定與三元組數據相關的目標文檔;使用目標文檔確定三元組數據中符合目標實體簡介的目標三元組數據和目標三元組數據的排列順序;使用目標三元組數據確定實體類別;將目標三元組數據按照順序融合為符合實體類別的實體簡介,得到目標實體的實體簡介;由于可以篩選出對目標實體更有價值的三元組數據,同時可以結合與目標實體相關的文檔按照三元組數據的排列順序以及實體類別進行融合,這樣可以避免生成的實體簡介內容出現單一、死板、重復的現象。現象。現象。
【技術實現步驟摘要】
實體簡介生成方法、設備及存儲介質
[0001]本申請屬于自然語言處理
,具體涉及一種實體簡介生成方法、設備及存儲介質。
技術介紹
[0002]實體是指客觀存在并可相互區別的事物。實體通常具有多種屬性。目前通常需要按照實體的屬性對實體進行介紹,因此,需要生成實體簡介。
[0003]傳統的實體簡介生成方法包括:獲取目標實體的多種屬性的三元組數據和多種屬性之間的相關關系;將多個三元組數據和該相關關系輸入預訓練的融合模型,得到目標實體簡介。
[0004]然而,不是所有屬性的屬性數據都是用戶期望獲知的,按照傳統的介紹內容生成方法會導致生成的介紹內容出現冗余的問題。
技術實現思路
[0005]本申請提供了實體簡介生成方法、設備及存儲介質,可以解決傳統的介紹內容生成方法會導致生成的介紹內容出現冗余的問題。本申請提供如下技術方案:
[0006]第一方面,提供了一種實體簡介生成方法,所述方法包括:
[0007]獲取待生成簡介目標實體的三元組數據;
[0008]確定與所述三元組數據相關的目標文檔;
[0009]使用所述目標文檔確定所述三元組數據中符合所述目標實體簡介的目標三元組數據和所述目標三元組數據的排列順序;
[0010]使用所述目標三元組數據確定所述實體類別;
[0011]將所述目標三元組數據按照所述順序融合為符合所述實體類別的實體簡介,得到所述目標實體簡介。
[0012]可選地,所述目標文檔包括第一目標文檔和第二目標文檔,其中,第二目標文檔中與所述目標實體相關度高于所述第一目標文檔與所述目標實體相關度;
[0013]所述使用所述目標文檔確定所述三元組數據中符合所述目標實體簡介的目標三元組數據和所述目標三元組數據的排列順序,包括:
[0014]使用所述第一目標文檔和所述第二目標文檔確定所述三元組數據中的目標三元組數據;
[0015]使用所述第二目標文檔確定所述目標三元組數據的排列順序。
[0016]可選地,所述使用所述第一目標文檔和所述第二目標文檔確定所述三元組數據中的目標三元組數據,包括:
[0017]對于每個目標文檔,將每個三元組數據與所述目標文檔中的各分句進行對齊處理,得到與所述三元組數據對齊的至少一個對齊分句,以及所述三元組數據的對齊次數;
[0018]獲取每個對齊分句在所述目標文檔中的注意力權重;
[0019]基于所述對齊次數與所述注意力權重確定所述三元組數據在所述目標文檔中的得分值;
[0020]確定每個三元組數據在各個目標文檔中的得分值的加權平均值,得到每個三元組數據的目標分數;
[0021]確定目標分數大于分數閾值的三元組數據,得到所述目標三元組數據。
[0022]可選地,所述使用所述第二目標文檔確定所述目標三元組數據的排列順序,包括:
[0023]將所述目標三元組數據與所述第二目標文檔中各分句進行對齊,得到與所述目標三元組數據對齊的目標對齊分句;
[0024]獲取所述目標對齊分句在所述第二目標文檔中出現的分句順序,得到所述排列順序。
[0025]可選地,所述確定與所述三元組數據相關的目標文檔,+
[0026]獲取原始文檔集;
[0027]確定所述原始文檔集每個原始文檔與所述三元組數據相關性;
[0028]確定與所述三元組數據相關性高于相關度閾值的原始文檔,得到所述目標文檔。
[0029]可選地,所述確定所述原始文檔集每個原始文檔與所述三元組數據相關性,包括:
[0030]確定各個原始文檔中各分句的句子向量和各個三元組數據的向量值;
[0031]確定所述句子向量值與所述向量值的相似度;
[0032]獲取各個所述原始文檔的時間信息;
[0033]使用所述相似度和時間因子,或者使用所述相似度確定所述各個原始文檔與所述目標實體的三元組數據的相關性。
[0034]可選地,所述將所述目標三元組數據按照所述順序融合為符合所述實體類別的實體簡介,得到所述目標實體簡介,包括:
[0035]將所述實體類別、所述目標三元組數據和所述目標文檔輸入至預先訓練的融合模型,得到目標實體簡介;
[0036]其中,所述融合模型使用訓練數據對預設的神經網絡模型訓練得到,所述訓練數據包括樣本實體類別標簽,樣本目標三元組數據,樣本目標文檔以及融合后的目標實體簡介。
[0037]第二方面,提供了一種實體簡介生成裝置,所述裝置包括:
[0038]數據獲取模塊,用于獲取待生成簡介目標實體的三元組數據;
[0039]第一確定模塊,用于確定與所述三元組數據相關的目標文檔;
[0040]第二確定模塊,用于使用所述目標文檔確定所述三元組數據中符合所述目標實體簡介的目標三元組數據和所述目標三元組數據的排列順序;
[0041]第三確定模塊,用于使用所述目標三元組數據確定所述實體類別;
[0042]數據融合模塊,用于將所述目標三元組數據按照所述順序融合為符合所述實體類別的實體簡介,得到所述目標實體簡介。
[0043]第三方面,提供了一種電子設備,所述設備包括處理器和存儲器;所述存儲器中存儲有程序,所述程序由所述處理器加載并執行以實現如第一方面所述的實體簡介生成方法。
[0044]第四方面,提供了一種計算機可讀存儲介質,所述存儲介質中存儲有程序,所述程
序被處理器執行時用于實現如第一方面所述的實體簡介生成方法。
[0045]本申請的有益效果在于:通過獲取待生成簡介目標實體的三元組數據;確定與所述三元組數據相關的目標文檔;使用所述目標文檔確定所述三元組數據中符合所述目標實體簡介的目標三元組數據和所述目標三元組數據的排列順序;使用所述目標三元組數據確定所述實體類別;將所述目標三元組數據按照所述順序融合為符合所述實體類別的實體簡介,得到所述目標實體簡介;由于可以通過對用戶期望獲知的三元組數據的篩選以及目標文檔與三元組數據的融合,來避免實體簡介內容的冗余,同時增強實體簡介在表達上的多樣性。
[0046]另外,由于傳統的實體簡介生成方法并不會對目標實體的三元組數據的排列順序進行排序,這樣就會導致生成的實體簡介會出現語句不通順的問題,基于上述技術問題,本實施例中,通過使用第二目標文檔確定目標三元組數據的排列順序,由于第二目標文檔是已經編輯且經過潤色的文檔內容,第二目標文檔的語句符合正常排列順序,這樣通過第二目標文檔確定的目標三元組數據的排列順序符合正常閱讀順序,因此可以提高生成的實體簡介的可讀性。
[0047]另外,由于傳統的實體簡介生成方法在對三元組數據的篩選的不足,導致生成的實體簡介往往只是三元組數據的堆積,生成的實體簡介內容中容易出現一些對目標實體并不重要的屬性信息,無法體現目標實體自身的特點,難以與異類實體相區分。基于上述技術問題,本實施例從三元組數據是否有助于識別實體類別角度出發來篩選三元組數據,丟棄對目標實體不重要的三本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種實體簡介生成方法,其特征在于,所述方法包括:獲取待生成簡介目標實體的三元組數據;確定與所述三元組數據相關的目標文檔;使用所述目標文檔確定所述三元組數據中符合所述目標實體簡介的目標三元組數據和所述目標三元組數據的排列順序;使用所述目標三元組數據確定所述實體類別;將所述目標三元組數據按照所述順序融合為符合所述實體類別的實體簡介,得到所述目標實體簡介。2.根據權利要求1所述的方法,其特征在于,所述目標文檔包括第一目標文檔和第二目標文檔,其中,第二目標文檔中與所述目標實體相關度高于所述第一目標文檔與所述目標實體相關度;所述使用所述目標文檔確定所述三元組數據中符合所述目標實體簡介的目標三元組數據和所述目標三元組數據的排列順序,包括:使用所述第一目標文檔和所述第二目標文檔確定所述三元組數據中的目標三元組數據;使用所述第二目標文檔確定所述目標三元組數據的排列順序。3.根據權利要求2所述的方法,其特征在于,所述使用所述第一目標文檔和所述第二目標文檔確定所述三元組數據中的目標三元組數據,包括:對于每個目標文檔,將每個三元組數據與所述目標文檔中的各分句進行對齊處理,得到與所述三元組數據對齊的至少一個對齊分句,以及所述三元組數據的對齊次數;獲取每個對齊分句在所述目標文檔中的注意力權重;基于所述對齊次數與所述注意力權重確定所述三元組數據在所述目標文檔中的得分值;確定每個三元組數據在各個目標文檔中的得分值的加權平均值,得到每個三元組數據的目標分數;確定目標分數大于分數閾值的三元組數據,得到所述目標三元組數據。4.根據權利要求2所述的方法,其特征在于,所述使用所述第二目標文檔確定所述目標三元組數據的排列順序,包括:將所述目標三元組數據與所述第二目標文檔中各分句進行對齊,得到與所述目標三元組數據對齊的目標對齊分句;獲取所述目標對齊分句在所述第二目標文檔中出現的分句順序,得到所述排列順序。5.根據權利要求1所述的方法,其特征在于,所述確定與所述三元組數據相...
【專利技術屬性】
技術研發人員:李翔,施淼元,李茂龍,繆慶亮,俞凱,
申請(專利權)人:思必馳科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。