本發明專利技術提供了一種實體匹配的方法及裝置,其中,該實體匹配的方法通過獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,然后依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量,獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量,計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度,依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。這樣,可以提高實體匹配的效率。
A method and device of entity matching
【技術實現步驟摘要】
一種實體匹配的方法及裝置
本專利技術涉及數據分析
,具體而言,涉及一種實體匹配的方法及裝置。
技術介紹
隨著社交媒體的不斷發展,社交媒體逐漸成為人們獲取信息資訊的主要方式,越來越多的人群選擇參考社交媒體平臺中的信息,制定目標方案,基于多種因素的影響,目標方案并不唯一,在第一目標方案無法實施時,如何高效的尋求相似的替代方案,成為當前迫切需要解決的問題。例如,與明星等實體相關的內容在社交媒體平臺中具有較高的討論熱度,在影視、綜藝節目選角或是品牌選擇代言人推廣時,在確定第一順位人選的同時,還需確定一些與第一順位人選相似的明星作為備選,以便當第一順位明星檔期不合時,還有多種可選方案,避免延誤后續方案的實施進程。目前,在確定與第一順位人選相似的備選時,通過獲取社交媒體平臺上粉絲群的個人信息,例如,性別,年齡,愛好等,將第一順位人選的粉絲群與其他明星的粉絲群進行匹配,獲取與第一順位人選的粉絲群重合度較大的粉絲群對應的明星作為備選,從而實現實體的匹配。這種實體匹配的方法,由于不同社交媒體平臺中用戶信息存儲格式不同,因此,在匹配過程中,難以分析跨平臺獲取的數據信息,例如,不同格式的信息無法匹配,造成匹配資源的浪費,或是匹配錯誤,使得匹配結果的可信度不高,導致實體匹配的效率較低。
技術實現思路
有鑒于此,本專利技術的目的在于提供實體匹配的方法及裝置,以提高實體匹配的效率。第一方面,本專利技術實施例提供了實體匹配的方法,所述方法包括:獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫;依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣;從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量;獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量;計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度;依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。結合第一方面,本專利技術實施例提供了第一方面的第一種可能的實施方式,其中,所述獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,包括:從社交媒體平臺上爬取文本信息,得到所述訓練文本信息;對所述訓練文本信息進行分詞,基于分詞結果,合并所述分詞結果中的重復詞,得到所述實體詞庫。結合第一方面,本專利技術實施例提供了第一方面的第二種可能的實施方式,其中,所述依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,包括:依據所述實體詞庫中包含的實體詞,構建實體詞行向量,每一實體詞對應一實體詞行向量,所述實體詞行向量的列數為統計的所述實體詞庫中包含的實體詞個數;針對每一所述實體詞行向量,統計該實體詞行向量對應的實體詞與所述實體詞庫中的實體詞在所述訓練文本信息中同時出現的頻次,填入該實體詞行向量對應的列。結合第一方面,本專利技術實施例提供了第一方面的第三種可能的實施方式,其中,所述從所述實體詞庫中獲取待匹配實體映射的目標實體詞,包括:對所述待匹配實體進行分詞,得到待匹配分詞結果,從所述實體詞庫中,獲取與所述待匹配分詞結果相匹配的目標實體詞。結合第一方面的第三種可能的實施方式,本專利技術實施例提供了第一方面的第四種可能的實施方式,其中,所述從所述實體詞庫中獲取待匹配實體映射的目標實體詞,還包括:若從所述實體詞庫中,獲取不到與所述待匹配分詞結果相匹配的目標實體詞,從社交媒體平臺上,爬取包含所述待匹配分詞結果的補充文本信息,對所述補充文本信息進行分詞;基于分詞結果,將不同于所述實體詞庫中的實體詞補充至所述實體詞庫中;基于補充的實體詞,對所述實體詞向量矩陣進行更新。結合第一方面,本專利技術實施例提供了第一方面的第五種可能的實施方式,其中,所述獲取所述目標實體詞對應的行向量,包括:判斷獲取的所述目標實體詞對應的行向量是否唯一;若否,通過矩陣運算法則,合并所述目標實體詞對應的行向量。結合第一方面,本專利技術實施例提供了第一方面的第六種可能的實施方式,其中,所述依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體,包括:判斷所述計算得到的余弦相似度是否超過預設的相似度閾值;若是,則確定所述計算得到的余弦相似度對應的候選列向量對應的實體與所述待匹配實體相匹配。第二方面,本專利技術實施例還提供了一種實體匹配的裝置,所述裝置包括:詞庫構建模塊,用于獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫;矩陣構建模塊,用于依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣;行向量獲取模塊,用于從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量;列向量獲取模塊,用于獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量;相似度計算模塊,用于計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度;實體匹配模塊,用于依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。第三方面,本申請實施例提供了一種計算機設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述實體匹配的方法的步驟。第四方面,本申請實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器運行時執行上述實體匹配的方法的步驟。本專利技術實施例提供的實體匹配的方法及裝置,通過獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,然后依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量,獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量,進而計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度,依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。這樣,通過獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,然后依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,由于所述實體匹配的方法利用的是具有實際討論內容的文本信息,提高了匹配結果的可信度,并且文本信息在不同的社交媒體平臺中格式相同,因此減少了對匹配資源的浪費,進而提高了實體匹配的效率。為使本專利技術的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。附圖說明為了更清楚地說明本專利技術實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本專利技術的某些實施例,因此不應被看作是對范圍的限定,對于本本文檔來自技高網...
【技術保護點】
1.一種實體匹配的方法,其特征在于,所述方法包括:/n獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫;/n依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣;/n從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量;/n獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量;/n計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度;/n依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。/n
【技術特征摘要】
1.一種實體匹配的方法,其特征在于,所述方法包括:
獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫;
依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣;
從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量;
獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量;
計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度;
依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。
2.根據權利要求1所述的方法,其特征在于,所述獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,包括:
從社交媒體平臺上爬取文本信息,得到所述訓練文本信息;
對所述訓練文本信息進行分詞,基于分詞結果,合并所述分詞結果中的重復詞,得到所述實體詞庫。
3.根據權利要求1所述的方法,其特征在于,所述依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,包括:
依據所述實體詞庫中包含的實體詞,構建實體詞行向量,每一實體詞對應一實體詞行向量,所述實體詞行向量的列數為統計的所述實體詞庫中包含的實體詞個數;
針對每一所述實體詞行向量,統計該實體詞行向量對應的實體詞與所述實體詞庫中的實體詞在所述訓練文本信息中同時出現的頻次,填入該實體詞行向量對應的列。
4.根據權利要求1所述的方法,其特征在于,所述從所述實體詞庫中獲取待匹配實體映射的目標實體詞,包括:
對所述待匹配實體進行分詞,得到待匹配分詞結果,從所述實體詞庫中,獲取與所述待匹配分詞結果相匹配的目標實體詞。
5.根據權利要求4所述的方法,其特征在于,所述從所述實體詞庫中獲取待匹配實體映射的目標實體詞,還包括:
若從所述實體詞庫中,獲取不到與所述待匹配分詞結果相匹配的目標實體詞,從社交媒體平臺上,爬取包含所述待匹配分詞結果的補充文本信息,對...
【專利技術屬性】
技術研發人員:張夢醒,
申請(專利權)人:精碩科技北京股份有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。