【技術實現步驟摘要】
本專利技術涉及自然語言處理領域,尤其涉及一種檢測內容變更的方法和裝置。
技術介紹
在檢測內容變更時通常采用通過建立的向量空間模型來計算文檔間的相似性,進而確定某一篇的文檔內容是否有變更。向量空間模型是一種自然語言處理中常用的模型,將文檔內容的處理簡化為空間中的向量運算,并且以空間上的相似度表達文檔內容中語義的相似度。當文檔被表示為 文檔空間的向量時,可以通過計算向量之間的相似性來度量文檔間的相似性。具體的,在向量空間模型中,兩個文檔之間的語義內容相似度以兩個向量之間的夾角的余弦值表示。然而,在采用通過向量空間模型來確定廣告主內容變更時,由于廣告主內容中某一個廣告創意頁面內容會遠少于廣告主網站內容,每個詞項的詞頻在兩者中差異很大,導致計算廣告創意與廣告主網站內容的相似度時,獲得的相似度值會很小,且兩者共有的詞項數目遠少于廣告主網站中出現的詞項數目,所以若利用余弦相似度計算兩者相似度,得出的相似度值會和實際情況相差很大,導致出現錯誤報警,不能準確識別廣告主內容是否有變更。
技術實現思路
本專利技術的實施例提供一種檢測內容變更的方法和裝置,可以提高識別廣告主內容變更的準確率,降低錯誤報警。為達到上述目的,本專利技術的實施例采用如下技術方案一種檢測內容變更的方法,包括分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合;分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量;根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度;當所述相 ...
【技術保護點】
一種檢測內容變更的方法,其特征在于,包括:分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合;分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量;根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度;當所述相似度小于預設閾值時,確定所述廣告主網站內容發生變更。
【技術特征摘要】
1.一種檢測內容變更的方法,其特征在于,包括 分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合; 分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量; 根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度; 當所述相似度小于預設閾值時,確定所述廣告主網站內容發生變更。2.根據權利要求I所述的方法,其特征在于,所述分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合包括 根據任一廣告創意的內容,獲取并解析廣告創意目標頁面以及所述廣告創意目標頁面內鏈接指向的頁面,得到創意文本集合; 根據所述廣告創意對應的廣告主網站內容以及預設周期,獲取并解析廣告主網站首頁、所述廣告主網站首頁的二級頁面以及三級頁面,得到網站文本集合,所述預設周期為更新所述網站文本集合的周期。3.根據權利要求2所述的方法,其特征在于,所述分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量包括 對所述創意文本集合和所述網站文本集合中的每篇文本進行切詞; 統計預設詞庫中每個詞在切詞后的每篇文本中的詞頻; 根據統計的所述每個詞的所述詞頻,分別計算所述每個詞在所述創意文本集合和所述網站文本集合中的總詞頻; 將所述創意文本集合和所述網站文本集合映射到向量空間模型上,得到創意向量和網站向量。4.根據權利要求3所述的方法,其特征在于,所述將所述創意文本集合和所述網站文本集合映射到向量空間模型上,得到創意向量和網站向量包括 將所述創意文本集合和所述網站文本集合映射到向量空間模型上,得到第一創意向量和第一網站向量; 獲取所述第一創意向量中第一閾值參數個詞頻最高的元素,并將所述第一閾值參數個詞頻最高的元素的值設置為1,將除所述第一閾值參數個詞頻最高的元素之外所述第一創意向量中的元素的值設置為O,得到創意向量; 獲取所述第一網站向量中第二閾值參數個詞頻最高的元素,并將所述第二閾值參數個詞頻最高的元素的值設置為1,將除所述第二閾值參數個詞頻最高的元素之外所述第一網站向量中的元素的值設置為O,得到網站向量; 其中,所述第一閾值參數小于所述第二閾值參數。5.根據權利要求4所述的方法,其特征在于,所述根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度包括N 根據Sim(VpV2)=I確定所述廣告創意內容與所述廣告主網站內容的相似度;其中,V1為所述創意向量,V2為所述網站向量,N3為所述創意向量與所述網站向量中值為I的共同元素的個數,N1為所述第一閾值參數。6.根據權利要求1-5所述的方法,其特征在于,所述方法還包括 當所...
【專利技術屬性】
技術研發人員:孫翔,吳歡琴,
申請(專利權)人:盤古文化傳播有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。