• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種檢測內容變更的方法和裝置制造方法及圖紙

    技術編號:8271439 閱讀:190 留言:0更新日期:2013-01-31 03:39
    本發明專利技術公開一種檢測內容變更的方法和裝置,涉及自然語言處理領域,可以提高識別廣告主內容變更的準確率,降低錯誤報警。本發明專利技術實施例通過分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合;分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量;根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度;當所述相似度小于預設閾值時,確定所述廣告主網站內容發生變更。本發明專利技術實施例適合檢測廣告主內容是否變更時采用。

    【技術實現步驟摘要】
    本專利技術涉及自然語言處理領域,尤其涉及一種檢測內容變更的方法和裝置
    技術介紹
    在檢測內容變更時通常采用通過建立的向量空間模型來計算文檔間的相似性,進而確定某一篇的文檔內容是否有變更。向量空間模型是一種自然語言處理中常用的模型,將文檔內容的處理簡化為空間中的向量運算,并且以空間上的相似度表達文檔內容中語義的相似度。當文檔被表示為 文檔空間的向量時,可以通過計算向量之間的相似性來度量文檔間的相似性。具體的,在向量空間模型中,兩個文檔之間的語義內容相似度以兩個向量之間的夾角的余弦值表示。然而,在采用通過向量空間模型來確定廣告主內容變更時,由于廣告主內容中某一個廣告創意頁面內容會遠少于廣告主網站內容,每個詞項的詞頻在兩者中差異很大,導致計算廣告創意與廣告主網站內容的相似度時,獲得的相似度值會很小,且兩者共有的詞項數目遠少于廣告主網站中出現的詞項數目,所以若利用余弦相似度計算兩者相似度,得出的相似度值會和實際情況相差很大,導致出現錯誤報警,不能準確識別廣告主內容是否有變更。
    技術實現思路
    本專利技術的實施例提供一種檢測內容變更的方法和裝置,可以提高識別廣告主內容變更的準確率,降低錯誤報警。為達到上述目的,本專利技術的實施例采用如下技術方案一種檢測內容變更的方法,包括分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合;分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量;根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度;當所述相似度小于預設閾值時,確定所述廣告主網站內容發生變更。一種檢測內容變更的裝置,包括文本集合獲取單元,用于分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合;向量獲取單元,用于分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量;相似度確定單元,用于根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度;判決單元,用于當所述相似度小于預設閾值時,確定所述廣告主網站內容發生變更。本專利技術實施例提供一種檢測內容變更的方法和裝置,通過分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合;分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量;根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度;當所述相似度小于預設閾值時,確定所述廣告主網站內容發生變更。與現有技術中在采用通過向量空間模型來確定廣告主內容變更時,由于廣告主內容中某一個廣告創意頁面內容會遠少于廣告主網站內容,每個詞項的詞頻在兩者中差異很·大,導致計算廣告創意與廣告主網站內容的相似度時,獲得的相似度值會很小,且兩者共有的詞項數目遠少于廣告主網站中出現的詞項數目,所以若利用余弦相似度計算兩者相似度,得出的相似度值會和實際情況相差很大,導致出現錯誤報警,不能準確識別廣告主內容是否有變更相比,本專利技術實施例提供的方案采用改進的向量空間模型以及新的相似度值計算方法檢測廣告主內容變更,可以提高識別廣告主內容變更的準確率,降低錯誤報警。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。圖I為本專利技術實施例I提供的一種檢測內容變更的方法的流程圖;圖2為本專利技術實施例I提供的一種檢測內容變更的裝置的框圖;圖3為本專利技術實施例2提供的一種檢測內容變更的方法的流程圖;圖4為本專利技術實施例2提供的三級頁面示意圖;圖5為本專利技術實施例2提供的對創意文本集合進行向量化的方法的流程圖;圖6為本專利技術實施例2提供的一種檢測內容變更的裝置的框圖。具體實施例方式下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。實施例I本專利技術實施例提供一種檢測內容變更的方法,如圖I所示,該方法包括以下步驟步驟101,分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合;本步驟中,根據任一廣告創意的內容,獲取并解析廣告創意目標頁面以及所述廣告創意目標頁面內鏈接指向的頁面,得到創意文本集合;根據所述廣告創意對應的廣告主網站內容以及預設周期,獲取并解析廣告主網站首頁、所述廣告主網站首頁的二級頁面以及三級頁面,得到網站文本集合,所述預設周期為更新所述網站文本集合的周期。步驟102,分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量;本步驟中,對所述創意文本集合和所述網站文本集合中的每篇文本進行切詞;統計預設詞庫中每個詞在切詞后的每篇文本中的詞頻;根據統計的所述每個詞的所述詞頻,分別計算所述每個詞在所述創意文本集合和所述網站文本集合中的總詞頻; 將所述創意文本集合和所述網站文本集合映射到向量空間模型上,得到創意向量和網站向量。進一步的,將所述創意文本集合和所述網站文本集合映射到向量空間模型上,得到創意向量和網站向量包括將所述創意文本集合和所述網站文本集合映射到向量空間模型上,得到第一創意向量和第一網站向量;獲取所述第一創意向量中第一閾值參數個詞頻最高的元素,并將所述第一閾值參數個詞頻最高的元素的值設置為1,將除所述第一閾值參數個詞頻最高的元素之外所述第一創意向量中的元素的值設置為0,得到創意向量;獲取所述第一網站向量中第二閾值參數個詞頻最高的元素,并將所述第二閾值參數個詞頻最高的元素的值設置為1,將除所述第二閾值參數個詞頻最高的元素之外所述第一網站向量中的元素的值設置為0,得到網站向量;其中,所述第一閾值參數小于所述第二閾值參數。步驟103,根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度; N本步驟中,根據Sim(VpV2)=#確定所述廣告創意內容與所述廣告主網站內容的相似度;其中,V1為所述創意向量,V2為所述網站向量,N3為所述創意向量與所述網站向量中值為I的共同元素的個數,N1為所述第一閾值參數。步驟104,當所述相似度小于預設閾值時,確定所述廣告主網站內容發生變更。進一步的,當確定所述廣告主網站內容發生變更之后,提出報警。當所述相似度大于或者等于預設閾值時,確定所述廣告主內容未發生變更。本專利技術實施例提供一種檢測內容變更的方法,通過采用改進的向量空間模型以及新的相似度值計算方法檢測廣告主內容變更,可以提高識別廣告主內容變更的準確率,降低錯誤報警。本專利技術實施例提供一種檢測內容變更的裝置,如圖2所示,該裝置包括文本集合獲取單元20本文檔來自技高網...

    【技術保護點】
    一種檢測內容變更的方法,其特征在于,包括:分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合;分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量;根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度;當所述相似度小于預設閾值時,確定所述廣告主網站內容發生變更。

    【技術特征摘要】
    1.一種檢測內容變更的方法,其特征在于,包括 分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合; 分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量; 根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度; 當所述相似度小于預設閾值時,確定所述廣告主網站內容發生變更。2.根據權利要求I所述的方法,其特征在于,所述分別獲取任一廣告創意的內容的創意文本集合,以及所述廣告創意對應的廣告主網站內容的網站文本集合包括 根據任一廣告創意的內容,獲取并解析廣告創意目標頁面以及所述廣告創意目標頁面內鏈接指向的頁面,得到創意文本集合; 根據所述廣告創意對應的廣告主網站內容以及預設周期,獲取并解析廣告主網站首頁、所述廣告主網站首頁的二級頁面以及三級頁面,得到網站文本集合,所述預設周期為更新所述網站文本集合的周期。3.根據權利要求2所述的方法,其特征在于,所述分別對所述創意文本集合和所述網站文本集合進行文本向量化,得到創意向量和網站向量包括 對所述創意文本集合和所述網站文本集合中的每篇文本進行切詞; 統計預設詞庫中每個詞在切詞后的每篇文本中的詞頻; 根據統計的所述每個詞的所述詞頻,分別計算所述每個詞在所述創意文本集合和所述網站文本集合中的總詞頻; 將所述創意文本集合和所述網站文本集合映射到向量空間模型上,得到創意向量和網站向量。4.根據權利要求3所述的方法,其特征在于,所述將所述創意文本集合和所述網站文本集合映射到向量空間模型上,得到創意向量和網站向量包括 將所述創意文本集合和所述網站文本集合映射到向量空間模型上,得到第一創意向量和第一網站向量; 獲取所述第一創意向量中第一閾值參數個詞頻最高的元素,并將所述第一閾值參數個詞頻最高的元素的值設置為1,將除所述第一閾值參數個詞頻最高的元素之外所述第一創意向量中的元素的值設置為O,得到創意向量; 獲取所述第一網站向量中第二閾值參數個詞頻最高的元素,并將所述第二閾值參數個詞頻最高的元素的值設置為1,將除所述第二閾值參數個詞頻最高的元素之外所述第一網站向量中的元素的值設置為O,得到網站向量; 其中,所述第一閾值參數小于所述第二閾值參數。5.根據權利要求4所述的方法,其特征在于,所述根據所述創意向量和所述網站向量,以及所述創意向量和所述網站向量中共同元素的個數,確定所述廣告創意內容與所述廣告主網站內容的相似度包括N 根據Sim(VpV2)=I確定所述廣告創意內容與所述廣告主網站內容的相似度;其中,V1為所述創意向量,V2為所述網站向量,N3為所述創意向量與所述網站向量中值為I的共同元素的個數,N1為所述第一閾值參數。6.根據權利要求1-5所述的方法,其特征在于,所述方法還包括 當所...

    【專利技術屬性】
    技術研發人員:孫翔吳歡琴
    申請(專利權)人:盤古文化傳播有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品爽爽va在线观看无码| 亚洲中文字幕久久精品无码A| 亚洲AV无码专区在线厂| 精品国产aⅴ无码一区二区| 成人h动漫精品一区二区无码 | 日韩精品成人无码专区免费| 无码人妻丰满熟妇片毛片| 一区二区三区无码高清视频| 日韩精品专区AV无码| 亚洲中文字幕久久精品无码喷水| 亚洲精品无码不卡在线播放| 国产成人综合日韩精品无码不卡 | 少妇无码?V无码专区在线观看| 中文字幕人妻无码系列第三区| 久久精品aⅴ无码中文字字幕不卡 久久精品aⅴ无码中文字字幕重口 | 五月婷婷无码观看| 中文无码字幕中文有码字幕| 免费无码H肉动漫在线观看麻豆| 久久久精品天堂无码中文字幕| 亚洲av无码精品网站| 日韩精品无码免费专区网站 | 亚洲av无码国产精品色在线看不卡| 无码人妻品一区二区三区精99 | 中文字幕av无码不卡免费| 亚洲AV无码片一区二区三区| 无码国产精品一区二区免费vr | 无码人妻精品一区二区三18禁| 亚洲日韩精品无码专区网站| 性色AV无码中文AV有码VR| 国产精品无码一区二区三区不卡| 无码八A片人妻少妇久久| 久久青青草原亚洲av无码app | 无码夫の前で人妻を犯す中字| 久久青青草原亚洲AV无码麻豆 | 永久无码精品三区在线4| 免费无码肉片在线观看| 无码不卡中文字幕av| 无码人妻AⅤ一区二区三区水密桃| 人妻中文字幕AV无码专区| 无码aⅴ精品一区二区三区| 国产AV无码专区亚洲AV琪琪 |