本發明專利技術適用于信息安全領域,提供了自動提交內容的檢測方法以及裝置,所述方法包括下述步驟:獲取用戶在預設時間內提交的內容數據的屬性,所述內容數據的屬性包括所述內容數據的長度以及提交所述內容數據的時間;根據所述內容數據的屬性提取自動提交的關鍵特征,并將所述自動提交的關鍵特征與預設的閾值進行比較,檢測用戶提交的內容數據是否為自動提交內容。本發明專利技術實施例由于在提取自動提交關鍵特征以及判斷用戶提交的內容數據是否為自動提交時都只針對單個用戶提交的內容數據,無需抽取關鍵詞、解析檢索結果頁面以及文本相似度計算等,因此計算處理簡單且效率較高。
【技術實現步驟摘要】
本專利技術屬于信息安全領域,尤其涉及一種自動提交內容的檢測方法以及裝置。
技術介紹
隨著網絡技術的發展,人們能夠通過網絡實現在線 支付、在線問答等功能,但由于網絡功能仍不夠完善,因此當人們在享受網絡帶來的便利的同時仍需承擔相應的風險,比如被程序自動提交的內容數據竊取了在線支付的密碼,從程序自動提交的內容數據中獲取了廣告信息等。以問答社區中的作弊用戶為例,這些作弊用戶通常針對指定分類下的問題,采用自動程序自動從本問答社區或其他問答社區搜索相關問題并提取答案,然后自動將這些答案內容數據提交為當前問題的回答,以提高自己在社區中的等級、經驗等屬性值,或者在自動提交的內容數據中夾雜廣告信息以達到推廣產品的目的。使用自動程序提交內容不僅嚴重破壞了問答社區的公平性,而且影響了問答社區的內容質量。現有的自動提交內容檢測方法主要是通過關鍵詞檢測的。該方法首先從當前提交內容數據中抽取若干個關鍵詞(一般為I 3個),然后依次在百度知道和搜搜問問的搜索入口執行自動搜索,并解析出百度知道和搜搜問問的首頁結果中的ToplO結果,如果某個結果頁面中的最佳回答或滿意答案和當前提交內容的相似度大于或者等于給定閾值,則認為當前提交內容為機器自動提交的內容數據。如果當前提交的內容數據在所有問答社區的搜索結果中都沒有找到足夠相似的答案,則認為當前提交的內容數據不是程序自動提交的內容數據。該自動提交內容數據檢測方法由于涉及關鍵詞抽取、檢索結果頁面解析以及文本相似度計算,因此技術處理復雜且檢測效率較低。
技術實現思路
本專利技術實施例提供了一種自動提交內容的檢測方法,旨在解決現有的自動提交內容檢測方法在檢測提交的內容數據是否為采用程序自動提交時所導致的技術處理復雜且檢測效率較低的問題。本專利技術實施例是這樣實現的,一種自動提交內容的檢測方法,所述方法包括下述步驟獲取用戶在預設時間內提交的內容數據的屬性,所述內容數據的屬性包括所述內容數據的長度以及提交所述內容數據的時間;根據所述內容數據的屬性提取自動提交的關鍵特征,并將所述自動提交的關鍵特征與預設的閾值進行比較,檢測用戶提交的內容數據是否為自動提交內容。本專利技術實施例的另一目的在于提供一種自動提交內容的檢測裝置,所述裝置包括內容數據屬性獲取單元,用于獲取用戶在預設時間內提交的內容數據的屬性,所述內容數據的屬性包括所述內容數據的長度以及提交所述內容數據的時間;自動提交檢測單元,用于根據所述內容數據的屬性提取自動提交的關鍵特征,并將所述自動提交的關鍵特征與預設的閾值進行比較,檢測用戶提交的內容數據是否為自動提交內容。本專利技術實施例通過對單個用戶在預設時間內所提交的內容數據進行分析,提取出內容數據自動提交的關鍵特征,根據該內容數據自動提交的特征檢測提交的內容數據是否為程序自動提交,并輸出檢測結果。由于該檢測方法在提取自動提交關鍵特征以及判斷用戶提交的內容數據是否為自動提交時都只針對單個用戶提交的內容數據,無需抽取關鍵詞、解析檢索結果頁面以及文本相似度計算等,因此計算處理簡單且效率較高,此外,該檢測方法的檢測范圍較廣,能夠檢測出的內容數據可以為用戶自定義且無法在問答社區的搜索入口中找到的內容數據。附圖說明圖I是本專利技術第一實施例提供的自動提交內容的檢測方法的流程圖; 圖2是本專利技術第二實施例提供的自動提交內容的檢測裝置的結構示意圖;圖3是本專利技術提供的檢測裝置的自動提交檢測單元的第一實施例的結構圖;圖4是本專利技術提供的檢測裝置的自動提交檢測單元的第二實施例的結構圖;圖5是本專利技術提供的檢測裝置的自動提交檢測單元的第三實施例的結構圖;圖6是本專利技術提供的檢測裝置的自動提交檢測單元的第四實施例的結構圖;圖7是本專利技術提供的檢測裝置的自動提交檢測單元的第五實施例的結構圖;圖8是本專利技術提供的檢測裝置的自動提交檢測單元的第六實施例的結構圖。具體實施例方式為了使本專利技術的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本專利技術進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本專利技術,并不用于限定本專利技術。本專利技術實施例以用戶為分析對象,通過分析用戶提交的內容數據來提取自動提交內容的關鍵特征,并根據該關鍵特征檢測用戶提交的內容數據是否為自動提交內容。本專利技術實施例提供了一種自動提交內容的檢測方法以及裝置。所述方法包括獲取用戶在預設時間內提交的內容數據的屬性,所述內容數據的屬性包括所述內容數據的長度以及提交所述內容數據的時間;根據所述內容數據的屬性提取自動提交的關鍵特征,并將所述自動提交的關鍵特征與預設的閾值進行比較,檢測用戶提交的內容數據是否為自動提交內容。所述裝置包括內容數據屬性獲取單元,用于獲取用戶在預設時間內提交的內容數據的屬性,所述內容數據的屬性包括所述內容數據的長度以及提交所述內容數據的時間;自動提交檢測單元,用于根據所述內容數據的屬性提取自動提交的關鍵特征,并將所述自動提交的關鍵特征與預設的閾值進行比較,檢測用戶提交的內容數據是否為自動提交內容。本專利技術實施例通過對單個用戶在預設時間內所提交的內容數據進行分析,提取出內容數據自動提交的關鍵特征,根據該內容數據自動提交的特征檢測提交的內容數據是否為程序自動提交,并輸出檢測結果。由于該檢測方法在提取自動提交關鍵特征以及判斷用戶提交的內容數據是否為自動提交時都只針對單個用戶提交的內容數據,無需抽取關鍵詞、解析檢索結果頁面以及文本相似度計算等,因此計算處理簡單且效率較高,此外,該檢測方法的檢測范圍較廣,能夠檢測出的內容數據可以為用戶自定義且無法在問答社區的搜索入口中找到的內容數據。為了說明本專利技術所述的技術方案,下面通過具體實施例來進行說明。實施例一:圖I示出了本專利技術第一實施例提供的自動提交內容的檢測方法的流程,在本實施例以用戶為分析對象,通過分析用戶提交的內容數據來檢測采用程序自動提交的內容數據,從而使檢測的處理更加簡單,檢測的范圍更全面。在步驟Sll中,獲取用戶在預設時間內提交的內容數據的屬性,該內容數據的屬 性包括該內容數據的長度以及提交該內容數據的時間。在本實施例中,預設一個時間,比如預設一個小時或者預設一天,在該預設的時間內,從用戶提交內容的數據庫中獲取當前用戶所有已提交的內容數據以及該內容數據的屬性等。作為本專利技術的另一個實施例,將獲取的內容數據根據該內容數據的先后提交時間進行排序。該內容數據的屬性包括內容數據的長度以及提交該內容數據的時間等,根據前后兩個提交的內容數據的時間可以計算出提交這兩個內容數據的時間間隔。在步驟S12中,根據該內容數據的屬性提取自動提交的關鍵特征,并將該自動提交的關鍵特征與預設的閾值進行比較,檢測用戶提交的內容數據是否為自動提交內容。其中,自動提交的關鍵特征包括長數據的數量、長數據個數比例、內容數據長度均方差、提交時間間隔的最大重復次數、時間間隔最集中分布的時間區間、前兩個時間間隔最集中分布的時間區間以及內容數據連續提交的時間中的至少一個。比如,將長數據的數量作為內容數據自動提交的關鍵特征。由于在有限的時間間隔內,手工提交的內容數據的長度是有限的,如果用戶有很多條較長的內容數據都是在很有限的時間間隔內提交的,則用戶所提交的內容數據很可能是采用程序自動提交的。將長數據的數量作為內容數據自動提交的關鍵特征時,首先對長數據進行預定義預設第一長本文檔來自技高網...

【技術保護點】
一種自動提交內容的檢測方法,其特征在于,所述方法包括下述步驟:獲取用戶在預設時間內提交的內容數據的屬性,所述內容數據的屬性包括所述內容數據的長度以及提交所述內容數據的時間;根據所述內容數據的屬性提取自動提交的關鍵特征,并將所述自動提交的關鍵特征與預設的閾值進行比較,檢測用戶提交的內容數據是否為自動提交內容。
【技術特征摘要】
【專利技術屬性】
技術研發人員:賀海軍,李潤超,勇鳳偉,李晶,高自光,郭奇,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。