The invention provides a RTB for advertising value analysis method, which comprises the following steps: first, using MapReduce module of Hadoop cluster, Mapper and Reducer function, the statistic number of each host appears, and the statistical results of Hadoop written in FS file system; two, the statistical results from the Hadoop FS file use the Redis system database, filter access times and less than the lower limit number larger than the upper limit of the site URL URL list file; three, according to the host list, write web crawler to crawl each site HTML source code, according to the advertising features to calculate the properties of advertising in the HTML source code, and the preservation of property statistical results for the advertisement file; four, the statistical results of the advertisement file with the URL list with advertising statistics RTB auction website in high value column Table, modeling the website advertising value score. The invention also provides a system for analyzing the value of the RTB competitive advertising position.
【技術實現步驟摘要】
一種RTB競價廣告位價值分析方法及系統
本專利技術屬于大數據處理
,具體地涉及一種RTB競價廣告位價值分析方法及系統。
技術介紹
實時競價(Real-TimeBidding)廣告簡稱為RTB廣告,2010年最先在美國興起,并很快被引入國內。對于RTB廣告,從不同的角度有不同的理解。從用戶數據分析的角度,RTB廣告是一種在用戶數據分析基礎上針對每個用戶的廣告展示行為展開實時競價的廣告類型。而從技術和平臺的宏觀角度出發,RTB廣告是一種模仿股票交易模式,通過機器算法實現實時自動買賣的廣告類型。在RTB廣告的交易過程中,實時競價技術是最關鍵的技術,需求方(DemandSidePlatform,簡稱DSP)會向媒體采購廣告位,廣告位的價值是DSP出價高低的關鍵因素。一般情況下,DSP會接入海量的網站的廣告位,如何判斷廣告位是否值得競價購買或出價多少購買是困擾DSP的一個難題。但是,從經濟和高效的角度出發,DSP更愿意購買訪問量不高且頁面較為優質的網站的廣告位,主要原因有兩個,第一,在以前這是不被重視的市場,因此往往具有相對低廉的價格優勢;第二是此類網站市場份額雖小,但由于數量眾多,是一個巨大的微小市場,卻也占據了市場中客觀的份額,也因此會存在眾多優質的廣告。同時,近年來隨著技術的進步、互聯網速度不斷提升、以及移動互聯網的更新換代,都使得我們對海量網絡數據分析的需求不斷加深。而面對成幾何級數增長的海量網絡數據,很多行業都開始設法將其變“數”為寶,并從中分析挖掘出更具商業價值的數據信息。將大數據分析應用到網站廣告位的價值分析上,將更能體現出大數據的商業和技術優勢 ...
【技術保護點】
一種RTB競價廣告位價值分析方法,其特征在于:包括如下步驟:一、輸入互聯網的網絡數據到Hadoop集群中,并運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數,統計出每個host出現的數目,并將統計結果寫入Hadoop?FS文件系統中;二、將統計結果從Hadoop?FS文件系統中導出,并導入Redis數據庫,在Redis中,過濾掉訪問大于上限次數和小于下限次數的網站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依據上述獲得RTB競價中高價值網站的host列表,編寫網絡爬蟲去爬取每個網站的html源碼,依據廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統計結果文件;四、將所述廣告統計結果文件與URL列表文件合并,依據訪問量進行排序,獲得RTB競價中高價值網站網站的廣告統計列表,對網站廣告價值評分標準建模,并對Hadoop篩選結果和爬蟲結果進行量化分析。
【技術特征摘要】
1.一種RTB競價廣告位價值分析方法,其特征在于:包括如下步驟:一、輸入互聯網的網絡數據到Hadoop集群中,并運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數,統計出每個host出現的數目,并將統計結果寫入HadoopFS文件系統中;二、將統計結果從HadoopFS文件系統中導出,并導入Redis數據庫,在Redis中,過濾掉訪問大于上限次數和小于下限次數的網站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依據上述獲得RTB競價中高價值網站的host列表,編寫網絡爬蟲去爬取每個網站的html源碼,依據廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統計結果文件;四、將所述廣告統計結果文件與URL列表文件合并,依據訪問量進行排序,獲得RTB競價中高價值網站網站的廣告統計列表,對網站廣告價值評分標準建模,并對Hadoop篩選結果和爬蟲結果進行量化分析。2.根據權利要求1所述的RTB競價廣告位價值分析方法,其特征在于:在步驟一中,具體包括如下步驟:從每條DPI日志的URL字段中抽取Host;在每個Mapper中建立字典,字典的Key為Host字符串,值為該Key出現的頻次,每當有重復的Key出現時,對應的值就增加一,當Mapper的循環結束時,將字典的信息Key和Value打印出來交由Reducer匯總統計;在Reducer中,Mapper的輸出被還原為字典,Key為Host字符串,值為Mapper階段各個節點的輸出,隨后Reducer對相同的Key進行值合并,得到最終的頻次之和,并統計輸出;將統計結果寫入HadoopFS文件系統中。3.根據權利要求1所述的RTB競價廣告位價值分析方法,其特征在于:在步驟二中,網站訪問次數的上限次數和下限次數均建模得出,建模公式為:其中,Nf表示判斷RTB競價高價值網站訪問次數上限次數,Nb表示高價值網站訪問次數下限次數,M表示網站的總個數,N1、N2、…NM分別代表網站訪問從第一至第M個的網站的訪問次數。4.根據權利要求1所述的RTB競價廣告位價值分析方法,其特征在于:所述高價值網站為網站訪問量處于Nf、Nb之間的網站。5.根據權利要求1所述的RTB競價廣告位價值分析方法,其特征在于:在步驟三中,具體包括如下步驟:根據URL對指定網頁進行內容獲取;使用爬蟲爬取網頁的標題、關鍵...
【專利技術屬性】
技術研發人員:陳輝,許愷,黃強松,黃娟,
申請(專利權)人:江蘇號百信息服務有限公司,
類型:發明
國別省市:江蘇,32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。