• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種RTB競價廣告位價值分析方法及系統技術方案

    技術編號:15690961 閱讀:68 留言:0更新日期:2017-06-24 03:46
    本發明專利技術提供了一種RTB競價廣告位價值分析方法,并包括如下步驟:一、運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數,統計出每個host出現的數目,并將統計結果寫入Hadoop?FS文件系統中;二、將統計結果從Hadoop?FS文件系統導入Redis數據庫,過濾掉訪問大于上限次數和小于下限次數的網站的URL,得到URL列表文件;三、依據上述獲得host列表,編寫網絡爬蟲去爬取每個網站的html源碼,依據廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統計結果文件;四、將所述廣告統計結果文件與URL列表文件合并,獲得RTB競價中高價值網站網站的廣告統計列表,對網站廣告價值評分標準建模。本發明專利技術還提供一種RTB競價廣告位價值分析方法的系統。

    RTB competitive advertising value analysis method and system

    The invention provides a RTB for advertising value analysis method, which comprises the following steps: first, using MapReduce module of Hadoop cluster, Mapper and Reducer function, the statistic number of each host appears, and the statistical results of Hadoop written in FS file system; two, the statistical results from the Hadoop FS file use the Redis system database, filter access times and less than the lower limit number larger than the upper limit of the site URL URL list file; three, according to the host list, write web crawler to crawl each site HTML source code, according to the advertising features to calculate the properties of advertising in the HTML source code, and the preservation of property statistical results for the advertisement file; four, the statistical results of the advertisement file with the URL list with advertising statistics RTB auction website in high value column Table, modeling the website advertising value score. The invention also provides a system for analyzing the value of the RTB competitive advertising position.

    【技術實現步驟摘要】
    一種RTB競價廣告位價值分析方法及系統
    本專利技術屬于大數據處理
    ,具體地涉及一種RTB競價廣告位價值分析方法及系統。
    技術介紹
    實時競價(Real-TimeBidding)廣告簡稱為RTB廣告,2010年最先在美國興起,并很快被引入國內。對于RTB廣告,從不同的角度有不同的理解。從用戶數據分析的角度,RTB廣告是一種在用戶數據分析基礎上針對每個用戶的廣告展示行為展開實時競價的廣告類型。而從技術和平臺的宏觀角度出發,RTB廣告是一種模仿股票交易模式,通過機器算法實現實時自動買賣的廣告類型。在RTB廣告的交易過程中,實時競價技術是最關鍵的技術,需求方(DemandSidePlatform,簡稱DSP)會向媒體采購廣告位,廣告位的價值是DSP出價高低的關鍵因素。一般情況下,DSP會接入海量的網站的廣告位,如何判斷廣告位是否值得競價購買或出價多少購買是困擾DSP的一個難題。但是,從經濟和高效的角度出發,DSP更愿意購買訪問量不高且頁面較為優質的網站的廣告位,主要原因有兩個,第一,在以前這是不被重視的市場,因此往往具有相對低廉的價格優勢;第二是此類網站市場份額雖小,但由于數量眾多,是一個巨大的微小市場,卻也占據了市場中客觀的份額,也因此會存在眾多優質的廣告。同時,近年來隨著技術的進步、互聯網速度不斷提升、以及移動互聯網的更新換代,都使得我們對海量網絡數據分析的需求不斷加深。而面對成幾何級數增長的海量網絡數據,很多行業都開始設法將其變“數”為寶,并從中分析挖掘出更具商業價值的數據信息。將大數據分析應用到網站廣告位的價值分析上,將更能體現出大數據的商業和技術優勢。但是,面對海量網絡數據分析之前需要面對如下的一些問題,諸如未能與時俱進的磁盤數據讀取速度問題、硬件故障常態化的問題等等。Hadoop集群是一種專門為存儲和分析海量非結構化數據而設計的特定類型的集群。本質上,它是一種計算集群,即將數據分析的工作分配到多個集群節點上,從而并行處理數據。使用Hadoop集群最大的好處在于它非常適合大數據分析,而它的兩大核心技術HDFS和MapReduce更是將大數據處理提高到了一個新的水平。HDFS是分布式文件系統,它所具有的高容錯高可靠性、高可擴展性、高獲得性、高吞吐率等特征為海量數據提供了不怕故障的存儲,為超大數據集的應用處理帶來了很大的便利。而MapReduce是指一種處理海量數據的并行編程模型和計算框架,用于對大規模數據集的并行計算。因此,有必要提供出一種RTB競價廣告位價值分析方法。
    技術實現思路
    本專利技術的目的在于提供一種RTB競價廣告位價值分析方法。本專利技術的技術方案如下:一種RTB競價廣告位價值分析方法,包括如下步驟:一、輸入互聯網的網絡數據到Hadoop集群中,并運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數,統計出每個host出現的數目,并將統計結果寫入HadoopFS文件系統中;二、將統計結果從HadoopFS文件系統中導出,并導入Redis數據庫,在Redis中,過濾掉訪問大于上限次數和小于下限次數的網站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依據上述獲得RTB競價中高價值網站的host列表,編寫網絡爬蟲去爬取每個網站的html源碼,依據廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統計結果文件;四、將所述廣告統計結果文件與URL列表文件合并,依據訪問量進行排序,獲得RTB競價中高價值網站網站的廣告統計列表,對網站廣告價值評分標準建模,并對Hadoop篩選結果和爬蟲結果進行量化分析。優選地,在步驟一中,具體包括如下步驟:從每條DPI日志的URL字段中抽取Host;在每個Mapper中建立字典,字典的Key為Host字符串,值為該Key出現的頻次,每當有重復的Key出現時,對應的值就增加一,當Mapper的循環結束時,將字典的信息Key和Value打印出來交由Reducer匯總統計;在Reducer中,Mapper的輸出被還原為字典,Key為Host字符串,值為Mapper階段各個節點的輸出,隨后Reducer對相同的Key進行值合并,得到最終的頻次之和,并統計輸出;將統計結果寫入HadoopFS文件系統中。優選地,在步驟二中,網站訪問次數的上限次數和下限次數均建模得出,建模公式為:其中,Nf表示判斷RTB競價高價值網站訪問次數上限次數,Nb表示高價值網站訪問次數下限次數,M表示網站的總個數,N1、N2、…NM分別代表網站訪問從第一至第M個的網站的訪問次數。優選地,所述高價值網站為網站訪問量處于Nf、Nb之間的網站。優選地,在步驟三中,具體包括如下步驟:根據URL對指定網頁進行內容獲取;使用爬蟲爬取網頁的標題、關鍵字、描述和正文的字段,并將爬取的結果作為值,網頁URL作為鍵,以文本的形式存入HDFS中,隨后利用基于hadoop的分布式分詞軟件,對海量文本數據進行分詞處理;對于源碼本身,則進行多模式匹配,尋找源碼中的加載廣告位的代碼,用于分析其網頁中廣告位的信息,并輸出到爬蟲結果文件中;爬取網站網頁的編寫模板和插件,以及圖片超鏈接數量和文字超鏈接數量,來確定網站精美度。優選地,在步驟三中,所述廣告的屬性包括網站精美度、網站廣告位數量和網站非法性。優選地,在步驟四中分析得到的結果為:網站廣告位的價值分別與網站訪問量及排名、網站精美度、網站廣告位數量和網站非法性有關。優選地,在對所述網站訪問量及排名的量化分析中,適中訪問量Na的量化標準為:在對所述網站精美度的量化分析中,精美度影響系數Q的量化標準為:其中,G為網站精美度的貢獻系數,T和W分別為網頁中圖片鏈接數和文字鏈接數;在對所述網站廣告位數量的量化分析中,設內嵌廣告位的數量價值系數為P,q為內嵌廣告為數量,計算公式為在對所述網站非法性的量化分析中,設非法系數為F,根據經驗對所述非法系數F進行判斷。優選地,長尾網站廣告價值系數為V,其計算公式為:其中,N為進行價值評估的網站的訪問量。一種根據權利要求任一上述的RTB競價廣告位價值分析方法的系統,包括:Hadoop集群數據處理模塊,用于導入互聯網的網絡數據,并運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數,統計出每個host出現的數目,并將統計結果寫入HadoopFS文件系統中;Redis數據庫過濾模塊,按訪問上限次數和下限次數確定合適RTB競價的網站;網絡爬蟲廣告計算模塊,依據上述獲得RTB競價中高價值網站的host列表,爬取每個網站的html源碼,依據廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統計結果文件;網站廣告價值評分標準建模,將所述廣告統計結果文件與URL列表文件合并,依據訪問量進行排序,獲得RTB競價中高價值網站網站的廣告統計列表,對網站廣告價值評分標準建模,并對Hadoop篩選結果和爬蟲結果進行量化分析。本專利技術提供的技術方案具有如下有益效果:1.基于位置信息形成融合的、標準化的位置輸出能力。通過從移動網DPI中提取基站小區位置、從移動網DPI中提取GPS位置信息、從4G信令數據中提取基站位置信息,彌補單一從2G基站獲取的位置信息精度不高及實時性不高的問題。融合本文檔來自技高網
    ...
    一種RTB競價廣告位價值分析方法及系統

    【技術保護點】
    一種RTB競價廣告位價值分析方法,其特征在于:包括如下步驟:一、輸入互聯網的網絡數據到Hadoop集群中,并運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數,統計出每個host出現的數目,并將統計結果寫入Hadoop?FS文件系統中;二、將統計結果從Hadoop?FS文件系統中導出,并導入Redis數據庫,在Redis中,過濾掉訪問大于上限次數和小于下限次數的網站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依據上述獲得RTB競價中高價值網站的host列表,編寫網絡爬蟲去爬取每個網站的html源碼,依據廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統計結果文件;四、將所述廣告統計結果文件與URL列表文件合并,依據訪問量進行排序,獲得RTB競價中高價值網站網站的廣告統計列表,對網站廣告價值評分標準建模,并對Hadoop篩選結果和爬蟲結果進行量化分析。

    【技術特征摘要】
    1.一種RTB競價廣告位價值分析方法,其特征在于:包括如下步驟:一、輸入互聯網的網絡數據到Hadoop集群中,并運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數,統計出每個host出現的數目,并將統計結果寫入HadoopFS文件系統中;二、將統計結果從HadoopFS文件系統中導出,并導入Redis數據庫,在Redis中,過濾掉訪問大于上限次數和小于下限次數的網站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依據上述獲得RTB競價中高價值網站的host列表,編寫網絡爬蟲去爬取每個網站的html源碼,依據廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統計結果文件;四、將所述廣告統計結果文件與URL列表文件合并,依據訪問量進行排序,獲得RTB競價中高價值網站網站的廣告統計列表,對網站廣告價值評分標準建模,并對Hadoop篩選結果和爬蟲結果進行量化分析。2.根據權利要求1所述的RTB競價廣告位價值分析方法,其特征在于:在步驟一中,具體包括如下步驟:從每條DPI日志的URL字段中抽取Host;在每個Mapper中建立字典,字典的Key為Host字符串,值為該Key出現的頻次,每當有重復的Key出現時,對應的值就增加一,當Mapper的循環結束時,將字典的信息Key和Value打印出來交由Reducer匯總統計;在Reducer中,Mapper的輸出被還原為字典,Key為Host字符串,值為Mapper階段各個節點的輸出,隨后Reducer對相同的Key進行值合并,得到最終的頻次之和,并統計輸出;將統計結果寫入HadoopFS文件系統中。3.根據權利要求1所述的RTB競價廣告位價值分析方法,其特征在于:在步驟二中,網站訪問次數的上限次數和下限次數均建模得出,建模公式為:其中,Nf表示判斷RTB競價高價值網站訪問次數上限次數,Nb表示高價值網站訪問次數下限次數,M表示網站的總個數,N1、N2、…NM分別代表網站訪問從第一至第M個的網站的訪問次數。4.根據權利要求1所述的RTB競價廣告位價值分析方法,其特征在于:所述高價值網站為網站訪問量處于Nf、Nb之間的網站。5.根據權利要求1所述的RTB競價廣告位價值分析方法,其特征在于:在步驟三中,具體包括如下步驟:根據URL對指定網頁進行內容獲取;使用爬蟲爬取網頁的標題、關鍵...

    【專利技術屬性】
    技術研發人員:陳輝許愷黃強松黃娟
    申請(專利權)人:江蘇號百信息服務有限公司
    類型:發明
    國別省市:江蘇,32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码成人网站久久精品大| 免费A级毛片无码A∨免费| 中文字幕无码无码专区| 亚洲中文字幕无码永久在线| 国产aⅴ激情无码久久| 999久久久无码国产精品| yy111111少妇影院无码| 亚洲av中文无码乱人伦在线观看| 一本色道无码道在线观看| 国产精品va无码二区| 无码精品人妻一区二区三区中| 永久免费av无码不卡在线观看| 亚洲午夜福利AV一区二区无码| 久久精品无码一区二区三区不卡 | 久久人妻av无码中文专区 | 日日摸日日碰人妻无码| 亚洲成AV人在线观看天堂无码| 午夜精品久久久久久久无码| 亚洲精品无码av中文字幕| 伊人久久综合精品无码AV专区| 国产精品无码久久av| 国产莉萝无码AV在线播放| 精品一区二区三区无码免费视频| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻系列av无码一区二区 | 亚洲色中文字幕无码AV| 免费无码专区毛片高潮喷水| 日韩毛片免费无码无毒视频观看| 亚洲看片无码在线视频| 精品无码人妻夜人多侵犯18| 久久久久亚洲AV片无码| 无码AV片在线观看免费| 无码专区中文字幕无码| 亚洲中文久久精品无码| 亚洲综合无码精品一区二区三区 | 国产v亚洲v天堂无码网站| 久久av高潮av无码av喷吹| 亚洲精品无码99在线观看| 中文无码AV一区二区三区| 在线精品自拍无码| 亚洲av永久无码精品古装片| 亚洲国产精品无码av|