System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 成人免费无码视频在线网站,av色欲无码人妻中文字幕,亚洲国产精品无码久久久
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法技術(shù)

    技術(shù)編號:43647840 閱讀:6 留言:0更新日期:2024-12-13 12:43
    本申請的實施例涉及數(shù)據(jù)采集領(lǐng)域,具體涉及基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法。該方法的一具體實施方式包括:數(shù)據(jù)處理子系統(tǒng)獲取用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息;至少一個數(shù)據(jù)檢索子系統(tǒng)中的數(shù)據(jù)檢索子系統(tǒng)響應(yīng)于接收到數(shù)據(jù)處理子系統(tǒng)發(fā)送的網(wǎng)頁關(guān)鍵信息,對網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集;數(shù)據(jù)處理子系統(tǒng)響應(yīng)于接收到至少一個數(shù)據(jù)檢索子系統(tǒng)中發(fā)送的至少一個初始數(shù)據(jù)檢索信息集,對至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理;數(shù)據(jù)處理子系統(tǒng)對數(shù)據(jù)檢索清洗信息集進行排序處理,以生成數(shù)據(jù)檢索排序信息序列。該實施方式可以減少網(wǎng)頁推送資源的浪費。

    【技術(shù)實現(xiàn)步驟摘要】

    本申請的實施例涉及數(shù)據(jù)采集領(lǐng)域,具體涉及基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法


    技術(shù)介紹

    1、網(wǎng)頁大數(shù)據(jù)可以是但不限于:電影信息的網(wǎng)頁數(shù)據(jù)、書籍信息的網(wǎng)頁數(shù)據(jù)。網(wǎng)頁大數(shù)據(jù)的處理主要涉及到數(shù)據(jù)的收集、處理、分析和可視化等方面。在技術(shù)層面上,這包括使用各種技術(shù)如?flume、?sqoop、?kettle進行數(shù)據(jù)采集,使用?hdfs、?hbase、?mongodb等進行數(shù)據(jù)存儲,以及使用?spark技術(shù)棧進行數(shù)據(jù)分析。此外,數(shù)據(jù)可視化通常通過?html、?css、?javascript等技術(shù)實現(xiàn),使得數(shù)據(jù)以圖表、圖像等形式展示在大屏幕上,便于監(jiān)控、分析和展示數(shù)據(jù)。

    2、?通過搜索引擎向用戶終端發(fā)送與網(wǎng)頁關(guān)鍵信息相關(guān)度較高的網(wǎng)頁信息,可以向用戶終端發(fā)送符合用戶需求的網(wǎng)頁信息。目前,在進行數(shù)據(jù)采集時,通常采用的方式為:通過單一搜索引擎采集單臺服務(wù)器存儲的網(wǎng)頁信息,然后將采集到的網(wǎng)頁信息發(fā)送給用戶終端。

    3、然而,實踐中發(fā)現(xiàn),當(dāng)采用上述方式進行數(shù)據(jù)采集時,經(jīng)常會存在如下技術(shù)問題:

    4、第一,單一搜索引擎采集到的網(wǎng)頁信息較為單一,導(dǎo)致采集到的網(wǎng)頁信息難以符合用戶需求,造成難以向用戶終端發(fā)送符合用戶需求的網(wǎng)頁信息,浪費了網(wǎng)頁推送資源;

    5、在采用技術(shù)方案來解決上述技術(shù)問題一的過程中,往往又會伴隨著如下問題:通過全文搜索算法檢索對不同的搜索引擎所存儲的每個網(wǎng)頁信息均進行檢索時,由于網(wǎng)頁信息所包含的信息較多且網(wǎng)頁信息的數(shù)量較多,導(dǎo)致需要消耗大量計算資源對每個網(wǎng)頁信息所包含的所有信息進行遍歷,導(dǎo)致浪費了計算資源。針對上述問題,常規(guī)的解決方案一般是:通過對網(wǎng)頁信息進行拆分并構(gòu)建網(wǎng)頁信息圖的方式,可以無需遍歷整個網(wǎng)頁信息。然而,上述常規(guī)解決方案依然存在如下技術(shù)問題二:由于每個搜索引擎檢索出的網(wǎng)頁信息的數(shù)量較多,且檢索出的部分網(wǎng)頁信息不符合用戶需求,用戶終端在查看網(wǎng)頁信息時,難以直接查看到符合用戶需求的網(wǎng)頁信息,浪費了網(wǎng)頁推送資源;

    6、第三,將未按照用戶需求進行排序的網(wǎng)頁信息發(fā)送至用戶終端,會導(dǎo)致用戶終端難以查看最符合用戶需求的網(wǎng)頁信息,浪費了網(wǎng)頁推送資源。


    技術(shù)實現(xiàn)思路

    1、本申請的內(nèi)容部分用于以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實施方式部分被詳細描述。本申請的內(nèi)容部分并不旨在標(biāo)識要求保護的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護的技術(shù)方案的范圍。

    2、本申請的一些實施例提出了基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,來解決以上
    技術(shù)介紹
    部分提到的技術(shù)問題中的一項或多項。

    3、第一方面,本申請的一些實施例提供了一種基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,應(yīng)用于數(shù)據(jù)采集系統(tǒng),上述數(shù)據(jù)采集系統(tǒng)包括:數(shù)據(jù)處理子系統(tǒng)、至少一個數(shù)據(jù)檢索子系統(tǒng)、存儲器,該方法包括:上述數(shù)據(jù)處理子系統(tǒng)獲取用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息;上述數(shù)據(jù)處理子系統(tǒng)將上述網(wǎng)頁關(guān)鍵信息發(fā)送至上述至少一個數(shù)據(jù)檢索子系統(tǒng);上述至少一個數(shù)據(jù)檢索子系統(tǒng)中的數(shù)據(jù)檢索子系統(tǒng)響應(yīng)于接收到上述數(shù)據(jù)處理子系統(tǒng)發(fā)送的網(wǎng)頁關(guān)鍵信息,對上述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,以及將上述初始數(shù)據(jù)檢索信息集發(fā)送至上述數(shù)據(jù)處理子系統(tǒng);上述數(shù)據(jù)處理子系統(tǒng)響應(yīng)于接收到上述至少一個數(shù)據(jù)檢索子系統(tǒng)中發(fā)送的至少一個初始數(shù)據(jù)檢索信息集,對上述至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理,以生成數(shù)據(jù)檢索清洗信息,得到數(shù)據(jù)檢索清洗信息集;上述數(shù)據(jù)處理子系統(tǒng)對上述數(shù)據(jù)檢索清洗信息集進行排序處理,以生成數(shù)據(jù)檢索排序信息序列,以及將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述用戶終端;上述數(shù)據(jù)處理子系統(tǒng)將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述存儲器,以將上述數(shù)據(jù)檢索排序信息序列存儲至上述存儲器。

    4、本申請的上述各個實施例具有如下有益效果:通過本申請的一些實施例的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,可以減少網(wǎng)頁推送資源的浪費。具體來說,浪費了網(wǎng)頁推送資源的原因在于:單一搜索引擎采集到的網(wǎng)頁信息較為單一,導(dǎo)致采集到的網(wǎng)頁信息難以符合用戶需求,造成難以向用戶終端發(fā)送符合用戶需求的網(wǎng)頁信息。基于此,本申請的一些實施例的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,首先,上述數(shù)據(jù)處理子系統(tǒng)獲取用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息。由此,可以獲取到網(wǎng)頁關(guān)鍵信息,以便后續(xù)根據(jù)網(wǎng)頁關(guān)鍵信息檢索到符合用戶需求的網(wǎng)頁信息。其次,上述數(shù)據(jù)處理子系統(tǒng)將上述網(wǎng)頁關(guān)鍵信息發(fā)送至上述至少一個數(shù)據(jù)檢索子系統(tǒng)。接著,上述至少一個數(shù)據(jù)檢索子系統(tǒng)中的數(shù)據(jù)檢索子系統(tǒng)響應(yīng)于接收到上述數(shù)據(jù)處理子系統(tǒng)發(fā)送的網(wǎng)頁關(guān)鍵信息,對上述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,以及將上述初始數(shù)據(jù)檢索信息集發(fā)送至上述數(shù)據(jù)處理子系統(tǒng)。由此,可以通過不同的數(shù)據(jù)檢索子系統(tǒng),檢索出不同搜索引擎下的符合用戶需求的初始數(shù)據(jù)檢索信息集。然后,上述數(shù)據(jù)處理子系統(tǒng)響應(yīng)于接收到上述至少一個數(shù)據(jù)檢索子系統(tǒng)中發(fā)送的至少一個初始數(shù)據(jù)檢索信息集,對上述至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理,以生成數(shù)據(jù)檢索清洗信息,得到數(shù)據(jù)檢索清洗信息集。由此,可以得到數(shù)據(jù)清洗后的符合用戶需求的數(shù)據(jù)檢索清洗信息集。之后,上述數(shù)據(jù)處理子系統(tǒng)對上述數(shù)據(jù)檢索清洗信息集進行排序處理,以生成數(shù)據(jù)檢索排序信息序列,以及將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述用戶終端。由此,可以得到進行排序后的符合用戶需求的數(shù)據(jù)檢索信息序列。最后,上述數(shù)據(jù)處理子系統(tǒng)將上述數(shù)據(jù)檢索排序信息序列發(fā)送至上述存儲器,以將上述數(shù)據(jù)檢索排序信息序列存儲至上述存儲器。由此,可以將數(shù)據(jù)檢索排序信息序列存儲至存儲器,當(dāng)用戶終端發(fā)送的網(wǎng)頁關(guān)鍵信息相同時,可以直接調(diào)用存儲器中存儲的數(shù)據(jù)檢索排序信息序列以減少用戶終端的等待時間。因此,可以通過至少一個數(shù)據(jù)檢索子系統(tǒng)從不同的搜索引擎采集初始數(shù)據(jù)檢索信息集,并對初始數(shù)據(jù)檢索信息集進行排序以得到符合用戶需求的數(shù)據(jù)檢索排序信息序列。從而,可以向用戶終端發(fā)送符合用戶需求的數(shù)據(jù)檢索排序信息序列。進而,可以減少網(wǎng)頁推送資源的浪費。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,應(yīng)用于數(shù)據(jù)采集系統(tǒng),所述數(shù)據(jù)采集系統(tǒng)包括:數(shù)據(jù)處理子系統(tǒng)、至少一個數(shù)據(jù)檢索子系統(tǒng)、存儲器,包括:

    2.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,包括:

    3.根據(jù)權(quán)利要求2所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行數(shù)據(jù)檢索處理,以生成初始網(wǎng)頁檢索信息集,包括:

    4.根據(jù)權(quán)利要求3所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述初始網(wǎng)頁信息集中的每個初始網(wǎng)頁信息進行特征提取處理,以生成初始特征網(wǎng)頁信息,包括:

    5.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述至少一個初始數(shù)據(jù)檢索信息集中的每個初始數(shù)據(jù)檢索信息進行數(shù)據(jù)清洗處理,以生成數(shù)據(jù)檢索清洗信息,包括:

    【技術(shù)特征摘要】

    1.一種基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,應(yīng)用于數(shù)據(jù)采集系統(tǒng),所述數(shù)據(jù)采集系統(tǒng)包括:數(shù)據(jù)處理子系統(tǒng)、至少一個數(shù)據(jù)檢索子系統(tǒng)、存儲器,包括:

    2.根據(jù)權(quán)利要求1所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行檢索處理,以生成初始數(shù)據(jù)檢索信息集,包括:

    3.根據(jù)權(quán)利要求2所述的基于網(wǎng)頁大數(shù)據(jù)的分布式采集方法,其中,所述對所述網(wǎng)頁關(guān)鍵信息進行數(shù)據(jù)檢索...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:歐智堅趙賢宇劉巖孫磊
    申請(專利權(quán))人:它思科技天津有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩精品无码人妻一区二区三区 | 天堂一区人妻无码| 中文无码日韩欧免费视频| 亚洲VA中文字幕无码一二三区 | 亚洲av无码一区二区三区不卡| 日韩精品真人荷官无码| 成在人线AV无码免费| 无码精品黑人一区二区三区| 国产成人无码aa精品一区| 少妇伦子伦精品无码STYLES| 伊人久久大香线蕉无码麻豆| 亚洲AV综合色区无码一二三区 | 一本加勒比HEZYO无码人妻| 亚洲熟妇无码八V在线播放 | 久久AV无码精品人妻糸列| 亚洲第一极品精品无码久久| 国产成人AV无码精品| 国产精品无码久久av| 中文字幕无码日韩欧毛| 精品无码人妻一区二区三区| 国产∨亚洲V天堂无码久久久| 亚洲国产精品成人AV无码久久综合影院| 性无码免费一区二区三区在线| 亚洲精品无码永久中文字幕| 亚洲成av人片在线观看天堂无码| 国产AV天堂无码一区二区三区| 无码射肉在线播放视频| 无码丰满熟妇juliaann与黑人 | 日本爆乳j罩杯无码视频| 曰韩无码二三区中文字幕| 亚洲AV成人无码久久WWW| 无码国产精品一区二区免费虚拟VR| 免费无码VA一区二区三区| 日木av无码专区亚洲av毛片| 色综合AV综合无码综合网站| 无码137片内射在线影院 | 人妻少妇看A偷人无码精品| 在线看片无码永久免费视频| 中文字幕韩国三级理论无码| 熟妇人妻无码xxx视频| 白嫩无码人妻丰满熟妇啪啪区百度|