• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    網(wǎng)頁(yè)獲取方法和裝置制造方法及圖紙

    技術(shù)編號(hào):8656028 閱讀:190 留言:0更新日期:2013-05-01 23:43
    本申請(qǐng)?zhí)峁┝艘环N網(wǎng)頁(yè)獲取方法和裝置,所述方法包括:確定抓取的網(wǎng)頁(yè)中的第一中心hub網(wǎng)頁(yè);解析出所述第一hub網(wǎng)頁(yè)中包含的翻頁(yè)信息,所述翻頁(yè)信息包括翻頁(yè)鏈接地址;根據(jù)所述翻頁(yè)信息,生成與所述第一hub網(wǎng)頁(yè)相關(guān)的第二hub網(wǎng)頁(yè)地址;根據(jù)所述第二hub網(wǎng)頁(yè)地址,獲取內(nèi)容網(wǎng)頁(yè)。通過(guò)本申請(qǐng)實(shí)施例提高了網(wǎng)頁(yè)獲取時(shí)的網(wǎng)頁(yè)覆蓋率,使得能夠獲取更全面的網(wǎng)絡(luò)信息。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本申請(qǐng)涉及網(wǎng)絡(luò)處理
    ,特別是涉及一種網(wǎng)頁(yè)獲取方法和裝置
    技術(shù)介紹
    隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)信息數(shù)量越來(lái)越多,更新速度也越來(lái)越快,因此如何及時(shí)且全面的獲取互聯(lián)網(wǎng)信息以提供更好的網(wǎng)絡(luò)服務(wù),成為人們?nèi)找嫜芯康闹攸c(diǎn)。在網(wǎng)絡(luò)搜索、輿情監(jiān)控以及網(wǎng)絡(luò)挖掘等網(wǎng)絡(luò)服務(wù)領(lǐng)域中,互聯(lián)網(wǎng)信息都是通過(guò)網(wǎng)頁(yè)獲取方式得到的,通過(guò)獲取內(nèi)容網(wǎng)頁(yè),進(jìn)而即可得到內(nèi)容網(wǎng)頁(yè)承載的互聯(lián)網(wǎng)信息。現(xiàn)有技術(shù)中,在進(jìn)行網(wǎng)頁(yè)獲取時(shí),通常是通過(guò)抓取hub (中心)網(wǎng)頁(yè),即網(wǎng)頁(yè)內(nèi)容是以網(wǎng)頁(yè)鏈接地址為核心的網(wǎng)頁(yè),進(jìn)而再根據(jù)hub網(wǎng)頁(yè)的網(wǎng)頁(yè)鏈接地址輪詢抓取不同的內(nèi)容網(wǎng)頁(yè),以得到不同內(nèi)容網(wǎng)頁(yè)承載的網(wǎng)絡(luò)信息。但是由于互聯(lián)網(wǎng)信息更新速度很快,內(nèi)容網(wǎng)頁(yè)也越來(lái)越多,而網(wǎng)頁(yè)承載內(nèi)容是有限的,在實(shí)現(xiàn)本專利技術(shù)的過(guò)程中,專利技術(shù)人發(fā)現(xiàn),一個(gè)hub網(wǎng)頁(yè)是不能承載所有的內(nèi)容網(wǎng)頁(yè)鏈接地址,因此現(xiàn)有的網(wǎng)頁(yè)獲取方法通常只能抓取較少部分的內(nèi)容網(wǎng)頁(yè),這就使得網(wǎng)頁(yè)覆蓋率較低,使得不能全面有效獲取網(wǎng)絡(luò)信息。
    技術(shù)實(shí)現(xiàn)思路
    本申請(qǐng)所要解決的技術(shù)問(wèn)題是提供一種網(wǎng)頁(yè)獲取方法,用以解決現(xiàn)有技術(shù)中網(wǎng)頁(yè)覆蓋率較低,不能有效獲取網(wǎng)頁(yè)信息的技術(shù)問(wèn)題。本申請(qǐng)還提供了一種網(wǎng)頁(yè)獲取裝置,用以保證上述方法在實(shí)際中的實(shí)現(xiàn)及應(yīng)用。為了解決上述問(wèn)題,本申請(qǐng)的一方面公開(kāi)了一種網(wǎng)頁(yè)獲取方法,包括確定抓取的網(wǎng)頁(yè)中的第一中心hub網(wǎng)頁(yè);解析出所述第一 hub網(wǎng)頁(yè)中包含的翻頁(yè)信息,所述翻頁(yè)信息包括翻頁(yè)鏈接地址;根據(jù)所述翻頁(yè)信息,生成與所述第一 hub網(wǎng)頁(yè)相關(guān)的第二 hub網(wǎng)頁(yè)地址;根據(jù)所述第二 hub網(wǎng)頁(yè)地址,獲取內(nèi)容網(wǎng)頁(yè)。優(yōu)選地,所述解析所述第一 hub網(wǎng)頁(yè)中包含的翻頁(yè)信息包括解析所述第一 hub網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容,確定所述網(wǎng)頁(yè)內(nèi)容中具有翻頁(yè)關(guān)鍵詞以及重復(fù)鏈接內(nèi)容的翻頁(yè)區(qū)域內(nèi)容;根據(jù)所述翻頁(yè)區(qū)域內(nèi)容,確定翻頁(yè)信息,所述翻頁(yè)信息包括具有數(shù)字標(biāo)識(shí)的翻頁(yè)鏈接地址。優(yōu)選地,所述根據(jù)所述翻頁(yè)信息,生成與所述第一 hub網(wǎng)頁(yè)相關(guān)的第二 hub網(wǎng)頁(yè)地址包括根據(jù)所述翻頁(yè)信息中的翻頁(yè)鏈接地址,確定翻頁(yè)起始標(biāo)識(shí)、翻頁(yè)步長(zhǎng)以及目標(biāo)索引范圍;根據(jù)所述翻頁(yè)起始標(biāo)識(shí)、所述翻頁(yè)步長(zhǎng)以及所述目標(biāo)索引范圍,生成第二 hub網(wǎng)頁(yè)地址。優(yōu)選地,所述根據(jù)所述翻頁(yè)起始標(biāo)識(shí)、所述翻頁(yè)步長(zhǎng)以及所述目標(biāo)索引范圍,生成第二 hub網(wǎng)頁(yè)地址包括根據(jù)翻頁(yè)鏈接地址,生成初始鏈接地址內(nèi)容;根據(jù)所述翻頁(yè)起始標(biāo)識(shí)、所述翻頁(yè)步長(zhǎng)以及所述目標(biāo)索引范圍,計(jì)算不同索引標(biāo)識(shí);將所述初始鏈接地址內(nèi)容與所述不同索引標(biāo)識(shí)疊加,得到不同第二 hub網(wǎng)頁(yè)地址。優(yōu)選地,所述確定目標(biāo)索引范圍包括確定第一預(yù)設(shè)索引范圍;確定所述第一預(yù)設(shè)索引范圍中的一個(gè)或多個(gè)索引標(biāo)識(shí),生成對(duì)應(yīng)的預(yù)設(shè)第二 hub網(wǎng)頁(yè)地址;根據(jù)所述預(yù)設(shè)第二 hub網(wǎng)頁(yè)地址進(jìn)行網(wǎng)頁(yè)抓取,并根據(jù)抓取結(jié)果調(diào)整所述第一預(yù)設(shè)索引范圍,以得到目標(biāo)索引范圍。優(yōu)選地,所述根據(jù)所述多個(gè)第二 hub網(wǎng)頁(yè)地址,獲取內(nèi)容網(wǎng)頁(yè)包括根據(jù)所述第二 hub網(wǎng)頁(yè)地址,獲取多個(gè)第二 hub網(wǎng)頁(yè);獲取所述第二 hub網(wǎng)頁(yè)分別對(duì)應(yīng)的內(nèi)容網(wǎng)頁(yè)。優(yōu)選地,所述根據(jù)所述翻頁(yè)信息,生成所述第一 hub網(wǎng)頁(yè)相關(guān)的第二 hub網(wǎng)頁(yè)地址包括根據(jù)所述翻頁(yè)信息,生成所述第一 hub網(wǎng)頁(yè)相關(guān)的預(yù)設(shè)數(shù)量個(gè)第二 hub網(wǎng)頁(yè)地址。本申請(qǐng)的另一方面公開(kāi)了一種網(wǎng)頁(yè)獲取裝置,包括第一確定模塊,用于確定抓取的網(wǎng)頁(yè)中的第一 hub網(wǎng)頁(yè);解析模塊,用于解析出所述第一 hub網(wǎng)頁(yè)中包含的翻頁(yè)信息,所述翻頁(yè)信息包括翻頁(yè)鏈接地址;地址生成模塊,用于根據(jù)所述翻頁(yè)信息,生成與所述第一 hub網(wǎng)頁(yè)相關(guān)的第二 hub網(wǎng)頁(yè)地址;網(wǎng)頁(yè)獲取模塊,用于根據(jù)所述第二 hub網(wǎng)頁(yè)地址,獲取內(nèi)容網(wǎng)頁(yè)。優(yōu)選地,所述解析模塊包括解析子模塊,用于解析所述第一 hub網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容,確定所述網(wǎng)頁(yè)內(nèi)容中具有翻頁(yè)關(guān)鍵詞以及重復(fù)鏈接內(nèi)容的翻頁(yè)區(qū)域內(nèi)容;翻頁(yè)信息確定模塊,用于根據(jù)所述翻頁(yè)區(qū)域內(nèi)容,確定翻頁(yè)信息,所述翻頁(yè)信息包括具有數(shù)字標(biāo)識(shí)的翻頁(yè)鏈接地址。優(yōu)選地,所述地址生成模塊包括第二確定模塊,用于根據(jù)所述翻頁(yè)信息中的翻頁(yè)鏈接地址,確定翻頁(yè)起始標(biāo)識(shí)、翻頁(yè)步長(zhǎng)以及目標(biāo)索引范圍;地址生成子模塊,用于根據(jù)所述翻頁(yè)起始標(biāo)識(shí)、所述翻頁(yè)步長(zhǎng)以及所述目標(biāo)索引范圍,生成第二 hub網(wǎng)頁(yè)地址。優(yōu)選地,所述地址生成子模塊包括初始內(nèi)容生成模塊,用于根據(jù)翻頁(yè)鏈接地址,生成初始鏈接地址內(nèi)容;標(biāo)識(shí)獲取模塊,用于根據(jù)所述翻頁(yè)起始標(biāo)識(shí)、所述翻頁(yè)步長(zhǎng)以及所述目標(biāo)索引范圍,計(jì)算不同索引標(biāo)識(shí);地址確定模塊,用于將所述初始鏈接地址內(nèi)容與所述不同索引標(biāo)識(shí)疊加,得到不同第二 hub網(wǎng)頁(yè)地址。優(yōu)選地,所述第二確定模塊包括預(yù)設(shè)范圍估計(jì)模塊,用于確定第一預(yù)設(shè)索引范圍;預(yù)設(shè)地址生成模塊,用于確定所述第一預(yù)設(shè)索引范圍中的一個(gè)或多個(gè)索引標(biāo)識(shí),生成對(duì)應(yīng)的預(yù)設(shè)第二 hub網(wǎng)頁(yè)地址;目標(biāo)范圍確定模塊,用于根據(jù)所述預(yù)設(shè)第二hub網(wǎng)頁(yè)地址進(jìn)行網(wǎng)頁(yè)抓取,并根據(jù)抓取結(jié)果調(diào)整所述第一預(yù)設(shè)索引范圍,以得到目標(biāo)索引范圍。優(yōu)選地,所述網(wǎng)頁(yè)獲取模塊包括第一網(wǎng)頁(yè)獲取子模塊,用于根據(jù)所述第二 hub網(wǎng)頁(yè)地址,獲取多個(gè)第二 hub網(wǎng)頁(yè);第二網(wǎng)頁(yè)獲取子模塊,用于獲取所述第二 hub網(wǎng)頁(yè)分別對(duì)應(yīng)的內(nèi)容網(wǎng)頁(yè)。與現(xiàn)有技術(shù)相比,本申請(qǐng)包括以下優(yōu)點(diǎn)在本申請(qǐng)中,通過(guò)從抓取的網(wǎng)頁(yè)中確定出第一 hub網(wǎng)頁(yè),并解析該第一 hub網(wǎng)頁(yè)得到翻頁(yè)信息,然后依據(jù)該翻頁(yè)信息可以生成與第一hub網(wǎng)頁(yè)相關(guān)的第二hub網(wǎng)頁(yè)地址,從而可以依據(jù)第二 hub網(wǎng)頁(yè)地址,進(jìn)行內(nèi)容網(wǎng)頁(yè)的抓取,在網(wǎng)頁(yè)獲取時(shí),不僅獲取第一 hub網(wǎng)頁(yè)對(duì)應(yīng)的內(nèi)容網(wǎng)頁(yè)。同時(shí)還可以獲取第二 hub網(wǎng)頁(yè)對(duì)應(yīng)的內(nèi)容網(wǎng)頁(yè),從而增加了網(wǎng)頁(yè)覆蓋率,使得能夠全面的獲取網(wǎng)絡(luò)信息,進(jìn)而可以實(shí)現(xiàn)更精確的處理操作。當(dāng)然,實(shí)施本申請(qǐng)的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。附圖說(shuō)明為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本申請(qǐng)的一種網(wǎng)頁(yè)獲取方法實(shí)施例1的流程圖;圖2是本申請(qǐng)實(shí)施例中網(wǎng)頁(yè)翻頁(yè)區(qū)域的示意圖;圖3是本申請(qǐng)的一種網(wǎng)頁(yè)獲取方法實(shí)施例2的流程圖;圖4是本申請(qǐng)的一種網(wǎng)頁(yè)獲取裝置實(shí)施例1的結(jié)構(gòu)框圖;圖5是本申請(qǐng)的一種網(wǎng)頁(yè)獲取裝置實(shí)施例2的結(jié)構(gòu)框圖。具體實(shí)施例方式下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。本申請(qǐng)可用于眾多通用或?qū)S玫挠?jì)算裝置環(huán)境或配置中。例如個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器裝置、包括以上任何裝置或設(shè)備的分布式計(jì)算環(huán)境等等。本申請(qǐng)可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本申請(qǐng),在這些分布式計(jì)算環(huán)境中,由通過(guò)通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。本文檔來(lái)自技高網(wǎng)...
    網(wǎng)頁(yè)獲取方法和裝置

    【技術(shù)保護(hù)點(diǎn)】
    一種網(wǎng)頁(yè)獲取方法,其特征在于,包括:確定抓取的網(wǎng)頁(yè)中的第一中心hub網(wǎng)頁(yè);解析出所述第一hub網(wǎng)頁(yè)中包含的翻頁(yè)信息,所述翻頁(yè)信息包括翻頁(yè)鏈接地址;根據(jù)所述翻頁(yè)信息,生成與所述第一hub網(wǎng)頁(yè)相關(guān)的第二hub網(wǎng)頁(yè)地址;根據(jù)所述第二hub網(wǎng)頁(yè)地址,獲取內(nèi)容網(wǎng)頁(yè)。

    【技術(shù)特征摘要】
    1.一種網(wǎng)頁(yè)獲取方法,其特征在于,包括: 確定抓取的網(wǎng)頁(yè)中的第一中心hub網(wǎng)頁(yè); 解析出所述第一 hub網(wǎng)頁(yè)中包含的翻頁(yè)信息,所述翻頁(yè)信息包括翻頁(yè)鏈接地址; 根據(jù)所述翻頁(yè)信息,生成與所述第一 hub網(wǎng)頁(yè)相關(guān)的第二 hub網(wǎng)頁(yè)地址; 根據(jù)所述第二 hub網(wǎng)頁(yè)地址,獲取內(nèi)容網(wǎng)頁(yè)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述解析所述第一hub網(wǎng)頁(yè)中包含的翻頁(yè)信息包括: 解析所述第一 hub網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容,確定所述網(wǎng)頁(yè)內(nèi)容中具有翻頁(yè)關(guān)鍵詞以及重復(fù)鏈接內(nèi)容的翻頁(yè)區(qū)域內(nèi)容; 根據(jù)所述翻頁(yè)區(qū)域內(nèi)容,確定翻頁(yè)信息,所述翻頁(yè)信息包括具有數(shù)字標(biāo)識(shí)的翻頁(yè)鏈接地址。3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述翻頁(yè)信息,生成與所述第一 hub網(wǎng)頁(yè)相關(guān)的第二 hub網(wǎng)頁(yè)地址包括: 根據(jù)所述翻頁(yè)信息中的翻頁(yè)鏈接地址,確定翻頁(yè)起始標(biāo)識(shí)、翻頁(yè)步長(zhǎng)以及目標(biāo)索引范圍; 根據(jù)所述翻頁(yè)起始標(biāo)識(shí)、所述翻頁(yè)步長(zhǎng)以及所述目標(biāo)索引范圍,生成第二 hub網(wǎng)頁(yè)地址。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述翻頁(yè)起始標(biāo)識(shí)、所述翻頁(yè)步長(zhǎng)以及所述目標(biāo)索引范圍,生成第二 hub網(wǎng)頁(yè)地址包括: 根據(jù)翻頁(yè)鏈接地址,生成初始鏈接地址內(nèi)容; 根據(jù)所述翻頁(yè)起始標(biāo)識(shí)、所述翻頁(yè)步長(zhǎng)以及所述目標(biāo)索引范圍,計(jì)算不同索引標(biāo)識(shí); 將所述初始鏈接地址內(nèi)容與所述不同索引標(biāo)識(shí)疊加,得到不同第二 hub網(wǎng)頁(yè)地址。5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定目標(biāo)索引范圍包括: 確定第一預(yù)設(shè)索引范圍; 確定所述第一預(yù)設(shè)索引范圍中的一個(gè)或多個(gè)索引標(biāo)識(shí),生成對(duì)應(yīng)的預(yù)設(shè)第二 hub網(wǎng)頁(yè)地址; 根據(jù)所述預(yù)設(shè)第二 hub網(wǎng)頁(yè)地址進(jìn)行網(wǎng)頁(yè)抓取,并根據(jù)抓取結(jié)果調(diào)整所述第一預(yù)設(shè)索引范圍,以得到目標(biāo)索引范圍。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述多個(gè)第二hub網(wǎng)頁(yè)地址,獲取內(nèi)容網(wǎng)頁(yè)包括: 根據(jù)所述第二 hub網(wǎng)頁(yè)地址,獲取多個(gè)第二 hub網(wǎng)頁(yè); 獲取所述第二 hub網(wǎng)頁(yè)分別對(duì)應(yīng)的內(nèi)容網(wǎng)頁(yè)。7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述翻頁(yè)信息,生成所述第一hub網(wǎng)頁(yè)相關(guān)的第二 hub網(wǎng)頁(yè)地址包括: 根據(jù)所述翻頁(yè)信息,生成所述第一 hub網(wǎng)頁(yè)相關(guān)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:樊波崔世起楊青
    申請(qǐng)(專利權(quán))人:人民搜索網(wǎng)絡(luò)股份公司
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 无码视频在线播放一二三区| 天堂无码在线观看| 久久ZYZ资源站无码中文动漫| 99久久人妻无码精品系列| 国产av无码久久精品| 亚洲国产精品无码久久SM | 亚洲色中文字幕无码AV| 免费看成人AA片无码视频羞羞网| 国产在线无码制服丝袜无码| 日木av无码专区亚洲av毛片| 无码人妻少妇久久中文字幕 | 亚洲国产精品成人精品无码区 | 亚洲成AV人片天堂网无码| 国产精品无码一本二本三本色| 无码中文字幕乱在线观看| 无码国内精品久久人妻麻豆按摩 | 无码精品A∨在线观看免费| a级毛片无码免费真人久久 | 亚洲熟妇无码av另类vr影视| 亚洲av无码国产精品夜色午夜| 亚洲成a人在线看天堂无码| 亚洲日韩国产二区无码| 人妻无码αv中文字幕久久琪琪布 人妻无码第一区二区三区 | 久久亚洲精品成人无码网站| 天堂Aⅴ无码一区二区三区| 无码乱码观看精品久久| 无码毛片内射白浆视频| 亚洲AV无码男人的天堂 | 国产精品无码亚洲精品2021| 亚洲综合无码一区二区三区| 精品无码一区二区三区亚洲桃色| 无码人妻精品一区二区三区东京热| 成人无码精品1区2区3区免费看| 麻豆人妻少妇精品无码专区| 性色AV无码中文AV有码VR| 无码专区国产精品视频| 国产精品无码无卡无需播放器| 免费无码婬片aaa直播表情| 免费无码午夜福利片69| 久久久久亚洲AV无码专区桃色| 国产亚洲精品无码拍拍拍色欲 |