溫馨提示:您尚未登錄,請點 登陸 后下載,如果您還沒有賬戶請點 注冊 ,登陸完成后,請刷新本頁查看技術(shù)詳細信息。
本發(fā)明提出一種并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抓取方法及系統(tǒng),其中該方法包括步驟:設(shè)置目標網(wǎng)站的抓取配置信息;根據(jù)所述抓取配置信息,從目標網(wǎng)站的版面索引頁開始,逐一抓取所述版面索引頁上出現(xiàn)的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內(nèi)容;...該專利屬于北京騰逸科技發(fā)展有限公司所有,僅供學習研究參考,未經(jīng)過北京騰逸科技發(fā)展有限公司授權(quán)不得商用。