本發(fā)明專利技術(shù)公開了一種事件獲取的方法及裝置,涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,實(shí)現(xiàn)了在指定數(shù)據(jù)源以及指定數(shù)據(jù)源的指定區(qū)域獲取事件信息,提高了事件獲取效率。本發(fā)明專利技術(shù)包括:通過網(wǎng)頁結(jié)構(gòu)信息獲取指定的數(shù)據(jù)源以及指定數(shù)據(jù)源的指定區(qū)域,在指定的數(shù)據(jù)源以及數(shù)據(jù)源的指定區(qū)域中按照預(yù)先設(shè)置的事件的獲取周期查找預(yù)先設(shè)置的事件關(guān)鍵詞,并獲取包含事件關(guān)鍵詞的事件信息。本發(fā)明專利技術(shù)實(shí)施例主要應(yīng)用于事件獲取流程中。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及互聯(lián)網(wǎng)
,尤其涉及一種事件獲取的方法及裝置。
技術(shù)介紹
目前,采用的事件獲取方法是錄入員通過網(wǎng)絡(luò)瀏覽器,訪問多個(gè)事件數(shù)據(jù)源網(wǎng)站,在網(wǎng)頁上查找事件信息,該事件信息包括事件的文字內(nèi)容和對(duì)應(yīng)的圖片,然后錄入到事件信息系統(tǒng)中。還要將事件信息重復(fù)保存到Excel表格中,用于存檔,耗費(fèi)人力。現(xiàn)有技術(shù)采用多次完成對(duì)所有數(shù)據(jù)源的數(shù)據(jù)獲取,當(dāng)獲取某一數(shù)據(jù)源的效率下降到某一閾值時(shí),停止當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,并開始獲取下一個(gè)數(shù)據(jù)源的數(shù)據(jù),依次類推直到把所有待集成數(shù)據(jù)源都獲取一遍;然后再重復(fù)上述過程,直到所有待集成數(shù)據(jù)源都已達(dá)到結(jié)束條件。在實(shí)現(xiàn)上述現(xiàn)有技術(shù)方案的過程中,專利技術(shù)人發(fā)現(xiàn)現(xiàn)有技術(shù)中存在如下問題現(xiàn)有技術(shù)獲取到大量無用信息,事件獲取效率很低。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的實(shí)施例提供一種事件獲取的方法及裝置,實(shí)現(xiàn)了在指定數(shù)據(jù)源以及指定數(shù)據(jù)源的指定區(qū)域獲取事件信息,提高了事件獲取效率。為達(dá)到上述目的,本專利技術(shù)的實(shí)施例采用如下技術(shù)方案一種事件獲取的方法,包括獲取指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域;根據(jù)預(yù)先設(shè)置的事件的獲取周期以及事件關(guān)鍵詞,在所述指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域中獲取事件信息。一種事件獲取的裝置,包括獲取單元,用于獲取指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域;所述獲取單元,還用于根據(jù)預(yù)先設(shè)置的事件的獲取周期以及事件關(guān)鍵詞,在所述指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域中獲取事件信息。本專利技術(shù)實(shí)施例提供的事件獲取的方法及裝置,通過網(wǎng)頁結(jié)構(gòu)信息獲取指定的數(shù)據(jù)源以及指定數(shù)據(jù)源的指定區(qū)域,在指定的數(shù)據(jù)源以及數(shù)據(jù)源的指定區(qū)域中按照預(yù)先設(shè)置的事件的獲取周期查找預(yù)先設(shè)置的事件關(guān)鍵詞,并獲取包含事件關(guān)鍵詞的事件信息。現(xiàn)有技術(shù)在獲取事件信息時(shí),獲取了大量無用信息。而本專利技術(shù)的技術(shù)方案,實(shí)現(xiàn)了在指定數(shù)據(jù)源以及指定數(shù)據(jù)源的指定區(qū)域獲取事件信息,提高了事件獲取效率。附圖說明為了更清楚地說明本專利技術(shù)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術(shù)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本專利技術(shù)一實(shí)施例中提供的一種事件獲取方法的流程圖;圖2為本專利技術(shù)另一實(shí)施例中提供的一種事件獲取方法的流程圖;圖3為本專利技術(shù)另一實(shí)施例中提供的一種事件獲取裝置的組成框圖;圖4為本專利技術(shù)另一實(shí)施例中提供的一種事件獲取裝置的組成框圖。具體實(shí)施例方式下面將結(jié)合本專利技術(shù)實(shí)施例中的附圖,對(duì)本專利技術(shù)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本專利技術(shù)一部分實(shí)施例,而不是全部的實(shí)施例。基于本專利技術(shù)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本專利技術(shù)保護(hù)的范圍。本專利技術(shù)一實(shí)施例提供了一種事件獲取的方法,如圖1所示,該方法包括101、獲取指定數(shù)據(jù)源以及該指定數(shù)據(jù)源的指定區(qū)域。其中,指定數(shù)據(jù)源包括但不限定為網(wǎng)頁,指定數(shù)據(jù)源的指定區(qū)域包括一個(gè)或若干個(gè)鏈接,通過該鏈接可獲取事件信息。可選的,上述的事件信息優(yōu)選為交通事件信息。可選的,在執(zhí)行本步驟之前,確定當(dāng)前網(wǎng)頁結(jié)構(gòu)信息,并根據(jù)該網(wǎng)頁結(jié)構(gòu)信息獲取指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域。值得說明的是,此處網(wǎng)頁結(jié)構(gòu)信息,指示所要獲取的事件在該網(wǎng)頁中的位置,即數(shù)據(jù)源所在位置。網(wǎng)頁結(jié)構(gòu)信息還指示,能夠概述所要獲取的事件的重要信息出現(xiàn)的位置,該重要信息出現(xiàn)的位置包括標(biāo)題、首段等,此處事件的重要信息出現(xiàn)的位置即指定數(shù)據(jù)源的制定區(qū)域。例如,在網(wǎng)頁中包括娛樂、時(shí)政、天氣等事件,所要獲取事件為交通事件,而交通事件在該網(wǎng)頁中一般出現(xiàn)在時(shí)政框的第一欄中,且在交通事件中重要信息一般出現(xiàn)在標(biāo)題,則時(shí)政框的第一欄為指定數(shù)據(jù)源,該指定數(shù)據(jù)源的標(biāo)題為指定數(shù)據(jù)源的指定區(qū)域。此示例只是獲取指定數(shù)據(jù)源以及指定數(shù)據(jù)源的指定區(qū)域的一種實(shí)現(xiàn)方法,本專利技術(shù)實(shí)施例對(duì)此不進(jìn)行限制。進(jìn)一步的,對(duì)于不同的網(wǎng)頁其網(wǎng)頁結(jié)構(gòu)是不同的,也就是說,數(shù)據(jù)源以及數(shù)據(jù)源的指定區(qū)域在不同網(wǎng)頁中的位置是不同的。若當(dāng)前的網(wǎng)頁結(jié)構(gòu)發(fā)生變化時(shí),需重新根據(jù)網(wǎng)頁結(jié)構(gòu)信息獲取指定數(shù)據(jù)源以及指定數(shù)據(jù)源的指定區(qū)域。102、根據(jù)預(yù)先設(shè)置的事件的獲取周期以及事件關(guān)鍵詞,在指定數(shù)據(jù)源以及指定數(shù)據(jù)源的指定區(qū)域中獲取事件信息。值得說明的是,由于不同交通事件的發(fā)生的概率、頻率不同,本步驟中的設(shè)置事件的獲取周期,即為每個(gè)事件設(shè)置周期。事件關(guān)鍵詞為事件特征的概述。例如,交通事件的關(guān)鍵詞包括施工、限行、追尾等。施工類事件的獲取周期可設(shè)置為5天,限行的獲取周期可設(shè)置為2天,追尾的獲取周期可設(shè)置為I小時(shí)。此處,只是設(shè)置事件的獲取周期以及事件關(guān)鍵詞的一種實(shí)現(xiàn)方法,本專利技術(shù)實(shí)施例對(duì)此不進(jìn)行限制。此外,本步驟中提到的事件信息包括事件的文字描述或圖片。可選的,本步驟的具體實(shí)現(xiàn)方式包括根據(jù)設(shè)置的事件關(guān)鍵詞,判斷指定數(shù)據(jù)源的指定區(qū)域中是否包含任意一個(gè)或多個(gè)事件關(guān)鍵詞;當(dāng)確定指定數(shù)據(jù)源的指定區(qū)域中的事件信息中包含至少一個(gè)事件關(guān)鍵詞時(shí),獲取并保存該事件信息。進(jìn)一步的,獲取當(dāng)前所述指定數(shù)據(jù)源的指定區(qū)域的事件信息,并與存儲(chǔ)的所述指定區(qū)域中的事件信息進(jìn)行比對(duì),比對(duì)結(jié)果的描述如下當(dāng)獲取的當(dāng)前指定數(shù)據(jù)源的指定區(qū)域中的事件信息與存儲(chǔ)的指定數(shù)據(jù)源的指定區(qū)域中的事件信息不同時(shí),確定該當(dāng)前指定數(shù)據(jù)源的指定區(qū)域中的事件信息為新的事件信息,并存儲(chǔ)所述新的事件信息。當(dāng)獲取的當(dāng)前指定數(shù)據(jù)源的指定區(qū)域中的事件信息中不能包括存儲(chǔ)的所述指定數(shù)據(jù)源的指定區(qū)域中的全部事件信息時(shí),在所述當(dāng)前指定數(shù)據(jù)源的指定區(qū)域中獲取不到,且已存儲(chǔ)的所述指定數(shù)據(jù)源的指定區(qū)域中的事件信息上添加標(biāo)識(shí)。其中,此處提到的標(biāo)識(shí)包括但不限定為刪除標(biāo)記。值得說明的是,此處獲取的當(dāng)前所述指定數(shù)據(jù)源的指定區(qū)域的事件信息,與存儲(chǔ)的指定數(shù)據(jù)源的指定區(qū)域中的事件信息,包括在同一數(shù)據(jù)源的同一指定區(qū)域中,不同事件的獲取周期獲取的事件信息。如果當(dāng)前周期獲取的事件信息與之前周期獲取的事件信息相同時(shí),則確定當(dāng)前事件信息不是新的事件,不進(jìn)行存儲(chǔ);如果確定當(dāng)前周期獲取的事件信息與之前周期獲取的事件信息不同時(shí),則確定當(dāng)前周期獲取的事件信息為新的事件信息,并存儲(chǔ)該新的事件信息;如果存儲(chǔ)的之前周期獲取的事件信息中,在當(dāng)前周期獲取的事件信息中不存在時(shí),確定之前周期獲取的事件信息在網(wǎng)頁的該指定區(qū)域中被刪除,則在存儲(chǔ)的之前周期獲取的事件信息中添加刪除標(biāo)記。其中,刪除標(biāo)記用于指示用戶之前周期獲取的事件信息在之前獲取該事件信息的指定數(shù)據(jù)源的指定區(qū)域中已經(jīng)被刪除。例如,在指定數(shù)據(jù)源的指定區(qū)域中按照周期獲取事件信息時(shí),在第一周期獲取到4個(gè)事件信息分別為A、B、C、D,并將這四個(gè)事件信息進(jìn)行存儲(chǔ),但在第二周期中獲取到三個(gè)事件信息分別為A、B、D,此時(shí)與第一周期獲取的事件信息相比缺少了 C,則在已存儲(chǔ)的事件信息C上添加刪除標(biāo)記。 進(jìn)一步的,在執(zhí)彳丁完步驟102之后,還包括第一步確定存儲(chǔ)的事件信息的文字描述與圖片的對(duì)應(yīng)關(guān)系,并存儲(chǔ)該事件信息的文字描述、圖片以及事件信息的文字描述與圖片的對(duì)應(yīng)關(guān)系。可選的,為加快運(yùn)行以及查找速率,創(chuàng)建第一數(shù)據(jù)庫,用于存儲(chǔ)事件信息的文字描述,在硬盤中創(chuàng)建指定目錄存儲(chǔ)事件信息的圖片。在該第一數(shù)據(jù)庫中,按照存儲(chǔ)事件信息的時(shí)間,依次為事件信息進(jìn)行本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種事件獲取的方法,其特征在于,包括:獲取指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域;根據(jù)預(yù)先設(shè)置的事件的獲取周期以及事件關(guān)鍵詞,在所述指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域中獲取事件信息。
【技術(shù)特征摘要】
1.一種事件獲取的方法,其特征在于,包括 獲取指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域; 根據(jù)預(yù)先設(shè)置的事件的獲取周期以及事件關(guān)鍵詞,在所述指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域中獲取事件信息。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述獲取指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域之前,包括 確定當(dāng)前網(wǎng)頁結(jié)構(gòu)信息,并根據(jù)所述網(wǎng)頁結(jié)構(gòu)信息獲取所述指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)先設(shè)置的事件的獲取周期以及事件關(guān)鍵詞,在所述指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域中獲取事件信息,包括 根據(jù)所述事件關(guān)鍵詞,判斷所述指定數(shù)據(jù)源的指定區(qū)域中是否包含任意一個(gè)或多個(gè)所述事件關(guān)鍵詞; 當(dāng)確定所述指定數(shù)據(jù)源的指定區(qū)域中包含至少一個(gè)所述事件關(guān)鍵詞時(shí),獲取并保存所述指定區(qū)域中的事件信息。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述獲取并保存所述指定區(qū)域中的事件信息之后,還包括 獲取當(dāng)前指定數(shù)據(jù)源的指定區(qū)域中的事件信息,并與存儲(chǔ)的所述指定數(shù)據(jù)源的指定區(qū)域中的事件信息進(jìn)行比對(duì); 若獲取的當(dāng)前指定數(shù)據(jù)源的指定區(qū)域中的事件信息與存儲(chǔ)的所述指定數(shù)據(jù)源的指定區(qū)域中的事件信息不同時(shí),確定所述當(dāng)前指定數(shù)據(jù)源的指定區(qū)域中的事件信息為新的事件信息,并存儲(chǔ)所述新的事件信息; 若獲取的當(dāng)前指定數(shù)據(jù)源的指定區(qū)域中的事件信息中不能包括存儲(chǔ)的所述指定數(shù)據(jù)源的指定區(qū)域中的全部事件信息時(shí),在所述當(dāng)前指定數(shù)據(jù)源的指定區(qū)域中獲取不到,且已存儲(chǔ)的所述指定數(shù)據(jù)源的指定區(qū)域中的事件信息上添加標(biāo)識(shí)。5.根據(jù)權(quán)利要求1-4任意一項(xiàng)所述的方法,其特征在于,還包括 確定存儲(chǔ)的所述事件信息的文字描述與圖片的對(duì)應(yīng)關(guān)系,并存儲(chǔ)所述事件信息的文字描述、圖片以及事件信息的文字描述與圖片的對(duì)應(yīng)關(guān)系; 根據(jù)預(yù)設(shè)提取規(guī)則獲取所述事件信息的文字描述,并根據(jù)所述事件信息的文字描述與圖片的對(duì)應(yīng)關(guān)系,查看所述事件信息的圖片; 將所述根據(jù)預(yù)設(shè)提取規(guī)則獲取所述事件信息的文字描述進(jìn)行存儲(chǔ)。6.一種事件獲取的裝置,其特征在于,包括 獲取單元,用于獲取指定數(shù)據(jù)源以及所述指定數(shù)據(jù)源的指定區(qū)域; 所述獲取單元,還用于根據(jù)預(yù)先設(shè)置的事件的獲取周期以及事件...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王曉瑄,李建軍,
申請(專利權(quán))人:北京世紀(jì)高通科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。