• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數(shù)據(jù)處理裝置及方法制造方法及圖紙

    技術編號:8532919 閱讀:230 留言:0更新日期:2013-04-04 15:56
    本發(fā)明專利技術公開了一種數(shù)據(jù)處理裝置,所述裝置包括:數(shù)據(jù)抓取模塊,用于根據(jù)預先配置的抓取規(guī)則,進行數(shù)據(jù)抓取;數(shù)據(jù)處理模塊,用于根據(jù)預先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對所述數(shù)據(jù)抓取模塊所抓取的數(shù)據(jù)進行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標準數(shù)據(jù)。本發(fā)明專利技術還公開了一種數(shù)據(jù)處理方法,不需要人工進行數(shù)據(jù)篩選和處理,大大節(jié)省了人工篩選數(shù)據(jù)的時間成本,提高了工作效率,節(jié)省了人力物力,并且還能夠提高數(shù)據(jù)處理的準確率。

    【技術實現(xiàn)步驟摘要】

    本專利技術涉及數(shù)據(jù)處理技術,尤其涉及。
    技術介紹
    由于網(wǎng)絡的廣泛應用,常常需要通過網(wǎng)絡向用戶推送數(shù)據(jù),尤其在電子商務網(wǎng)站。 而通過網(wǎng)絡向用戶推送數(shù)據(jù)時,一般都是人工通過訪問數(shù)據(jù)源網(wǎng)站,對數(shù)據(jù)源網(wǎng)站中推送 的大量數(shù)據(jù)進行篩選、分類等處理之后,再將數(shù)據(jù)進行編輯后推送給用戶,如此,不僅造成 了人力物力的浪費,而且數(shù)據(jù)處理效率低下,且常會由于人為失誤造成數(shù)據(jù)處理的準確率 不高,從而導致數(shù)據(jù)推送的效率和準確率也受到影響,并降低了用戶體驗。
    技術實現(xiàn)思路
    有鑒于此,本專利技術的主要目的在于提供,以解決數(shù)據(jù)推 送中數(shù)據(jù)處理效率低、浪費人力物力、以及準確率不高的問題。為達到上述目的,本專利技術的技術方案是這樣實現(xiàn)的本專利技術提供了一種數(shù)據(jù)處理裝置,所述裝置包括數(shù)據(jù)抓取模塊,用于根據(jù)預先配置的抓取規(guī)則,進行數(shù)據(jù)抓取;數(shù)據(jù)處理模塊,用于根據(jù)預先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對所述數(shù)據(jù)抓取模塊所抓取 的數(shù)據(jù)進行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標準數(shù)據(jù)。在上述方案中,所述數(shù)據(jù)抓取模塊包括配置單元和抓取單元,其中,配置單元,用于配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則;抓取單元,用于根據(jù)所述配置單元配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所述數(shù)據(jù) 源中抓取、類型信息與配置單元所配置的類型信息相一致的數(shù)據(jù)。在上述方案中,所述配置單元包含有用于配置抓取規(guī)則的配置文件;所述配置單元,具體用于通過在所述配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和 類型信息并保存,完成抓取規(guī)則的配置;抓取單元,還用于讀取所述配置單元中的配置文件,根據(jù)所述配置文件中數(shù)據(jù)源 信息,找到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一致的 數(shù)據(jù)。在上述方案中,所述數(shù)據(jù)源信息為數(shù)據(jù)源網(wǎng)站的URL ;和/或,所述類型信息為數(shù) 據(jù)的品類名稱。在上述方案中,所述配置文件為xml格式的文件。在上述方案中,所述數(shù)據(jù)處理模塊,還用于生成包含有所述標準數(shù)據(jù)的標準數(shù)據(jù) 文本,并輸出該標準數(shù)據(jù)文本。在上述方案中,所述標準數(shù)據(jù)文本為TXT文本。本專利技術還提供了一種數(shù)據(jù)處理方法,所述方法包括根據(jù)預先配置的抓取規(guī)則,進行數(shù)據(jù)抓取;根據(jù)預先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對所抓取的數(shù)據(jù)進行處理,得到符合所述數(shù)據(jù)轉(zhuǎn) 換規(guī)則的標準數(shù)據(jù)。在上述方案中,在進行數(shù)據(jù)抓取之前,所述方法還包括配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則;所述進行數(shù)據(jù)抓取,為根據(jù)所配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所述數(shù)據(jù)源 中抓取類型信息與所配置的類型信息相一致的數(shù)據(jù)。在上述方案中,配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則,包括在用于配置 抓取規(guī)則的配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和需抓取數(shù)據(jù)的類型信息并保存;所述進行數(shù)據(jù)抓取,為讀取所述配置文件,根據(jù)所述配置文件中數(shù)據(jù)源信息,找 到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一致的數(shù)據(jù)。在上述方案中,所述得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標準數(shù)據(jù)之后,所述方法還包 括生成包含有所述標準數(shù)據(jù)的標準數(shù)據(jù)文本,并輸出該標準數(shù)據(jù)文本。本專利技術提供的數(shù)據(jù)處理裝置及方法,根據(jù)預先配置的抓取規(guī)則進行數(shù)據(jù)抓取,并 對抓取的數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換,得到標準數(shù)據(jù),能夠基于用戶的需求進行數(shù)據(jù)的獲取和處理, 不需要人工進行數(shù)據(jù)篩選和處理,大大節(jié)省了人工篩選數(shù)據(jù)的時間成本,提高了工作效率, 節(jié)省了人力物力,并且還提高了數(shù)據(jù)處理的準確率。附圖說明圖1為本專利技術數(shù)據(jù)處理裝置的組成結構示意圖2為本專利技術數(shù)據(jù)處理方法的實現(xiàn)流程圖3為本專利技術實施例一中數(shù)據(jù)處理過程的流程示意圖4為本專利技術實施例一中數(shù)據(jù)處理軟件“設置”對話框示意圖5為本專利技術實施例一配置文件對話框示意圖6為本專利技術實施例一中“查看”對話框示意圖7為本專利技術實施例一中進行字段名轉(zhuǎn)換的設置對話框示意圖8為本專利技術實施例一中執(zhí)行數(shù)據(jù)處理操作的對話框示意圖9為本專利技術實施例一中輸出標準數(shù)據(jù)文本的導出對話框示意圖。具體實施方式本專利技術的基本思想是提供,能夠自動獲取特定的數(shù)據(jù), 并對數(shù)據(jù)進行處理,輸出標準數(shù)據(jù),如此,網(wǎng)站編輯人員便可以直接將所輸出的標準數(shù)據(jù)編 輯到相應的網(wǎng)頁中,不僅節(jié)省了人力物力,并且提高了數(shù)據(jù)處理效率。如圖1所示,本專利技術的數(shù)據(jù)處理裝置主要可以包括數(shù)據(jù)抓取模塊和數(shù)據(jù)處理模 塊,其中,數(shù)據(jù)抓取模塊,用于根據(jù)預先配置的抓取規(guī)則,進行數(shù)據(jù)抓取;數(shù)據(jù)處理模塊,用于根據(jù)預先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對所述數(shù)據(jù)抓取模塊所抓取 的數(shù)據(jù)進行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標準數(shù)據(jù)。 具體地,所述數(shù)據(jù)抓取模塊包括配置單元和抓取單元,其中,配置單元,用于配置 包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則;抓取單元,用于根據(jù)所述配置單元配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所述數(shù)據(jù)源中抓取、類型信息與配置單元所配置的類型信息相一 致的數(shù)據(jù)。這里,所述配置單元包含有用于配置抓取規(guī)則的配置文件;所述配置單元,具體用 于通過在所述配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和類型信息并保存,完成抓取規(guī)則 的配置;抓取單元,還用于讀取所述配置單元中的配置文件,根據(jù)配置文件中數(shù)據(jù)源信息, 找到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一致的數(shù)據(jù)。這里,所述數(shù)據(jù)源信息可以為數(shù)據(jù)源網(wǎng)站的URL,所述類型信息可以為數(shù)據(jù)的品類 名稱。其中,品類名稱可以包含如下信息的一種或多種型號、品牌名稱、性能參數(shù)名稱等。具體地,配置單元包含有xml格式的配置文件,通過在所述配置文件中寫入需抓 取數(shù)據(jù)的數(shù)據(jù)源網(wǎng)站URL和需抓取數(shù)據(jù)的品類名稱并保存,完成抓取規(guī)則的配置;抓取單 元,用于讀取配置單元中的配置文件,根據(jù)配置文件中數(shù)據(jù)源網(wǎng)站的URL,訪問數(shù)據(jù)源網(wǎng)站, 從數(shù)據(jù)源網(wǎng)站推送的所有數(shù)據(jù)中抓取品類名稱與配置文件中配置的品類名稱相一致的數(shù) 據(jù)。其中,數(shù)據(jù)抓取模塊基于多線程技術進行數(shù)據(jù)的抓取。其中,多線程技術是一種并 發(fā)技術,基于同時運行多個任務的技術。基于多線程技術進行抓取具有如下任意一種或多 種特征負載均衡通過檢測數(shù)據(jù)源網(wǎng)站的訪問負載,調(diào)整線程分配,實現(xiàn)性能、效率的提 升,并同時有利于減輕數(shù)據(jù)源網(wǎng)站訪問壓力,也能夠防止數(shù)據(jù)源網(wǎng)站的訪問頻率限制;多層過濾根據(jù)鏈接深度、權重因子以及預設的域名黑白名單,限定抓取范圍,防 止海量信息抓取的無限膨脹;抓取去重實時分析歷史抓取數(shù)據(jù),并調(diào)整抓取頻率,保證抓取數(shù)據(jù)的實時性、準 確性,篩除重復抓取數(shù)據(jù);代理檢測通過檢測局域網(wǎng)環(huán)境,通過使用代理IP訪問具有限制的數(shù)據(jù)源網(wǎng)站, 從而突破自身的網(wǎng)絡限制,實現(xiàn)自由抓取;離線抓取通過已建立的云計算平臺,實現(xiàn)數(shù)據(jù)的云抓取并同步到本地,實現(xiàn)無人 值守的離線數(shù)據(jù)抓取;敏感信息篩除基于預設的敏感信息關鍵字,對所抓取到的數(shù)據(jù)進行敏感信息的 過濾。其中,所述數(shù)據(jù)處理模塊,還用于生成包含有所述標準數(shù)據(jù)的標準數(shù)據(jù)文本,并輸 出該標準數(shù)據(jù)文本。這里,為便于網(wǎng)站編輯人員將標準數(shù)據(jù)編輯到網(wǎng)頁中,所述標準數(shù)據(jù)文 本可以為TXT文本。相應的,本專利技術還提供了一種數(shù)據(jù)處理方法,參照圖2所示,所述方法主要包括如 下步驟步驟201,根據(jù)預先配置的抓取規(guī)則,進行數(shù)據(jù)抓取;步驟202,根據(jù)預先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對所抓取的數(shù)據(jù)進行處理,得到符合所 述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標準數(shù)據(jù)。其中,在進行數(shù)據(jù)抓取之前,所述方法還包括配置包含有數(shù)據(jù)源信息和類型信息 的抓取規(guī)則;所述進行數(shù)據(jù)抓取,可以為根據(jù)所配置的數(shù)據(jù)源信息本文檔來自技高網(wǎng)...

    【技術保護點】
    一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:數(shù)據(jù)抓取模塊,用于根據(jù)預先配置的抓取規(guī)則,進行數(shù)據(jù)抓取;數(shù)據(jù)處理模塊,用于根據(jù)預先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對所述數(shù)據(jù)抓取模塊所抓取的數(shù)據(jù)進行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標準數(shù)據(jù)。

    【技術特征摘要】
    1.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括數(shù)據(jù)抓取模塊,用于根據(jù)預先配置的抓取規(guī)則,進行數(shù)據(jù)抓取;數(shù)據(jù)處理模塊,用于根據(jù)預先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對所述數(shù)據(jù)抓取模塊所抓取的數(shù)據(jù)進行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標準數(shù)據(jù)。2.根據(jù)權利要求1所述的數(shù)據(jù)處理裝置,其特征在于,所述數(shù)據(jù)抓取模塊包括配置單元和抓取單元,其中,配置單元,用于配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則;抓取單元,用于根據(jù)所述配置單元配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所述數(shù)據(jù)源中抓取、類型信息與配置單元所配置的類型信息相一致的數(shù)據(jù)。3.根據(jù)權利要求2所述的數(shù)據(jù)處理裝置,其特征在于,所述配置單元包含有用于配置抓取規(guī)則的配置文件;所述配置單元,具體用于通過在所述配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和類型信息并保存,完成抓取規(guī)則的配置;抓取單元,還用于讀取所述配置單元中的配置文件,根據(jù)所述配置文件中數(shù)據(jù)源信息, 找到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一致的數(shù)據(jù)。4.根據(jù)權利要求2或3所述的數(shù)據(jù)處理裝置,其特征在于,所述數(shù)據(jù)源信息為數(shù)據(jù)源網(wǎng)站的URL ;和/或,所述類型信息為數(shù)據(jù)的品類名稱。5.根據(jù)權利要求3所述的數(shù)據(jù)處理方法,其特征在于,所述配置文件為xml格式的文件。6.根據(jù)權利要求1至3任一項所述的數(shù)...

    【專利技術屬性】
    技術研發(fā)人員:譚耀華阮威鄧教武
    申請(專利權)人:騰訊科技深圳有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 97精品人妻系列无码人妻| 色欲AV无码一区二区三区| 十八禁视频在线观看免费无码无遮挡骂过 | 无码国内精品久久综合88| 亚洲精品久久无码av片俺去也| 国产日产欧洲无码视频无遮挡 | 无码乱人伦一区二区亚洲一 | 色综合AV综合无码综合网站| 人妻丰满?V无码久久不卡| 日韩精品无码一区二区三区| 国产AV无码专区亚洲AV琪琪 | 少妇人妻无码精品视频app| 一级片无码中文字幕乱伦| 亚洲精品无码久久久久久久| 国产午夜无码片免费| 国产av无码久久精品| 2024你懂的网站无码内射| 国产成人A人亚洲精品无码| 国产午夜无码福利在线看网站| 精品三级AV无码一区| 亚洲AV无码国产在丝袜线观看| 午夜成人无码福利免费视频| 亚洲精品无码mⅴ在线观看| 色欲A∨无码蜜臀AV免费播 | 精品无码AV一区二区三区不卡| 亚洲精品无码国产| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 国产精品午夜无码体验区| 伊人天堂av无码av日韩av| 亚洲AV无码成人网站久久精品大 | 亚洲AV无码一区二区三区DV | 亚洲日韩精品无码一区二区三区| 无码AV一区二区三区无码| 久久久久无码精品国产h动漫| 久久精品亚洲AV久久久无码| 亚洲Av无码专区国产乱码DVD| 中文字幕AV中文字无码亚| 中文字幕丰满乱孑伦无码专区| 亚洲欧洲日产国码无码网站| 最新中文字幕AV无码不卡| 亚洲国产精品无码成人片久久|