本發(fā)明專利技術(shù)是一種基于位置服務采集新浪微博團購信息的方法,為了使得商家用戶能實時發(fā)布團購消息,普通用戶也能實時看到不同位置的團購信息,商家用戶通過新浪微博平臺發(fā)布團購信息,首先,利用新浪微博提供的開放位置服務接口,抽取在該位置附近發(fā)布的所有的微博數(shù)據(jù)信息;然后,將抽取出來的微博數(shù)據(jù)存放在數(shù)據(jù)庫中,針對這些微博數(shù)據(jù)進行語料模式匹配預處理操作;接著,初步篩選出所有包含團購信息特征的微博數(shù)據(jù);其次,使用語義分析技術(shù),確定該條數(shù)據(jù)是否為團購信息;最后,成功地將團購信息從某一位置發(fā)布大量的微博數(shù)據(jù)中采集出來。
【技術(shù)實現(xiàn)步驟摘要】
【技術(shù)保護點】
一種基于位置服務采集新浪微博團購信息的方法,其特征在于該方法所包含的步驟為:步驟1)?抽取在某一具體位置附近發(fā)布微博的數(shù)據(jù)集信息:步驟1.1)?獲取申請新浪微博應用的相關(guān)信息;步驟1.2)?分配授權(quán)信息;步驟1.3)?獲取用戶的該位置信息;步驟1.4)?根據(jù)位置服務的動態(tài)信息接口,抽取該位置附近發(fā)布的所有微博數(shù)據(jù)信息;步驟1.5)?存儲抽取的所有微博數(shù)據(jù)信息;?步驟2)?預處理微博數(shù)據(jù)集信息:步驟2.1)?獲取微博數(shù)據(jù)集信息;步驟2.2)?獲取團購語料庫;步驟2.3)?初始化微博數(shù)據(jù)集中團購的相關(guān)信息:步驟2.3.1)?初始化微博數(shù)據(jù)集中的團購信息標志為1;步驟2.3.2)?初始化微博數(shù)據(jù)集中的團購關(guān)鍵詞匹配次數(shù)為0;步驟2.4)?獲取第一條微博數(shù)據(jù)信息;步驟2.5)?判斷該微博數(shù)據(jù)是否包含團購語料庫中的詞語,如果包含,轉(zhuǎn)步驟2.6),否則,轉(zhuǎn)步驟2.8);步驟2.6)?計算微博數(shù)據(jù)匹配語料庫關(guān)鍵詞的次數(shù);步驟2.7)?更新微博團購關(guān)鍵詞匹配的次數(shù);步驟2.8)?更新該微博數(shù)據(jù)的團購信息標志為0;步驟2.9)?獲取下一條微博數(shù)據(jù)信息;步驟2.10)?判斷該微博數(shù)據(jù)信息是否到達微博數(shù)據(jù)集的末端,如果到達,轉(zhuǎn)步驟2.11),否則,轉(zhuǎn)步驟2.5);步驟2.11)?刪除團購信息標志為0的所有微博數(shù)據(jù);步驟2.12)?更新微博數(shù)據(jù)集信息;?步驟3)?對微博數(shù)據(jù)集進行分句:步驟3.1)?獲取微博數(shù)據(jù)集中的第一條數(shù)據(jù)信息;步驟3.2)?獲取該微博數(shù)據(jù)中的第一個字符信息;步驟3.3)?判斷該字符是否為“;”,如果是,轉(zhuǎn)步驟3.8),否則,轉(zhuǎn)步驟3.4);步驟3.4)?判斷該字符是否為?如果是,轉(zhuǎn)步驟3.8),否則,轉(zhuǎn)步驟3.5);步驟3.5)?判斷該字符是否為“!”,如果是,轉(zhuǎn)步驟3.8),否則,轉(zhuǎn)步驟3.6);步驟3.6)?判斷該字符是否為“,”,如果是,轉(zhuǎn)步驟3.8),否則,轉(zhuǎn)步驟3.7);步驟3.7)?判斷該字符是否為“?”,如果是,轉(zhuǎn)步驟3.8),否則,轉(zhuǎn)步驟3.9);步驟3.8)?置換該字符為分句標識,用“/j”表示;步驟3.9)?獲取下一個微博數(shù)據(jù)字符信息;步驟3.10)?判斷是否到達微博數(shù)據(jù)的末端,如果到達,轉(zhuǎn)步驟3.11),否則,轉(zhuǎn)步驟3.3);步驟3.11)?更新微博數(shù)據(jù)信息;步驟3.12)?獲取下一條微博數(shù)據(jù)信息;步驟3.13)?判斷該微博數(shù)據(jù)是否為微博數(shù)據(jù)集的末端,如果到達,轉(zhuǎn)步驟3.14),否則,轉(zhuǎn)步驟3.2);步驟3.14)?更新微博數(shù)據(jù)集信息;?步驟4)?對微博數(shù)據(jù)集進行分詞,并標注詞性:步驟4.1)?獲取微博數(shù)據(jù)集中第一條數(shù)據(jù)信息;步驟4.2)?獲取該微博數(shù)據(jù)中的第一個字符信息;步驟4.3)?判斷該字符是否為分句標識,如果是,轉(zhuǎn)步驟4.4),否則,轉(zhuǎn)步驟4.6);步驟4.4)?設置分詞等級;步驟4.5)?根據(jù)分詞函數(shù),標注詞性;步驟4.6)?獲取下一個微博數(shù)據(jù)字符信息;步驟4.7)?判斷是否到達微博數(shù)據(jù)的末端,如果到達,轉(zhuǎn)步驟4.8),否則,轉(zhuǎn)步驟4.3);步驟4.8)?存儲分詞后的數(shù)據(jù)信息;步驟4.9)?獲取下一條微博數(shù)據(jù)信息;步驟4.10)?判斷該微博數(shù)據(jù)是否為微博數(shù)據(jù)集的末端,如果到達,轉(zhuǎn)步驟4.11),否則,轉(zhuǎn)步驟4.2);步驟4.11)?更新微博數(shù)據(jù)集信息;?步驟5)?抽取微博數(shù)據(jù)集中的團購事件:步驟5.1)?獲取微博數(shù)據(jù)集中第一條數(shù)據(jù)信息;步驟5.2)?獲取該微博數(shù)據(jù)中的第一個字符信息;步驟5.3)?判斷該字符是否為分句標識,如果是,轉(zhuǎn)步驟5.4),否則,轉(zhuǎn)步驟5.14);步驟5.4)?根據(jù)該句子的句法,標注詞性;步驟5.5)?分析事件的語義特征;步驟5.6)?映射事件的命題實體;步驟5.7)?映射事件的代指概念;步驟5.8)?識別該句子中的動詞;步驟5.9)?分析事件的論元結(jié)構(gòu)屬性;步驟5.10)?映射論元;步驟5.11)?完成該句子的事件抽取;步驟5.12)?判斷該事件是否為團購事件,如果是,轉(zhuǎn)步驟5.13),否則,轉(zhuǎn)步驟5.14);步驟5.13)?更新該微博數(shù)據(jù)的團購信息標志為2;步驟5.14)?獲取下一個微博數(shù)據(jù)字符;步驟5.15)?判斷該微博數(shù)據(jù)字符是否到達微博數(shù)據(jù)的末端,如果到達,轉(zhuǎn)步驟5.16),否則,轉(zhuǎn)步驟5.3);步驟5.16)?獲取下一條微博數(shù)據(jù)信息;步驟5.17)?判斷該微博數(shù)據(jù)是否到達微博數(shù)據(jù)集的末端,如果到達,轉(zhuǎn)步驟5.18),否則,轉(zhuǎn)步驟5.2);步驟5.18)?更新微博數(shù)據(jù)集信息;步驟5.19)?完成團購事件的抽取。2013100207731100001dest_path_image001.jpg...
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張衛(wèi)豐,王云,周國強,張迎周,王子元,周國富,錢小燕,許碧歡,陸柳敏,
申請(專利權(quán))人:南京郵電大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。