本發(fā)明專利技術(shù)公開涉及標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法及系統(tǒng)。所述方法包括:包括:對獲得的Web消息進(jìn)行相關(guān)性檢測以獲得與各種事件相關(guān)的Web消息;獲取所述相關(guān)的Web消息所包含的地址信息;基于所獲得的地址信息確定與所述各種事件接近的物體;以及使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)。通過使用本發(fā)明專利技術(shù),使得可以給人類難以理解的來自各種各樣物體的原始數(shù)據(jù)添加自然語言的元數(shù)據(jù),以便可以使用自然語言來進(jìn)行檢索和進(jìn)行數(shù)據(jù)挖掘。
【技術(shù)實(shí)現(xiàn)步驟摘要】
標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法及系統(tǒng)
本專利技術(shù)公開涉及數(shù)據(jù)處理技術(shù),尤其是,涉及一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法及系統(tǒng)。
技術(shù)介紹
物聯(lián)網(wǎng)(InternetofThings,IoT)被認(rèn)為是互聯(lián)網(wǎng)的下一次重要革命。所謂的物聯(lián)網(wǎng)就是把諸如感測設(shè)備之類的物體裝備到街道、公路、建筑、供水系統(tǒng)以及家用電器等各種真實(shí)物體上,通過互聯(lián)網(wǎng)聯(lián)接起來,進(jìn)而運(yùn)行特定的程序,達(dá)到遠(yuǎn)程控制或者實(shí)現(xiàn)物與物的直接通信。物聯(lián)網(wǎng)將連接對象的范圍從電子設(shè)備擴(kuò)展到真實(shí)世界中的各種各樣的物體,即通過裝備在各類物體上的射頻識別(RFID)、傳感器、二維碼等,經(jīng)過接口與無線網(wǎng)絡(luò)相連,實(shí)現(xiàn)人與物體的溝通和對話,也可以實(shí)現(xiàn)物體與物體互相間的溝通和對話。例如,在不遠(yuǎn)的將來,家用電器、醫(yī)院設(shè)備、甚至T恤衫都可以聯(lián)網(wǎng)和在網(wǎng)絡(luò)上被訪問,就像網(wǎng)頁和遠(yuǎn)程服務(wù)器一樣。結(jié)果,所有真實(shí)世界中的物體都可以通過聯(lián)網(wǎng)被監(jiān)控和操作,并且其行動可以被編程以給人類提供方便。在物聯(lián)網(wǎng)中,給定一個事件,如何獲得記錄相關(guān)信息的傳感器是一個問題。例如,給定查詢“汽車追尾”,如何找到記錄這種事件的攝像頭。這種物聯(lián)網(wǎng)搜索對于物聯(lián)網(wǎng)來說,是非常重要的應(yīng)用。不同于當(dāng)前的WWW網(wǎng)絡(luò),構(gòu)建IoT搜索引擎存在以下挑戰(zhàn):首先,真實(shí)世界中的物體具有指數(shù)量級的總數(shù)。互聯(lián)網(wǎng)對象將編碼50萬億至100萬億個物體。每個人都被1000到500個物體包圍著。對于當(dāng)前的搜索引擎,巨大的數(shù)據(jù)量是負(fù)擔(dān)不起的。而據(jù)統(tǒng)計(jì),在2008年谷歌公司的搜索引擎僅索引10億個網(wǎng)頁。其次,物聯(lián)網(wǎng)中的各種物體所獲得的原始數(shù)據(jù)可能具有圖像、視頻、音頻、數(shù)字?jǐn)?shù)據(jù)序列、小波等的格式,基本上沒有元數(shù)據(jù)可用于描述這些原始數(shù)據(jù)的語義,且計(jì)算機(jī)本身也不能理解這些數(shù)據(jù)文件的內(nèi)容。也就是,所獲得的原始數(shù)據(jù)難以傳遞人類的觀點(diǎn)和情感,而人類也難以理解這些原始數(shù)據(jù)。面對豐富的原始數(shù)據(jù),人們卻難以通過自然語言對相關(guān)信息進(jìn)行查詢、對原始數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行挖掘等。目前存在對于原始數(shù)據(jù)進(jìn)行深層次處理的技術(shù),但是由于IoT中的諸如傳感器之類的物體的總量巨大,所以使用諸如計(jì)算圖象技術(shù)的深層次處理來提取語義注釋在計(jì)算上是負(fù)擔(dān)不起的。此外,即使利用深層次處理,由于諸如查詢之類的應(yīng)用的靈活性,需要建立大量的模型來處理各種應(yīng)用。這種實(shí)現(xiàn)也是不可取的。圖1是示出了現(xiàn)有技術(shù)中實(shí)際應(yīng)用與物體產(chǎn)生的原始數(shù)據(jù)之間的問題的示意圖。如圖1所示,用戶使用人類語言在網(wǎng)絡(luò)上對傳感器數(shù)據(jù)進(jìn)行查詢。但是,即使存在大量的原始數(shù)據(jù)文件,由于用戶的自然語言查詢和傳感器的原始數(shù)據(jù)文件之間存在巨大的鴻溝,并且原始數(shù)據(jù)文件也幾乎沒有元數(shù)據(jù)來描述其語義,因此用戶不能得到期望的查詢結(jié)果。因此,如何將自然語言查詢與原始數(shù)據(jù)聯(lián)系起來以便于進(jìn)行數(shù)據(jù)的搜索和挖掘以及數(shù)據(jù)關(guān)聯(lián)性的挖掘等等是現(xiàn)有技術(shù)中存在的一個技術(shù)問題。因此,現(xiàn)有技術(shù)中需要標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)以便進(jìn)行進(jìn)一步數(shù)據(jù)處理的技術(shù)。
技術(shù)實(shí)現(xiàn)思路
為了解決現(xiàn)有技術(shù)中存在的上述問題中的至少一個,而提出了本專利技術(shù)公開。根據(jù)本專利技術(shù)公開的一個方面的一個實(shí)施例提供了一種利用Web消息來給原始數(shù)據(jù)加標(biāo)記以使原始數(shù)據(jù)具有描述其語義的元數(shù)據(jù)從而幫助理解原始數(shù)據(jù)的內(nèi)容的技術(shù)方案。本專利技術(shù)的專利技術(shù)人注意到諸如博客和微博之類的Web消息正在被廣泛地應(yīng)用。本文中提及的“Web消息”是指具有廣泛性和相關(guān)性的網(wǎng)絡(luò)上傳遞的內(nèi)容。所謂的“廣泛性”是指Web消息的內(nèi)容多種多樣,涉及到現(xiàn)實(shí)世界中發(fā)生的各種事情以及人類的思想等等,以及Web消息的用戶可以使用諸如移動終端或固定終端之類的各種設(shè)備在網(wǎng)絡(luò)上隨時發(fā)布Web消息。Web消息可以包括文本、文檔、圖標(biāo)、照片、音頻、視頻等等。所謂的“相關(guān)性”是指Web消息的內(nèi)容與所關(guān)心事件有關(guān),例如Web消息的發(fā)布時間與所關(guān)心事件的發(fā)生時間之差在預(yù)定范圍內(nèi)且都是關(guān)于相似的事件,則認(rèn)為Web消息與所關(guān)心事件具有相關(guān)性。此外,對于本專利技術(shù)而言,Web消息是具有用戶在發(fā)送Web消息時的地址信息的Web消息。微博是Web消息的一個典型示例。微博是一種允許用戶及時更新的簡短文本(通常少于140字)并可以公開發(fā)布的博客形式。微博服務(wù)包括諸如Twitter、Yahoo、Sina、Sohu、163等。微博最近日漸繁榮,并且已經(jīng)吸引了大量用戶。根據(jù)2010年4月的統(tǒng)計(jì)數(shù)據(jù),作為微博的代表性網(wǎng)站的Twitter具有100多萬注冊用戶且每天還有30多萬的新用戶。每天平均發(fā)布5千5百多萬條Twitter微博,內(nèi)容無所不包。在所有這些Twitter微博中,超過37%是通過移動設(shè)備發(fā)布的,并且其實(shí)際發(fā)布的位置也大部分可以被獲得。由于Web消息的普遍使用(換言之,具有相關(guān)性和廣泛性)和知道位置的特征,專利技術(shù)人設(shè)想了利用Web消息來豐富傳感器數(shù)據(jù)的語義。具體而言,本專利技術(shù)通過識別Web消息與傳感器之間的關(guān)系,然后分配相關(guān)的Web消息的至少一部分內(nèi)容作為標(biāo)簽以注釋傳感器數(shù)據(jù)的語義來填平了人類理解與物體獲得的原始數(shù)據(jù)之間的鴻溝,從而解決了現(xiàn)有技術(shù)中存在的問題。更進(jìn)一步地,可以利用這些語義標(biāo)記來支持對傳感器數(shù)據(jù)的搜索和挖掘功能以及其它對原始數(shù)據(jù)的應(yīng)用。本專利技術(shù)公開的實(shí)施例可以以包括方法或系統(tǒng)的多種方式實(shí)施。下面討論本專利技術(shù)公開的幾個實(shí)施例。作為一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法的方法,本專利技術(shù)公開的一個實(shí)施例至少包括:對獲得的Web消息進(jìn)行相關(guān)性檢測以獲得與各種事件相關(guān)的Web消息;獲取所述相關(guān)的Web消息所包含的地址信息;基于所獲得的地址信息確定與所述各種事件接近的物體;以及使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)。作為一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的系統(tǒng),本專利技術(shù)公開的一個實(shí)施例至少包括:用于對獲得的Web消息進(jìn)行相關(guān)性檢測以獲得與各種事件相關(guān)的Web消息的裝置;用于獲取所述相關(guān)的Web消息所包含的地址信息的裝置;用于基于所獲得的地址信息確定與所述各種事件接近的物體的裝置;以及用于使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)的裝置。作為一種在物聯(lián)網(wǎng)中搜索物體的方法,本專利技術(shù)公開的一個實(shí)施例至少包括:使用自然語言輸入查詢項(xiàng);以及使用所述查詢項(xiàng),基于物聯(lián)網(wǎng)中的物體的元數(shù)據(jù),產(chǎn)生搜索結(jié)果;其中所述元數(shù)據(jù)是使用上述方法產(chǎn)生的。作為一種在物聯(lián)網(wǎng)中搜索物體的設(shè)備,本專利技術(shù)公開的一個實(shí)施例至少包括:用于使用自然語言輸入查詢項(xiàng)的裝置;以及用于使用所述查詢項(xiàng),基于物聯(lián)網(wǎng)中的物體的元數(shù)據(jù),產(chǎn)生搜索結(jié)果的裝置;其中所述元數(shù)據(jù)是使用上述系統(tǒng)產(chǎn)生的。作為一種網(wǎng)絡(luò)上使用的搜索引擎,本專利技術(shù)公開的一個實(shí)施例至少包括:用于接收用戶輸入的模塊;上述系統(tǒng);以及用于根據(jù)用戶輸入和由所述設(shè)備產(chǎn)生的信息來進(jìn)行檢索的模塊。附圖說明本說明中所參考的附圖只用于示例本專利技術(shù)的典型實(shí)施例,不應(yīng)該認(rèn)為是對本專利技術(shù)范圍的限制。圖1是示出了現(xiàn)有技術(shù)中實(shí)際應(yīng)用與物體產(chǎn)生的原始數(shù)據(jù)之間的問題的示意圖。圖2是示出了根據(jù)本專利技術(shù)公開的一個實(shí)施例的用于標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法的流程圖。圖3是示出了根據(jù)本專利技術(shù)的一個實(shí)施例的基于每一用戶所發(fā)的Web消息的地址信息使用曲線擬合所獲得的曲線的示意圖。圖4是示出了根據(jù)本專利技術(shù)公開的一個實(shí)施例的用于標(biāo)記由物本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法,包括:對獲得的Web消息進(jìn)行相關(guān)性檢測以獲得與各種事件相關(guān)的Web消息;獲取所述相關(guān)的Web消息所包含的地址信息;基于所獲得的地址信息確定與所述各種事件接近的物體;以及使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)。
【技術(shù)特征摘要】
1.一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的方法,包括:對獲得的Web消息進(jìn)行相關(guān)性檢測以獲得與各種事件相關(guān)的Web消息,所述Web消息的用戶使用各種設(shè)備在網(wǎng)絡(luò)上隨時發(fā)布所述Web消息;獲取所述相關(guān)的Web消息所包含的地址信息;基于所獲得的地址信息確定與所述各種事件接近的物體;以及使用所述相關(guān)的Web消息的至少部分內(nèi)容作為元數(shù)據(jù),標(biāo)記由所確定的接近物體產(chǎn)生的原始數(shù)據(jù)。2.根據(jù)權(quán)利要求1所述的方法,其中,所述基于所獲得的地址信息確定與所述各種事件接近的物體的步驟包括:從所述相關(guān)的Web消息中獲取與同一用戶相關(guān)的地址信息;基于所述所獲取的地址信息使用曲線擬合以生成擬合的曲線;以及基于物聯(lián)網(wǎng)中的物體的位置信息和所擬合的曲線,確定所述物體的接近度。3.根據(jù)權(quán)利要求2所述的方法,其中,按照各個物體的位置信息與所述所擬合的曲線的距離中的最小值、或按照各個物體的位置信息與所述所擬合的曲線的最大距離的最小值、或按照各個物體的位置信息與所述所擬合的曲線的平均距離的最小值、或按照各個物體的位置信息與所述所擬合的曲線的最大距離的平方值的最小值,來確定各個物體與所關(guān)心的事件的接近度。4.根據(jù)權(quán)利要求1所述的方法,還包括:對網(wǎng)絡(luò)上出現(xiàn)的Web消息實(shí)時地進(jìn)行索引;以及從索引后的Web消息中檢索出與所述各種事件中的所關(guān)心事件有關(guān)的所有Web消息。5.根據(jù)權(quán)利要求1所述的方法,其中,使用所述相關(guān)的Web消息的發(fā)布時間和與所關(guān)心的事件有關(guān)的詞語,產(chǎn)生用于標(biāo)記由接近的物體產(chǎn)生的原始數(shù)據(jù)的元數(shù)據(jù)。6.根據(jù)權(quán)利要求5所述的方法,其中,基于所述元數(shù)據(jù),來對使用自然語言進(jìn)行的查詢進(jìn)行響應(yīng)。7.根據(jù)權(quán)利要求2所述的方法,還包括:按照各個物體的接進(jìn)度,對所述各個物體進(jìn)行排序。8.一種標(biāo)記由物聯(lián)網(wǎng)中的物體產(chǎn)生的原始數(shù)據(jù)的系統(tǒng),包括:用于對獲得的Web消息進(jìn)行相關(guān)性檢測以獲得與各種事件相關(guān)的Web消息的裝置,所述Web消息的用戶使用各種設(shè)備在網(wǎng)絡(luò)上隨時發(fā)布所述Web消息;用于獲取所述相關(guān)的Web消息所包含的地址信息的裝置;用于基于所獲得的地址信息確定與所述各種事件接近的物體的裝置;以及用于使用所述相關(guān)的Web...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:吳賢,蔡柯柯,張碩,夏立軍,姚劍,張俐,蘇中,
申請(專利權(quán))人:國際商業(yè)機(jī)器公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。