公開了微博概括。各實施例提供了概括技術,該概括技術可應用于博客或微博以便以縮短的形式呈現被判定為有用的信息。在一個或更多個實施例中,一種方法用來從諸如免費文本等各種資源中自動獲取概念組。這些所獲取的概念然后用來指導聚類處理。對簇進行排名,并隨后通過合并詞的頻率和情感來概括簇。
【技術實現步驟摘要】
微博概括
本公開涉及可應用于博客或微博以便以縮短的形式呈現被判定為有用的信息的概括技術。
技術介紹
許多公眾意見通過萬維網(World Wide Web)來表達。常常,這些意見在所謂的博客或微博中表達。博客(網絡日志(web log)的縮寫)通常用來提供評論、事件描述或諸如圖片或視頻等其他材料。微博是博客形式的廣播媒體,并且與傳統博客的區別在于其內容在實際和總計的文件大小二者上通常更小。博客或者微博通常能夠包含許多信息。這些信息能夠讓許多不同的個人感興趣。 然而,因為博客和微博的龐大數量,這些信息可能經常被混淆或者完全地丟失。
技術實現思路
提供本
技術實現思路
是為了以簡化形式來介紹選擇的概念,下面在具體實施方式中會進一步描述選擇的概念。本
技術實現思路
并非旨在標識所要求保護的主題的關鍵特征或必要特征。各實施例提供了可應用于博客或微博的以縮短的形式來呈現確定為有用的信息的概括技術。在一個或更多個實施例中,一種方法被用來從諸如免費文本等各種資源中來自動獲取一組概念。這些所獲取的概念然后用來指導聚類處理。通過合并情感和詞的頻率, 簇被排名并且隨后被概括。附圖說明參考附圖對具體實施方式進行描述。圖中,附圖標記最左邊的數字標識該附圖標記首次出現的圖。在說明書和附圖中的不同實例中使用相同附圖標記可表示相似或相同項。圖I示出根據一個或更多個實施例的示例性實施方式的環境。圖2更詳細地示出圖I所示的示例性實施方式的系統。圖3示出了根據一個或更多個實施例的示例性學習組件。圖4示出了根據一個或更多個實施例的示例性上位詞樹(hypernymtree)。圖5示出了根據一個或更多個實施例的示例性概括組件。圖6為描述根據一個或更多個實施例的方法中的步驟的流程圖。圖7示出了可用來實施這里描述的各實施例的示例性計算裝置。具體實施方式 鍵各實施例提供了可用于博客或微博的以縮短形式呈現被確定為有用的信息的概括技術。該技術可用于博客或任意大小的博客類型的入口。在至少一些實施例中,該技術可用于通常具有1000個或更少的字符的入口。在至少一些實施例中,該技術可用于具有140 個或更少的字符的微博。這包括可以只有幾個句子長的微博。這樣的微博的一個示例叫做 “推特(tweets)”。該概括技術可用于廣泛的入口類型。在一個或更多個實施例中,一種方法用來從諸如免費文本等各種資源中來自動獲取一組概念。然后,這些所獲取的概念用來指導聚類處理。通過合并情感和詞的頻率,簇被排名并且隨后被概括。為了說明該概括技術,利用了與公司相關的微博形式的入口類型。這些微博通常提及公司名稱,并且可以包含與所提及的公司相關的意見的表達。經常,這些微博并不是有意的評論并且可包括從關于新聞文章的討論到與特定公司相關的職位招聘和廣告等各種觀點。這使得自動判斷微博中表達的情感更加困難。在該情況下,各種方法被用來獲取一組商業概念,該商業概念然后被用于指導聚類處理(clustering process),其中,簇 (cluster)被排名并被概括。在下述討論中,首先描述可操作地使用這里描述的技術的示例性環境。然后描述可在該示例性環境以及其他環境中使用的各實施例的示例說明。相應地,該示例性環境并不限于執行所描述的實施例并且所描述的實施例也不限于在該示例性環境中實施。示例件運行環塏圖I所示為可操作地使用本文檔描述的技術的示例性實施方式中的環境100。所圖示的環境100包括可以以多種方法配置的計算裝置102的示例。比如,計算裝置102可配置為例如關于圖2而進一步描述的傳統計算機(比如臺式個人計算機和筆記本計算機等)、 移動站、娛樂裝置、通信地耦合到電視機的機頂盒、無線電話、上網本(netbook)、游戲控制臺和手持裝置等。因此,計算裝置102可以涉及從具有實質的存儲器和處理器資源的完整資源裝置(比如個人電腦、游戲操作臺)到具有有限的存儲器和/或處理資源的低資源裝置 (比如傳統置頂盒、手持游戲控制臺)。計算裝置102也包括使計算裝置102執行下面描述的一個或更多個操作的軟件。計算裝置102包括學習組件103和概括組件104。學習組件103代表在一個或更多個實施例中,使得能夠自動學習如商業概念等概念的功能。需要理解和明白的是,這里描述的技術可在包括(以舉例方式且不作限制)運動團隊、娛樂、科學研究、政治、公共事務問題和/或學生生活(這里僅提到了一些)的其他領域實施。在商業背景中,學習組件103能夠預先學習通用的且與許多公司(如果不是絕大多數或全部的公司)相關的商業概念。這些概念然后用作可能的簇。微博隨后映射到這些概念。 比如,與公司相關的概念可包括“人”、“產品”、“資產”和“事件”。這些概念的每一個能夠用來對微博聚類。在下述方法中,所有的公司將具有同一組的可能的簇,但就特定日子的微博中哪些概念有更多的量來說是變化的。自動學習過程可在離線過程中進行,該離線過程利用如新聞文章(這里只是舉例,而并非限制)等各種資源。使用該方法,與公司相關的概念可應用到所有類型的公司,而不考慮該公司是技術相關的公司還是零售業,這在下面的描述中將變得明顯。概括組件104代表使簇能夠通過情感和熵(entropy)來排名的功能性。這使得討論相同話題的簇比包括多樣內容的簇能排名更高。比如,在公司CEO辭職的特定日子,許多用戶可討論該事件,且因此該公司的“人”簇會在該特定日子有同質的內容。這種同質性 (homogeneity)會與該公司產品簇形成對比,比如,人們可能正在談論不同產品。此外,該簇的情感值(sentiment value)也被考慮在內。熵量度提供了判斷同質性的途徑。在所示出并描述的實施例中,情感與詞語頻度被合并,以計算熵量度,隨后該熵量度被用來對簇排名,這在下面會變得明顯。一旦簇已被排名,概括組件104可對簇進行概括。計算裝置102還包括姿勢模塊105,姿勢模塊105可通過一個或更多個手指來執行姿勢識別,且使得執行對應于該姿勢的操作。姿勢可由模塊105以多種不同的方式來識別。如,姿勢模塊105可配置為識別觸摸輸入,比如用戶手106a的手指接近采用了觸摸屏功能的計算裝置102的顯示裝置108。模塊105可用來識別單指姿勢和底座姿勢(bezel gesture)、多指/同一手的姿勢和底座姿勢和/或多指/不同手的姿勢和底座姿勢。計算裝置102還可配置為檢測并區分觸摸輸入(比如由用戶手106a的一個或更多個手指提供的)和觸筆輸入(比如由觸筆116提供的)。可用多種方法執行該區分,比如相對于顯示屏108被觸筆116接觸的量,檢測顯示裝置108被用戶的手106a的手指接觸的量。因此,通過識別和平衡(leverage)觸筆和觸摸輸入之間的劃分和不同類型的觸摸輸入,姿勢模塊105可支持多種不同的姿勢技術。圖2示出了示例性系統200,該系統示出了學習組件103、概括組件104和姿勢模塊105,示例性系統200在多個裝置通過中央計算裝置互聯的環境中實施。雖然圖2示出了學習組件103和概括組件104位于計算裝置102上,但是,要認識和理解的是,這些組件也可分布在其他計算裝置之間(比如,如虛線所示,分布在平臺210上,作為網絡服務212的部分)。中央計算裝置可在多個裝置本地,或可位于遠離多個裝置的位置。在一個實施例中, 中央計算裝置是“云”服務本文檔來自技高網...
【技術保護點】
一種方法,該方法包括:處理(600)多個資源以構建詞典,所述詞典配置為使得能夠概括多條微博;使用(602)所述詞典創建概念,至少一些個體概念包括含有多個詞的語義標簽;將多條微博分配(604)給多個所述概念以有效地形成潛在簇;計算(606)每個微博/簇對的成員分數;以及使用(606)所述成員分數將微博分配給簇。
【技術特征摘要】
...
【專利技術屬性】
技術研發人員:安妮·路易斯,托德·紐曼,
申請(專利權)人:微軟公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。