本發明專利技術公開了一種基于語義的大數據分析系統,包括:數據采集入庫部件,用于數據源頭偵測、互聯網數據采集和HTML預處理,并將第三方數據資源接入;實時數據流處理部件,用于數據流的實時處理;存儲體系部件,用于存儲Hadoop集群和mysql集群;底層支持部件,用于從文本中抽取語義信息,支持其他需要語義抽取、語義分析塊,處理與文本檢索、文本處理與語義搜索、文本處理相關的事務;業務層部件,用于具體業務執行、調度、展現的,與具體應用密切相關的應用集合。本發明專利技術實現基于web的大數據分析,不但精準度高、提供語義信息豐富,而且極具實用性和可產業化。
【技術實現步驟摘要】
【專利摘要】本專利技術公開了一種基于語義的大數據分析系統,包括:數據采集入庫部件,用于數據源頭偵測、互聯網數據采集和HTML預處理,并將第三方數據資源接入;實時數據流處理部件,用于數據流的實時處理;存儲體系部件,用于存儲Hadoop集群和mysql集群;底層支持部件,用于從文本中抽取語義信息,支持其他需要語義抽取、語義分析塊,處理與文本檢索、文本處理與語義搜索、文本處理相關的事務;業務層部件,用于具體業務執行、調度、展現的,與具體應用密切相關的應用集合。本專利技術實現基于web的大數據分析,不但精準度高、提供語義信息豐富,而且極具實用性和可產業化。【專利說明】一種基于語義的大數據分析系統
本專利技術涉及數據網絡
,尤其涉及一種基于語義的大數據分析系統。
技術介紹
在2012年早些時候,包括軟件、硬件以及服務在內的大數據市場規模約為50億美元。隨著時間的推移,大數據的能量將逐步引起更多的關注,企業需要相關的分析能力以取得競爭優勢進而改善運營效率,而相關的技術以及服務會相繼部署,大數據市場規模將大幅壯大。目前市場上類似產品提供的系統的重心在于對企業的內部數據得分析,對于海量的來自web —些文本等非結構數據由于獲取難度相對較大、單位價值相對較低等難點,其價值目前尚未被業充分開發和利用。
技術實現思路
為了解決
技術介紹
中存在的技術問題,本專利技術提出了一種基于語義的大數據分析系統,實現基于web的大數據分析,不但精準度高、提供語義信息豐富,而且極具實用性和可產業化。 本專利技術提出的一種基于語義的大數據分析系統,包括: 數據采集入庫部件,用于數據源頭偵測、互聯網數據采集和HTML預處理,并將第三方數據資源接入; 實時數據流處理部件,用于數據流的實時處理; 存儲體系部件,用于存儲Hadoop集群和mysql集群; 底層支持部件,用于從文本中抽取語義信息,支持其他需要語義抽取、語義分析塊,處理與文本檢索、文本處理與語義搜索、文本處理相關的事務; 業務層部件,用于具體業務執行、調度、展現的,與具體應用密切相關的應用集合。 優選地,所述數據采集入庫部件包括: 分布式爬蟲模塊,用于數據源頭偵測、互聯網數據采集和HTML預處理; 數據源適配器,用于將第三方數據資源接入。 優選地,所述實時數據流處理部件包括: 臨時存儲模塊,以集群的內存作為緩存環境,將實時采集到的數據臨時存儲起來,供有實時性要求的模塊讀取; 流數據鉤子模塊,提供實時數據處理模塊掛載的鉤子,基本機制為訂閱-消費模型,當有數據到達,將數據的基本描述掛載起來,以便掛載到鉤子系統的模塊取閱。 優選地,所述實時數據流處理模塊不保證數據的永久可讀,超過一定時限后,數據將被清空,較老數據將不再可讀,只能在永久存儲體系中取閱。 優選地, 所述Hadoop集群用于大量網頁數據的永久性存儲和沒有隨機讀寫需求的分析結果; 所述mysql集群,用于存儲運營數據、數據挖掘結果、語義分析結果。 優選地,所述底層支持部件包括: 語義信息提取模塊,用于從文本中抽取語義信息,支持其他需要語義抽取、語義分析塊; 語義搜索引擎,用于處理與文本檢索、語義搜索引擎文本處理與語義搜索、文本處理相關的事務; 優選地,所述業務層部件具體用于報告生成、商業情報分析、輿情分析和數據業務。 本專利技術中,基于組合理論的類自然語言規則的文本語義處理系統,有效的解決了基于web的大數據分析問題,不但精準度高、提供語義信息豐富,而且極具實用性和可產業化等特點,因此市場前景非常廣闊。本專利技術,通過研究中小型企業的特點及信息需求,從互聯網大數據中提取、分析滿足其需求的個性化的商機信息和情報分析服務,幫助其實現精準營銷、洞察行業內及上下游產業的動態趨勢、把握商機和規避風險、迅速做出科學的決策等方面的商業智能服務,產業化應用前景廣闊。 【專利附圖】【附圖說明】 圖1為本專利技術實施例提出的一種基于語義的大數據分析系統結構圖。 【具體實施方式】 如圖1所示,本專利技術實施例提出了一種基于語義的大數據分析系統,包括:數據采集入庫部件10、實時數據流處理部件20、存儲體系部件30、底層支持部件40和業務輸出部件50。 數據采集入庫部件10,包括:分布式爬蟲模塊11,用于數據源頭偵測、互聯網數據采集和HTML (HyperText Mark-up Language,超文本標記語言)預處理等方面的工作;數據源適配器12,用于將第三方數據資源的接入工作,例如客戶指定的需要分析的數據,可通過數據源適配器介入到系統的處理流程。 實時數據流處理部件20,用于數據流的實時處理;包括臨時存儲模塊21,以集群的內存作為緩存環境,將實時采集到的數據臨時存儲起來,供有實時性要求的模塊讀取;流數據鉤子模塊22,提供實時數據處理模塊掛載的鉤子,基本機制為訂閱-消費模型,當有數據到達,鉤子系統將數據的基本描述掛載起來,以便掛載到鉤子系統的模塊取閱。掛載到鉤子系統的基本要求是數據處理速度夠快,以免數據堵塞。另外,實時數據流處理模塊不保證數據的永久可讀,超過一定時限后(例如5分鐘),數據將被清空,較老數據將不再可讀,只能在永久存儲體系中取閱。 存儲體系部件30,包括Hadoop集群和mysql集群;其中,Hadoop集群負責大量網頁數據的永久性存儲,某些沒有隨機讀寫需求的分析結果也被存儲于Hadoop ;而mysql集群則存儲運營數據、數據挖掘結果、語義分析結果等體積較小、需要經常隨機讀寫的數據。 底層支持部件40,由語義信息提取模塊41和42構成。其中,語義信息提取模塊41,用于從文本中抽取語義信息,支持其他需要語義抽取、語義分析;語義搜索引擎42,用于處理與文本檢索、文本處理等各類與語義搜索、文本處理等相關的事務;并且API模塊均被集成至語義搜索引擎模塊下,所以語義搜索引擎也被架構在此層。 業務層部件50,用于具體業務執行、調度、展現的,與具體應用密切相關的應用集合。其中,基本功能包括報告生成、商業情報分析、輿情分析和數據業務等。其中,精準營銷是為精準營銷所提供的數據搜集、分析和營銷手段的技術支持等業務;數據業務,是為滿足客戶特定數據需求而開展的數據搜集和語義分析等方面業務;報告生成,是為客戶生成簡短的、概要性的、圖文結合的概要的模塊,支持定期自動生成和報告匯總和撰寫;商業情報分析,包括招投標等商機信息、競爭對手分析,產業上下游動態和數據分析等具體業務。輿情分析主要包括話題跟蹤、事件和人物的相關跟蹤分析,也包括網評等網絡輿情類數據搜集和集成分析。 本專利技術中,基于組合理論的類自然語言規則的文本語義處理系統,有效的解決了基于web的大數據分析問題,不但精準度高、提供語義信息豐富,而且極具實用性和可產業化等特點,因此市場前景非常廣闊。本專利技術,通過研究中小型企業的特點及信息需求,從互聯網大數據中提取、分析滿足其需求的個性化的商機信息和情報分析服務,幫助其實現精準營銷、洞察行業內及上下游產業的動態趨勢、把握商機和規避風險、迅速做出科學的決策等方面的商業智能服務,產業化應用前景廣闊。 以上所述,僅為本專利技術較佳的【具體實施方式】,但本專利技術的保護范圍并不局限于此,任何熟悉本【技術領本文檔來自技高網...
【技術保護點】
一種基于語義的大數據分析系統,其特征在于,包括:?數據采集入庫部件,用于數據源頭偵測、互聯網數據采集和HTML預處理,并將第三方數據資源接入;?實時數據流處理部件,用于數據流的實時處理;?存儲體系部件,用于存儲Hadoop集群和mysql集群;?底層支持部件,用于從文本中抽取語義信息,支持其他需要語義抽取、語義分析塊,處理與文本檢索、文本處理與語義搜索、文本處理相關的事務;?業務層部件,用于具體業務執行、調度、展現的,與具體應用密切相關的應用集合。
【技術特征摘要】
【專利技術屬性】
技術研發人員:賈巖,
申請(專利權)人:安徽華貞信息科技有限公司,
類型:發明
國別省市:安徽;34
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。