• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁(yè) > 專利查詢>微軟公司專利>正文

    用于基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案的域制造技術(shù)

    技術(shù)編號(hào):8453042 閱讀:156 留言:0更新日期:2013-03-21 17:08
    本發(fā)明專利技術(shù)涉及基于豐富知識(shí)庫(kù)的知識(shí)驅(qū)動(dòng)的數(shù)據(jù)質(zhì)量解決方案,具體為用于基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案的域。該數(shù)據(jù)質(zhì)量解決方案可提供連續(xù)的改進(jìn),并且可基于連續(xù)(或持續(xù))的知識(shí)采集。該數(shù)據(jù)質(zhì)量解決方案可建立一次,且可重新用于多次數(shù)據(jù)質(zhì)量提高,其可針對(duì)相同數(shù)據(jù)或相似數(shù)據(jù)。所公開(kāi)的各個(gè)方面容易使用且集中于生產(chǎn)力和用戶體驗(yàn)。此外,所公開(kāi)的各個(gè)方面是開(kāi)放和可擴(kuò)展的,且可應(yīng)用于基于云的參考數(shù)據(jù)(例如第三方數(shù)據(jù)源)和/或用戶生成的知識(shí)。根據(jù)一些發(fā)明專利技術(shù),所公開(kāi)的各個(gè)發(fā)明專利技術(shù)可與數(shù)據(jù)集成服務(wù)集成。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    用于基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案的域
    本專利技術(shù)一般涉及數(shù)據(jù)質(zhì)量,尤其涉及基于知識(shí)的數(shù)據(jù)質(zhì)量方案。
    技術(shù)介紹
    隨著計(jì)算技術(shù)的提高以及計(jì)算設(shè)備變得更普遍,出于個(gè)人和公務(wù)原因使用計(jì)算機(jī)對(duì)于日常活動(dòng)已經(jīng)變得常見(jiàn)。為了跟上需求,數(shù)據(jù)集合呈指數(shù)級(jí)增長(zhǎng)。數(shù)據(jù)集合以及數(shù)據(jù)的后續(xù)處理的目的在于理解所收集數(shù)據(jù)的意義,并出于有用的目的匯編所搜集的數(shù)據(jù)。與數(shù)據(jù)的累積以及數(shù)據(jù)的任何相應(yīng)使用相關(guān)聯(lián)的問(wèn)題在于數(shù)據(jù)內(nèi)包含的錯(cuò)誤(例如低質(zhì)量數(shù)據(jù))。錯(cuò)誤的示例可包括不正確的數(shù)據(jù)、缺失的數(shù)據(jù)、拼寫(xiě)錯(cuò)誤、誤置數(shù)據(jù)、重復(fù)數(shù)據(jù)、以及其它問(wèn)題。依賴含錯(cuò)誤數(shù)據(jù)的人和公司可基于該數(shù)據(jù)作出決定、分析、和/或其它動(dòng)作,并且如果該數(shù)據(jù)有缺陷,則所得到的決定、分析等等也會(huì)是有缺陷的。如果事后發(fā)現(xiàn)錯(cuò)誤,則會(huì)損壞數(shù)據(jù)的置信度和相關(guān)信任。在一些情形中,如果數(shù)據(jù)不滿足足夠的質(zhì)量水平,則該數(shù)據(jù)可能無(wú)法加以信賴。一些系統(tǒng)利用一般方法來(lái)改進(jìn)數(shù)據(jù)質(zhì)量。該一般方法基于“一視同仁”(one-size fits all)的思想。例如,該一般方法對(duì)數(shù)據(jù)應(yīng)用一般算法,以嘗試凈化或改進(jìn)數(shù)據(jù)的質(zhì)量。 由于一般算法是不管數(shù)據(jù)內(nèi)容為何就應(yīng)用的,因此一般方法僅能提供有限的解決方案。在一些情形中,一般方法可能無(wú)法解決與數(shù)據(jù)相關(guān)聯(lián)的問(wèn)題。由此,已用一般算法凈化的數(shù)據(jù)的質(zhì)量仍然會(huì)較低,因?yàn)樵瓉?lái)的問(wèn)題并沒(méi)有得到解決。當(dāng)今計(jì)算系統(tǒng)和數(shù)據(jù)質(zhì)量方案的上述缺點(diǎn)僅旨在提供常規(guī)系統(tǒng)的一些問(wèn)題的概覽,并且不旨在是窮盡性的。常規(guī)系統(tǒng)的其他問(wèn)題以及此處所描述的各非限制性實(shí)施例的對(duì)應(yīng)益處可以在審閱以下描述后變得更顯而易見(jiàn)。
    技術(shù)實(shí)現(xiàn)思路
    此處提供了簡(jiǎn)化的
    技術(shù)實(shí)現(xiàn)思路
    以幫助能夠?qū)σ?span style='display:none'>下更詳細(xì)的描述和附圖中的示例性、 非限制性實(shí)施例的各方面有基本或大體的理解。然而,本
    技術(shù)實(shí)現(xiàn)思路
    并不旨在是詳盡的或窮盡的。相反,本
    技術(shù)實(shí)現(xiàn)思路
    的唯一目的在于,以簡(jiǎn)化的形式提出與一些示例性、非限制性實(shí)施例相關(guān)的一些概念,作為以下各實(shí)施例的更詳細(xì)的描述的序言。本文中所揭示的各個(gè)方面涉及提供基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案。該數(shù)據(jù)質(zhì)量解決方案基于關(guān)于數(shù)據(jù)的知識(shí)的采集與數(shù)據(jù)處理的明確分離。還提供一種可傳遞、可移動(dòng)、可插入的知識(shí)容器(例如,知識(shí)庫(kù))。該數(shù)據(jù)質(zhì)量解決方案還提供受引導(dǎo)的知識(shí)采集和向基于云的知識(shí)的無(wú)縫可擴(kuò)展性。另一方面涉及從內(nèi)部信息(例如,來(lái)自客戶機(jī)或來(lái)自數(shù)據(jù)本身)和外部信息(例如, 來(lái)自包含數(shù)據(jù)質(zhì)量解決方案知識(shí)供下載的第三方網(wǎng)站)獲取有關(guān)數(shù)據(jù)的知識(shí)(例如,知識(shí)庫(kù)的創(chuàng)建)。進(jìn)一步針對(duì)此方面地,應(yīng)用知識(shí)庫(kù)來(lái)凈化數(shù)據(jù)、剖析數(shù)據(jù)、或執(zhí)行語(yǔ)義去重復(fù)。又一方面涉及一種包括數(shù)據(jù)質(zhì)量服務(wù)器(及內(nèi)部組件)的體系結(jié)構(gòu),該數(shù)據(jù)質(zhì)量服務(wù)器鏈接客戶機(jī)和包含數(shù)據(jù)質(zhì)量解決方案知識(shí)以供下載的第三方網(wǎng)站。此外,一方面涉及計(jì)算機(jī)輔助的知識(shí)采集和交互式凈化。再一方面涉及創(chuàng)建域、合成域以及交叉域。這些域是可移動(dòng)、可下載的,并且可被共享。這些和其他實(shí)施例在下文中更詳細(xì)地描述。附圖說(shuō)明 構(gòu); 參考附圖進(jìn)一步描述各非限制性實(shí)施例,在附圖中圖I示出根據(jù)一方面的示例性計(jì)算系統(tǒng)的框圖;圖2示出根據(jù)一方面的配置成提供知識(shí)驅(qū)動(dòng)的數(shù)據(jù)質(zhì)量解決方案的系統(tǒng)的框圖; 圖3示出根據(jù)一方面的用于數(shù)據(jù)質(zhì)量解決方案的另一系統(tǒng);圖4示出根據(jù)一方面的配置成提供數(shù)據(jù)質(zhì)量解決方案的系統(tǒng);圖5示出根據(jù)一方面的配置成提供數(shù)據(jù)的去重復(fù)的系統(tǒng);圖6示出根據(jù)一方面的構(gòu)建為匹配項(xiàng)目的輸出的示例性匹配結(jié)果域;圖7示出根據(jù)一方面的用于基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案的示例性系統(tǒng)體系結(jié)圖8示出根據(jù)一方面的數(shù)據(jù)質(zhì)量(DQ)服務(wù)器的組件;圖9示出根據(jù)一方面的使用數(shù)據(jù)集成的批量?jī)艋粓D10示出根據(jù)一方面的用于創(chuàng)建知識(shí)庫(kù)并使用知識(shí)庫(kù)來(lái)改進(jìn)數(shù)據(jù)質(zhì)量的方法的非限制性流程圖圖11程圖12圖13 制性流程圖14圖15圖16 的框圖;以及圖I7示出根據(jù)一方面的用于基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案的方法的非限制性流示出了根據(jù)一方面的另一方法的非限制性流程圖;示出根據(jù)一方面的用于執(zhí)行去重復(fù)作為基于知識(shí)的解決方案的方法的非限示出根據(jù)一方面的用于交互式凈化數(shù)據(jù)的方法的非限制性流程圖;示出根據(jù)一方面的用于創(chuàng)建知識(shí)庫(kù)的方法的非限制性流程圖;是表示其中可實(shí)現(xiàn)在本文所述的各個(gè)實(shí)施例的示例性、非限制性聯(lián)網(wǎng)環(huán)境是表示其中可實(shí)現(xiàn)本文所述的各個(gè)實(shí)施例的一個(gè)或多個(gè)方面的示例性、非限制性計(jì)算系統(tǒng)或操作環(huán)境的框圖。具體實(shí)施方式概覽數(shù)據(jù)質(zhì)量缺陷對(duì)商業(yè)戰(zhàn)略措施會(huì)有負(fù)面影響(有時(shí)是顯著的負(fù)面影響)。數(shù)據(jù)質(zhì)量缺陷(例如,低質(zhì)量數(shù)據(jù))的影響包括糾正數(shù)據(jù)(如果發(fā)現(xiàn)了錯(cuò)誤)所花費(fèi)的額外時(shí)間、信用的損失、客戶不滿、遵從性問(wèn)題和收入損失、以及其它影響。由此,各種各樣的機(jī)構(gòu)都尋求改進(jìn)其商業(yè)數(shù)據(jù)的質(zhì)量。針對(duì)數(shù)據(jù)質(zhì)量的一般方法(例如,基于零知識(shí))不足以產(chǎn)生用于當(dāng)今商務(wù)的高質(zhì)量數(shù)據(jù)。此外,針對(duì)數(shù)據(jù)質(zhì)量的基于知識(shí)的方法可呈現(xiàn)諸如知識(shí)采集、使用、移動(dòng)性、可擴(kuò)展性等等的多種挑戰(zhàn)。由此,通過(guò)采集知識(shí)和處理知識(shí)的分離以提高數(shù)據(jù)質(zhì)量來(lái)提供基于知識(shí)的數(shù)據(jù)質(zhì)量方法將是有益的。在一示例中,采集知識(shí)可包括計(jì)算機(jī)輔助的知識(shí)采集。所公開(kāi)各個(gè)方面中的一個(gè)或多個(gè)提供基于豐富知識(shí)庫(kù)的知識(shí)驅(qū)動(dòng)的數(shù)據(jù)質(zhì)量解決方案。例如,數(shù)據(jù)質(zhì)量知識(shí)庫(kù)被創(chuàng)建、維護(hù)和再使用以供執(zhí)行各種數(shù)據(jù)質(zhì)量操作,諸如數(shù)據(jù)凈化和匹配。本文中所公開(kāi)的數(shù)據(jù)質(zhì)量解決方案是快速、容易部署的,并且能快速地建立。本文中所呈現(xiàn)的各個(gè)方面涉及用于針對(duì)數(shù)據(jù)質(zhì)量過(guò)程采集和表示有效知識(shí)的數(shù)據(jù)域(例如,類型),包括簡(jiǎn)單域和合成域。其它方面涉及語(yǔ)義去重復(fù)。另一些方面涉及可擴(kuò)展性的樹(shù)形生成應(yīng)用法。還有一些方面涉及第三方集成的商業(yè)模型。一個(gè)方面涉及一種包括知識(shí)管理器組件和數(shù)據(jù)增強(qiáng)組件的系統(tǒng)。知識(shí)管理器組件被配置成搜集與數(shù)據(jù)集相關(guān)的信息。該信息至少部分地從數(shù)據(jù)集的一樣本搜集,并且該信息被保留在知識(shí)庫(kù)中。數(shù)據(jù)增強(qiáng)組件被配置成對(duì)數(shù)據(jù)集執(zhí)行一個(gè)或多個(gè)操作以提高該數(shù)據(jù)集的質(zhì)量。該一個(gè)或多個(gè)操作基于所搜集的信息。在一示例中,知識(shí)管理器組件基于數(shù)據(jù)集的描述、一個(gè)或多個(gè)規(guī)則、推斷、數(shù)據(jù)字段正確值的列表、以及與用戶的交互來(lái)搜集信息。根據(jù)一示例,數(shù)據(jù)增強(qiáng)組件被配置成凈化作為所搜集信息的結(jié)果的數(shù)據(jù)集。在另一示例中,數(shù)據(jù)增強(qiáng)組件被配置成基于所搜集信息對(duì)數(shù)據(jù)集進(jìn)行去重復(fù)。在一實(shí)現(xiàn)中,系統(tǒng)進(jìn)一步包括數(shù)據(jù)分析模塊,該數(shù)據(jù)分析模塊被配置成基于完整性、符合度、一致性、準(zhǔn)確性、及時(shí)性和重復(fù)度的至少之一來(lái)定義數(shù)據(jù)集的質(zhì)量。根據(jù)另一實(shí)現(xiàn),該系統(tǒng)進(jìn)一步包括配置成獲取有關(guān)數(shù)據(jù)集的語(yǔ)義信息的采集模塊。進(jìn)一步地,該系統(tǒng)包括發(fā)現(xiàn)模塊,該發(fā)現(xiàn)模塊被配置成輸出對(duì)有關(guān)語(yǔ)義信息的細(xì)節(jié)的一個(gè)或多個(gè)請(qǐng)求并接收作為回復(fù)的對(duì)該一個(gè)或多個(gè)請(qǐng)求的響應(yīng)。接收到的響應(yīng)被保留在知識(shí)庫(kù)中。在又一示例中,該系統(tǒng)包括被配置成保留與用戶數(shù)據(jù)和第三方數(shù)據(jù)的屬性有關(guān)的歷史信息的歷史模塊。數(shù)據(jù)增強(qiáng)組件被配置成利用歷史信息來(lái)對(duì)數(shù)據(jù)集執(zhí)行一個(gè)或多個(gè)操作。在再一示例中,該系統(tǒng)包括統(tǒng)計(jì)模塊,該統(tǒng)計(jì)模塊被配置成提供與數(shù)據(jù)質(zhì)量、與數(shù)據(jù)相關(guān)聯(lián)的問(wèn)題、以及數(shù)據(jù)質(zhì)量問(wèn)題源的至少之一相關(guān)的統(tǒng)計(jì)信息。數(shù)據(jù)增強(qiáng)組件被配置成利用統(tǒng)計(jì)信息來(lái)對(duì)數(shù)據(jù)集執(zhí)行一個(gè)或多個(gè)操作。在另一示例中,該系統(tǒng)包括凈化模塊,該凈化模塊被配置成基于知識(shí)管理器組件所搜集的信息來(lái)修改、移除、或豐富不正確或不完整的數(shù)據(jù)。數(shù)據(jù)集包括第一數(shù)據(jù)子集和第二數(shù)據(jù)子集,根據(jù)又一示例該系統(tǒng)進(jìn)一本文檔來(lái)自技高網(wǎng)...
    用于基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案的域

    【技術(shù)保護(hù)點(diǎn)】
    一種用于數(shù)據(jù)質(zhì)量解決方案的系統(tǒng),包括:配置成采集關(guān)于第一數(shù)據(jù)集和第二數(shù)據(jù)集的數(shù)據(jù)信息的訪問(wèn)模塊(340);配置成針對(duì)所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集創(chuàng)建一個(gè)或多個(gè)域的域創(chuàng)建模塊(385);以及配置成集聚所述一個(gè)或多個(gè)域并用集聚后的域填充知識(shí)庫(kù)(330)的編譯模塊(390),其中所述知識(shí)庫(kù)(330)用于處理一個(gè)或多個(gè)數(shù)據(jù)質(zhì)量集。

    【技術(shù)特征摘要】
    ...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:J·瑪爾卡E·齊克利克E·胡迪斯M·拉維夫G·皮萊格D·法伊比希
    申請(qǐng)(專利權(quán))人:微軟公司
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲αⅴ无码乱码在线观看性色| 无码丰满熟妇一区二区| 日韩经典精品无码一区| 韩国免费a级作爱片无码| 少妇人妻无码专区视频| 无码人妻丰满熟妇区毛片18| 亚洲av永久无码精品漫画| 免费无码肉片在线观看| 无码午夜人妻一区二区三区不卡视频| 亚洲AV无码一区二区大桥未久| 久久亚洲av无码精品浪潮| 中文字幕无码高清晰| 精品久久久久久无码中文字幕| 在线观看无码AV网址| 成人无码一区二区三区| 免费无码AV电影在线观看| 亚洲AV无码成人专区片在线观看| 无码A级毛片日韩精品| 久久午夜福利无码1000合集| 永久免费av无码网站大全| 精品深夜AV无码一区二区| 日韩精品无码免费专区午夜不卡 | 无码国产精品一区二区免费式影视| 国产精品无码亚洲一区二区三区| 无码h黄动漫在线播放网站| 熟妇人妻中文a∨无码| 无码AV动漫精品一区二区免费| 亚洲最大天堂无码精品区| 久久无码人妻一区二区三区| 亚洲AV无码精品色午夜果冻不卡 | 午夜寂寞视频无码专区| 亚洲av无码成人精品区一本二本| 无码少妇一区二区| 午夜福利无码不卡在线观看 | 无码国内精品久久人妻麻豆按摩 | 国产色综合久久无码有码| 中文字幕av无码不卡| 无码人妻一区二区三区在线水卜樱 | 欧洲精品无码成人久久久| 亚洲av午夜精品无码专区| 日韩人妻无码中文字幕视频|