本發(fā)明專利技術(shù)公開了一種基于文本的搜索方法及搜索裝置。基于文本的搜索方法包括:獲取用戶發(fā)送的文本流中包含的特征詞;從預(yù)先構(gòu)建的特征概率詞庫中分別獲取特征詞對應(yīng)的各業(yè)務(wù)的特征概率;根據(jù)特征詞對應(yīng)的各業(yè)務(wù)的特征概率,計(jì)算文本流對應(yīng)各業(yè)務(wù)的聯(lián)合概率;根據(jù)計(jì)算得到的聯(lián)合概率輸出最終匹配業(yè)務(wù),將特征詞存入特征概率庫,更新特征概率庫中該特征詞對應(yīng)的特征概率。應(yīng)用本發(fā)明專利技術(shù),可以提高搜索效率、降低運(yùn)營成本。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于文本的搜索方法及搜索裝置
本專利技術(shù)涉及移動(dòng)通信業(yè)務(wù)支撐技術(shù),特別涉及一種基于文本的搜索方法及搜索裝置。
技術(shù)介紹
用戶通過短信等文本通信方式辦理或取消通信業(yè)務(wù),可以有效節(jié)約用戶到短信營業(yè)廳辦理的時(shí)間、提高用戶的便捷性。但傳統(tǒng)的短信營業(yè)廳不支持或只能部分支持模糊匹配功能,對于不支持模糊匹配功能的短信營業(yè)廳,通過將短信內(nèi)容與業(yè)務(wù)庫中預(yù)先設(shè)置的各業(yè)務(wù)映射的關(guān)鍵詞集進(jìn)行精確匹配,如果匹配成功,則為用戶辦理相應(yīng)的業(yè)務(wù),如果匹配失敗,向用戶返回輸入錯(cuò)誤提示信息。而隨著用戶越來越多地使用自然語言與短信營業(yè)廳進(jìn)行交互,短信營業(yè)廳通過精確匹配的方法對用戶的意圖越來越難以理解,導(dǎo)致對用戶上行的大量短信無法識別,從而無法進(jìn)行及時(shí)有效的處理,影響用戶正常的業(yè)務(wù)訂閱;而對于部分支持模糊匹配識別功能的短信營業(yè)廳,在精確匹配失敗后,需要將短信內(nèi)容與業(yè)務(wù)庫中預(yù)先設(shè)置的各業(yè)務(wù)映射的關(guān)鍵詞集進(jìn)行模糊匹配,獲取模糊匹配成功的短信內(nèi)容所屬的業(yè)務(wù),對于匹配成功的業(yè)務(wù)為多個(gè)的情況,將相應(yīng)業(yè)務(wù)指令采用推送菜單的方式與用戶交互,由用戶選取需要訂閱的業(yè)務(wù)后再上報(bào)至短信營業(yè)廳,短信營業(yè)廳再進(jìn)行用戶業(yè)務(wù)的辦理。上述業(yè)務(wù)指令處理邏輯為:用戶上行短信由短信網(wǎng)關(guān)程序處理接收,經(jīng)過防攻擊機(jī)制進(jìn)行預(yù)處理后,短信進(jìn)入上行隊(duì)列表中,由分發(fā)程序?qū)⒍绦湃〕龇职l(fā)給后臺處理進(jìn)程,處理進(jìn)程進(jìn)行短信業(yè)務(wù)規(guī)則(預(yù)先設(shè)置的各業(yè)務(wù)映射的關(guān)鍵詞)匹配處理。具體來說,匹配流程為:根據(jù)用戶上行短信,對存儲(chǔ)在業(yè)務(wù)指令庫中的短信業(yè)務(wù)規(guī)則進(jìn)行一對一精確匹配,如果匹配成功,則取出對應(yīng)的業(yè)務(wù)指令進(jìn)行業(yè)務(wù)邏輯處理,并結(jié)束流程,如果精確匹配失敗,進(jìn)入模糊匹配處理流程,按照包含與被包含的關(guān)系進(jìn)行處理并獲取模糊處理結(jié)果,舉例來說,如果用戶上行的短信內(nèi)容為“我要辦理飛信”,而業(yè)務(wù)指令庫中業(yè)務(wù)指令或短信業(yè)務(wù)規(guī)則為“辦理飛信”,則不能實(shí)現(xiàn)精確匹配,進(jìn)入模糊匹配流程。由于短信內(nèi)容中包含且只包含了業(yè)務(wù)指令“辦理飛信”,可以確定模糊匹配成功,則進(jìn)入飛信開通流程;再例如,如果用戶發(fā)送的短信內(nèi)容為“飛信”,如果查詢到業(yè)務(wù)指令庫中包含“開通飛信”的業(yè)務(wù)指令,則進(jìn)入對應(yīng)的開通飛信流程,如果查詢到業(yè)務(wù)指令庫中不僅包含“開通飛信”的業(yè)務(wù)指令,還包含“辦理飛信”的業(yè)務(wù)指令,則表明匹配出來的業(yè)務(wù)為多項(xiàng),則將這些業(yè)務(wù)組裝成新的短信菜單,發(fā)送給用戶進(jìn)行選擇,并依據(jù)用戶反饋的選擇進(jìn)行辦理。為了推進(jìn)短信營業(yè)廳的發(fā)展及優(yōu)化建設(shè),中國移動(dòng)對短信營業(yè)廳的規(guī)劃提出了進(jìn)一步的要求:短信營業(yè)廳需要承擔(dān)70%以上的業(yè)務(wù)辦理量;各省應(yīng)建設(shè)短信營業(yè)廳智能搜索功能,能夠承載本地10086熱線可查詢的全部業(yè)務(wù),并在2011年12月基于短信的搜索成功率應(yīng)不低于70%。但由上述可見,現(xiàn)有短信營業(yè)廳基于短信(文本)搜索實(shí)現(xiàn)業(yè)務(wù)的方法,短信營業(yè)廳能夠結(jié)合精確匹配,按照業(yè)務(wù)指令中的關(guān)鍵詞對用戶上行的短信進(jìn)行業(yè)務(wù)模糊匹配,對同一條短信中出現(xiàn)不同關(guān)鍵詞或同一關(guān)鍵詞對應(yīng)多項(xiàng)業(yè)務(wù)指令等匹配結(jié)果不確定的情況,獲取業(yè)務(wù)指令庫中包含這些關(guān)鍵詞的不同業(yè)務(wù)指令,并將全部查詢得到的業(yè)務(wù)名稱組裝成新的短信菜單推送給用戶進(jìn)行二次交互確認(rèn),并通過用戶的簡單回復(fù)完成業(yè)務(wù)查詢和訂購。但按照關(guān)鍵詞的模糊匹配搜索方法,不能對用戶上行短信內(nèi)容中的同義詞或近義詞進(jìn)行辨別和區(qū)分,漏失了相關(guān)有效信息,降低了搜索的效率;同時(shí),對業(yè)務(wù)指令的關(guān)鍵詞配置成為業(yè)務(wù)指令庫中對用戶上行短信進(jìn)行解析處理的重要依據(jù),使得對用戶上行短信內(nèi)容的理解依賴于大量業(yè)務(wù)指令與相應(yīng)關(guān)鍵詞映射關(guān)系的建立和維護(hù),需要通過人工操作才能完成關(guān)鍵詞的選取和補(bǔ)充,不僅給維護(hù)管理人員帶來很大的工作量,同時(shí)隨著業(yè)務(wù)指令與關(guān)鍵詞映射關(guān)系的不斷擴(kuò)充,會(huì)帶來另一個(gè)嚴(yán)重問題,即同一業(yè)務(wù)關(guān)鍵詞重復(fù)出現(xiàn)和使用以及不同業(yè)務(wù)間關(guān)鍵詞的嵌套交叉等,使得用戶發(fā)送一條短信會(huì)查出來十幾個(gè)甚至幾十個(gè)業(yè)務(wù)的局面,雖然仍然可以通過各式各樣的分解、去重、補(bǔ)充或刪減等手段來完善和精簡關(guān)鍵詞庫,但仍會(huì)造成業(yè)務(wù)指令庫難于管理和維護(hù),運(yùn)營成本高;進(jìn)一步地,用戶需要瀏覽繁多展示的業(yè)務(wù)并從中進(jìn)行選擇,使得用戶訂閱業(yè)務(wù)的流程相對比較繁瑣,不僅降低了業(yè)務(wù)的服務(wù)水平,也壓抑了用戶的新業(yè)務(wù)消費(fèi)沖動(dòng),使得用戶業(yè)務(wù)體驗(yàn)差、感知度不強(qiáng)。
技術(shù)實(shí)現(xiàn)思路
有鑒于此,本專利技術(shù)的主要目的在于提出一種基于文本的搜索方法,提高搜索效率、降低運(yùn)營成本。本專利技術(shù)的另一目的在于提出一種基于文本的搜索裝置,提高搜索效率、降低運(yùn)營成本。為達(dá)到上述目的,本專利技術(shù)提供了一種基于文本的搜索方法,該方法包括:獲取用戶發(fā)送的文本流中包含的特征詞;從預(yù)先構(gòu)建的特征概率詞庫中分別獲取特征詞對應(yīng)的各業(yè)務(wù)的特征概率;根據(jù)特征詞對應(yīng)的各業(yè)務(wù)的特征概率,計(jì)算文本流對應(yīng)各業(yè)務(wù)的聯(lián)合概率;根據(jù)計(jì)算得到的聯(lián)合概率輸出最終匹配業(yè)務(wù),將特征詞存入特征概率庫,更新特征概率庫中該特征詞對應(yīng)的特征概率。所述獲取用戶發(fā)送的文本流中包含的特征詞包括:對用戶發(fā)送的文本流進(jìn)行分詞處理,獲取候選特征詞集;根據(jù)預(yù)先設(shè)置的停用詞表對獲取的候選特征詞集進(jìn)行過濾處理,得到特征詞。所述停用詞表包括無意義詞語、和/或,高文檔率詞語。構(gòu)建所述特征概率詞庫包括:采集訓(xùn)練樣本數(shù)據(jù)集;對訓(xùn)練樣本數(shù)據(jù)集中樣本數(shù)據(jù)進(jìn)行精確匹配以及模糊匹配,獲取匹配成功的樣本數(shù)據(jù)以及對應(yīng)的分類業(yè)務(wù),在特征概率詞庫中建立分類業(yè)務(wù)存儲(chǔ)區(qū),存儲(chǔ)與分類業(yè)務(wù)匹配成功的樣本數(shù)據(jù);在分類業(yè)務(wù)存儲(chǔ)區(qū)中,獲取樣本數(shù)據(jù)中包含的詞條,統(tǒng)計(jì)詞條在分類業(yè)務(wù)中的文檔頻率DF;將DF值超過預(yù)先設(shè)置的分類業(yè)務(wù)DF閾值的詞條作為特征詞存入分類業(yè)務(wù)存儲(chǔ)區(qū);計(jì)算特征詞在分類業(yè)務(wù)中的特征指示概率;根據(jù)特征指示概率計(jì)算該特征詞的特征概率,并存入分類業(yè)務(wù)存儲(chǔ)區(qū)中,建立特征詞與特征概率的特征概率詞庫。所述特征指示概率的計(jì)算公式為:式中,pi(w)是第i個(gè)分類業(yè)務(wù)中特征詞w的特征指示概率;bi(w)是第i個(gè)分類業(yè)務(wù)中特征詞w的目標(biāo)概率;gi(w)是第i個(gè)分類業(yè)務(wù)中特征詞w的非目標(biāo)概率。所述目標(biāo)概率計(jì)算公式為:式中,DFi(w)為第i個(gè)分類業(yè)務(wù)中含有特征w的目標(biāo)分類文本數(shù)量;Ni為第i個(gè)分類業(yè)務(wù)中總的目標(biāo)分類文本數(shù)量。所述非目標(biāo)概率計(jì)算公式為:式中,DFj(w)為第j個(gè)分類業(yè)務(wù)中含有特征w的文本數(shù)量;Nj為第j個(gè)分類業(yè)務(wù)中總的目標(biāo)分類文本數(shù)量;n為總的分類業(yè)務(wù)數(shù)量。所述特征概率計(jì)算公式為:式中,m為含特征w的文本數(shù)量;s、x為預(yù)先設(shè)置的常量。所述聯(lián)合概率的計(jì)算公式為:式中,pk()為文本的聯(lián)合概率;Mi為第i個(gè)文本;f(wij)為第i個(gè)文本中的第j個(gè)特征詞的特征概率;K為第i個(gè)文本包含的特征詞數(shù)量。在構(gòu)建特征概率詞庫后,進(jìn)一步包括:利用預(yù)先設(shè)置的測試樣本數(shù)據(jù)集中的樣本數(shù)據(jù)對構(gòu)建的特征概率詞庫進(jìn)行測試驗(yàn)證。所述根據(jù)計(jì)算得到的聯(lián)合概率輸出業(yè)務(wù)指令包括:將計(jì)算得到的聯(lián)合概率與預(yù)先設(shè)置的聯(lián)合概率閾值進(jìn)行大小比較,如果聯(lián)合本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種基于文本的搜索方法,其特征在于,該方法包括:獲取用戶發(fā)送的文本流中包含的特征詞;從預(yù)先構(gòu)建的特征概率詞庫中分別獲取特征詞對應(yīng)的各業(yè)務(wù)的特征概率;根據(jù)特征詞對應(yīng)的各業(yè)務(wù)的特征概率,計(jì)算文本流對應(yīng)各業(yè)務(wù)的聯(lián)合概率;根據(jù)計(jì)算得到的聯(lián)合概率輸出最終匹配業(yè)務(wù),將特征詞存入特征概率庫,更新特征概率庫中該特征詞對應(yīng)的特征概率。
【技術(shù)特征摘要】
1.一種基于文本的搜索方法,其特征在于,該方法包括:獲取用戶發(fā)送的文本流中包含的特征詞;從預(yù)先構(gòu)建的特征概率詞庫中分別獲取特征詞對應(yīng)的各業(yè)務(wù)的特征概率;根據(jù)特征詞對應(yīng)的各業(yè)務(wù)的特征概率,計(jì)算文本流對應(yīng)各業(yè)務(wù)的聯(lián)合概率;根據(jù)計(jì)算得到的聯(lián)合概率輸出最終匹配業(yè)務(wù),將特征詞存入特征概率庫,更新特征概率庫中該特征詞對應(yīng)的特征概率;其中,構(gòu)建所述特征概率詞庫包括:采集訓(xùn)練樣本數(shù)據(jù)集;對訓(xùn)練樣本數(shù)據(jù)集中樣本數(shù)據(jù)進(jìn)行精確匹配以及模糊匹配,獲取匹配成功的樣本數(shù)據(jù)以及對應(yīng)的分類業(yè)務(wù),在特征概率詞庫中建立分類業(yè)務(wù)存儲(chǔ)區(qū),存儲(chǔ)與分類業(yè)務(wù)匹配成功的樣本數(shù)據(jù);在分類業(yè)務(wù)存儲(chǔ)區(qū)中,獲取樣本數(shù)據(jù)中包含的詞條,統(tǒng)計(jì)詞條在分類業(yè)務(wù)中的文檔頻率DF;將DF值超過預(yù)先設(shè)置的分類業(yè)務(wù)DF閾值的詞條作為特征詞存入分類業(yè)務(wù)存儲(chǔ)區(qū);計(jì)算特征詞在分類業(yè)務(wù)中的特征指示概率;根據(jù)特征指示概率計(jì)算該特征詞的特征概率,并存入分類業(yè)務(wù)存儲(chǔ)區(qū)中,建立特征詞與特征概率的特征概率詞庫;其中,所述特征指示概率的計(jì)算公式為:式中,pi(w)是第i個(gè)分類業(yè)務(wù)中特征詞w的特征指示概率;bi(w)是第i個(gè)分類業(yè)務(wù)中特征詞w的目標(biāo)概率;gi(w)是第i個(gè)分類業(yè)務(wù)中特征詞w的非目標(biāo)概率;所述特征概率計(jì)算公式為:式中,m為含特征w的文本數(shù)量;s、x為預(yù)先設(shè)置的常量。2.如權(quán)利要求1所述的方法,其特征在于,所述獲取用戶發(fā)送的文本流中包含的特征詞包括:對用戶發(fā)送的文本流進(jìn)行分詞處理,獲取候選特征詞集;根據(jù)預(yù)先設(shè)置的停用詞表對獲取的候選特征詞集進(jìn)行過濾處理,得到特征詞。3.如權(quán)利要求2所述的方法,其特征在于,所述停用詞表包括無意義詞語、和/或,高文檔率詞語。4.如權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)概率計(jì)算公式為:式中,DFi(w)為第i個(gè)分類業(yè)務(wù)中含有特征w的目標(biāo)分類文本數(shù)量;Ni為第i個(gè)分類業(yè)務(wù)中總的目標(biāo)分類文本數(shù)量。5.如權(quán)利要求1所述的方法,其特征在于,所述非目標(biāo)概率計(jì)算公式為:式中,DFj(w)為第j個(gè)分類業(yè)務(wù)中含有特征w的文本數(shù)量;Nj為第j個(gè)分類業(yè)務(wù)中總的目標(biāo)分類文本數(shù)量;n為總的分類業(yè)務(wù)數(shù)量。6.如權(quán)利要求1所述的方法,其特征在于,所述聯(lián)合概率的計(jì)算公式為:式中,pk()為文本的聯(lián)合概率;Mi為第i個(gè)文本;f(wij)為第i個(gè)文本中的第j個(gè)特征詞的特征概率;K為第i個(gè)文本包含的特征詞數(shù)量。7.如權(quán)利要求1所述的方法,其特征在于,在構(gòu)建特征概率詞庫后,進(jìn)一步包括:利用預(yù)先設(shè)置的測試樣本數(shù)據(jù)集中的樣本數(shù)據(jù)對構(gòu)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:董宇,楊輝,
申請(專利權(quán))人:中國移動(dòng)通信集團(tuán)貴州有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。