本申請實施例提供了一種輸入方法、裝置、電子設(shè)備及計算機(jī)存儲介質(zhì)。根據(jù)本申請實施例提供的輸入方案,獲取用戶的輸入文本,根據(jù)所述用戶的標(biāo)識確定所述用戶的偏好語種分布;采用預(yù)先訓(xùn)練的語種識別模型確定所述輸入文本的語種的第一預(yù)測分布;根據(jù)所述第一預(yù)測分布和所述偏好語種分布,生成對所述輸入文本的語種的第二預(yù)測分布;根據(jù)所述第二預(yù)測分布確定所述輸入文本的預(yù)測語種。通過利用用戶的偏好語種分布來對語種識別模型的第一預(yù)測分布進(jìn)行糾正,從而在用戶粒度上增強(qiáng)了語種識別的個性化和準(zhǔn)確率。性化和準(zhǔn)確率。性化和準(zhǔn)確率。
【技術(shù)實現(xiàn)步驟摘要】
一種輸入方法、裝置、電子設(shè)備及計算機(jī)存儲介質(zhì)
[0001]本申請實施例涉及計算機(jī)
,尤其涉及一種輸入方法、裝置、電子設(shè)備及計算機(jī)存儲介質(zhì)。
技術(shù)介紹
[0002]隨著全球化和互聯(lián)化的發(fā)展,在文本中多語言混用的現(xiàn)象越來越多,服務(wù)的用戶所使用的語種也越來越多。例如,在電商場景中,用戶可能有使用英語、法語、或者德語等多個不同語種的用戶。同時用戶輸入的搜索詞還往往具有不規(guī)范和多語言歧義的問題,例如:“basket”在法語中是“籃球鞋”的意思,但是在英語中卻是“籃筐”的意思,此時通過關(guān)鍵詞本身就難以做出準(zhǔn)確的語種識別。
[0003]基于此,需要一種更準(zhǔn)確的輸入方案。
技術(shù)實現(xiàn)思路
[0004]有鑒于此,本申請實施例提供一種輸入方案,以至少部分解決上述問題。根據(jù)本申請實施例的第一方面,提供了一種輸入方法,包括:
[0005]獲取用戶的輸入文本,根據(jù)所述用戶的標(biāo)識確定所述用戶的偏好語種分布;采用預(yù)先訓(xùn)練的語種識別模型確定所述輸入文本的語種的第一預(yù)測分布;根據(jù)所述第一預(yù)測分布和所述偏好語種分布,生成對所述輸入文本的語種的第二預(yù)測分布;根據(jù)所述第二預(yù)測分布確定所述輸入文本的預(yù)測語種。
[0006]根據(jù)本申請實施例的第二方面,提供了一種輸入裝置,所述裝置包括:
[0007]用戶偏好確定模塊,獲取用戶的輸入文本,根據(jù)所述用戶的標(biāo)識確定所述用戶的偏好語種分布;第一預(yù)測模塊,采用預(yù)先訓(xùn)練的語種識別模型確定所述輸入文本的語種的第一預(yù)測分布;第二預(yù)測模塊,根據(jù)所述第一預(yù)測分布和所述偏好語種分布,生成對所述輸入文本的語種的第二預(yù)測分布;輸入語種確定模塊,將所述第二預(yù)測分布中分值滿足預(yù)設(shè)條件的語種確定為所述輸入文本的預(yù)測語種。
[0008]根據(jù)本申請實施例的第三方面,提供了一種電子設(shè)備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;所述存儲器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如第一方面所述的輸入方法對應(yīng)的操作。
[0009]根據(jù)本申請實施例的第四方面,提供了一種計算機(jī)存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)如第一方面所述的輸入方法對應(yīng)的操作。
[0010]根據(jù)本申請實施例提供的輸入方案,獲取用戶的輸入文本,根據(jù)所述用戶的標(biāo)識確定所述用戶的偏好語種分布;采用預(yù)先訓(xùn)練的語種識別模型確定所述輸入文本的語種的第一預(yù)測分布;根據(jù)所述第一預(yù)測分布和所述偏好語種分布,生成對所述輸入文本的語種的第二預(yù)測分布;根據(jù)所述第二預(yù)測分布確定所述輸入文本的預(yù)測語種。通過利用用戶的偏好語種分布來對語種識別模型的第一預(yù)測分布進(jìn)行糾正,從而在用戶粒度上增強(qiáng)了語種
識別的個性化和準(zhǔn)確率。
附圖說明
[0011]為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請實施例中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0012]圖1為當(dāng)前技術(shù)中所涉及的多語種的數(shù)據(jù)存儲的架構(gòu)示意圖;
[0013]圖2為本申請實施例所提供的一種輸入方法的流程示意圖;
[0014]圖3為本申請實施例所提供的一種輸入的邏輯框架示意圖;
[0015]圖4為本申請實施例所提供的一種輸入裝置的結(jié)構(gòu)示意圖;
[0016]圖5為本申請實施例所提供的一種電子設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
[0017]為了使本領(lǐng)域的人員更好地理解本申請實施例中的技術(shù)方案,下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅是本申請實施例一部分實施例,而不是全部的實施例。基于本申請實施例中的實施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本申請實施例保護(hù)的范圍。
[0018]語種識別是進(jìn)行文本翻譯、數(shù)據(jù)過濾、文本預(yù)處理等行為的基礎(chǔ)。例如,在實際應(yīng)用中,對于不同語種的相關(guān)數(shù)據(jù)不會混合存儲,而是存儲在對應(yīng)的不同的數(shù)據(jù)庫中。如圖1所示,圖1為當(dāng)前技術(shù)中所涉及的多語種的數(shù)據(jù)存儲的架構(gòu)示意圖。在相關(guān)場景中,如果不預(yù)先進(jìn)行語種識別,那么搜索數(shù)據(jù)時可能實際上就要進(jìn)行跨域搜索或者處理,效率很低。
[0019]而隨著電子商務(wù)的全球化發(fā)展,電商用戶群體也在不斷擴(kuò)展,用戶所使用的語種也越來越多。此時,對用戶進(jìn)行服務(wù)時,就需要進(jìn)行準(zhǔn)確的語種識別,才能進(jìn)行后續(xù)的服務(wù)。用戶在電商平臺進(jìn)行購物時,通常會輸入若干關(guān)鍵詞進(jìn)行商品搜索。而關(guān)鍵詞往往會存在諸如拼寫錯誤、沒有嚴(yán)格語序的不規(guī)范問題,以及,還有可能存在通用表達(dá)(即在不同的語種中都包含同一單詞)、同形異義詞(即同一單詞在不同的語種中含義不同)等歧義問題。
[0020]例如,用戶可能輸入搜索詞“basket”進(jìn)行商品搜索。而“basket”在法語中是“籃球鞋”的意思,但是在英語中卻是“籃筐”的意思,這就有可能造成對于語種識別不準(zhǔn)確的問題。又例如,對于俄語用戶而言,其輸入的語調(diào)符號本身不發(fā)音,而用戶在輸入時經(jīng)常會省略一些語調(diào)符號,這就容易造成在輸入過程中的語種識別錯誤,導(dǎo)致后續(xù)的相關(guān)服務(wù)不能滿足用戶的實際需求。
[0021]基于此,本申請實施例提供一種輸入方案,如圖2所示,圖2為本申請實施例所提供的一種輸入方法的流程示意圖,所述方法包括:
[0022]S201,獲取用戶的輸入文本,根據(jù)所述用戶的標(biāo)識確定所述用戶的偏好語種分布。
[0023]用戶可以是任意語種的用戶,在某些需要用戶登陸的場景下(例如,在用戶通過登陸電商平臺進(jìn)行購物的場景下),客戶端或者服務(wù)端還可以獲取得到該用戶所對應(yīng)的用戶標(biāo)識。
[0024]服務(wù)端可以從用戶的歷史信息中查詢得到用戶的偏好語種使用信息(包括對各語
種的使用頻率、語種的使用地點、使用場景、使用概率等等),進(jìn)而得到用戶的偏好語種分布。偏好語種分布可以是具體的各語種的使用頻率,也可以是各語種的使用概率的分布。
[0025]例如,服務(wù)端可以查詢該用戶在一定的窗口時間內(nèi)(例如,180天)內(nèi)的登陸平臺時所主動選擇的語種類別并進(jìn)行統(tǒng)計,或者還可以基于用戶在購買商品時所選擇的語種類別進(jìn)行統(tǒng)計語,從而得到該用戶所使用的各語種的使用頻率的分布情形。
[0026]在另一種實施方式中,服務(wù)端還可以預(yù)先建立用戶語種偏好數(shù)據(jù)(例如以關(guān)系表或者鍵值對等形式保存用戶語種偏好數(shù)據(jù)),用于保存各用戶的各語種的使用信息。例如,服務(wù)端可以基于用戶和其它方進(jìn)行溝通時(包括諸如與商戶或者客服進(jìn)行溝通,或者在平臺中發(fā)表文字評論)所采用的語種或者進(jìn)行商品搜索時所采用的語種進(jìn)行歷史統(tǒng)計,從而得到用戶所使用的各語種的使用頻率,進(jìn)而基于各語種的使用頻率進(jìn)行統(tǒng)計得到該用戶的各語種的概率,并將使用頻率和使用概率一起寫入用戶語種偏好數(shù)據(jù)中。
[0027]用戶語種偏好數(shù)據(jù)可以是各種形式的,例如,可以是關(guān)系型數(shù)據(jù)表,或者是鍵值對等非關(guān)系型數(shù)據(jù)表。以本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
【技術(shù)特征摘要】
1.一種輸入方法,包括:獲取用戶的輸入文本,根據(jù)所述用戶的標(biāo)識確定所述用戶的偏好語種分布;采用預(yù)先訓(xùn)練的語種識別模型確定所述輸入文本的語種的第一預(yù)測分布;根據(jù)所述第一預(yù)測分布和所述偏好語種分布,生成對所述輸入文本的語種的第二預(yù)測分布;根據(jù)所述第二預(yù)測分布確定所述輸入文本的預(yù)測語種。2.如權(quán)利要求1所述的方法,其中,所述根據(jù)所述用戶的標(biāo)識確定所述用戶的偏好語種分布,包括:根據(jù)所述用戶的標(biāo)識獲得用戶語種偏好數(shù)據(jù),所述用戶語種偏好數(shù)據(jù)中包括以用戶的標(biāo)識為鍵和以不同語種的使用信息為值的鍵值對;從所述用戶語種偏好數(shù)據(jù)中查詢所述用戶對不同語種的使用信息;根據(jù)所述用戶對不同語種的使用信息確定所述用戶的偏好語種分布。3.如權(quán)利要求1所述的方法,其中,根據(jù)所述第一預(yù)測分布和所述偏好語種分布,生成對所述輸入文本的語種的第二預(yù)測分布,包括:根據(jù)所述偏好語種分布確定語種分布權(quán)重;根據(jù)語種分布權(quán)重與對應(yīng)的語種的第一預(yù)測分布確定第二預(yù)測分布。4.如權(quán)利要求3所述的方法,其中,根據(jù)所述偏好語種分布確定對應(yīng)的語種分布權(quán)重,包括:將所述偏好語種分布確定為語種分布權(quán)重;或者,獲取用戶的語種指示信息,根據(jù)所述語種指示信息確定偏好語種系數(shù),根據(jù)所述偏好語種系數(shù)和所述偏好語種分布確定語種分布權(quán)重。5.如權(quán)利要求2所述的方法,還包括:根據(jù)所述第二預(yù)測分布調(diào)整所述用戶語種偏好數(shù)據(jù)中該用戶所對應(yīng)的鍵值對的值。6.如權(quán)利要求5所述的方法,其中,根...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:任星彰,張海波,駱衛(wèi)華,
申請(專利權(quán))人:阿里巴巴新加坡控股有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。