本發(fā)明專利技術(shù)公開了一種識(shí)別領(lǐng)域命名實(shí)體的方法及裝置,涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,主要目的在于有效的減少了分詞結(jié)果對(duì)領(lǐng)域命名實(shí)體識(shí)別效果的影響,提高了命名實(shí)體識(shí)別的準(zhǔn)確率。本發(fā)明專利技術(shù)的主要技術(shù)方案為:對(duì)待識(shí)別文本進(jìn)行分詞;根據(jù)待識(shí)別文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注,該標(biāo)簽集合包含基于領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合和對(duì)應(yīng)領(lǐng)域所屬標(biāo)簽集合,其中,所述基礎(chǔ)標(biāo)簽集合包含組成領(lǐng)域命名實(shí)體相關(guān)詞語(yǔ)的位置標(biāo)簽;按照領(lǐng)域命名實(shí)體抽取規(guī)則對(duì)標(biāo)簽標(biāo)注的分詞進(jìn)行抽取并組成領(lǐng)域命名實(shí)體。本發(fā)明專利技術(shù)主要用于領(lǐng)域命名實(shí)體識(shí)別的過(guò)程中。
Method and apparatus for identifying domain named entities
Method and device of the invention discloses a named entity recognition field, relates to the technical field of Natural Language Processing, the main purpose is to reduce the effect of segmentation results of named entity recognition effect on the field, to improve the accuracy of named entity recognition. The main technical scheme of the invention is: to identify text segmentation; text recognition according to the corresponding field tag set, treat each word recognition in the text of the label, the label contains a collection named entity recognition based on domain based tag set and to field belongs to a set of tags, the position of the base tag the label contains a collection of named entity related parts in the field of words; according to the domain name entity extraction rules to extract segmentation label and field named entity. The invention is mainly used in the process of domain name entity recognition.
【技術(shù)實(shí)現(xiàn)步驟摘要】
識(shí)別領(lǐng)域命名實(shí)體的方法及裝置
本專利技術(shù)涉及自然語(yǔ)言處理
,尤其涉及一種識(shí)別領(lǐng)域命名實(shí)體的方法及裝置。
技術(shù)介紹
命名實(shí)體識(shí)別(NamedEntityRecognition,NER),又稱作“專名識(shí)別”,是指識(shí)別文本中具有特定意義的實(shí)體,該實(shí)體主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。命名實(shí)體識(shí)別是信息提取、問(wèn)答系統(tǒng)、句法分析、機(jī)器翻譯、面向SemanticWeb(語(yǔ)義網(wǎng))的元數(shù)據(jù)標(biāo)注等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具,在自然語(yǔ)言處理技術(shù)走向?qū)嵱没倪^(guò)程中占有重要地位。目前,命名實(shí)體識(shí)別一般采用如下方法實(shí)現(xiàn),該方法具體為:構(gòu)建命名實(shí)體集合,或者指定實(shí)體抽取規(guī)則;對(duì)句子進(jìn)行分詞,并構(gòu)建字典樹或者規(guī)則樹;遍歷分詞結(jié)果,匹配詞典或者規(guī)則,若有與詞典或者規(guī)則匹配的內(nèi)容,則標(biāo)記匹配內(nèi)容的位置,如果沒有匹配的內(nèi)容,則進(jìn)行下一句文本語(yǔ)句的遍歷;直到將所述的文本語(yǔ)句遍歷結(jié)束,并輸出最終的標(biāo)注結(jié)果。在執(zhí)行上述命名實(shí)體識(shí)別方法時(shí),專利技術(shù)人發(fā)現(xiàn)目前的技術(shù)方案至少存在如下問(wèn)題:中文領(lǐng)域的專有命名實(shí)體識(shí)別任務(wù)過(guò)程中,中文的分詞不能像英文等通過(guò)空格來(lái)分詞,所以錯(cuò)誤的分詞可能會(huì)導(dǎo)致命名實(shí)體邊界確定的不準(zhǔn)確,導(dǎo)致命名實(shí)體識(shí)別不準(zhǔn)確;并且,目前命名實(shí)體識(shí)別的準(zhǔn)確率完全依賴于字典或者規(guī)則的完整程度,針對(duì)于變化中的實(shí)體范圍,并不能很好的完成實(shí)體識(shí)別任務(wù)。
技術(shù)實(shí)現(xiàn)思路
有鑒于此,本專利技術(shù)提供一種識(shí)別領(lǐng)域命名實(shí)體的方法及裝置,主要目的在于,通過(guò)使用標(biāo)簽標(biāo)記的方法,對(duì)命名實(shí)體邊界進(jìn)行精準(zhǔn)定位,有效的減少了分詞結(jié)果對(duì)領(lǐng)域命名實(shí)體識(shí)別效果的影響,提高了命名實(shí)體識(shí)別的準(zhǔn)確率。為達(dá)到上述目的,本專利技術(shù)提供如下的技術(shù)方案:一方面,本專利技術(shù)提供一種識(shí)別領(lǐng)域命名實(shí)體的方法,包括:對(duì)待識(shí)別文本進(jìn)行分詞;根據(jù)所述待識(shí)別文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注,所述標(biāo)簽集合包含基于領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合和對(duì)應(yīng)領(lǐng)域所屬標(biāo)簽集合,其中,所述基礎(chǔ)標(biāo)簽集合包含組成領(lǐng)域命名實(shí)體相關(guān)詞語(yǔ)的位置標(biāo)簽;按照領(lǐng)域命名實(shí)體抽取規(guī)則對(duì)標(biāo)簽標(biāo)注的分詞進(jìn)行抽取;將抽取的分詞組成領(lǐng)域命名實(shí)體。另一方面,本專利技術(shù)還提供一種識(shí)別領(lǐng)域命名實(shí)體的裝置,包括:分詞單元,用于對(duì)待識(shí)別文本進(jìn)行分詞;標(biāo)注單元,用于根據(jù)所述待識(shí)別文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注,所述標(biāo)簽集合包含基于領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合和對(duì)應(yīng)領(lǐng)域所屬標(biāo)簽集合,其中,所述基礎(chǔ)標(biāo)簽集合包含組成領(lǐng)域命名實(shí)體相關(guān)詞語(yǔ)的位置標(biāo)簽;抽取單元,用于按照領(lǐng)域命名實(shí)體抽取規(guī)則對(duì)標(biāo)簽標(biāo)注的分詞進(jìn)行抽取;組詞單元,用于將抽取的分詞組成領(lǐng)域命名實(shí)體。本專利技術(shù)提供的識(shí)別領(lǐng)域命名實(shí)體的方法及裝置,當(dāng)需要對(duì)文本中的領(lǐng)域命名實(shí)體進(jìn)行識(shí)別時(shí),其是先根據(jù)預(yù)設(shè)置的該文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注,即根據(jù)組成領(lǐng)域命名實(shí)體相關(guān)詞語(yǔ)的位置標(biāo)簽對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注,進(jìn)而按照領(lǐng)域命名實(shí)體抽取規(guī)則對(duì)進(jìn)行標(biāo)簽標(biāo)注的分詞進(jìn)行抽取,并將抽取的分詞組成領(lǐng)域命名實(shí)體,與現(xiàn)有技術(shù)中依賴于字典或者規(guī)則識(shí)別領(lǐng)域命名實(shí)體相比,其識(shí)別領(lǐng)域命名實(shí)體的邊界不再局限于分詞與字典進(jìn)行匹配,而是通過(guò)標(biāo)簽標(biāo)注來(lái)確定識(shí)別領(lǐng)域命名實(shí)體的邊界,這樣對(duì)命名實(shí)體邊界能夠進(jìn)行精準(zhǔn)定位,有效的減少了分詞結(jié)果對(duì)領(lǐng)域命名實(shí)體識(shí)別效果的影響,提高了命名實(shí)體識(shí)別的準(zhǔn)確率。上述說(shuō)明僅是本專利技術(shù)技術(shù)方案的概述,為了能夠更清楚了解本專利技術(shù)的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本專利技術(shù)的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本專利技術(shù)的具體實(shí)施方式。附圖說(shuō)明通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本專利技術(shù)的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:圖1示出了本專利技術(shù)實(shí)施例中一種識(shí)別領(lǐng)域命名實(shí)體的方法流程圖;圖2示出了本專利技術(shù)實(shí)施例中一種隱馬爾科夫模型的示意圖;圖3示出了本專利技術(shù)實(shí)施例中一種識(shí)別領(lǐng)域命名實(shí)體的裝置組成框圖;圖4示出了本專利技術(shù)實(shí)施例中另一種識(shí)別領(lǐng)域命名實(shí)體的裝置組成框圖;圖5示出了本專利技術(shù)實(shí)施例中另一種識(shí)別領(lǐng)域命名實(shí)體的裝置組成框圖。具體實(shí)施方式下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。本專利技術(shù)實(shí)施例提供一種識(shí)別領(lǐng)域命名實(shí)體的方法,如圖1所示,該方法包括:101、對(duì)待識(shí)別文本進(jìn)行分詞。其中,對(duì)待識(shí)別文本進(jìn)行分詞可以采用目前的任一種方式實(shí)現(xiàn),本專利技術(shù)實(shí)施例對(duì)此不進(jìn)行限定。102、根據(jù)所述待識(shí)別文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注,所述標(biāo)簽集合包含基于領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合和對(duì)應(yīng)領(lǐng)域所屬標(biāo)簽集合,其中,所述基礎(chǔ)標(biāo)簽集合包含組成領(lǐng)域命名實(shí)體相關(guān)詞語(yǔ)的位置標(biāo)簽。需要說(shuō)明的是,不同領(lǐng)域的命名實(shí)體具有不同的內(nèi)部特征,不可能用一個(gè)統(tǒng)一的模型來(lái)刻畫所有的命名實(shí)體內(nèi)部特征,所以本專利技術(shù)實(shí)施例在對(duì)不同領(lǐng)域的命名實(shí)體進(jìn)行識(shí)別時(shí),其各領(lǐng)域使用的標(biāo)簽集合也不盡相同。如上所述,每個(gè)領(lǐng)域的標(biāo)簽集合,包含基于領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合和對(duì)應(yīng)領(lǐng)域所屬標(biāo)簽集合。其中,各領(lǐng)域所屬標(biāo)簽集合為不同領(lǐng)域特屬的標(biāo)簽集合。例如:汽車領(lǐng)域可以添加集團(tuán)標(biāo)簽集合;人名識(shí)別中可以添加姓氏標(biāo)簽集合。其中,該所述基礎(chǔ)標(biāo)簽集合包含組成領(lǐng)域命名實(shí)體相關(guān)詞語(yǔ)的位置標(biāo)簽,該位置標(biāo)簽可以為但不局限于以下內(nèi)容的標(biāo)簽:詞語(yǔ)位于實(shí)體的首部TS、詞語(yǔ)位于實(shí)體中部TM、詞語(yǔ)位于實(shí)體的尾部TE、詞語(yǔ)位于實(shí)體的前面/后面TSN/TEN、與該領(lǐng)域?qū)嶓w不相關(guān)TN、兩個(gè)實(shí)體是并列關(guān)系TT、分詞錯(cuò)誤TSX/TEX/TXS/TEX等。各標(biāo)簽的具體含義可以參考如下的表1中的描述。表1進(jìn)一步的,在執(zhí)行本專利技術(shù)實(shí)施例之前,還需要先獲取各領(lǐng)域的標(biāo)簽集合,在獲取各領(lǐng)域的標(biāo)簽集合時(shí),可以通過(guò)但不局限于以下的方法實(shí)現(xiàn),該方法包括:獲取領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合和各領(lǐng)域所屬標(biāo)簽集合;取所述各領(lǐng)域所屬標(biāo)簽集合與所述領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合的合集作為各領(lǐng)域的標(biāo)簽集合。進(jìn)一步的,本專利技術(shù)實(shí)施例在根據(jù)所述待識(shí)別文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注時(shí),可以采用但不局限于使用訓(xùn)練模型進(jìn)行。該訓(xùn)練模型可以為但不局限于隱馬爾科夫模型對(duì)待識(shí)別文本進(jìn)行標(biāo)簽標(biāo)注,也可以使用條件隨機(jī)場(chǎng)模型或者神經(jīng)網(wǎng)絡(luò)模型等對(duì)待識(shí)別文本進(jìn)行標(biāo)簽標(biāo)注。由于隱馬爾科夫模型充分考慮詞語(yǔ)的上下文環(huán)境,有效的解決了在現(xiàn)有實(shí)體識(shí)別方法限于字典規(guī)模的問(wèn)題,故本專利技術(shù)實(shí)施例優(yōu)選使用隱馬爾科夫模型對(duì)待識(shí)別文本進(jìn)行標(biāo)簽標(biāo)注。例如,將分詞語(yǔ)句“上海大眾汽車召回案”這句文本交給標(biāo)簽標(biāo)注訓(xùn)練模型后,經(jīng)過(guò)標(biāo)簽標(biāo)注訓(xùn)練模型的標(biāo)注,會(huì)輸出“上海/TS大眾/TE汽車/TEN召回案/TN”。本專利技術(shù)實(shí)施例將結(jié)合圖2簡(jiǎn)單描述一下隱馬爾科夫模型。在上述的例子中,“上海大眾汽車召回案”四個(gè)詞對(duì)應(yīng)K節(jié)點(diǎn),表示要標(biāo)記的句子中的詞語(yǔ),是模型的觀測(cè)層,而對(duì)應(yīng)的標(biāo)簽層為S節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)可以在該步驟中進(jìn)行標(biāo)注,是模型的隱含層本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種識(shí)別領(lǐng)域命名實(shí)體的方法,其特征在于,包括:對(duì)待識(shí)別文本進(jìn)行分詞;根據(jù)所述待識(shí)別文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注,所述標(biāo)簽集合包含基于領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合和對(duì)應(yīng)領(lǐng)域所屬標(biāo)簽集合,其中,所述基礎(chǔ)標(biāo)簽集合包含組成領(lǐng)域命名實(shí)體相關(guān)詞語(yǔ)的位置標(biāo)簽;按照領(lǐng)域命名實(shí)體抽取規(guī)則對(duì)標(biāo)簽標(biāo)注的分詞進(jìn)行抽取;將抽取的分詞組成領(lǐng)域命名實(shí)體。
【技術(shù)特征摘要】
1.一種識(shí)別領(lǐng)域命名實(shí)體的方法,其特征在于,包括:對(duì)待識(shí)別文本進(jìn)行分詞;根據(jù)所述待識(shí)別文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注,所述標(biāo)簽集合包含基于領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合和對(duì)應(yīng)領(lǐng)域所屬標(biāo)簽集合,其中,所述基礎(chǔ)標(biāo)簽集合包含組成領(lǐng)域命名實(shí)體相關(guān)詞語(yǔ)的位置標(biāo)簽;按照領(lǐng)域命名實(shí)體抽取規(guī)則對(duì)標(biāo)簽標(biāo)注的分詞進(jìn)行抽取;將抽取的分詞組成領(lǐng)域命名實(shí)體。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述位置標(biāo)簽包括:分詞錯(cuò)誤;在根據(jù)所述待識(shí)別文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注之后,還包括:檢測(cè)所述標(biāo)簽標(biāo)注的文本中是否存在分詞錯(cuò)誤的標(biāo)簽;若存在分詞錯(cuò)誤的標(biāo)簽,則對(duì)分詞錯(cuò)誤的標(biāo)簽所在的文本語(yǔ)句進(jìn)行分詞糾錯(cuò)處理得到新的分詞;根據(jù)所述標(biāo)簽集合對(duì)所述新的分詞中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注,直到標(biāo)簽標(biāo)注的文本中不再出現(xiàn)分詞錯(cuò)誤的標(biāo)簽為止。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,對(duì)分詞錯(cuò)誤的標(biāo)簽所在的文本語(yǔ)句進(jìn)行分詞糾錯(cuò)處理得到新的分詞包括:對(duì)分詞錯(cuò)誤的標(biāo)簽所在的文本語(yǔ)句按字拆分并重新組合得到新的分詞。4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,在根據(jù)所述待識(shí)別文本對(duì)應(yīng)領(lǐng)域的標(biāo)簽集合,對(duì)待識(shí)別文本中的每個(gè)分詞進(jìn)行標(biāo)簽標(biāo)注之前,所述方法還包括:獲取領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合和各領(lǐng)域所屬標(biāo)簽集合;取所述各領(lǐng)域所屬標(biāo)簽集合與所述領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)標(biāo)簽集合的合集作為各領(lǐng)域的標(biāo)簽集合。5.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述位置標(biāo)簽包括:詞語(yǔ)位于實(shí)體的首部、詞語(yǔ)位于實(shí)體中部、詞語(yǔ)位于實(shí)體的尾部、詞語(yǔ)位于實(shí)體的前面/后面、與該領(lǐng)域?qū)嶓w不相關(guān)、兩個(gè)實(shí)體是并列關(guān)系。6.一種識(shí)別領(lǐng)域命名實(shí)體的裝置,其特征在于,包括:分詞單元,用于對(duì)待識(shí)別文本進(jìn)行分詞;標(biāo)注單元,用于根據(jù)所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:徐文斌,何鑫,
申請(qǐng)(專利權(quán))人:北京國(guó)雙科技有限公司,
類型:發(fā)明
國(guó)別省市:北京,11
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。