本發明專利技術提供一種使用序列標注進行識別文本分段的方法,包括步驟:A、分別將樣本集合的不同文字段切分為子句集合,采用語義特征向量標注所述子句集合以形成語義特征向量集合;B、對所述語義特征向量集合進行聚類訓練,得到聚類模型,對所述聚類模型的各對象進行簇編號以形成序列模型;C、將所述序列模型與所述不同文字段建立映射,對映射后的簇序列訓練序列標注模型;D、依次套用所述序列模型和所述序列標注模型,對待分段的文本進行分段。通過樣本集合為數據庫范本,進行標準化建模。在后續識別文本分段時,把對待分段文本中的句式模型進行標準化,而后依據模型將標準化的語句映射到語句特征,從而可以將表示相同語義的不同表述完成識別文本分段。
A method of text segmentation recognition using sequence annotation
【技術實現步驟摘要】
一種使用序列標注進行識別文本分段的方法
本專利技術涉及文字處理
,特別是一種使用序列標注進行識別文本分段的方法。
技術介紹
隨著人工智能時代的到來,對于機器理解大段文本能力的要求越來越高。長文本因其信息量復雜,書寫方式多樣等,機器很難直接對其進行理解,所以可以先對長文本進行分解,拆解出其關鍵性信息片段,然后再逐個對片段信息進行進一步抽取和刻畫,采用分治思想的方式是目前業界的一種主流做法。在對長文本進行目標片段劃分上,當前有使用多分類方式,即對子句建立多分類模型,然后基于規則或者模型在對子句進行連續性再拼接,構建成片段。但該方法缺乏上下文信息,對子句類型比較分散的情況難以應付。還有使用深度學習問答模型方法,該方法能夠做到端到端識別,但其對數據量和數據質量有比較高的要求,同時計算復雜度也很高,應用成本較高。
技術實現思路
本專利技術的主要目的在于提供一種使用序列標注進行識別文本分段的方法,包括步驟:A、分別將樣本集合的不同文字段切分為子句集合,采用語義特征向量標注所述子句集合以形成語義特征向量集合;B、對所述語義特征向量集合進行聚類訓練,得到聚類模型,對所述聚類模型的各對象進行簇編號以形成序列模型;C、將所述序列模型與所述不同文字段建立映射,建立序列標注模型;D、依次套用所述序列模型和所述序列標注模型,對待分段的文本進行分段。由上,通過以樣本集合為數據庫范本,建立將表示相同語義的不同句式進行標準序列化的模型,以及建立序列與語句特征映射關系的模型,從而進行標準化建模。在后續對待分段的文本進行識別文本分段時,首先把對待分段文本中的各種句式依據標準序列化的模型進行標準化,而后依據序列與語句特征映射關系的模型將標準化的語句映射到語句特征,從而可以將表示相同語義的不同表述完成識別文本分段。其中,所述步驟A包括:對所述子句集合中的各子句進行分詞處理,得出各子句中各分詞的詞向量;分別對各子句中的詞向量進行平均值計算,得出該各子句的語義特征向量。由上,通過采用對組成句子的各單詞詞義向量的獲取,進而計算出句子的語義特征向量。其中,所述步驟D包括:將待分段的文本切分為待分段子句集合,采用語義特征向量標注所述子句集合以形成待分段語義特征向量集合;采用聚類模型對所述待分段語義特征向量的標注集合進行驗算,以確定出各子句的簇編號;采用序列標注模型對各子句所屬的簇編號進行映射,以對所述各子句進行文字段的構建,確定出構建文本的各個片段。由上,對待分段的文本進行識別文本分段時,首先將其采用與語義特征向量的標注集合相同的格式進行標準化,其次將標準化的各子句進行語義特征的映射,從而完成對待分段的文本的識別。其中,所述樣本集合和為歷史病歷;所述待分段的文本為新病歷。附圖說明圖1為使用序列標注進行識別文本分段的方法的流程圖。具體實施方式下面參見圖1對本專利技術所述的使用序列標注進行識別文本分段的方法進行詳細說明,包括由步驟S100~S400組成的建模訓練階段、步驟S500的識別文本分段階段和步驟S600的應用階段,詳細說明如下:S100:對文本切分成若干子句,獲取各子句的語義特征向量的集合。設語料樣本集合S1,該集合S1中包括多個文字段,各文字段表述為Pi,i為大于或等于1的自然數。對所述文字段Pi按標點符號進行切分,得到子句Sij,二者的邏輯關系為Pi=Si1、Si2、……、Sij。所述子句Sij構成一形容不同文字段的標注(token)集合S2。例如在一段話中,一些語句是檢查描述(對應為該段的開始),一些語句是病理描述(對應為該段的結束);或者一些語句是入院情況(開始),一些語句是治療情況(中間過程),一些語句是出院情況(結束);又或者一些語句是描述患病癥狀(開始),一些語句是描述痊愈表現(結束)等等。由此會有不同的文字段。對各所述子句Sij進行分詞,得到Wijk,k為大于或等于1的自然數。所述分詞結果Wijk構成詞粒度集合W1。對所述詞粒度集合W1進行詞向量提取,得出詞向量Wijk_vec。所述詞向量具有良好的語義特性,是表示詞語特征的常用方式。詞向量每一維的值代表一個具有一定的語義和語法上解釋的特征。本實施例中,對于詞向量提取可采用Word2vec模型實現,該模型是google在2013年推出,特點是將所有的詞向量化,這樣詞與詞之間就可以定量度量彼此之間的關系。舉個例子,紅細胞計數、血紅蛋白、平均紅細胞體積、白細胞計數、血小板這些名詞各對應一個向量,向量中只有一個值為1,其余都為0。可見,這些名詞之間是沒有交集的。但經過Word2vec模型進行詞向量提取后,使上述各名詞產生關聯,例如以在人體內的存量這一一維變量建立聯系從而以向量形式表示;又或者同時以在人體內的存量、以及所占重量或更新速度等三維數據建立聯系從而以向量形式表示等等。又例如,在一段病歷中,一般包括患者的身份信息,病情敘述、檢查內容和分析結果。采用詞向量提取,便可以將各個名詞與上述不同過程建立相關性。例如分詞包括張三、45歲、男、血液檢測、血糖高總共五個分詞。則張三、45歲、男三個分詞便跟身份信息的關聯性最強,而跟病情敘述、檢查內容和分析結果兩個過程的相關性較弱。另外,對于語義特征向量的獲取還可采用例如潛在語義分析(LSA,LatentSemanticAnalysis)等其他方法進行,在此不進行限定。使用采用平均值算法得到句子語義特征向量Sij_vec,Sij_vec=Average(Wijk_vec)。從而形成語義特征向量的集合S3。S200:對所述語義特征向量的集合進行聚類訓練,得到聚類模型。通過對各子句語義特征向量的識別,將語義特征相同或者近似的子句劃歸為同一類。本實施例中,對語義特征向量的集合S3進行聚類訓練采用K-means算法,其基本原理是基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。本步驟對語義特征向量的集合S3進行聚類訓練的訓練結果得到聚類模型M1,聚類簇為K。即從j個子句中隨機選取K個作為質心;對剩余的每個子句測量其到每個質心的距離,并把它歸到最近的質心的類;重新計算已經得到的各個類的質心;迭代執行前述兩步,直至新的質心與原質心相等或小于指定閾值。S300:對所述標注集合S2按照聚類模型進行編號以形成序列模型。對所述標注集合S2根據聚類模型M1進行驗算,從而可以推斷出各子句Sij所屬的簇編號,所述簇編號表示為cid,由此將所述標注集合S2轉換為簇編號序列,表示為Sij_cid。由于常用漢字約為6000例,這其中包括了單字間的組合、單詞間的組合、單句間的組合以及三者之間的結合,可以說組合形式千變萬化。即,對于同一種病理描述的表達,可能有前種萬種,例如同樣是對感冒的描述,可能存在“疑似感冒”本文檔來自技高網...
【技術保護點】
1.一種使用序列標注進行識別文本分段的方法,其特征在于,包括步驟:/nA、分別將樣本集合的不同文字段切分為子句集合,采用語義特征向量標注所述子句集合以形成語義特征向量集合;/nB、對所述語義特征向量集合進行聚類訓練,得到聚類模型,對所述聚類模型的各對象進行簇編號以形成序列模型;/nC、將所述序列模型與所述不同文字段建立映射,建立序列標注模型;/nD、依次套用所述序列模型和所述序列標注模型,對待分段的文本進行分段。/n
【技術特征摘要】
1.一種使用序列標注進行識別文本分段的方法,其特征在于,包括步驟:
A、分別將樣本集合的不同文字段切分為子句集合,采用語義特征向量標注所述子句集合以形成語義特征向量集合;
B、對所述語義特征向量集合進行聚類訓練,得到聚類模型,對所述聚類模型的各對象進行簇編號以形成序列模型;
C、將所述序列模型與所述不同文字段建立映射,建立序列標注模型;
D、依次套用所述序列模型和所述序列標注模型,對待分段的文本進行分段。
2.根據權利要求1所述的方法,其特征在于,所述步驟A包括:
對所述子句集合中的各子句進行分詞處理,得出各子句中各分詞的詞向量;...
【專利技術屬性】
技術研發人員:羅立剛,劉輝,張正寬,張天澤,常濤,王玲,
申請(專利權)人:零氪科技天津有限公司,
類型:發明
國別省市:天津;12
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。