本發明專利技術的構建電力詞庫專業詞組的方法包括:將記載電力專業書籍的PDF格式轉變成TXT格式,然后刪除其中出現的停用詞;用概率的方法和信息熵的方法從電力專業書籍中提取出詞組,得到電力詞庫的詞組;將字數為10萬字的人民日報的PDF格式轉變成TXT格式,然后刪除其中出現的停用詞;用概率的方法從人民日報中提取出詞組,得到日常詞庫;從電力詞庫的中刪除日常詞庫的詞組,得到電力詞庫的專業詞組。得到電力詞庫的專業詞組。得到電力詞庫的專業詞組。
【技術實現步驟摘要】
構建電力詞庫專業詞組的方法
[0001]本專利技術涉及一種基于左右信息熵優化的中文自動分詞方法和一種電力專業詞庫構建方法。
技術介紹
[0002]電力行業是重大的基礎能源體系,很多領域的發展都離不開電力,但是隨著各國對能源管理方面的改革創新,對電力行業提出了向環境友好化及信息化轉變的要求,因此傳統電力系統需要加速向新型電力系統轉變。同時,隨著互聯網的發展、云計算及物聯網技術的應用與普及,各個領域都會產生海量數據,大數據成為推動各行各業發展強勁動力,電力系統內每時每刻也不斷產生著數據,為了盡可能使電力系統運轉時產生的電力數據得到高效的利用、加速傳統電力系統的優化進程,應當考慮將電力行業的發展與人工智能技術結合,加強對電力人工智能技術的研究。
技術實現思路
[0003]本申請是為了解決電力行業缺乏專業中文詞庫,導致自然語言處理技術在電力領域應用受阻,阻礙了電力人工智能技術的發展。而提供的一種構建電力詞庫專業詞組的方法,該專利技術研究電力領域中文文本的自動分詞技術,根據電力文本的特點,選擇基于左右信息熵優化的分詞算法來對文本進行無監督分詞,使用優化后的算法對選取的電力相關專業書籍的文本集以及人民日報文本集分別進行自動分詞,對比兩者得到的詞表,提取出現在專業詞表且不出現在非專業詞表的詞語作為最終提取出的專業詞匯,以此構建電力相關的專業詞庫。
[0004]為了實現本申請的目的,本專利技術采用如下技術方案:
[0005]本專利技術的一種構建電力詞庫專業詞組的方法,其中:它包括:
[0006](一)、文本預處理
[0007]將記載電力專業書籍的PDF格式轉變成TXT格式,然后刪除其中出現的停用詞;
[0008](二)、從電力專業書籍中提取出詞組
[0009](a)、提取二字詞
[0010]在電力專業書籍中,以一句話為單位,按照一句話字的先后順序,分別計算出選定字與相鄰字同時出現在電力專業書籍中出現的概率和上述兩個字分別在電力專業書籍中出現的概率;根據以下公式(1)計算出:
[0011]其中:x為選定的一個字;y為與x相鄰的另一個選定的字;P(x)為上述一個字“x”在電力專業的書籍中出現的概率,P(y)為上述字“y”在電力專業的書籍中出現的概率;P(x,y)為x和y相鄰兩個字同時出現在電力專業書籍中出現的概率,當PMI(x,y)>0.1時,將x和y作為一個詞組提取出來,加入到電力詞庫;
[0012](b)、提取三字詞或四字詞
[0013]將上述二字詞組xy作為x,以二字詞組xy后續的相鄰字作為y,根據公式(1),計算出三字出現的概率PMI(x,y),當PMI(x,y)>0.1時,將上述三個字作為一個詞組提取出來加入電力詞庫;重復上述步驟,提取出四個字的詞組加入電力詞庫;
[0014](c)、用信息熵將電力詞庫中的二字詞組、三字詞組或四字詞組進行擴充,至最多為七字詞組
[0015]采用如下信息熵計算公式(2),
[0016]H(w)=
?
∑p(x
i
)logp(x
i
)
???
公式(2),其中:w為擴充詞組;H(w)為擴充詞組的信息熵,p(x
i
)為擴充詞組的每個字在電力專業書籍中的概率;
[0017]分別計算出上述二字詞的前一個字至前五個字的信息熵、二字詞的后一個字至五個字的信息熵、二字詞的前一個字和后一至四個字的信息熵、二字詞的前二個字和后一至三個字的信息熵、二字詞的前三個字和后一至二個字的信息熵,并且找出信息熵>2的詞組加入到電力詞庫中;
[0018]分別計算出三字詞的前一個字至前四個字的信息熵、三字詞的后一個字至四個字的信息熵、三字詞的前一個字和后一至三個字的信息熵、三字詞的前二個字和后一至二個字的信息熵、三字詞的前三個字和后一個字的信息熵,并且找出信息熵>2的詞組加入到電力詞庫中;
[0019]分別計算出四字詞的前一個字至前三個字的信息熵、四字詞的后一個字至三個字的信息熵、四字詞的前一個字和后一至二個字的信息熵、四字詞的前二個字和后一字的信息熵,并且找出信息熵>2的詞組加入到電力詞庫中;
[0020]在上述電力詞庫中刪除重復選擇的詞組;
[0021](三)、從人民日報中提取出詞組
[0022]將字數為10萬字的人民日報的PDF格式轉變成TXT格式,然后刪除其中出現的停用詞;按照上述步驟(a)和步驟(b),從上述10萬字的人民日報中,提取出二字詞組、三字詞組或四字詞組組成日常詞庫,在上述日常詞庫中刪除重復選擇的詞組;
[0023](四)、從電力詞庫的詞組中刪除日常詞庫的詞組
[0024]從電力詞庫的詞組中刪除日常詞庫的詞組,得到電力詞庫的專業詞組。
[0025]本專利技術的構建電力詞庫專業詞組的方法,其中:所述電力專業的書籍包括:《變壓器檢修》、《變壓器設備典型故障案例匯編》、《變壓器狀態監測診斷技術》、《大型變壓器典型故障案例分析與處理》、《變壓器故障診斷與維修》和《變電站設備缺陷分類標準》中的一本或幾本。
[0026]本專利技術的構建電力詞庫專業詞組的方法,其中:所述停用詞包括:虛詞、數字和不具有分段落的符號。
[0027]本專利技術的構建電力詞庫專業詞組的方法,其中:在步驟(二)中,在上述電力詞庫中刪除重復選擇的詞組的方法是指刪除多字詞組中所包含的“二字詞組”、“三字詞組”、“四字詞組”、“五字詞組”或“六字詞組”。
[0028]本專利技術的構建電力詞庫專業詞組的方法,其特征在于:在步驟(三)中,在日常詞庫中刪除重復選擇的詞組的方法是指刪除“四字詞組”所包含的“二字詞組”或“三字詞組”;刪除“三字詞組”所包含中的“二字詞組”。
附圖說明
[0029]圖1為本專利技術構建電力詞庫專業詞組方法的整體流程圖。
具體實施方式
[0030]下面根據說明書附圖并結合具體實施例對本專利技術的技術方案進一步詳細表述。
[0031]實施例1
[0032]請參閱圖1,本專利技術的構建電力詞庫專業詞組的方法包括如下步驟:
[0033](一)、文本預處理
[0034]對《變壓器檢修》、《變壓器設備典型故障案例匯編》、《變壓器狀態監測診斷技術》、《大型變壓器典型故障案例分析與處理》、《變壓器故障診斷與維修》、《變電站設備缺陷分類標準》這6本專業文本進行預處理,將記載電力專業書籍的PDF格式轉變成TXT格式,去掉停用詞,停用詞包括:虛詞、數字和不具有分段落的符號等,部分停用詞如下表所示:
[0035]序號停用詞序號停用詞序號停用詞序號停用詞1》6:11了16a2《7“12(17b3...8”13)18%4于9;14.19
?
5的10!15/20\n
[0036](二)、從電力專業書籍中提取出詞組
[0037](a)、提取二字詞
[0038]在本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種構建電力詞庫專業詞組的方法,其特征在于:它包括:(一)、文本預處理將記載電力專業書籍的PDF格式轉變成TXT格式,然后刪除其中出現的停用詞;(二)、從電力專業書籍中提取出詞組(a)、提取二字詞在電力專業書籍中,以一句話為單位,按照一句話字的先后順序,分別計算出選定字與相鄰字同時出現在電力專業書籍中出現的概率和上述兩個字分別在電力專業書籍中出現的概率;根據以下公式(1)計算出:其中:x為選定的一個字;y為與x相鄰的另一個選定的字;P(x)為上述一個字“x”在電力專業的書籍中出現的概率,P(y)為上述字“y”在電力專業的書籍中出現的概率;P(x,y)為x和y相鄰兩個字同時出現在電力專業書籍中出現的概率,當PMI(x,y)>0.1時,將x和y作為一個詞組提取出來,加入到電力詞庫;(b)、提取三字詞或四字詞將上述二字詞組xy作為x,以二字詞組xy后續的相鄰字作為y,根據公式(1),計算出三字出現的概率PMI(x,y),當PMI(x,y)>0.1時,將上述三個字作為一個詞組提取出來加入電力詞庫;重復上述步驟,提取出四個字的詞組加入電力詞庫;(c)、用信息熵將電力詞庫中的二字詞組、三字詞組或四字詞組進行擴充,至最多為七字詞組采用如下信息熵計算公式(2),H(w)=
?
Σp(x
i
)logp(x
i
)
???
公式(2),其中:w為擴充詞組;H(w)為擴充詞組的信息熵,p(x
i
)為擴充詞組的每個字在電力專業書籍中的概率;分別計算出上述二字詞的前一個字至前五個字的信息熵、二字詞的后一個字至五個字的信息熵、二字詞的前一個字和后一至四個字的信息熵、二字詞的前二個字和后一至三個字的信息熵、二字詞的前三個字和后一至二個字的信息熵,并且找出信息熵>2的詞組加入到電力詞庫中;分別計算出三字詞的...
【專利技術屬性】
技術研發人員:陸萬榮,
申請(專利權)人:昆明能訊科技有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。