• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>南京大學專利>正文

    一種交通事故損害賠償中法律條文預測方法技術

    技術編號:24252003 閱讀:46 留言:0更新日期:2020-05-22 23:48
    本發明專利技術涉及一種交通事故損害賠償中法律條文預測方法。該方法基于特征提取對事實文本和法律條文進行數據清洗和特征選擇,構建用于模型訓練的特征和特征向量,使用TwitterLDA學習法條的文本表示,使用word2vec提取案情特征;在此基礎上,應用支持向量機方法構建預測模型,生成一個法條預測模型svm?Model;最后,將事實的特征向量輸入到svm?Model中,最終生成當前案情涉及到的法律條文。本發明專利技術目的在于解決目前存在的法律智能中通過事實對法條預測的難題,進而幫助公眾更多地了解法律知識,清楚地了解案件的情況,還可以為行業提供輔助意見,避免個人主觀性導致的差異,從而實現司法公正,提高社會效益。

    A prediction method of legal provisions in traffic accident damages

    【技術實現步驟摘要】
    一種交通事故損害賠償中法律條文預測方法
    本專利技術屬于法律智能領域,尤其適用于法律智能中的司法認知智能研究領域,其目的在于針對交通事故案件進行法律條文預測,是一種幫助公眾了解法律知識與案件的情況,同時為法律行業提供輔助意見的方法。
    技術介紹
    隨著大量司法數據的逐漸開放和NLP技術的飛速發展,司法文書已經成為學術研究領域的重要研究對象。目前關于法律智能的研究尚少,而且主要集中在基于機器學習和數據挖掘的法律推理和法律適應性方面,少量的研究是關于自動判決預測、相關法條預測、相似案件檢索、證據分析等方面的。在現有的法律智能系統研究中,大部分是針對部分刑事指控,而不是整個案件,因此還不能投入使用。雖然在自動量刑方面取得了一些成果,但在同類案件的推薦和相關法律條文的預測方面仍缺乏進展,具有較大的研究意義和實用價值。今年發布了中國20年特大事故大數據分析報告,表明我國交通運輸業仍是重大交通事故發生的集中區。同時,我國對重大安全事故的歸責和處罰也越來越嚴厲。因此,對交通裁判文書的研究、特征的發現和運用具有重要的價值和意義。對此,本專利技術提出一種交通事故損害賠償中法條預測方法。本專利技術通過兩個不同的角度對法條進行預測:第一種角度是將預測問題看作是一個多標簽分類問題。用事實的文件作為輸入,把案件中引用的法條作為標簽。在訓練過程中,使用特征提取器將數據輸入到特征集中,在這個步驟中,特征提取器使用word2vec。這些特征集將捕獲每個輸入的基本分類信息。然后將帶有標簽的特征對輸入到機器學習算法中,建立分類模型。而在預測過程中,同樣的特征提取器將那些從未見過的輸入數據轉移到一組特征中,然后輸入到分類模型中,生成預測標簽。第二種角度是參照法律條文內容的預測。預測思想是將事實的文本信息與法律條文的文本信息進行匹配,然后根據匹配的文本解決法律條文是否被引用,生成的二元問題。初始數據的形式是一個三元組,其中包括案情、法條、該法條是否被引用。每個案例和法條都需要進行分組,所以數據量是案例數量乘以法條數量,這是非常巨大的。因此,我們可以將法條作為關鍵字,計算其在案情上的分布概率。方法模型如圖3所示,使用word2vec來發現案例描述的上下文,并使用TwitterLDA來理解法條的主要分布。通過該方法可以對法律條文進行預測,可以幫助法律智能其他方面的發展,不像大多數研究預測法條只通過法律事實或者僅僅視法條為多標簽,本專利技術處理法條從語義的角度,找到一個完美的載體,TwitterLDA,幫助我們處理的特殊的簡短和信息高度集中的文本。同時可以幫助公眾更多地了解法律知識,清楚地了解案件的情況,還可以為行業提供輔助意見,避免個人主觀性導致的差異,從而實現司法公正,提高社會效益。
    技術實現思路
    本專利技術通過提供一種交通事故損害賠償中法律條文預測方法,來解決目前所存在的法律智能中對司法文書進行法律條文預測的問題,進而幫助公眾了解案件情況及法律知識,為法律行業人士提供輔助意見。為達成上述目標,本專利技術提出一種交通事故損害賠償中法律條文預測方法。首先將案情和法條分開輸入;其次,進行特征提取,采用兩種方法進行特征提取。一個是用案情文本作為輸入,在分詞之后,不用參考法條的內容進行預測。另一個是將案情的文本信息與法律條文的文本信息進行匹配,然后根據匹配的文本生成法律條文是否被引用的二元問題,初始數據的形式是一個三元組,其中包括案情、法條、案情是否引用法條,使用word2vec來發現案例描述的上下文,并使用TwitterLDA來理解法條的主題分布。具體而言,該方法包括下列步驟。1)文本預處理。將完整的語料分成若干詞語,案情和法律條文需要分開輸入,使用的是目前使用最廣泛的中文分詞方法——jieba分詞法。標記詞性并保留詞性為n、vn、nt、ns和v的詞。停用詞被刪除如標點和語氣詞。2)特征提取。用卡方檢驗進行特征提取,以法條作為分類標簽。選擇對每類影響最大的1000個單詞組成一個單詞包,然后對其進行去重。也可以導入外部詞匯以提高準確性。由于詞匯專業性很強,一些常見的單詞也被添加入停用詞,如原告、被告、事故等。本步驟的目的是避免由于分詞結果導致矩陣太稀疏,消耗大量內存。首先構建word2vec模型,提取候選關鍵字的詞向量。與傳統的文本表示方法相比,詞之間的語義關系在高維空間中得到更好的體現。讓Dn表示案情的測試集,對于給定的文檔D,經過分詞、詞性標注、重復數據刪除、停用詞刪除等數據預處理操作,得到n個候選關鍵字D=[t1,t2,...,tn]。然后遍歷它們,提取候選關鍵詞WV=[v1,v2,...,vm]。可以使用K-Means對它們進行聚類,得到每個聚類的中心。本實驗中的數據是關于交通事故損害賠償的,因此一個聚類就足夠了。計算單詞的歐幾里德距離和聚類中心,并進行排序,選擇前N個單詞作為文檔的關鍵字。下面是歐幾里得距離的方程:使用TwitterLDA可以更好地理解具有特征性、信息量大、篇幅短的法條的語義,所以使用LDA處理法條文本。LDA是一種基于貝葉斯模型的生成統計模型。每個文檔都可以被看作是各種主題的混合體,其中每個文檔都被認為有一組主題通過LDA分配給它。假設在Twitter中存在T個主題,對于主題t,單詞分布由表示,而對于背景單詞,單詞分布由表示,θu表示用戶u的主題分布,π是在背景單詞和主題單詞之間選擇的伯努利分布。如算法1和下圖所示。用戶創建推文,首先基于θu選擇主題,然后通過所選主題或背景模型選擇一些單詞來。如上所訴,采用兩種方法進行特征提取。一個是用案情作為輸入,將法條作為標簽,在分詞之后,不用參考法條的內容進行預測。法律條文的標簽序號從1個到204個,每個案件的標簽不超過7個。使用word2vec來訓練案情文本。另一方法輸入案情文本和法律條文,分別構建案情和法律條文的特征向量,使用word2vec來訓練案情文本,使用TwitterLDA處理法條文本。本專利技術共涉及204篇法條,因此將主題數量設置為204篇,并在主題下打印特征詞,構建一個詞袋,用詞袋過濾它的原始文本。案情文本必須轉化成數值才能輸入到模型中,將特征提取后的數據進行歸一化,歸一化的目的是提高縮放不變性機器學習模型的正確率,而且可以加快模型的收斂速度,提高訓練速度。4)建立模型。在將法條視為標簽的方法中,將特征向量對和標簽對輸入到機器學習算法中。這里可以使用一對多策略來處理多標簽分類問題,在考慮語義意義的方法中,數據是以三元組的形式出現的:案情、法律條文、每篇法律條文是否引用。在分類方面,由于一個案件可以引用多個法律條文,法律條文的預測可以視為一個多標簽分類問題。使用χ代表樣本空間,R={λ1,λ2,...,λm}代表有限的標簽集。假設樣本x∈χ有關的一個子集R,L∈2R,R的這個子集被稱為一組相關的標簽。用向量y=(y1,y1,...ym)表示L,其中yi為0或1,一個多標記分類器h表示映射關系χ→y。為每個樣本分配一個標簽子集x∈χ。因此,分類器h的輸出為向量h(x)=(h1(x),h2(x),...,h本文檔來自技高網
    ...

    【技術保護點】
    1.一種交通事故損害賠償中法律條文預測方法,其特征在于,該方法基于特征提取對事實文本和法律條文進行數據清洗和特征選擇,構建用于模型訓練的特征和特征向量,使用Twitter LDA學習法條的文本表示,使用word2vec提取案情特征;在此基礎上,應用支持向量機方法構建預測模型,生成一個法條預測模型svm-Model;最后,將案情的特征向量輸入到svm-Model中,最終生成當前案情涉及到的法律條文;該方法包括下列步驟:/n1)分詞。給定文本,將完整的語料分成若干詞語,事實和法律條文需要分開輸入,使用的是目前使用最廣泛的中文分詞方法——jieba分詞法。標記詞性并保留詞性為n、vn、nt、ns和v的詞。刪除停用詞如標點和語氣詞。/n本步驟的目的是從為后續特征提取做準備。/n2)特征提取。用卡方檢驗進行特征選擇,以法條作為分類標簽。選擇對每類影響最大的1000個單詞組成一個詞袋,然后對其進行去重。也可以導入外部詞匯,以提高準確性。由于詞匯專業性很強,一些常見的單詞也被添加入停用詞,如原告、被告、事故等。本步驟的目的是避免由于分詞結果導致矩陣太稀疏,消耗大量內存。/n首先構建word2vec模型,提取候選關鍵字的詞向量。與傳統的文本表示方法相比,詞之間的語義關系在高維空間中得到更好的體現。讓D...

    【技術特征摘要】
    1.一種交通事故損害賠償中法律條文預測方法,其特征在于,該方法基于特征提取對事實文本和法律條文進行數據清洗和特征選擇,構建用于模型訓練的特征和特征向量,使用TwitterLDA學習法條的文本表示,使用word2vec提取案情特征;在此基礎上,應用支持向量機方法構建預測模型,生成一個法條預測模型svm-Model;最后,將案情的特征向量輸入到svm-Model中,最終生成當前案情涉及到的法律條文;該方法包括下列步驟:
    1)分詞。給定文本,將完整的語料分成若干詞語,事實和法律條文需要分開輸入,使用的是目前使用最廣泛的中文分詞方法——jieba分詞法。標記詞性并保留詞性為n、vn、nt、ns和v的詞。刪除停用詞如標點和語氣詞。
    本步驟的目的是從為后續特征提取做準備。
    2)特征提取。用卡方檢驗進行特征選擇,以法條作為分類標簽。選擇對每類影響最大的1000個單詞組成一個詞袋,然后對其進行去重。也可以導入外部詞匯,以提高準確性。由于詞匯專業性很強,一些常見的單詞也被添加入停用詞,如原告、被告、事故等。本步驟的目的是避免由于分詞結果導致矩陣太稀疏,消耗大量內存。
    首先構建word2vec模型,提取候選關鍵字的詞向量。與傳統的文本表示方法相比,詞之間的語義關系在高維空間中得到更好的體現。讓Dn表示測試事實,對于給定的文檔D,經過分割、部分詞性標注、重復數據刪除、停止詞刪除等數據預處理操作,得到n個候選關鍵字D=[t1,t2,...,tn]。然后遍歷它們,提取候選關鍵詞WV=[v1,v2,...,vm]。可以使用K-Means對它們進行聚類,得到每個聚類的中心。本實驗中的數據是關于交通事故損害賠償的,因此一個聚類就足夠了。計算單詞的歐幾里德距離和聚類中心,并進行排序,選擇前N個單詞作為文檔的關鍵字。
    下面是歐幾里得距離的方程:



    使用TwitterLDA可以更好地理解特征性、信息量大、篇幅短的法條的語義,所以使用LDA處理法條文本。LDA是一種基于貝葉斯模型的生成統計模型。每個文檔都可以被看作是各種主題的混合體,其中每個文檔都被認為有一組主題通過LDA分配給它。假設在Twitter中存在T個主題,對于主題t,單詞分布由表示,而對于背景單詞,單詞分布由表示,θu表示用戶u的主題分布,π是在背景單詞和主題單詞之間選擇的伯努利分布。如算法1和下圖所示。用戶創建推文,首先基于θu選擇主題,然后通過所選主題或背景模型選擇一些單詞來。
    如上所訴,采用兩種方法進行特征提取。一個是用案情作為輸入,將法條作為標簽,在分詞之后,不用參考法條的內容進行預測。法律條文的標簽序號從1個到204個,每個案件的標簽不超過7個。使用word2vec來訓練事實文本。另一方法輸入事實文本和法律條文,分別構建事實和法律條文的特征向量,使用word2vec來訓練事實文本,使用TwitterLDA處理法條文本。本發明共涉及204篇法條,因此將主題數量設置為204篇,并在主題下打印特征詞,構建一個詞袋,用詞袋過濾它的原始文本。
    事實文本必須轉化成數值才能輸入到模型中,將特征提取后的數據進行歸一化,歸一化的目的是提高縮放不變性機器學習模型的正確率,而且可以加快模型的收斂速度,提高訓練速度。
    4)建立模型。在將法條視為標簽的方法中,將特征向量對和標簽對輸入到機器學習算法中。這里可以使用一對多策略來處理多標簽分類問題。在考慮語義的方法中,可以用一個三元組來表示數據:案情、法律條文、每篇法律條文是否引用。
    在分類方面,由于一個案件可以引用多個法律條文,法律條文的預測可以視為一個多標簽分類問題。使用χ代表樣本空間,R={λ1,λ2,...,λm}代表有限的標簽集。假設樣本x∈χ有關的一個子集R,L∈2R,R的這個子集被稱為一組相關的標簽。用向量y=(y1,y1,...ym)表示L,其中yi為0或1,...

    【專利技術屬性】
    技術研發人員:何鐵科嚴格陳振宇李玉瑩
    申請(專利權)人:南京大學
    類型:發明
    國別省市:江蘇;32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕AV中文字无码亚 | 久久精品国产亚洲AV无码偷窥| 西西444www无码大胆| 亚洲日韩AV无码一区二区三区人| 爆乳无码AV一区二区三区| 国模吧无码一区二区三区| av无码免费一区二区三区| 精品久久久久久无码中文字幕| 久久久久久亚洲AV无码专区| 人妻少妇看A偷人无码精品| 亚洲日韩欧洲无码av夜夜摸| 无码粉嫩虎白一线天在线观看| 无码精品A∨在线观看| 特级做A爰片毛片免费看无码| 精品久久久久久无码中文野结衣| 久久久久琪琪去精品色无码| 亚洲中文字幕无码专区| 麻豆亚洲AV成人无码久久精品| 色窝窝无码一区二区三区色欲| 无码人妻少妇伦在线电影| 亚洲av无码成人精品国产| 精品三级AV无码一区| 性无码专区无码片| 国产精品无码无需播放器| 波多野42部无码喷潮在线| 人妻少妇乱子伦无码专区| 无码熟妇人妻AV影音先锋| 亚洲AV永久无码天堂影院| 亚洲精品中文字幕无码AV| 日韩乱码人妻无码中文字幕久久| 亚洲精品无码永久在线观看你懂的| 高清无码一区二区在线观看吞精| 久久精品无码午夜福利理论片| 国产成人年无码AV片在线观看 | 亚洲精品无码久久千人斩| 国产乱子伦精品无码专区| 免费无码午夜福利片69| 国产成人无码a区在线观看视频免费| 亚洲AV无码一区二区大桥未久| 无码精品A∨在线观看免费| 亚洲国产AV无码一区二区三区|