System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 免费无码一区二区三区,免费一区二区无码视频在线播放,丰满少妇人妻无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種文本數據分類后的數據預處理方法技術

    技術編號:44499837 閱讀:5 留言:0更新日期:2025-03-04 18:08
    本發明專利技術涉及一種文本數據分類后的數據預處理方法,屬于數據處理技術領域,包括如下步驟:步驟S1):收集各類文本數據,得到各類文本數據的集合,構建文本數據模型;步驟S2):找出文本數據模型中的各類文本數據的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標,再將文本數據模型中的各類文本數據進行分類;步驟S3):基于步驟S2)分類后的各類文本數據進行文本過濾;其中,采用線過濾法對分類后的各類文本數據進行文本過濾;步驟S4):將過濾后的文本進行數據聚類;本發明專利技術的有益效果:將分類后的各類文本數據線采用過濾法進行文本過濾,實現自動分類后的大數據再進行的預處理。

    【技術實現步驟摘要】

    本專利技術屬于數據處理,特別涉及一種文本數據分類后的數據預處理方法。


    技術介紹

    1、數據預處理是指在對主要的數據處理以前對數據進行的一些處理。如對獲取的觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利于計算機的運算。

    2、數據預處理就是清洗和變換原始數據以使其適合分析和建模。原始數據通常包括缺失數據、離群值和其他不一致之處,如格式問題。預處理步驟包括數據清洗、數據歸一化和數據變換。數據預處理的目標是提高下游分析和建模的準確度和效率。

    3、隨著現代社會的不斷進步,尤其是互聯網的快速發展,各類網絡資源數量呈現出數量巨大、種類繁多、變化迅速等特點?;ヂ摼W已進入大數據時代。目前互聯網應用環境中大數據除了數量龐大外,非結構化數據占的比重越來越大,資源數量線性增量增長??焖?、準確地實現互聯網應用環境中大數據的自動分類,已經成為當前數據技術研究的熱點。而自動分類后的大數據再進行預處理是解決大數據分類問題的基礎。


    技術實現思路

    1、本專利技術所要解決的技術問題是自動分類后的大數據如何再進行預處理,本專利技術提供一種文本數據分類后的數據預處理方法,將文本數據模型中的各類文本數據進行分類,將分類后的各類文本數據線采用過濾法進行文本過濾,實現自動分類后的大數據再進行的預處理。

    2、為了達到上述目的,本專利技術通過下述技術方案實現:

    3、一種文本數據分類后的數據預處理方法,包括如下步驟:

    4、步驟s1):收集各類文本數據,得到各類文本數據的集合,構建文本數據模型;

    5、步驟s2):找出文本數據模型中的各類文本數據的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標,再將文本數據模型中的各類文本數據進行分類;其中,采用關鍵詞串簽法對各類文本數據進行分類;

    6、步驟s3):基于步驟s2)分類后的各類文本數據進行文本過濾;其中,采用線過濾法對分類后的各類文本數據進行文本過濾;

    7、步驟s4):將過濾后的文本進行數據聚類。

    8、可選的,在步驟s1)中,構建文本數據模型,采用如下步驟:

    9、步驟1):構建立體的文本數據模型;其中,所述立體的文本數據模型為圓柱形的數據模型;

    10、步驟2):在文本數據模型上,將收集的所述各類文本數據各自隔開,將各類文本數據各自對應的放置在所述圓柱形的數據模型各條輪廓線上。

    11、可選的,在步驟s2)中,各類文本數據的關鍵詞的找出,采用如下步驟:

    12、步驟r1):將各類文本數據各自出現次數最多的詞,作為各類文本數據各自的關鍵詞;

    13、步驟r2):標定各類文本數據各自的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標;

    14、步驟r3):對各類文本數據各自的關鍵詞進行分類,確定各類文本數據的類型。

    15、可選的,在步驟s2)中,所述關鍵詞串簽法,為如下步驟:

    16、步驟q1):在圓柱形的數據模型上分出多條輪廓線;

    17、步驟q2):在各條所述輪廓線上串上各自對應的關鍵詞,將各個關鍵詞通過各條輪廓線進行串聯連接。

    18、可選的,在步驟s2)中,所述關鍵詞串簽法,采用如下公式(1):

    19、(1);

    20、其中,為第i條輪廓線,第i條輪廓線上的關鍵詞,為第i條輪廓線上對應的關鍵詞是,為輪廓線的總條數,為連接線,將各條輪廓線進行連接,代表圓柱形的數據模型;

    21、或代表在圓柱形的數據模型中,各條輪廓線上各自對應的關鍵詞通過連接線串聯連接。

    22、可選的,在步驟s3)中,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下步驟:

    23、步驟00):將各條輪廓線上各自對應的各類文本數據進行文本過濾;

    24、步驟11):對每條輪廓線上的文本數據沿線性方向進行掃描并過濾。

    25、可選的,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下公式(2):

    26、(2);

    27、其中,為不同類別文本數據中選取的一個文本數據,代表不同類別,為文本過濾函數,為不同類別文本數據中選取的一個文本數據進行過濾,為不同輪廓線中選取的一條輪廓線,且選取的輪廓線的線性方向沿著一個方向的,代表不同的輪廓線;

    28、或為選取的輪廓線上的文本數據沿一個方向進行過濾。

    29、可選的,在步驟s4)中,將所述各類文本數據進行合并。

    30、本專利技術的有益效果:

    31、本專利技術是構建文本數據模型,找出文本數據模型中的各類文本數據的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標,再將文本數據模型中的各類文本數據進行分類,將分類后的各類文本數據線采用過濾法進行文本過濾。

    本文檔來自技高網...

    【技術保護點】

    1.一種文本數據分類后的數據預處理方法,其特征在于,包括如下步驟:

    2.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S1)中,構建所述文本數據模型,采用如下步驟:

    3.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S2)中,所述各類文本數據的關鍵詞的找出,采用如下步驟:

    4.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S2)中,所述關鍵詞串簽法,為如下步驟:

    5.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S2)中,所述關鍵詞串簽法,采用如下公式(1):

    6.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S3)中,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下步驟:

    7.根據權利要求1或6任意一項所述的一種文本數據分類后的數據預處理方法,其特征在于,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下公式(2):

    >8.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S4)中,將所述各類文本數據進行合并。

    ...

    【技術特征摘要】

    1.一種文本數據分類后的數據預處理方法,其特征在于,包括如下步驟:

    2.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟s1)中,構建所述文本數據模型,采用如下步驟:

    3.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟s2)中,所述各類文本數據的關鍵詞的找出,采用如下步驟:

    4.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟s2)中,所述關鍵詞串簽法,為如下步驟:

    5.根據權利要求1所述的一種文本數據分類后的數據...

    【專利技術屬性】
    技術研發人員:歐智堅,劉巖,趙賢宇孫磊許小丹,
    申請(專利權)人:它思科技天津有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AⅤ无码一区二区三区在线 | 亚洲成A∨人片在线观看无码| 国产精品无码翘臀在线观看| 国产a v无码专区亚洲av| 日韩爆乳一区二区无码| 国产精品成人99一区无码| 国产精品无码无卡在线播放| 日韩免费无码视频一区二区三区 | 永久无码精品三区在线4| 国产成人无码一区二区三区 | 精品国产aⅴ无码一区二区| 国产乱人伦无无码视频试看| 日韩人妻无码精品一专区| 中文字幕精品无码一区二区| 亚洲中文无码卡通动漫野外 | 成年免费a级毛片免费看无码| 亚洲av无码专区在线| 亚洲综合无码精品一区二区三区| 亚洲AV无码AV吞精久久| 久久久久无码精品亚洲日韩| 中文字幕无码精品三级在线电影| 亚洲AV无码成人精品区日韩| 久久无码av三级| 亚洲国产综合无码一区二区二三区 | 国产精品成人无码久久久久久 | 亚洲av福利无码无一区二区| 亚洲AV无码乱码精品国产| 无码不卡中文字幕av| 97无码免费人妻超级碰碰夜夜| 精品无码AV一区二区三区不卡| 亚洲精品无码永久在线观看你懂的| 无码8090精品久久一区| 免费无码黄动漫在线观看| 无码粉嫩虎白一线天在线观看| 2024你懂的网站无码内射| 无码国产精品久久一区免费 | 亚洲乱人伦中文字幕无码| 久久老子午夜精品无码怎么打 | 国产成人无码精品久久久小说| 久久久国产精品无码一区二区三区| 亚洲精品天堂无码中文字幕|