• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種獲取英文詞的方法及裝置制造方法及圖紙

    技術編號:8682718 閱讀:182 留言:0更新日期:2013-05-09 02:42
    本發明專利技術公開了一種獲取英文詞的方法及裝置。該方法包括:獲取搜索引擎查詢日志并進行分詞,獲取含有字母串的查詢詞;根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統計該候選詞的詞語特征值;獲取候選詞中字母串對應的中文詞,統計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。應用本發明專利技術,可以提升獲取英文詞的效率。

    【技術實現步驟摘要】
    一種獲取英文詞的方法及裝置
    本專利技術涉及計算機通信技術,特別涉及一種獲取英文詞的方法及裝置。
    技術介紹
    隨著計算機通信技術以及互聯網技術的發展,互聯網絡上傳輸的信息資源成指數增長,通過互聯網絡獲取相關信息越來越成為人們生活以及工作中不可或缺的一部分。但隨著傳輸的信息資源的指數增長,隨之也會相應的產生很多新詞以及網絡詞,其中也包括很多英文詞,因而,如何去獲取這些新出現的英文詞資源也就成為了亟待解決的問題?,F有技術中,對于英文詞的獲取,主要方法是利用大型的詞典資源,包括在線的詞典資源以及傳統的詞典資源,例如,在線的詞典資源可以是劍橋線上的英英詞典(CambridgeDictionary)等,傳統的詞典資源可以是牛津大辭典等。由上述可見,現有通過大型詞典獲取英文詞的方法,較為簡單有效,但是,由于信息資源的增長十分迅速,英文詞以及網絡新詞層出不窮,而無論是在線的詞典資源還是傳統的詞典資源,其維護與更新需要一定的時間周期,因而,利用詞典的方法并不能做到很好的覆蓋新詞,對于一些新出現的英文詞以及網絡中文詞,通過上述詞典還無法獲取該類新詞,使得通過詞典獲取英文詞的效率不高;進一步地,對在線的詞典或傳統的詞典進行維護和更新,也需要首先獲取新出現的英文詞,而現有技術中,對于如何獲取新出現的英文詞還沒有較好的解決方法。
    技術實現思路
    有鑒于此,本專利技術的主要目的在于提出一種獲取英文詞的方法,提升獲取英文詞的效率。本專利技術的另一目的在于提出一種獲取英文詞的裝置,提升獲取英文詞的效率。為達到上述目的,本專利技術提供了一種獲取英文詞的方法,該方法包括:獲取搜索引擎查詢日志并進行分詞,獲取含有字母串的查詢詞;根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的特征值對應的含有字母串的查詢詞作為候選詞,統計該候選詞的詞語特征值;獲取候選詞中字母串對應的中文詞,統計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。所述含有字母串的查詢詞包括:含有英文串的查詢詞以及含有拼音串的查詢詞。所述詞語特征解析方法包括:詞語的搜索次數統計方法以及詞語對應的網頁點擊次數統計方法。所述根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞包括:統計獲取的各含有字母串的查詢詞在搜索引擎查詢日志中出現的搜索次數;獲取搜索次數大于預先設置的搜索次數閾值對應的含有字母串的查詢詞,作為初步候選詞;根據初步候選詞,統計該初步候選詞在搜索引擎查詢日志中出現的網頁點擊次數;獲取網頁點擊次數大于預先設置的網頁點擊次數閾值對應的初步候選詞,作為候選詞輸出。所述在獲取網頁點擊次數大于預先設置的網頁點擊次數閾值對應的初步候選詞之后,作為候選詞輸出之前,進一步包括:將獲取的網頁點擊次數大于預先設置的網頁點擊次數閾值對應的初步候選詞作為中間候選詞;統計中間候選詞在搜索引擎查詢日志中出現的混合查詢次數;獲取混合查詢次數次數大于預先設置的混合查詢次數閾值對應的中間候選詞。所述提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞的步驟之后,獲取候選詞中字母串對應的中文詞的步驟之前,進一步包括:根據拼音構成規則對候選詞進行識別;如果候選詞不符合拼音構成規則,直接將其作為英文詞;如果候選詞符合拼音構成規則,執行獲取候選詞中字母串對應的中文詞的步驟。一種獲取英文詞的裝置,該裝置包括:查詢詞選取模塊、詞語特征匹配模塊以及英文詞特征匹配模塊,其中,查詢詞選取模塊,用于根據獲取的搜索引擎查詢日志,進行分詞,獲取含有字母串的查詢詞;詞語特征匹配模塊,用于根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統計該候選詞的詞語特征值;英文詞特征匹配模塊,用于獲取候選詞中字母串對應的中文詞,統計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。進一步包括:拼音串過濾模塊,用于根據拼音構成規則對詞語特征匹配模塊輸出的候選詞進行識別,如果候選詞不符合拼音構成規則,直接將其作為英文詞;如果候選詞符合拼音構成規則,將該候選詞輸出至英文詞特征匹配模塊。所述詞語特征匹配模塊包括搜索次數統計單元、搜索次數判斷單元、網頁點擊次數統計單元、網頁點擊次數判斷單元以及候選詞單元,其中,搜索次數統計單元,用于統計查詢詞選取模塊獲取的各含有字母串的查詢詞在搜索引擎查詢日志中出現的搜索次數;搜索次數判斷單元,用于將搜索次數大于預先設置的搜索次數閾值對應的含有字母串的查詢詞輸出至網頁點擊次數統計單元;網頁點擊次數統計單元,用于根據接收的含有字母串的查詢詞,統計該含有字母串的查詢詞在搜索引擎查詢日志中出現的網頁點擊次數;網頁點擊次數判斷單元,用于將網頁點擊次數大于預先設置的網頁點擊次數閾值對應的含有字母串的查詢詞作為候選詞,輸出至候選詞單元進行存儲。所述詞語特征匹配模塊進一步包括:混合查詢次數統計單元以及混合查詢次數判斷單元,其中,混合查詢次數統計單元,用于根據網頁點擊次數判斷單元輸出的含有字母串的查詢詞,統計該含有字母串的查詢詞在搜索引擎查詢日志中出現的混合查詢次數;混合查詢次數判斷單元,用于將混合查詢次數次數大于預先設置的混合查詢次數閾值對應的含有字母串的查詢詞作為候選詞,輸出至候選詞存儲單元進行存儲。由上述的技術方案可見,本專利技術實施例提供的一種獲取英文詞的方法及裝置,獲取搜索引擎查詢日志并進行分詞,獲取含有字母串的查詢詞;根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統計該候選詞的詞語特征值;獲取候選詞中字母串對應的中文詞,統計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。這樣,基于較為全面地覆蓋互聯網絡中出現新詞的搜索引擎查詢日志,進行分詞處理,獲取含有字母串的查詢詞,基于詞語特征解析方法對其正確性進行認證,并基于字母串對應的中文詞的詞語特征值,將含有字母串的查詢詞中的含有英文串的查詢詞以及含有拼音串的查詢詞進行區分,從而可以獲取最新的英文詞資源,提升了獲取英文詞的效率。附圖說明圖1為本專利技術實施例獲取英文詞的裝置結構示意圖。圖2為本專利技術實施例獲取英文詞的方法流程示意圖。具體實施方式為使本專利技術的目的、技術方案和優點更加清楚,下面將結合附圖及具體實施例對本專利技術作進一步地詳細描述?,F有通過大型詞典獲取英文詞的方法,由于不能實時對詞典進行更新,因而,對于信息資源中一些新出現的英文詞,未能收錄在詞典中,存在滯后效應。本專利技術實施例中,考慮到互聯網絡中搜索引擎所具有的強大搜索能力,在用戶輸入搜索關鍵詞,使用搜索引擎進行搜索查詢時,搜索引擎將記錄用戶的查詢行為,包括輸入的搜索關鍵詞以及進行搜索查詢的得到的搜索查詢結果,生成搜索引擎查詢日志并存儲,因而,基于搜索引擎查詢日志,從搜索引擎本文檔來自技高網...
    一種獲取英文詞的方法及裝置

    【技術保護點】
    一種獲取英文詞的方法,其特征在于,該方法包括:獲取搜索引擎查詢日志并進行分詞,獲取含有字母串的查詢詞;根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統計該候選詞的詞語特征值;獲取候選詞中字母串對應的中文詞,統計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。

    【技術特征摘要】
    1.一種獲取英文詞的方法,其特征在于,該方法包括:獲取搜索引擎查詢日志并進行分詞,獲取含有字母串的查詢詞;根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,統計該候選詞的詞語特征值;獲取候選詞中字母串對應的中文詞,統計該中文詞的詞語特征值,獲取該中文詞的詞語特征值與對應候選詞的詞語特征值的比值,如果該比值小于預先設置的比閾值,則該候選詞作為英文詞。2.如權利要求1所述的方法,其特征在于,所述含有字母串的查詢詞包括:含有英文串的查詢詞以及含有拼音串的查詢詞。3.如權利要求2所述的方法,其特征在于,所述詞語特征解析方法包括:詞語的搜索次數統計方法以及詞語對應的網頁點擊次數統計方法。4.如權利要求3所述的方法,其特征在于,所述根據預先設置的詞語特征解析方法獲取含有字母串的查詢詞的特征值,提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞,包括:統計獲取的各含有字母串的查詢詞在搜索引擎查詢日志中出現的搜索次數;獲取搜索次數大于預先設置的搜索次數閾值對應的含有字母串的查詢詞,作為初步候選詞;根據初步候選詞,統計該初步候選詞在搜索引擎查詢日志中出現的網頁點擊次數;獲取網頁點擊次數大于預先設置的網頁點擊次數閾值對應的初步候選詞,作為候選詞輸出。5.如權利要求4所述的方法,其特征在于,所述在獲取網頁點擊次數大于預先設置的網頁點擊次數閾值對應的初步候選詞之后,作為候選詞輸出之前,進一步包括:將獲取的網頁點擊次數大于預先設置的網頁點擊次數閾值對應的初步候選詞作為中間候選詞;統計中間候選詞在搜索引擎查詢日志中出現的混合查詢次數;獲取混合查詢次數大于預先設置的混合查詢次數閾值對應的中間候選詞。6.如權利要求1至5任一項所述的方法,其特征在于,所述提取查詢詞的特征值超過預先設置的特征閾值的含有字母串的查詢詞作為候選詞的步驟之后,獲取候選詞中字母串對應的中文詞的步驟之前,進一步包括:根據拼音構成規則對候選詞進行識別;如果候選詞不符合拼音構成規則,直接將其作為英文詞;如果候選詞符合拼音構成規則,執行獲取候選詞中字母串對應的中文詞的步驟。7.一...

    【專利技術屬性】
    技術研發人員:李超,宋國龍賈自艷,
    申請(專利權)人:騰訊科技深圳有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产真人无码作爱视频免费 | 日韩精品无码熟人妻视频| 无码精品一区二区三区| 无码任你躁久久久久久| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 国产产无码乱码精品久久鸭| AV无码人妻中文字幕| 国产AV无码专区亚洲AV麻豆丫 | 亚洲国产精品成人AV无码久久综合影院 | 寂寞少妇做spa按摩无码| 久久无码专区国产精品| 亚洲av永久中文无码精品| 最新中文字幕AV无码不卡| 内射精品无码中文字幕| 日韩精品无码一区二区三区四区 | 久久无码人妻一区二区三区| 全免费a级毛片免费看无码| 久久久久亚洲av无码专区喷水| 亚洲AV无码一区二区三区DV| 国产乱子伦精品无码专区| 亚洲av无码专区首页| 日韩精品无码一区二区三区 | 国产精品无码成人午夜电影| 国产精品无码一区二区在线观| 日韩av无码一区二区三区| 国产爆乳无码视频在线观看| 国产丰满乱子伦无码专区| av无码一区二区三区| 国产高清不卡无码视频| 国产精品亚洲专区无码唯爱网| 中文无码字慕在线观看| 精品人妻无码区在线视频| 色综合AV综合无码综合网站| 亚洲va无码专区国产乱码| 一区二区三区人妻无码 | 日韩精品人妻系列无码专区免费 | 亚洲精品午夜无码专区| 中文成人无码精品久久久不卡| 精品无码久久久久久久久久| 中文字幕人妻三级中文无码视频 | 国产午夜无码精品免费看|