• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種音樂(lè)資源聚合搜索的方法技術(shù)

    技術(shù)編號(hào):12778829 閱讀:215 留言:0更新日期:2016-01-27 21:04
    本發(fā)明專(zhuān)利技術(shù)公開(kāi)了一種音樂(lè)資源聚合搜索的方法,具體步驟如下:將互聯(lián)網(wǎng)中的音樂(lè)信息進(jìn)行爬取;在爬取過(guò)程中進(jìn)行URL過(guò)濾、中文分詞處理,并分別對(duì)互聯(lián)網(wǎng)中的音樂(lè)信息及本地庫(kù)的音樂(lè)資源建立全文索引;在檢索時(shí)以改進(jìn)后BM25算法進(jìn)行聚合搜索,將互聯(lián)網(wǎng)中的音樂(lè)資源與本地庫(kù)中的音樂(lè)資源聚合后呈現(xiàn)給用戶(hù)。本發(fā)明專(zhuān)利技術(shù)能夠針對(duì)音樂(lè)搜索類(lèi)的用戶(hù)這一特定搜索群體,將互聯(lián)網(wǎng)上的音樂(lè)方面的相關(guān)信息以及本地媒體數(shù)據(jù)庫(kù)的資源進(jìn)行聚合,對(duì)搜索結(jié)果進(jìn)行排序優(yōu)化、冗余信息過(guò)濾和對(duì)關(guān)鍵字進(jìn)行中文分詞處理,以一種更加專(zhuān)業(yè)、更加全面、更加清晰、更加優(yōu)化的搜索結(jié)果呈獻(xiàn)給用戶(hù),能夠極大地提高音樂(lè)搜索類(lèi)這一特定類(lèi)型用戶(hù)搜索結(jié)果的專(zhuān)業(yè)性、查準(zhǔn)率以及滿(mǎn)意度。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)設(shè)及計(jì)算機(jī)信息檢索領(lǐng)域,具體是一種音樂(lè)資源聚合捜索的方法。
    技術(shù)介紹
    傳統(tǒng)捜索引擎的技術(shù)雖然在日趨完善,并作為一個(gè)強(qiáng)大的功能模塊也被應(yīng)用在了 多種類(lèi)型的網(wǎng)站中,如音樂(lè)網(wǎng)站的檢索功能等,但由于用戶(hù)的需求的不斷發(fā)展和細(xì)化,傳統(tǒng) 的捜索引擎不足W滿(mǎn)足特定用戶(hù)群體,如音樂(lè)信息捜索類(lèi)用戶(hù)的捜索需求,因此在音樂(lè)信 息采集和捜索運(yùn)一特定領(lǐng)域,傳統(tǒng)捜索引擎凸顯出了許多不足之處: (1)傳統(tǒng)的捜索引擎由于只是單方面的從互聯(lián)網(wǎng)上爬取信息,所有信息均來(lái)自于 互聯(lián)網(wǎng);而主流的音樂(lè)網(wǎng)站對(duì)音樂(lè)的檢索資源均來(lái)自于網(wǎng)站本地?cái)?shù)據(jù)庫(kù)的資源,不包含任 何互聯(lián)網(wǎng)的信息,包含信息量相對(duì)較少,而且信息更新速度較低。二者均未實(shí)現(xiàn)對(duì)于音樂(lè)資 源的聚合式捜索,即本地媒體資源與互聯(lián)網(wǎng)信息的聚合捜索,導(dǎo)致捜索的信息淺表片面,無(wú) 法同時(shí)滿(mǎn)足音樂(lè)用戶(hù)對(duì)于信息的專(zhuān)業(yè)性和實(shí)時(shí)性的需求。 (2)在用戶(hù)需求特性方面,捜索引擎的用戶(hù)群體基數(shù)較大,個(gè)體之間的需求層次差 異也比較明顯,因此對(duì)于捜索結(jié)果的側(cè)重點(diǎn)也不盡相同。比如,一個(gè)藝人既是音樂(lè)人又是作 家,用戶(hù)想要側(cè)重捜索運(yùn)個(gè)藝人作為音樂(lè)人身份的相關(guān)信息,但傳統(tǒng)捜索引擎的捜索結(jié)果 W廣度捜索為主,呈現(xiàn)出的結(jié)果既有該藝人作為音樂(lè)人身份的信息,又有作為作家身份的 信息,運(yùn)就導(dǎo)致捜索結(jié)果部分無(wú)法滿(mǎn)足用戶(hù)深度垂直捜索的需求。 陽(yáng)0化](3)由于各國(guó)的語(yǔ)言差異,分詞也成為了一個(gè)重要的障礙。例如,中文句子是由多 個(gè)單字組成,單字之間沒(méi)有英文中的空格標(biāo)識(shí),并且中文用戶(hù)在輸入捜索關(guān)鍵詞時(shí),也很少 有輸入空格將關(guān)鍵詞進(jìn)行劃分的習(xí)慣。因此,中文分詞及語(yǔ)義識(shí)別成為中文捜索引擎開(kāi)發(fā) 改進(jìn)的重要課題,運(yùn)不僅關(guān)系到關(guān)鍵詞的提取,還會(huì)影響整個(gè)捜索結(jié)果的查準(zhǔn)率。 (4)在信息源與目標(biāo)頁(yè)面特性方面,互聯(lián)網(wǎng)上目前存在大量的僵尸網(wǎng)絡(luò)、重復(fù)信 息、廣告信息,隨著自助建站成本的降低,有不少網(wǎng)站往往采用采集別人站點(diǎn)的內(nèi)容加上廣 告,直接投入到了互聯(lián)網(wǎng)使用的情況,運(yùn)些網(wǎng)頁(yè)中充斥著大量冗余信息干擾著捜索引擎的 工作,例如網(wǎng)頁(yè)的U化超鏈接、編輯人員的注釋、版權(quán)聲明、廣告信息等。同時(shí),運(yùn)些冗余信 息也會(huì)影響捜索結(jié)果內(nèi)容的呈現(xiàn),譬如用戶(hù)目標(biāo)捜索某一關(guān)鍵字,在關(guān)鍵字出現(xiàn)的地方周 圍可能存在冗余信息,運(yùn)就會(huì)導(dǎo)致冗余信息和關(guān)鍵字一并呈現(xiàn)給用戶(hù),致使捜索結(jié)果的查 準(zhǔn)率大幅降低。 (5)傳統(tǒng)的捜索引擎由于信息量過(guò)大,對(duì)于關(guān)鍵詞設(shè)及的各個(gè)領(lǐng)域的側(cè)重點(diǎn)無(wú)法 有效權(quán)衡,比如一個(gè)關(guān)鍵詞可能設(shè)及音樂(lè)、政治、經(jīng)濟(jì)等領(lǐng)域,相對(duì)于音樂(lè)捜索類(lèi)用戶(hù),排在 最前面的不一定是音樂(lè)領(lǐng)域的結(jié)果,運(yùn)就導(dǎo)致了捜索結(jié)果無(wú)法滿(mǎn)足特定用戶(hù)的排序需要; 此外,有些商業(yè)捜索引擎可能出于利益需要,將自己本網(wǎng)站的結(jié)果強(qiáng)制至于靠前位置或采 取競(jìng)價(jià)排序等方式,運(yùn)些排序方式都極大地降低了用戶(hù)捜索的查準(zhǔn)率和公平性。 (6)由于某些網(wǎng)站存在動(dòng)態(tài)的U化,傳統(tǒng)的捜索引擎中在捜索時(shí)可能誤W為不同 的U化隸屬于不同的網(wǎng)頁(yè),因而導(dǎo)致捜索的結(jié)果中出現(xiàn)雷同重復(fù)的網(wǎng)頁(yè),內(nèi)容大致相同, u化不同,運(yùn)也會(huì)降低捜索引擎查準(zhǔn)率,使得捜索引擎性能降低。
    技術(shù)實(shí)現(xiàn)思路
    本專(zhuān)利技術(shù)的目的在于提供一種專(zhuān)業(yè)性強(qiáng)、查準(zhǔn)率高的音樂(lè)資源聚合捜索的方法,W 解決上述
    技術(shù)介紹
    中提出的問(wèn)題。 為實(shí)現(xiàn)上述目的,本專(zhuān)利技術(shù)提供如下技術(shù)方案: 一種音樂(lè)資源聚合捜索的方法,具體步驟如下: (1)將互聯(lián)網(wǎng)中的音樂(lè)信息進(jìn)行爬取; (2)在爬取過(guò)程中進(jìn)行U化過(guò)濾、中文分詞處理,并分別對(duì)互聯(lián)網(wǎng)中的音樂(lè)信息及 本地庫(kù)的音樂(lè)資源建立全文索引; 做在檢索時(shí)W改進(jìn)后BM25算法進(jìn)行聚合捜索,將互聯(lián)網(wǎng)中的音樂(lè)資源與本地庫(kù) 中的音樂(lè)資源聚合后呈現(xiàn)給用戶(hù)。 作為本專(zhuān)利技術(shù)進(jìn)一步的方案:所述互聯(lián)網(wǎng)中的音樂(lè)資源來(lái)自于互聯(lián)網(wǎng)音樂(lè)信息模 塊,所述本地庫(kù)中的音樂(lè)資源來(lái)自于本地庫(kù)音樂(lè)資源模塊,所述互聯(lián)網(wǎng)音樂(lè)信息模塊和本 地庫(kù)音樂(lè)資源模塊均包括聚合捜索模塊,所述互聯(lián)網(wǎng)音樂(lè)信息模塊還包括互聯(lián)網(wǎng)信息爬取 模塊、中文分詞模塊、網(wǎng)頁(yè)U化過(guò)濾模塊、網(wǎng)頁(yè)去重模塊和改進(jìn)的BM25捜索結(jié)果排序算法模 塊,所述本地庫(kù)音樂(lè)資源模塊還包括全文索引模塊。 作為本專(zhuān)利技術(shù)進(jìn)一步的方案:所述步驟(1)中進(jìn)行音樂(lè)信息爬取的具體步驟如下: 1)首先注入初始的U化地址并建立爬取信息列表,讓網(wǎng)頁(yè)爬取模塊有根地址做起 占. 2)W初始的U化為依據(jù),對(duì)每個(gè)網(wǎng)頁(yè)的外連接進(jìn)行篩選,選取鏈入數(shù)高的網(wǎng)頁(yè)作 為有限爬取對(duì)象進(jìn)行爬取; 3)在爬取時(shí)對(duì)U化進(jìn)行解析,并進(jìn)行U化過(guò)濾、中文分詞處理; 4)將處理之后的網(wǎng)頁(yè)數(shù)據(jù)存入互聯(lián)網(wǎng)音樂(lè)信息模塊,并檢查是否為爬取的最后一 層,若不是繼續(xù)執(zhí)行步驟2),若是則執(zhí)行步驟5); 5)對(duì)所有存入互聯(lián)網(wǎng)音樂(lè)信息模塊的數(shù)據(jù)統(tǒng)一建立全文倒排索引。 作為本專(zhuān)利技術(shù)再進(jìn)一步的方案:所述改進(jìn)的BM25捜索結(jié)果排序算法模塊的公式模 型如下: 其中,fieldNo;rm(t,d) =doc.ge1:Boost0 ·lengthNorm·nf.ge1:Boost0 (公式 2), 陽(yáng)0%] 其中(公式3), numTerms表示每個(gè)文檔中詞項(xiàng)的數(shù)量。 與現(xiàn)有技術(shù)相比,本專(zhuān)利技術(shù)的有益效果是: 本專(zhuān)利技術(shù)能夠針對(duì)音樂(lè)捜索類(lèi)的用戶(hù)運(yùn)一特定捜索群體,將互聯(lián)網(wǎng)上的音樂(lè)方面的 相關(guān)信息W及本地媒體數(shù)據(jù)庫(kù)的資源進(jìn)行聚合,并且對(duì)捜索結(jié)果進(jìn)行捜索結(jié)果排序優(yōu)化、 捜索結(jié)果冗余信息過(guò)濾和對(duì)關(guān)鍵字進(jìn)行中文分詞等處理,W-種更加專(zhuān)業(yè)、更加全面、更加 清晰、更加優(yōu)化的捜索結(jié)果呈獻(xiàn)給用戶(hù),能夠極大地提高音樂(lè)捜索類(lèi)運(yùn)一特定類(lèi)型用戶(hù)捜 索結(jié)果的專(zhuān)業(yè)性、查準(zhǔn)率W及滿(mǎn)意度。【附圖說(shuō)明】 圖1為本專(zhuān)利技術(shù)的模塊示意圖。 圖2為本專(zhuān)利技術(shù)進(jìn)行音樂(lè)信息爬取的流程示意圖。 圖3為本專(zhuān)利技術(shù)中i壯改進(jìn)前后的實(shí)驗(yàn)對(duì)比圖。 圖4為本專(zhuān)利技術(shù)中tf改進(jìn)前后的實(shí)驗(yàn)對(duì)比圖。 圖5為本專(zhuān)利技術(shù)中l(wèi)engthNorm改進(jìn)前后的實(shí)驗(yàn)對(duì)比圖。【具體實(shí)施方式】 下面結(jié)合【具體實(shí)施方式】對(duì)本專(zhuān)利的技術(shù)方案作進(jìn)一步詳細(xì)地說(shuō)明。 請(qǐng)參閱圖1-5,一種音樂(lè)資源聚合捜索的方法,具體步驟如下: (1)將互聯(lián)網(wǎng)中的音樂(lè)信息進(jìn)行爬取;[00測(cè) 似在爬取過(guò)程中進(jìn)行U化過(guò)濾、中文分詞處理,并分別對(duì)互聯(lián)網(wǎng)中的音樂(lè)信息及 本地庫(kù)的音樂(lè)資源建立全文索引; (3)在檢索時(shí)W改進(jìn)后BM25算法進(jìn)行聚合捜索,將互聯(lián)網(wǎng)中的音樂(lè)資源與本地庫(kù) 中的音樂(lè)資源聚合后呈現(xiàn)給用戶(hù)。 所述互聯(lián)網(wǎng)中的音樂(lè)資源來(lái)自于互聯(lián)網(wǎng)音樂(lè)信息模塊,所述本地庫(kù)中的音樂(lè)資源 來(lái)自于本地庫(kù)音樂(lè)資源模塊,所述互聯(lián)網(wǎng)音樂(lè)信息模塊和本地庫(kù)音樂(lè)資源模塊均包括聚合 捜索模塊,所述互聯(lián)網(wǎng)音樂(lè)信息模塊還包括互聯(lián)網(wǎng)信息爬取模塊、中文分詞模塊、網(wǎng)頁(yè)U化 過(guò)濾模塊、網(wǎng)頁(yè)去重模塊和改進(jìn)的BM25捜索結(jié)果排序算法模塊,所述本地庫(kù)音樂(lè)資源模塊 還包括全文索引模塊。 所述步驟(1)中進(jìn)行音樂(lè)信息爬取的具體步驟如下: 1)首先注當(dāng)前第1頁(yè)1 2 3 4 本文檔來(lái)自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    一種音樂(lè)資源聚合搜索的方法,其特征在于,具體步驟如下:(1)將互聯(lián)網(wǎng)中的音樂(lè)信息進(jìn)行爬取;(2)在爬取過(guò)程中進(jìn)行URL過(guò)濾、中文分詞處理,并分別對(duì)互聯(lián)網(wǎng)中的音樂(lè)信息及本地庫(kù)的音樂(lè)資源建立全文索引;(3)在檢索時(shí)以改進(jìn)后BM25算法進(jìn)行聚合搜索,將互聯(lián)網(wǎng)中的音樂(lè)資源與本地庫(kù)中的音樂(lè)資源聚合后呈現(xiàn)給用戶(hù)。

    【技術(shù)特征摘要】

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:李建飛李櫻沙飛呂志勝王永濱
    申請(qǐng)(專(zhuān)利權(quán))人:中國(guó)傳媒大學(xué)
    類(lèi)型:發(fā)明
    國(guó)別省市:北京;11

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 国产精品亚洲аv无码播放| 亚洲无码高清在线观看| 中文字幕无码不卡一区二区三区| 直接看的成人无码视频网站| 国产福利无码一区在线| 亚洲永久无码3D动漫一区| 本道久久综合无码中文字幕| 国产在线无码不卡影视影院| 亚洲国产成人无码AV在线影院| 亚洲AV无码乱码国产麻豆| 人妻无码一区二区三区| 亚洲精品无码少妇30P| 亚洲热妇无码AV在线播放 | 中文字幕丰满伦子无码| 国产成年无码久久久久下载| 无码久久精品国产亚洲Av影片| 无码少妇一区二区浪潮av| 亚洲AV综合色区无码二区爱AV| 亚洲精品无码久久久久去q | 亚洲爆乳无码一区二区三区| 亚洲中文字幕无码专区| 国产在线无码制服丝袜无码| 影音先锋中文无码一区| 中文字幕无码不卡免费视频| 蜜芽亚洲av无码精品色午夜| 国产午夜无码视频在线观看| 亚洲日韩精品A∨片无码 | 人妻丰满熟妇A v无码区不卡| 精品欧洲av无码一区二区三区| 日韩午夜福利无码专区a| 免费A级毛片av无码| 无码国产精品一区二区免费vr| 亚洲AV无码国产精品色午友在线| 中文字幕在线无码一区二区三区| 亚洲成?Ⅴ人在线观看无码| YY111111少妇无码理论片| 成人午夜亚洲精品无码网站| 亚洲AV中文无码字幕色三 | 在线看片无码永久免费视频| 亚洲精品无码专区在线| 国产精品白浆在线观看无码专区 |