天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

搜索引擎瀏覽廣告賺錢_搜索引擎中的聚類瀏覽技術(shù)

發(fā)布時(shí)間:2016-10-17 10:29

  本文關(guān)鍵詞:搜索引擎中的聚類瀏覽技術(shù),,由筆耕文化傳播整理發(fā)布。


搜索引擎中的聚類瀏覽技術(shù)

3期李紅梅等:搜索引擎中的聚類瀏覽技術(shù)

57

查詢意圖,幾乎一半的查詢結(jié)果是與用戶無(wú)關(guān)的[1],而對(duì)搜索引擎日志的分析則表明多數(shù)用戶只愿意瀏覽10~30個(gè)查詢結(jié)果[2],那么排列在后面的相關(guān)信息就很難被發(fā)現(xiàn)。另外,大多數(shù)查詢趨向于短查詢[3],由于查詢?cè)~的多義性,使得查詢結(jié)果往往包含多個(gè)主題內(nèi)容,用戶需要仔細(xì)瀏覽文檔列表,排除不相關(guān)的內(nèi)容,查找自己感興趣的信息。因此,為了滿足日益增長(zhǎng)的網(wǎng)絡(luò)用戶對(duì)查詢質(zhì)量的要求,必須提高搜索引擎查詢結(jié)果的可瀏覽性。

一種方法是采用Web文檔分類技術(shù)[4~6],一般需要預(yù)先對(duì)分類器進(jìn)行訓(xùn)練來(lái)建立整個(gè)Web分層類目文獻(xiàn)[,然后將搜索結(jié)果映射到這些分層組織的類目中。這種分類方法過(guò)于復(fù)雜,查找新的主題;存在于分類目錄中,是十分有效[7,8]。

,進(jìn)行自動(dòng)、行聚類,創(chuàng)建類目體系,使同類中文檔內(nèi)容的相似度盡可能地大,而類與類之間文檔的相似度盡可能地小,并對(duì)每個(gè)類目用相應(yīng)的主題詞加以描述。然后把類目呈現(xiàn)給用戶,使用戶能在更高的主題層次上來(lái)查看搜索引擎返回的結(jié)果,方便地查找到感興趣的信息,從而可大大縮小用戶所需瀏覽的結(jié)果數(shù)量,縮短用戶查詢所需要的時(shí)間,搜索結(jié)果的聚類瀏覽技術(shù)已經(jīng)成為研究的一個(gè)熱點(diǎn)。

息,因此應(yīng)該避免把每個(gè)文檔只聚類到單獨(dú)的一個(gè)類目,可以疊加聚類。

(4)快速性:聚類算法應(yīng)該能夠快速聚類,將查詢結(jié)果顯示給用戶前不能有很大的延遲。

(5)Snippets聚類:由于搜索結(jié)果處理的實(shí)時(shí)性,大多數(shù)用戶不愿等待系統(tǒng)下載原始文檔形成聚類,因此,對(duì)搜索結(jié)果的聚類是基于短文文摘的,即snippets聚類,這就要求根據(jù)搜索引擎返回的標(biāo)題和文摘(Snippets)也應(yīng)形成高質(zhì)量的聚類。標(biāo)之一,搜索引擎的聚類瀏覽技術(shù)實(shí)質(zhì)上是為了方便用戶的瀏覽,將聚類技術(shù)用于信息檢索結(jié)果的可視化輸出。聚類算法和聚類標(biāo)識(shí)是聚類瀏覽技術(shù)的兩個(gè)重要組成部分。聚類算法決定了搜索結(jié)果的組織結(jié)構(gòu)和運(yùn)行效率,而聚類標(biāo)識(shí)則是幫助用戶迅速確認(rèn)生成的文檔類目相關(guān)與否的重要信息[12],是提高可瀏覽性的基本體現(xiàn)。

聚類瀏覽技術(shù)按照聚類標(biāo)識(shí)分為關(guān)鍵詞標(biāo)識(shí)(SingleWords)和短語(yǔ)標(biāo)識(shí)(Phrases),,比詞表達(dá)的信息更加豐富。根據(jù)聚類算法可將聚類(類()。扁平聚類只對(duì)數(shù)據(jù)進(jìn)行一層的劃分,將產(chǎn)生的類目組織成樹形結(jié)構(gòu)以便于用戶瀏覽2 聚類瀏覽技術(shù)的基本要求

大多數(shù)傳統(tǒng)的聚類算法不能直接應(yīng)用于搜索結(jié)果的在線聚類,其實(shí)用性對(duì)聚類算法提出了幾個(gè)基本要求[9,10]:

(1)相關(guān)性:該算法應(yīng)該能夠聚類相同/相似的文檔,把與用戶查詢條件相關(guān)的文檔與不相關(guān)的文檔分開。

(2)概括性:用戶通過(guò)快速瀏覽就能找到自己感興趣的內(nèi)容,因此聚類算法需要對(duì)每個(gè)類目提供簡(jiǎn)明準(zhǔn)確的概括描述,。標(biāo)識(shí)的質(zhì)量取決于好的結(jié)構(gòu)性(即文本符合句法和語(yǔ)法規(guī)范)、描述能力(即能夠很好地描述聚類中所包含的內(nèi)容)和區(qū)分能力(即能夠很好地將所描述的類目與其他類目區(qū)分開來(lái))[11]。

(3)重疊性:因?yàn)槲臋n會(huì)涉及多個(gè)主題的信

4 聚類瀏覽技術(shù)的主要算法

聚類和標(biāo)識(shí)是Web聚類瀏覽系統(tǒng)的兩個(gè)基本組成部分,但目前提出的方法各有側(cè)重,成聚類另外一些方法則將對(duì)信息的聚類作為最重要的步驟,。以下將討論聚類瀏覽技術(shù)中常用的聚類算法及改進(jìn)方法。4.1 傳統(tǒng)聚類算法的應(yīng)用

文獻(xiàn)中有關(guān)文本聚類的算法很多。層次聚合算


  本文關(guān)鍵詞:搜索引擎中的聚類瀏覽技術(shù),由筆耕文化傳播整理發(fā)布。



本文編號(hào):142627

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/142627.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶44c99***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com