搜索引擎設(shè)計分析與結(jié)果聚類改進 .pdf文檔全文免費閱讀、在線看
本文關(guān)鍵詞:搜索引擎設(shè)計分析與結(jié)果聚類改進,,由筆耕文化傳播整理發(fā)布。
分類號 密級 uDc注! 學(xué) 位 論 文 搜索引擎設(shè)計分析與結(jié)果聚類改進 題名和副題名 董祥千 作者姓名 指導(dǎo)教師姓名 左志宏 苗啦數(shù)授 電壬科撞太堂 送鰲 職務(wù)、職稱、學(xué)位、單位名稱及地址 申請專業(yè)學(xué)位級別碩士專業(yè)名稱 計算機軟件與理論 2006.12 論文提交日期 論文答辯日期 2007.1 學(xué)位授予單位和日期 電壬抖技太堂 答辯委員會主席 要壅絲. 評閱人碑熬 i尊芝品 2006年,乒月驢日
注1:注明《國際十進分類法uDC》的類號。 摘要 摘要 搜索引擎是獲取信息的有效工具,設(shè)計與實現(xiàn)搜索引擎是一項龐大的工程,
要運用較多專業(yè)技術(shù)知識。本文力圖通過實例分析,介紹搜索引擎的設(shè)計、實現(xiàn)、
搜索結(jié)果聚類及其它與搜索引擎緊密相關(guān)的知識。 文中指出了搜索引擎在提取摘要信息上存在的不足:僅選取關(guān)鍵詞臨近區(qū)域
的語詞并不具語義特征,為此提出了以文本的語義特征詞來替換摘要信息。文中
同時對語義特征詞的提取進行了理論分析,并實現(xiàn)了部分功能。 本文利用后綴數(shù)組來提取文檔的語義特征詞,因此對后綴數(shù)組的結(jié)構(gòu)作了詳
細的闡述,提出以完全子串來表示文檔的語義特征。文中實現(xiàn)了后綴數(shù)組的構(gòu)造,
左、右完全子串及完全子串的提取。 本文還對搜索引擎的聚類過程、以及常用的聚類算法進行了比較,并對基于
奇異值分解的文本聚類算法一Lingo作了詳細分析。修改了Nutch的體系結(jié)構(gòu)以實
現(xiàn)搜索結(jié)果的聚類。最后以我校內(nèi)網(wǎng)作為爬行目標,給出了實驗結(jié)果及其評價。 關(guān)鍵詞:搜索引擎,特征詞提取,文本聚類,Lucene,Nutch Ⅱ Abstract Abstract withthe ofinformationon to Along growth Web.It’s toobtainbuthard rapid easy usefulinformation.Searchsome the of
get engine,indegree,acceleratespeed
in
本文關(guān)鍵詞:搜索引擎設(shè)計分析與結(jié)果聚類改進,由筆耕文化傳播整理發(fā)布。
本文編號:116333
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/116333.html