天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

改進(jìn)后綴樹(shù)的中文檢索結(jié)果聚類系統(tǒng)

發(fā)布時(shí)間:2018-06-19 19:27

  本文選題:檢索結(jié)果聚類 + 后綴樹(shù)。 參考:《北京林業(yè)大學(xué)》2013年碩士論文


【摘要】:隨著科技的不斷發(fā)展,人們與網(wǎng)絡(luò)的聯(lián)系已經(jīng)變得十分緊密,網(wǎng)絡(luò)的交流和分享給人們的生活帶來(lái)了極大的便利。而網(wǎng)絡(luò)信息的迅猛增長(zhǎng),使得用戶在查找資料時(shí)不得不從搜索引擎返回的結(jié)果列表中仔細(xì)查找,如果用戶輸入的查詢?cè)~帶有歧義,很可能要查看很多頁(yè)后才能找到滿意的答案,這就給用戶的使用帶來(lái)了不便。比如搜索“美洲虎”時(shí),用戶可能是想查找一種武器、或者是汽車(chē),更或者是一種動(dòng)物,然而在返回的結(jié)果列表中這幾類信息相互參雜著呈現(xiàn)給用戶,如果用戶需要查找某一類信息的詳細(xì)情況,就需要翻很多頁(yè)才能找到。 基于此,本文在傳統(tǒng)搜索引擎的基礎(chǔ)上設(shè)計(jì)了檢索結(jié)果聚類系統(tǒng)。系統(tǒng)流程主要包括三步:首先,利用HTML分析器獲取搜索引擎返回的結(jié)果項(xiàng)標(biāo)題和摘要,用分詞工具對(duì)獲取到的文本進(jìn)行分詞、標(biāo)注詞性并且記錄詞語(yǔ)的位置和詞頻,去除停用詞,剩下的詞語(yǔ)構(gòu)成每一個(gè)結(jié)果項(xiàng)的關(guān)鍵詞集;然后,用各結(jié)果項(xiàng)的關(guān)鍵詞集統(tǒng)一構(gòu)建一顆后綴樹(shù),以詞語(yǔ)為單位插入后綴樹(shù)各節(jié)點(diǎn),通過(guò)位置、詞頻、詞性和詞長(zhǎng)幾項(xiàng)約束條件計(jì)算各節(jié)點(diǎn)詞語(yǔ)得分;最后,合并基類取得分高的節(jié)點(diǎn)詞作標(biāo)簽。實(shí)驗(yàn)結(jié)果顯示本方法的聚類簇純度較高,提取的標(biāo)簽準(zhǔn)確且區(qū)分性較強(qiáng),方便用戶使用。
[Abstract]:With the development of science and technology, the connection between people and the network has become very close. The communication and sharing of the network bring great convenience to people's life. With the rapid growth of network information, users have to search through the results list returned by the search engine. If the query words entered by the user are ambiguous, they will probably have to look at many pages before they can find a satisfactory answer. This brings inconvenience to the use of users. For example, when searching for Jaguars, the user may want to find a weapon, or a car, or an animal, but in the returned results list, these types of information are mixed and presented to the user. If a user needs to look for details of a particular type of information, it takes a lot of pages to find it. Based on this, this paper designs the retrieval result clustering system based on the traditional search engine. The system flow mainly includes three steps: firstly, the HTML analyzer is used to obtain the title and summary of the result item returned by the search engine, and the word segmentation tool is used to segment the obtained text, annotate the part of speech and record the position and frequency of the word. After removing the stop word, the remaining words constitute the keyword set of each result item; then, a suffix tree is constructed by using the keyword set of each result item, and each node of the suffix tree is inserted in the unit of words. The score of each nodal word is calculated under the constraint conditions of word length and part of speech. Finally, the node word label with high score is obtained by combining the base class. The experimental results show that the proposed method is of high purity, accurate and discriminative labels, and is convenient for users to use.
【學(xué)位授予單位】:北京林業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 韓蕓;搜索引擎雅虎與Alta Vista的比較[J];情報(bào)探索;2000年04期

2 王慕東;互聯(lián)網(wǎng)上主要的中文檢索工具[J];中國(guó)信息導(dǎo)報(bào);2000年05期

3 戴建中;GnetFtp搜索引擎的算法設(shè)計(jì)與實(shí)現(xiàn)[J];汕頭大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年03期

4 張興華,王仕雪;幾種英文搜索引擎的性能及檢索功能[J];現(xiàn)代情報(bào);2005年05期

5 時(shí)貴英;呂洪濤;;可擴(kuò)展數(shù)據(jù)庫(kù)搜索引擎的研究和實(shí)現(xiàn)[J];長(zhǎng)江大學(xué)學(xué)報(bào)(自然科學(xué)版)理工卷;2010年01期

6 張志鋒;劉育熙;鄧璐娟;梁樹(shù)軍;;基于壓縮后綴數(shù)組的搜索引擎技術(shù)[J];電腦開(kāi)發(fā)與應(yīng)用;2007年03期

7 劉剛;北京圖書(shū)館大型計(jì)算機(jī)中文檢索系統(tǒng)向讀者開(kāi)放試運(yùn)行[J];國(guó)家圖書(shū)館學(xué)刊;1996年01期

8 張繼剛;搜索引擎使用技巧[J];網(wǎng)絡(luò)與信息;1999年09期

9 ;關(guān)鍵詞搜索[J];每周電腦報(bào);2000年38期

10 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學(xué)之友;2000年07期

相關(guān)會(huì)議論文 前10條

1 陸汝占;;中文檢索與漢語(yǔ)語(yǔ)義概念圖表示[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

2 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的網(wǎng)絡(luò)搜索引擎用戶行為研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

3 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

4 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

5 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

6 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

7 姚樹(shù)宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

8 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年

9 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年

10 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年

相關(guān)重要報(bào)紙文章 前10條

1 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年

2 周文林;搜狗3.0能否撼動(dòng)搜索市場(chǎng)[N];經(jīng)濟(jì)參考報(bào);2007年

3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年

4 賽迪顧問(wèn)股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,,還是門(mén)戶[N];中國(guó)計(jì)算機(jī)報(bào);2005年

5 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年

6 朱偉;雅虎中國(guó)“變臉”搜索引擎[N];文匯報(bào);2005年

7 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國(guó)經(jīng)營(yíng)報(bào);2005年

8 商報(bào)記者  吳辰光;搜索引擎市場(chǎng)趨向細(xì)分化[N];北京現(xiàn)代商報(bào);2006年

9 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年

10 元元;從單向搜索轉(zhuǎn)向多維和垂直搜索[N];證券日?qǐng)?bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

4 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

5 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

6 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

7 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

8 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

9 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

10 梁作鵬;面向Web的XML檢索關(guān)鍵技術(shù)研究[D];東南大學(xué);2005年

相關(guān)碩士學(xué)位論文 前10條

1 榮元媛;改進(jìn)后綴樹(shù)的中文檢索結(jié)果聚類系統(tǒng)[D];北京林業(yè)大學(xué);2013年

2 張朝斌;企業(yè)級(jí)搜索引擎的優(yōu)化設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2010年

3 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年

4 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

5 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

6 董晨;基于模糊聚類的個(gè)性化搜索引擎的研究[D];福州大學(xué);2005年

7 袁曉峰;Web文檔聚類在搜索引擎中的應(yīng)用研究[D];江蘇大學(xué);2009年

8 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年

9 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年

10 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年



本文編號(hào):2041009

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2041009.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a7717***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
99热九九热这里只有精品| 日本丁香婷婷欧美激情| 日韩一区二区三区在线日| 激情国产白嫩美女在线观看| 四季av一区二区播放| 国产自拍欧美日韩在线观看| 儿媳妇的诱惑中文字幕| 亚洲一区二区三区精选| 极品少妇嫩草视频在线观看| 精品国产亚洲av成人一区| 激情五月激情婷婷丁香| 久久婷婷综合色拍亚洲| 亚洲一区二区精品免费| 国产内射一级二级三级| 国产成人精品一区二三区在线观看 | 色一情一伦一区二区三| 亚洲国产一区精品一区二区三区色 | 成人精品一区二区三区综合| 成年男女午夜久久久精品| 国产欧美日产久久婷婷| 国产精品欧美一区二区三区| 国产精品成人一区二区三区夜夜夜 | 日本深夜福利视频在线| 国产一区欧美一区二区| 又色又爽又无遮挡的视频| 韩日黄片在线免费观看| 99久热只有精品视频最新| 亚洲一区二区福利在线| 欧美日韩国内一区二区| 国产精品国产亚洲看不卡| 成年女人午夜在线视频 | 国产精品自拍杆香蕉视频| 国产精品不卡一区二区三区四区 | 亚洲三级视频在线观看免费| 国产在线一区二区免费| 日韩成人h视频在线观看| 在线观看视频日韩成人| 国产传媒精品视频一区| 中文字幕乱码免费人妻av| 大屁股肥臀熟女一区二区视频| 久久人人爽人人爽大片av|