基于Osmot的個(gè)性化信息檢索系統(tǒng)的研究與實(shí)現(xiàn)
本文選題:個(gè)性化信息檢索 切入點(diǎn):機(jī)器學(xué)習(xí) 出處:《中山大學(xué)》2012年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息呈現(xiàn)爆炸性的增長(zhǎng)。Web正成為人們獲取信息的重要途徑。互聯(lián)網(wǎng)的信息檢索平臺(tái),比如搜索引擎(Baidu、Google等),在得到廣泛應(yīng)用的同時(shí)也面臨著許多困難。首先對(duì)于同樣的搜索關(guān)鍵詞,不同的用戶可能會(huì)有完全不同的信息需求;其次用戶的信息需求也會(huì)隨著時(shí)間的變化而變化。而現(xiàn)有的搜索引擎使用的信息檢索技術(shù)大多采用統(tǒng)一模式(one size fitsall),主要還是關(guān)鍵詞匹配的模式。沒(méi)有考慮到用戶之間的個(gè)體差異和時(shí)效性,從而影響到檢索結(jié)果的精確度和用戶的滿意度。個(gè)性化信息檢索系統(tǒng)的出現(xiàn),為解決這些困難提供了一個(gè)途徑。 目前信息檢索系統(tǒng)難以實(shí)現(xiàn)個(gè)性化的重要原因是無(wú)法準(zhǔn)確獲取用戶的檢索需求,而用戶眾多的信息需求中,學(xué)習(xí)和科研是一個(gè)相對(duì)穩(wěn)定的信息需求。這是因?yàn)槊總(gè)用戶都有自己的專業(yè)和研究方向,這些是穩(wěn)定的,至少在相當(dāng)長(zhǎng)一個(gè)時(shí)期內(nèi)是穩(wěn)定的。如果用戶的信息需求是穩(wěn)定的,那么在信息檢索中實(shí)現(xiàn)個(gè)性化功能就是一件相對(duì)容易的事情了。 在理論研究界,個(gè)性化信息檢索領(lǐng)域已經(jīng)有了很多的研究成果。例如:用戶行為的研究,通過(guò)收集用戶的點(diǎn)擊數(shù)據(jù)來(lái)優(yōu)化搜索引擎。機(jī)器學(xué)習(xí)的研究,設(shè)計(jì)學(xué)習(xí)算法,把SVM應(yīng)用到信息檢索系統(tǒng)中提高信息檢索結(jié)果的準(zhǔn)確性。在這些理論研究成果的基礎(chǔ)上,有研究者開發(fā)了具備個(gè)性化功能的搜索引擎并將它開源,Osmot搜索引擎就是其中之一。 本文首先研究了Osmot搜索引擎的源代碼,并修改其源代碼。把IKAnalyzer集成進(jìn)來(lái)增加了中文智能分詞的功能,使Omsot支持中文搜索。在此基礎(chǔ)上結(jié)合Lucene、Struts、iBatis等開源軟件和框架設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)個(gè)性化信息檢索系統(tǒng)。該系統(tǒng)能記錄用戶搜索歷史,然后通過(guò)分析用戶的搜索歷史并進(jìn)行機(jī)器學(xué)習(xí),最后對(duì)用戶的檢索結(jié)果進(jìn)行重排序。在實(shí)現(xiàn)該系統(tǒng)的基礎(chǔ)上,本文還采用真實(shí)的數(shù)據(jù)對(duì)系統(tǒng)的學(xué)習(xí)和重排序功能進(jìn)行了初步的驗(yàn)證。
[Abstract]:With the rapid development of the Internet, the explosive growth of information. Web is becoming an important way for people to obtain information.Internet information retrieval platforms, such as search engine Baidu-Google, are widely used and face many difficulties.First, different users may have different information requirements for the same search keywords; secondly, users' information needs will change with time.However, most of the information retrieval techniques used in the existing search engines are based on a unified size fitsaller mode, which is mainly a keyword matching model.Individual differences and timeliness among users are not taken into account, thus affecting the accuracy of retrieval results and user satisfaction.The emergence of personalized information retrieval system provides a way to solve these difficulties.At present, the important reason why it is difficult to realize individuation in information retrieval system is that it is unable to accurately obtain the retrieval requirements of users. Among the numerous information needs of users, learning and scientific research is a relatively stable information demand.This is because each user has their own professional and research direction, which is stable, at least for quite a long time.If the user's information needs are stable, it is relatively easy to realize the personalized function in information retrieval.In the field of theoretical research, there have been a lot of research results in the field of personalized information retrieval.For example: user behavior research, by collecting user click data to optimize search engines.The research of machine learning, the design of learning algorithm, the application of SVM to information retrieval system to improve the accuracy of information retrieval results.On the basis of these theoretical research results, some researchers have developed a personalized search engine and opened it to Osmot search engine, which is one of them.This paper first studied the source code of Osmot search engine, and modified its source code.The integration of IKAnalyzer adds the function of Chinese word segmentation and enables Omsot to support Chinese search.On this basis, a personalized information retrieval system is designed and implemented in combination with open source software and framework such as Lucene Struts and iBatis.The system can record the user's search history, then analyze the user's search history and carry on the machine learning, finally reorder the user's search results.Based on the implementation of the system, the learning and reordering functions of the system are preliminarily verified by real data.
【學(xué)位授予單位】:中山大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張曉波,王蕾,韓永國(guó);基于智能Agent的個(gè)性化信息檢索系統(tǒng)[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2004年02期
2 韓立新,陳貴海,謝立;一個(gè)面向Internet的個(gè)性化信息檢索系統(tǒng)模型[J];電子學(xué)報(bào);2002年02期
3 楊濤;;個(gè)性化信息檢索及其實(shí)現(xiàn)方式探析[J];圖書情報(bào)論壇;2002年02期
4 陸廣能;數(shù)字圖書館個(gè)性化信息檢索中信息推送技術(shù)的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2005年20期
5 董俊峰;;個(gè)性化信息檢索用戶興趣模型的研究[J];科技致富向?qū)?2008年18期
6 陳世平,周福華,俞海;面向領(lǐng)域的個(gè)性化智能檢索系統(tǒng)MySpy的研究與開發(fā)[J];小型微型計(jì)算機(jī)系統(tǒng);2002年11期
7 張寧;趙德平;;基于領(lǐng)域本體的個(gè)性化信息檢索研究與應(yīng)用[J];科技傳播;2010年12期
8 張寧;趙德平;;基于領(lǐng)域本體的個(gè)性化信息檢索研究與應(yīng)用[J];科技致富向?qū)?2010年21期
9 樓靖華;;數(shù)字圖書館的個(gè)性化信息檢索研究[J];情報(bào)雜志;2006年01期
10 許春漫;;數(shù)字圖書館個(gè)性化信息檢索模型研究[J];現(xiàn)代圖書情報(bào)技術(shù);2006年03期
相關(guān)會(huì)議論文 前6條
1 張宇;范基禮;鄭偉;鄒博偉;劉挺;;基于人工標(biāo)注的個(gè)性化檢索系統(tǒng)評(píng)測(cè)的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
2 鄒博偉;張宇;范基禮;鄭偉;劉挺;;基于改進(jìn)的TextTiling方法的用戶新興趣發(fā)現(xiàn)的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
3 華松;洪宇;張劍峰;姚建民;朱巧明;;基于相關(guān)子主題消解的悖向重排序方法研究[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
4 張志強(qiáng);孟慶海;謝曉芹;;個(gè)性化的社會(huì)標(biāo)簽查詢擴(kuò)展技術(shù)研究[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯二[C];2010年
5 張華;姚莉;張英朝;;個(gè)性化決策助手Agent的參考模型與應(yīng)用研究[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
6 徐志明;宋毅;馮子威;李生;;一種基于分類的用戶興趣模型[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)重要報(bào)紙文章 前3條
1 應(yīng)曉敏 竇文華;條條道路通羅馬[N];計(jì)算機(jī)世界;2003年
2 采訪人:本報(bào)記者 齊柳明、吳小京 被采訪人:中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心(中科院圖書館)孫坦博士、辛希孟教授;數(shù)字圖書館讓普通人學(xué)富五車[N];光明日?qǐng)?bào);2002年
3 應(yīng)曉敏 竇文華;實(shí)現(xiàn)途徑[N];計(jì)算機(jī)世界;2003年
相關(guān)博士學(xué)位論文 前2條
1 李廣建;個(gè)性化網(wǎng)絡(luò)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2002年
2 楊震;個(gè)性化信息獲取方法的研究[D];大連理工大學(xué);2004年
相關(guān)碩士學(xué)位論文 前10條
1 劉宏;基于語(yǔ)義的個(gè)性化信息檢索研究[D];華北電力大學(xué)(河北);2010年
2 林霞;個(gè)性化信息檢索技術(shù)在勘探門戶中的應(yīng)用研究[D];西安石油大學(xué);2011年
3 萬(wàn)里;基于本體的個(gè)性化信息檢索研究[D];蘭州理工大學(xué);2013年
4 劉佳音;基于本體的個(gè)性化信息系統(tǒng)的應(yīng)用研究[D];杭州電子科技大學(xué);2009年
5 宋超;基于Sogou日志的個(gè)性化信息檢索分析與建模[D];哈爾濱工業(yè)大學(xué);2010年
6 安鴻旭;基于Osmot的個(gè)性化信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];中山大學(xué);2012年
7 舒曉明;基于語(yǔ)義網(wǎng)的個(gè)性化信息檢索的研究與實(shí)現(xiàn)[D];沈陽(yáng)工業(yè)大學(xué);2011年
8 楊剛?cè)A;基于Agent的個(gè)性化信息檢索系統(tǒng)研究[D];大連理工大學(xué);2005年
9 王慶華;用戶個(gè)性化信息檢索模型的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2004年
10 王海龍;個(gè)性化信息檢索技術(shù)的研究[D];西南交通大學(xué);2010年
,本文編號(hào):1706069
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1706069.html