基于領(lǐng)域本體的新聞搜索引擎的研究與實現(xiàn)
本文關(guān)鍵詞:基于Rough本體的手機領(lǐng)域語義搜索引擎的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
《南昌大學》 2012年
基于領(lǐng)域本體的新聞搜索引擎的研究與實現(xiàn)
曾小芹
【摘要】:隨著網(wǎng)絡(luò)的大規(guī)模覆蓋,瀏覽網(wǎng)絡(luò)新聞已成為大家了解社會動態(tài)的一個重要渠道,新聞搜索引擎不可或缺。然而,雖然網(wǎng)絡(luò)如一本無所不包的百科全書,由于當前搜索引擎技術(shù)仍處在革新階段,致使信息檢索結(jié)果還不盡如人意。 由此,本文將本體、信息檢索等技術(shù)相結(jié)合,使搜索引擎能夠朝著智能化方向發(fā)展,進而改善當前搜索引擎性能。本文的主要研究工作如下: 一、提出了基于領(lǐng)域本體的新聞網(wǎng)頁分類算法。為了改進當前分類算法只考慮內(nèi)容相似度的普遍性不足,本文提出了兼顧內(nèi)容相似度與結(jié)構(gòu)相關(guān)度的語義分類思想:首先.解析本體得到本體類別向量,抽取新聞網(wǎng)頁文本關(guān)鍵詞并進行語義降維,此時找出網(wǎng)頁文本中存在的與本體類別向量相同的詞匯構(gòu)成文本期望向量,再運用向量余弦定理計算兩者的內(nèi)容相似度。其次,將上述共同詞匯映射到本體層次結(jié)構(gòu)圖上,通過計算該有向無環(huán)圖的加權(quán)路徑得到結(jié)構(gòu)相關(guān)度。最后,結(jié)合內(nèi)容相似度與結(jié)構(gòu)相關(guān)度計算新聞網(wǎng)頁與本體的綜合關(guān)聯(lián)度,通過判斷結(jié)果與閾值的大小關(guān)系來決定新聞網(wǎng)頁的類別。 二、提出了加權(quán)修正信息增益的ωID3算法。針對ID3算法偏向選擇取值較多屬性作為分裂節(jié)點的缺陷,coID3算法的改進思路是:找出信息增益及取值個數(shù)都達到閾值的屬性,并同時考慮條件屬性與決策屬性的相關(guān)性,加權(quán)修正上述屬性的信息增益值,再依據(jù)修正值選擇分裂節(jié)點。實例對比說明本算法構(gòu)造的決策樹在一定程度上有所改善。 三、設(shè)計了基于領(lǐng)域本體的新聞搜索引擎MONSE原型系統(tǒng),并在Heritrix、 Lucene、Eclipse、Tomcat等開源工具的支撐下通過實例驗證。
【關(guān)鍵詞】:
【學位授予單位】:南昌大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學學報(自然科學版);2002年05期
2 王暉;陳麗;陳墾;薛漫清;梁慶;;多指標綜合評價方法及權(quán)重系數(shù)的選擇[J];廣東藥學院學報;2007年05期
3 姜奇平;意義互聯(lián)網(wǎng)與本體論[J];互聯(lián)網(wǎng)周刊;2004年32期
4 葉明全;伍長榮;;決策表分解及其最小屬性約簡研究[J];計算機工程與應用;2009年30期
5 史斌;閆健卓;王普;方麗英;;基于本體的概念語義相似度度量[J];計算機工程;2009年19期
6 黃愛輝;陳湘濤;;決策樹ID3算法的改進[J];計算機工程與科學;2009年06期
7 楊喜權(quán);孫娜;張野;孔德冉;;DocOnto——一種基于本體的文本分類器[J];計算機應用;2008年S2期
8 黃名選;嚴小衛(wèi);張師超;;查詢擴展技術(shù)進展與展望[J];計算機應用與軟件;2007年11期
9 姜華;;一種基于本體的概念語義相似度計算研究[J];計算機應用與軟件;2009年07期
10 蘭美輝;夏幼明;;基于本體的概念相似度計算模型研究[J];曲靖師范學院學報;2010年03期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 李榮陸;文本分類及其相關(guān)技術(shù)研究[D];復旦大學;2005年
2 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前9條
1 牛為秋;基于粗糙集的決策樹分類算法[D];西安電子科技大學;2010年
2 戚學磊;基于Lucene的站內(nèi)搜索引擎技術(shù)的研究與應用[D];太原理工大學;2011年
3 鄧丹君;基于Lucene的垂直搜索引擎關(guān)鍵技術(shù)研究[D];武漢理工大學;2011年
4 吳琴霞;基于語義Web的知識表示及應用研究[D];鄭州大學;2007年
5 謝娟娜;本體技術(shù)在知識管理系統(tǒng)中的應用研究[D];南京航空航天大學;2007年
6 鄒文科;基于本體技術(shù)的語義檢索及其語義相似度研究[D];北京郵電大學;2008年
7 邵曉宇;基于本體的大型數(shù)據(jù)資源智能檢索研究[D];合肥工業(yè)大學;2008年
8 李志露;基于Rough本體的手機領(lǐng)域語義搜索引擎的研究與實現(xiàn)[D];南昌大學;2008年
9 王世清;本體構(gòu)建中建立概念間關(guān)系方法研究[D];中國農(nóng)業(yè)科學院;2010年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 梁峰;金瑩;;基于Agent技術(shù)的語義網(wǎng)服務模型[J];安徽廣播電視大學學報;2008年01期
2 高煒;梁立;;基于概念匹配的本體映射算法[J];安徽大學學報(自然科學版);2010年06期
3 陶皖,李平,廖述梅;當前基于本體的語義標注工具的分析[J];安徽工程科技學院學報(自然科學版);2005年02期
4 趙秀芳;;基于本體的農(nóng)業(yè)信息檢索[J];安徽農(nóng)業(yè)科學;2006年10期
5 蔡曈;徐惠;吳群;;土壤質(zhì)量聚類分析——以封丘縣為例[J];安徽農(nóng)業(yè)科學;2008年25期
6 薛薈;譚三清;;林業(yè)應用系統(tǒng)本體知識模型的構(gòu)建方法研究[J];現(xiàn)代農(nóng)業(yè)科技;2011年07期
7 尤曉婧;林逢春;;GE公司EHS績效變化趨勢與內(nèi)部機制探討[J];環(huán)境科學與管理;2011年03期
8 李善飛;魯延京;楊克巍;譚躍進;;武器裝備體系能力形式化描述研究[J];兵工自動化;2010年02期
9 黃洪;劉增良;余達太;周紹華;;一種具有免疫特征的智能數(shù)據(jù)分類分級模型[J];兵工學報;2010年12期
10 黃洪;劉增良;余達太;;一種智能化的數(shù)據(jù)分類、分級及保護模型[J];北京工業(yè)大學學報;2011年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張薇;趙林;段鐵錚;;灰色數(shù)量化組合模型用于無障礙服務水平評價[A];科技創(chuàng)新 綠色交通——第十一次全國城市道路交通學術(shù)會議論文集[C];2011年
2 李貴;張兆鑫;李征宇;韓子洋;;WEB環(huán)境下基于領(lǐng)域本體的語義匹配技術(shù)研究[A];科學發(fā)展與社會責任(A卷)——第五屆沈陽科學學術(shù)年會文集[C];2008年
3 李偉剛;張克亮;王慧蘭;;基于航空領(lǐng)域本體知識庫的語義檢索研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
4 王建州;李廉;汪映海;;面向Ontology的電力信息系統(tǒng)的研究[A];2005年信息與通信領(lǐng)域博士后學術(shù)會議論文集[C];2005年
5 肖婷;唐雁;;文本分類中特征選擇方法及應用[A];2008年計算機應用技術(shù)交流會論文集[C];2008年
6 鄭笈;李思昆;陸筱霞;;大規(guī)模場景繪制的存儲數(shù)據(jù)調(diào)度組織研究[A];節(jié)能環(huán)保 和諧發(fā)展——2007中國科協(xié)年會論文集(一)[C];2007年
7 楊昆;王軍;彭雙云;;基于Ontology的空間信息互操作初步研究[A];中國地理信息系統(tǒng)協(xié)會第八屆年會論文集[C];2004年
8 范志煜;肖兵;沈薇薇;;基于概率本體的態(tài)勢估計應用研究[A];中國自動化學會中南六。▍^(qū))2010年第28屆年會·論文集[C];2010年
9 王建偉;馬暕;劉琴;苗繼承;;高速公路收費站服務質(zhì)量評價體系研究[A];中國高速公路管理學術(shù)論文集(2009卷)[C];2009年
10 賈凌燕;陸一平;;淺談ontology方法及其發(fā)展[A];全國先進制造技術(shù)高層論壇暨制造業(yè)自動化、信息化技術(shù)研討會論文集[C];2005年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 卜志國;海洋生態(tài)環(huán)境監(jiān)測系統(tǒng)數(shù)據(jù)集成與應用研究[D];中國海洋大學;2010年
2 熊晶;海洋生態(tài)本體的建模方法研究及應用[D];中國海洋大學;2010年
3 張俐;面向概念設(shè)計方案選擇的協(xié)同決策方法研究[D];華中科技大學;2010年
4 韓赟;高技術(shù)虛擬企業(yè)(HTVE)知識管理模式研究[D];哈爾濱理工大學;2009年
5 王亞萍;需求驅(qū)動的個性化產(chǎn)品配置設(shè)計方法研究[D];哈爾濱理工大學;2010年
6 宋巖;基于多Agent和本體的散雜貨港口集團船舶調(diào)度系統(tǒng)研究[D];北京交通大學;2011年
7 游穎;客車信息集成控制系統(tǒng)配置設(shè)計中的分解技術(shù)研究[D];武漢理工大學;2010年
8 連莉;本體中非分類關(guān)系的理論體系研究[D];山東大學;2010年
9 魏巍;定制產(chǎn)品智能重組設(shè)計關(guān)鍵技術(shù)與方法研究及其應用[D];浙江大學;2010年
10 陳曦;基于子串的文本分割與主題標注研究[D];武漢大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 厲穎;基于本體的服裝領(lǐng)域知識表示的建模研究[D];山東科技大學;2010年
2 李金華;基于SVM的多類文本分類研究[D];山東科技大學;2010年
3 呂媛媛;基于本體的物流信息集成系統(tǒng)的研究[D];山東科技大學;2010年
4 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學;2010年
5 呂萬里;中文文本分類技術(shù)研究[D];山東科技大學;2010年
6 許坤;基于本體的應急信息管理系統(tǒng)的研究與設(shè)計[D];鄭州大學;2010年
7 王洋;基于潛在語義分析的智能搜索技術(shù)研究[D];哈爾濱工程大學;2010年
8 劉洋;基于本體的醫(yī)保審計知識庫構(gòu)建研究[D];哈爾濱工程大學;2010年
9 劉海嬌;基于魔力平臺的需求分析系統(tǒng)的研究與實現(xiàn)[D];哈爾濱工程大學;2010年
10 孟慶海;基于社會書簽的個性化查詢詞擴展技術(shù)研究[D];哈爾濱工程大學;2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 周宏宇;張政;;中文分詞技術(shù)綜述[J];安陽師范學院學報;2010年02期
2 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學學報(自然科學版);2002年05期
3 李源,何清,史忠植;基于概念語義空間的聯(lián)想檢索[J];北京科技大學學報;2001年06期
4 王建芬,曹元大;支持向量機在大類別數(shù)分類中的應用[J];北京理工大學學報;2001年02期
5 廖樂健,幺敬國,曹元大,李守麗;一個語義Web系統(tǒng)的設(shè)計與實現(xiàn)[J];北京理工大學學報;2004年02期
6 黃卿賢,胡谷雨;基于本體的網(wǎng)絡(luò)管理知識模型[J];北京郵電大學學報;2003年S2期
7 白同強,劉磊;語義Web的研究與展望[J];吉林大學學報(信息科學版);2004年02期
8 李蓉 ,葉世偉 ,史忠植;SVM-KNN分類器——一種提高SVM分類精度的新方法[J];電子學報;2002年05期
9 曹志松,曹文君;基于語義Web實現(xiàn)有效Web信息檢索的研究[J];復旦學報(自然科學版);2004年03期
10 蘇意玲;;基于機器學習的本體匹配的研究[J];福建電腦;2009年08期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 張毅波;中文結(jié)構(gòu)化信息檢索系統(tǒng)的研究與實現(xiàn)[D];中國科學院研究生院(軟件研究所);2001年
2 杜文華;本體的構(gòu)建及其在數(shù)字圖書館中的應用研究[D];武漢大學;2005年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 譚義紅;關(guān)聯(lián)規(guī)則挖掘及其在概念檢索中的應用研究[D];湖南大學;2003年
2 王國琴;基于語義檢索的概念空間研究[D];南京理工大學;2004年
3 羅建利;基于用戶興趣的概念查詢擴展研究[D];揚州大學;2005年
4 葉凌;基于語義的中文搜索引擎[D];吉林大學;2005年
5 覃華兵;知識組織工具—本體研究[D];武漢大學;2005年
6 陳建;領(lǐng)域本體的創(chuàng)建和應用研究[D];對外經(jīng)濟貿(mào)易大學;2006年
7 黃日茂;語義Web知識表示方法的研究[D];貴州大學;2006年
8 彭時名;中文文本分類中特征提取算法研究[D];重慶大學;2006年
9 李玲;面向流程診斷的企業(yè)知識相似度匹配工具研究與開發(fā)[D];哈爾濱工業(yè)大學;2006年
10 吳卓斌;基于LUCENE全文搜索引擎關(guān)鍵技術(shù)的研究[D];暨南大學;2007年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 丁晟春;劉逶迤;熊霞;梅健;;基于領(lǐng)域本體和語塊分析的信息抽取的研究與實現(xiàn)[J];情報學報;2010年01期
2 李景,蘇曉鷺,錢平;構(gòu)建領(lǐng)域本體的方法[J];計算機與農(nóng)業(yè);2003年07期
3 肖敏;;領(lǐng)域本體的構(gòu)建方法研究[J];情報雜志;2006年02期
4 馬文峰;杜小勇;;知識網(wǎng)格研究[J];圖書情報工作;2007年10期
5 許勇;王智學;李宗勇;;領(lǐng)域本體的一致性檢查[J];計算機工程;2009年01期
6 宋佳;王盼卿;齊劍鋒;李曉輝;;裝備領(lǐng)域本體的構(gòu)建方法研究[J];微計算機信息;2009年15期
7 張付志;李偉靜;朱彩云;;基于領(lǐng)域本體的跨系統(tǒng)個性化服務用戶模型[J];計算機工程;2009年13期
8 陳堅;何潔月;;RDF可信度擴展在領(lǐng)域本體構(gòu)建中的應用[J];計算機技術(shù)與發(fā)展;2006年01期
9 李衍淼;霍常青;;本體論在企業(yè)信息檢索中的應用[J];福建電腦;2006年08期
10 徐忠華;程方玉;王強;周傳宏;;基于領(lǐng)域本體的PDM系統(tǒng)工程更改管理模型[J];機電工程;2006年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 馮瑾;;初始領(lǐng)域本體獲取研究——以國際共運領(lǐng)域為例[A];中國圖書館學會專業(yè)圖書館分會2009年學術(shù)年會論文集[C];2009年
2 張曉瑩;張桂平;王裴巖;;領(lǐng)域本體構(gòu)建中關(guān)系輔助判斷技術(shù)研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 葉瓊;李紹穩(wěn);張友華;劉愷;;農(nóng)業(yè)領(lǐng)域本體知識的云化方法研究[A];中國農(nóng)業(yè)工程學會2011年學術(shù)年會論文集[C];2011年
4 李貴;張兆鑫;李征宇;韓子洋;;WEB環(huán)境下基于領(lǐng)域本體的語義匹配技術(shù)研究[A];科學發(fā)展與社會責任(A卷)——第五屆沈陽科學學術(shù)年會文集[C];2008年
5 張士靖;胡兆芹;;醫(yī)學領(lǐng)域本體的構(gòu)建實踐[A];中華醫(yī)學會第十二次全國醫(yī)學信息學術(shù)會議論文匯編[C];2006年
6 劉新華;劉文劍;;基于領(lǐng)域本體的技術(shù)準備信息集成技術(shù)研究[A];全國先進制造技術(shù)高層論壇暨第七屆制造業(yè)自動化與信息化技術(shù)研討會論文集[C];2008年
7 丁晟春;劉逶迤;熊霞;梅健;;基于領(lǐng)域本體和語塊分析的信息抽取的研究與實現(xiàn)[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
8 李甜甜;;基于本體論的供應鏈知識管理[A];經(jīng)濟發(fā)展與管理創(chuàng)新--全國經(jīng)濟管理院校工業(yè)技術(shù)學研究會第十屆學術(shù)年會論文集[C];2010年
9 王茹;邢毓華;;古建筑領(lǐng)域本體構(gòu)建研究[A];首屆工程設(shè)計高性能計算(HPC)技術(shù)應用論壇論文集[C];2007年
10 程曉;鄭德權(quán);楊宇航;邵國軍;;面向半結(jié)構(gòu)化文本的領(lǐng)域本體關(guān)系抽取[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 劉書艷 見習記者 李仁平;[N];中華工商時報;2011年
2 方云;[N];中國企業(yè)報;2003年
3 本報記者 韓亞玲;[N];人民日報海外版;2003年
4 記者 孫進;[N];第一財經(jīng)日報;2010年
5 張文;[N];通信產(chǎn)業(yè)報;2006年
6 朱艷燕;[N];中華工商時報;2004年
7 本報記者 薛建新;[N];財經(jīng)時報;2003年
8 本報記者 張彤;[N];網(wǎng)絡(luò)世界;2003年
9 徐婭萍;[N];民營經(jīng)濟報;2006年
10 羅鼎;[N];通信產(chǎn)業(yè)報;2006年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 趙娜;基于知識地圖的多領(lǐng)域本體語義互聯(lián)研究[D];吉林大學;2011年
2 董俊;基于KDD的領(lǐng)域本體構(gòu)建若干關(guān)鍵問題研究[D];南京郵電大學;2011年
3 谷建軍;基于敘詞表的中醫(yī)古籍文獻領(lǐng)域本體建模方法研究[D];中國中醫(yī)科學院;2006年
4 徐振寧;基于本體的Web數(shù)據(jù)語義信息的表示與處理方法研究[D];中國人民解放軍國防科學技術(shù)大學;2002年
5 于娟;基于文本的領(lǐng)域本體學習方法及其應用研究[D];大連理工大學;2010年
6 肖敏;基于領(lǐng)域本體的電子商務推薦技術(shù)研究[D];武漢理工大學;2009年
7 李景;領(lǐng)域本體的構(gòu)建方法與應用研究[D];中國農(nóng)業(yè)科學院;2009年
8 史樹敏;基于領(lǐng)域本體的漢語共指消解及相關(guān)技術(shù)研究[D];南京理工大學;2008年
9 郭永洪;基于本體的魚病知識獲取與診斷推理集成系統(tǒng)研究[D];中國農(nóng)業(yè)大學;2004年
10 何麗;基于Web挖掘的決策支持系統(tǒng)模型研究[D];天津大學;2005年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 曾小芹;基于領(lǐng)域本體的新聞搜索引擎的研究與實現(xiàn)[D];南昌大學;2012年
2 牟冬梅;本體在醫(yī)學數(shù)字信息資源知識組織中的應用研究[D];吉林大學;2005年
3 史軍強;WEB信息集成技術(shù)研究[D];電子科技大學;2005年
4 葉劍;基于領(lǐng)域本體的E-Learning系統(tǒng)研究[D];華中師范大學;2011年
5 付佳佳;基于敘詞表的領(lǐng)域本體建模研究[D];華東師范大學;2006年
6 許琳;基于本體的個性化信息服務用戶模型構(gòu)建研究[D];吉林大學;2008年
7 王麒;基于領(lǐng)域本體的Web文檔自動摘要關(guān)鍵技術(shù)研究與實現(xiàn)[D];華東師范大學;2007年
8 喬衛(wèi);基于領(lǐng)域本體的XML語義信息抽取的研究與實現(xiàn)[D];武漢理工大學;2009年
9 趙赟;基于本體的問答查詢系統(tǒng)關(guān)鍵技術(shù)的研究與實現(xiàn)[D];東南大學;2004年
10 馮艷華;基于語義的構(gòu)件描述和檢索方法的研究[D];西北大學;2005年
本文關(guān)鍵詞:基于Rough本體的手機領(lǐng)域語義搜索引擎的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:183227
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/183227.html