基于本體的多媒體素材網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)
本文關(guān)鍵詞:基于本體的多媒體素材網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:當(dāng)今網(wǎng)絡(luò)時代的網(wǎng)絡(luò)資源極大豐富,每一秒鐘都有數(shù)以萬計的資源出現(xiàn)。大型搜索引擎每天都要提供數(shù)億的搜索服務(wù)。因而對于資源的獲取的準(zhǔn)確性逐步成為網(wǎng)絡(luò)爬行網(wǎng)絡(luò)搜索等研究領(lǐng)域的熱門選題。對于網(wǎng)絡(luò)資源的獲取方法,已經(jīng)有了長足的發(fā)展。網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)和基本算法已經(jīng)相對穩(wěn)定。先后出現(xiàn)了聚焦爬蟲、語義爬蟲和學(xué)習(xí)爬蟲等分支。聚焦爬蟲主要針對的是所爬行的網(wǎng)頁與爬行目標(biāo)的相關(guān)性;包括相關(guān)資源的待爬行URL的發(fā)現(xiàn)和預(yù)測;以及待爬行URL列表的排序等問題。語義爬蟲在傳統(tǒng)聚焦爬蟲的基礎(chǔ)上計算話題的語義相關(guān)性以得到所爬行網(wǎng)頁的優(yōu)先級。目前已經(jīng)有基于本體的語義爬行嘗試。學(xué)習(xí)爬行從統(tǒng)計角度入手,如馬爾科夫模型、基于內(nèi)容圖的方法等,通過訓(xùn)練來指導(dǎo)網(wǎng)頁的處理優(yōu)先級。這個研究分支是與語義爬行并行的方向,也取得了部分有意義的成果。本文的作者關(guān)注了語義爬行的研究熱點,嘗試使用本體技術(shù)對于語義爬蟲進行設(shè)計與實現(xiàn)。具體的工作包括如下幾個部分。首先,根據(jù)作者的本職工作需要,通過與相關(guān)工作人員進行調(diào)研和對實際工作中遇到的問題進行匯總的方式,發(fā)現(xiàn)和整理梳理CAI課件制作方面相關(guān)的的多媒體資源知識。通過本體建模工具,建立多媒體資源本體知識庫。其次,根據(jù)多媒體資源本體知識庫中對于CAI課件多媒體的分類,設(shè)計基于Word Net語料庫的語義相似網(wǎng)絡(luò)爬行算法。對于URL的語義標(biāo)簽和相似度進行了定義,并給出了計算方法的具體算法。再次,基于.Net框架使用C#語言,設(shè)計實現(xiàn)了本文提出的算法以及一個簡單的網(wǎng)絡(luò)爬蟲程序。給出了URL存儲、Http請求的發(fā)布和響應(yīng)等實際的實現(xiàn)細節(jié)代碼。最后,對于算法的功能進行了測試并嘗試改進。鑒于作者的專業(yè)背景和學(xué)術(shù)水平,作者的能力不能夠勝任完整的設(shè)計開發(fā)一個功能齊備的多媒體網(wǎng)絡(luò)爬蟲的工作。但本人根據(jù)工作實際,在軟件工程碩士讀書期間學(xué)習(xí)過的老師的指導(dǎo)和幫助下,完成了一個對自己工作有利的小軟件,對軟件工程領(lǐng)域的相關(guān)理論和編程方法有了一定的深入理解。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬行 本體 語義相似
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-6
- Abstract6-9
- 第1章 緒論9-12
- 1.1 選題背景9-10
- 1.2 選題意義10-11
- 1.3 主要工作11
- 1.4 本章小結(jié)11-12
- 第2章 相關(guān)工作12-17
- 2.1 多媒體搜索引擎12-13
- 2.2 垂直搜索研究13-15
- 2.3 語義主題搜索15-16
- 2.4 本章小結(jié)16-17
- 第3章 領(lǐng)域建模17-27
- 3.1 領(lǐng)域描述17-18
- 3.2 領(lǐng)域建模方法18-19
- 3.3 模型建立19-26
- 3.3.1 多媒體資源分類21-22
- 3.3.2 多媒體領(lǐng)域詞匯管理22-26
- 3.3.3 多媒體情景劃分26
- 3.4 本章小結(jié)26-27
- 第4章 算法設(shè)計27-37
- 4.1 理論基礎(chǔ)27-30
- 4.2 具體算法設(shè)計30-36
- 4.2.1 標(biāo)簽向量構(gòu)造算法31-35
- 4.2.2 基于語義相似的爬行算法35-36
- 4.3 本章小結(jié)36-37
- 第5章 算法實現(xiàn)37-45
- 5.1 編程環(huán)境37
- 5.2 實現(xiàn)細節(jié)37-42
- 5.2.1 爬行中間結(jié)果的處理37
- 5.2.2 網(wǎng)絡(luò)HTTP請求的處理37-41
- 5.2.3 語義相似度計算41-42
- 5.3 實現(xiàn)效果42-44
- 5.4 本章小結(jié)44-45
- 總結(jié)45-46
- 參考文獻46-48
- 作者簡介48-49
- 致謝49
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
2 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];微計算機信息;2010年03期
3 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
4 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期
5 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報;2011年05期
6 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計算機應(yīng)用與軟件;2011年11期
7 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
8 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2008年35期
9 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期
10 楊松梅;;網(wǎng)絡(luò)爬蟲[J];硅谷;2009年15期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
3 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
4 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
5 王慶廣;何力;韓偉紅;;基于爬蟲的有害網(wǎng)站發(fā)現(xiàn)與判別系統(tǒng)的實現(xiàn)[A];第27次全國計算機安全學(xué)術(shù)交流會論文集[C];2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學(xué);2012年
2 芮虎;比價購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];華東理工大學(xué);2013年
3 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡(luò)爬蟲系統(tǒng)[D];華南理工大學(xué);2015年
4 馬漢超;基于主題網(wǎng)絡(luò)爬蟲的汽車行業(yè)多元信息web系統(tǒng)設(shè)計與實現(xiàn)[D];西南交通大學(xué);2015年
5 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
6 么士宇;基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
7 陳奮;過濾型網(wǎng)絡(luò)爬蟲的研究與設(shè)計[D];廈門大學(xué);2007年
8 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2013年
9 劉晶晶;面向微博的網(wǎng)絡(luò)爬蟲研究與實現(xiàn)[D];復(fù)旦大學(xué);2012年
10 耿令寶;分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化[D];北京郵電大學(xué);2015年
本文關(guān)鍵詞:基于本體的多媒體素材網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:331601
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/331601.html