天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向增量同生主題的維吾爾文爬蟲的研究

發(fā)布時(shí)間:2017-07-30 20:06

  本文關(guān)鍵詞:面向增量同生主題的維吾爾文爬蟲的研究


  更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 網(wǎng)頁(yè)分類 IC主題模型 錨文本 維吾爾文


【摘要】:針對(duì)傳統(tǒng)的主題爬蟲對(duì)網(wǎng)頁(yè)信息缺乏在知識(shí)層面上的處理和理解的問(wèn)題進(jìn)行了研究,提出了一種面向增量同生主題的維吾爾文爬蟲,通過(guò)建立一個(gè)增量主題詞庫(kù)優(yōu)化傳統(tǒng)的主題模型,來(lái)描述維吾爾文關(guān)鍵詞的應(yīng)用語(yǔ)境及場(chǎng)景,提高了計(jì)算網(wǎng)頁(yè)相關(guān)度的準(zhǔn)確率。用改進(jìn)的IC主題敏感算法來(lái)預(yù)測(cè)子頁(yè)面優(yōu)先級(jí),過(guò)濾無(wú)關(guān)的網(wǎng)頁(yè)地址。依據(jù)上述方法編寫爬蟲系統(tǒng),用構(gòu)建的維吾爾文語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn),表明了基于此模型的爬蟲具有更好的穩(wěn)定性和準(zhǔn)確度。
【作者單位】: 新疆大學(xué)電氣工程學(xué)院;
【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲 網(wǎng)頁(yè)分類 IC主題模型 錨文本 維吾爾文
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61163026,60865001)
【分類號(hào)】:TP393.092
【正文快照】: 新疆互聯(lián)網(wǎng)的起源可以追溯到1993年X.25網(wǎng)絡(luò)的成功建設(shè)。經(jīng)過(guò)近二十年的發(fā)展,新疆互聯(lián)網(wǎng)網(wǎng)絡(luò)規(guī)模迅速擴(kuò)大,新疆少數(shù)民族語(yǔ)言的Web網(wǎng)頁(yè)數(shù)量呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)。如何在浩瀚的信息海洋中準(zhǔn)確、方便、快速地找到用戶所需信息變得至關(guān)重要。針對(duì)特定領(lǐng)域的搜索技術(shù)便應(yīng)運(yùn)而生,并且越

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條

1 王輝;左萬(wàn)利;王暉昱;寧愛軍;孫志偉;滿春雷;;基于質(zhì)心向量的增量式主題爬行[J];計(jì)算機(jī)研究與發(fā)展;2009年02期

2 阿力木江·艾沙;吐爾根·依布拉音;艾山·吾買爾;馬爾哈巴·艾力;;基于機(jī)器學(xué)習(xí)的維吾爾文文本分類研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年05期

3 王鐘斐;王彪;;基于錨文本相似度的PageRank改進(jìn)算法[J];計(jì)算機(jī)工程;2010年24期

4 熊忠陽(yáng);史艷;張玉芳;;基于維基百科和網(wǎng)頁(yè)分塊的主題爬行策略[J];計(jì)算機(jī)應(yīng)用;2011年12期

5 黃仁;王良偉;;基于主題相關(guān)概念和網(wǎng)頁(yè)分塊的主題爬蟲研究[J];計(jì)算機(jī)應(yīng)用研究;2013年08期

6 鄭健珍;林坤輝;周昌樂(lè);康愷;;基于本體語(yǔ)義的定題爬蟲[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期

7 張?jiān)J;李振坤;吳永杰;;基于規(guī)則模型的網(wǎng)頁(yè)主題文本提取方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年20期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 田雪筠;;網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)主題采集技術(shù)研究[J];圖書與情報(bào);2014年05期

2 陳方;譚愛平;成亞玲;文益民;;主題爬蟲技術(shù)研究綜述[J];湖南工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年05期

3 黃健斌;孫鶴立;;基于鏈接路徑預(yù)測(cè)的聚焦Web實(shí)體搜索[J];計(jì)算機(jī)研究與發(fā)展;2010年12期

4 張乃洲;李石君;余偉;張卓;;使用聯(lián)合鏈接相似度評(píng)估爬取Web資源[J];計(jì)算機(jī)學(xué)報(bào);2010年12期

5 金明珠;丁岳偉;;基于動(dòng)態(tài)主題庫(kù)的主題爬蟲[J];計(jì)算機(jī)應(yīng)用;2009年S2期

6 關(guān)慧芬;師軍;馬繼紅;;基于遺傳算法的主題爬行技術(shù)研究[J];計(jì)算機(jī)與數(shù)字工程;2008年10期

7 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;基于頻繁模式挖掘的維吾爾文智能組詞方法[J];計(jì)算機(jī)應(yīng)用;2012年10期

8 阿力木江·艾沙;吐爾根·依布拉音;庫(kù)爾班·吾布力;李哲;;基于短語(yǔ)的維吾爾文文本分類[J];計(jì)算機(jī)應(yīng)用;2012年10期

9 馬艷紅;胡學(xué)鋼;吳共慶;;基于鏈接路徑搜索的URL屬性集成方法[J];計(jì)算機(jī)工程;2013年01期

10 陳戰(zhàn)勝;鈕文良;王輝;孫浩;;一種適用于大規(guī)模的改進(jìn)PageRank算法[J];科學(xué)技術(shù)與工程;2012年34期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條

1 張素智;李寶燕;樊得強(qiáng);;面向用戶和領(lǐng)域本體的Web信息采集系統(tǒng)[A];計(jì)算機(jī)研究新進(jìn)展(2010)——河南省計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條

1 田俊華;基于本體知識(shí)庫(kù)的教學(xué)資源自動(dòng)采集技術(shù)研究[D];南京師范大學(xué);2011年

2 張乃洲;實(shí)體搜索爬蟲和信息抽取研究[D];武漢大學(xué);2011年

3 梁浩;Deep Web信息集成架構(gòu)及相關(guān)問(wèn)題研究[D];吉林大學(xué);2010年

4 史斌;面向語(yǔ)義網(wǎng)的語(yǔ)義搜索引擎關(guān)鍵技術(shù)研究[D];北京工業(yè)大學(xué);2010年

5 李春山;面向社會(huì)化媒體內(nèi)容的若干聚類算法研究[D];哈爾濱工業(yè)大學(xué);2014年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 郭艷芬;林業(yè)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2011年

2 馬燕;基于快速相似度的Web結(jié)構(gòu)挖掘的研究[D];南京信息工程大學(xué);2011年

3 史叢;網(wǎng)絡(luò)搜索引擎的相關(guān)技術(shù)研究[D];山東科技大學(xué);2011年

4 代旭峰;基于用戶興趣模型的搜索引擎結(jié)果推薦系統(tǒng)[D];復(fù)旦大學(xué);2011年

5 袁方;基于改進(jìn)PageRank算法的個(gè)性化搜索的研究[D];北京郵電大學(xué);2012年

6 杜光芹;效用驅(qū)動(dòng)的主題Web挖掘算法研究[D];山東師范大學(xué);2007年

7 邊杰;一種基于Jena的語(yǔ)義檢索模型研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2008年

8 吳聰聰;基于本體的專業(yè)搜索引擎的研究[D];天津大學(xué);2007年

9 孫逸飛;半自動(dòng)本體構(gòu)建方法研究[D];吉林大學(xué);2009年

10 卜永忠;面向金融信息的主題爬蟲研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2008年

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 劉林,汪濤,樊孝忠;主題爬蟲的解決方案[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期

2 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期

3 李凱,赫楓齡,左萬(wàn)利;PageRank-Pro——一種改進(jìn)的網(wǎng)頁(yè)排序算法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2003年02期

4 黃秀麗;王蔚;;一種改進(jìn)的文本分類特征選擇方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年36期

5 周源遠(yuǎn),王繼成,鄭剛,張福炎;Web頁(yè)面清洗技術(shù)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2002年09期

6 張寧,賈自艷,史忠植;使用KNN算法的文本分類[J];計(jì)算機(jī)工程;2005年08期

7 黃德才;戚華春;;PageRank算法研究[J];計(jì)算機(jī)工程;2006年04期

8 陳再良;凌力;周強(qiáng);;dPageRank——一種改進(jìn)的分布式PageRank算法[J];計(jì)算機(jī)應(yīng)用;2006年01期

9 王敬普;林亞平;周順先;岳文;;基于包裝器模型的文本信息抽取[J];計(jì)算機(jī)應(yīng)用;2006年03期

10 趙佳鶴;王秀坤;劉亞欣;;基于語(yǔ)義分析的主題信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2007年02期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 藥成剛;基于鏈接結(jié)構(gòu)的中文網(wǎng)頁(yè)排序算法研究[D];哈爾濱工業(yè)大學(xué);2006年

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 松濤;“吸”盡網(wǎng)絡(luò)中有用的網(wǎng)頁(yè)信息[J];電腦知識(shí)與技術(shù);2004年13期

2 朱精南,趙明生;網(wǎng)頁(yè)版面信息分析[J];計(jì)算機(jī)工程;2004年12期

3 梁邦勇,李涓子,王克宏;基于語(yǔ)義Web的網(wǎng)頁(yè)推薦模型[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年09期

4 王海燕;張正凱;任建浩;;從審美角度淺談網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];中國(guó)電化教育;2004年09期

5 賈海龍,任玉珍;網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];新鄉(xiāng)師范高等?茖W(xué)校學(xué)報(bào);2005年05期

6 劉肖冰;淺談網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2005年05期

7 孫迎春;;網(wǎng)頁(yè)設(shè)計(jì)研究[J];南平師專學(xué)報(bào);2005年03期

8 文濤;網(wǎng)頁(yè)的視覺(jué)傳達(dá)設(shè)計(jì)與分析[J];沈陽(yáng)教育學(xué)院學(xué)報(bào);2005年01期

9 宋春暉;網(wǎng)頁(yè)設(shè)計(jì)中的美學(xué)應(yīng)用分析[J];海南師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2005年01期

10 張秀虎;;淺談網(wǎng)頁(yè)的訪問(wèn)權(quán)限[J];教育信息化;2005年17期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁(yè)篩選系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

2 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁(yè)相關(guān)度研究[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

3 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁(yè)信息的一種網(wǎng)頁(yè)結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年

4 曹淮;晁丁丁;;3D元素在網(wǎng)頁(yè)信息傳達(dá)中的應(yīng)用研究[A];2006年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)暨中國(guó)工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年

5 吳建軍;;談網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁(yè)文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁(yè)信息結(jié)構(gòu)的網(wǎng)頁(yè)體裁聚類分析[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

8 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網(wǎng)頁(yè)內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬(wàn)村千鄉(xiāng)”網(wǎng)頁(yè)工程開辟為農(nóng)服務(wù)新渠道[N];中國(guó)氣象報(bào);2012年

2 壯壯;批量保存網(wǎng)頁(yè)信息[N];電腦報(bào);2004年

3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國(guó)冶金報(bào);2011年

4 錢鵬;網(wǎng)盡Web頁(yè)中的好東東[N];電腦報(bào);2004年

5 星之海洋;邁出網(wǎng)頁(yè)制作的第一步[N];電腦報(bào);2004年

6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年

7 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國(guó)電腦教育報(bào);2004年

8 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國(guó)證券報(bào);2004年

9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年

10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 陳潔;基于概念融合的網(wǎng)頁(yè)篩選技術(shù)研究[D];北京郵電大學(xué);2013年

2 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年

3 黃華軍;網(wǎng)頁(yè)信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年

4 徐晴陽(yáng);基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

5 曹魯慧;Web個(gè)人信息集成問(wèn)題研究[D];山東大學(xué);2012年

6 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年

7 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年

8 宗校軍;中文網(wǎng)頁(yè)定題采集及分類研究[D];華中科技大學(xué);2006年

9 余偉;基于用戶個(gè)性挖掘的Web社區(qū)營(yíng)銷研究[D];武漢大學(xué);2011年

10 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 高文梁;改進(jìn)的基于歷史信息分析的網(wǎng)頁(yè)排序算法[D];大連理工大學(xué);2009年

2 劉輝;網(wǎng)頁(yè)信息過(guò)濾系統(tǒng)的研究與設(shè)計(jì)[D];蘇州大學(xué);2009年

3 趙胤;海量網(wǎng)頁(yè)搜集系統(tǒng)的設(shè)計(jì)[D];東北大學(xué) ;2009年

4 羅永蓮;突發(fā)事件語(yǔ)料噪聲排除與網(wǎng)頁(yè)去重方法研究[D];山西大學(xué);2005年

5 黃永光;基于網(wǎng)頁(yè)挖掘的搜索引擎若干技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2006年

6 張超群;基于網(wǎng)頁(yè)分塊技術(shù)的主題爬行[D];吉林大學(xué);2007年

7 張雅潔;網(wǎng)頁(yè)視覺(jué)基礎(chǔ)設(shè)計(jì)與應(yīng)用研究[D];東北師范大學(xué);2007年

8 黃文蓓;基于網(wǎng)頁(yè)分割和摘要的小屏幕設(shè)備網(wǎng)頁(yè)自適應(yīng)技術(shù)研究與實(shí)現(xiàn)[D];華東師范大學(xué);2008年

9 劉華暉;需求概念圖導(dǎo)引下的網(wǎng)頁(yè)檢索結(jié)果分析[D];上海交通大學(xué);2011年

10 程歡;網(wǎng)頁(yè)中動(dòng)態(tài)色彩及其情感可視化研究[D];哈爾濱工業(yè)大學(xué);2011年

,

本文編號(hào):595871

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/595871.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9b8fc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com