天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于關(guān)鍵詞提取的娛樂新聞文檔去重算法

發(fā)布時(shí)間:2018-12-17 13:22
【摘要】:去除內(nèi)容相同或相近的新聞是提高搜索引擎的關(guān)鍵技術(shù)之一。提出一種基于關(guān)鍵詞提取的新聞去重算法,通過以標(biāo)題為種子點(diǎn)構(gòu)建詞匯鏈的方法,能夠找到對(duì)主題貢獻(xiàn)大的非高頻詞,從而抽取出完整文檔關(guān)鍵詞集合,該方法能夠基于小規(guī)模語料庫識(shí)別新詞;為了提高網(wǎng)頁去重速度和質(zhì)量,基于關(guān)鍵詞建立去重倒排文檔。實(shí)驗(yàn)結(jié)果顯示,該方法與傳統(tǒng)方法相比排斥錯(cuò)誤率降低了5%,去重時(shí)間縮短了20%-30%。
[Abstract]:Removing news with the same or similar content is one of the key techniques for improving search engines. In this paper, we propose a new algorithm of news reduplication based on keyword extraction. By using the title as the seed point to construct the lexical chain, we can find the non-high-frequency words that contribute a lot to the topic, and then extract the complete document keyword set. This method can recognize new words based on small corpus. In order to improve the speed and quality of webpage deduplication, the key words are used to set up the de-reversion document. The experimental results show that compared with the traditional method, the rejection error rate of this method is reduced by 5%, and the time of removing heavy weight is shortened by 20%-30%.
【作者單位】: 北京石油化工學(xué)院計(jì)算機(jī)系 北京石油化工學(xué)院計(jì)算機(jī)系 北京石油化工學(xué)院計(jì)算機(jī)系
【基金】:國家部委預(yù)研項(xiàng)目(10405033) 北京市教育委員會(huì)資助項(xiàng)目(KM200610017007)
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 昝紅英,俞士汶;CCD及其應(yīng)用[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期

2 趙欣欣;索紅光;劉玉樹;;基于改進(jìn)漢寧窗的信息檢索模型[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期

3 施水才;俞鴻魁;呂學(xué)強(qiáng);李渝勤;;基于大規(guī)模語料的新詞語識(shí)別方法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期

4 高凱;王永成;肖君;;網(wǎng)頁去重策略[J];上海交通大學(xué)學(xué)報(bào);2006年05期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 孟時(shí);王彥;;larbin網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[J];電腦學(xué)習(xí);2010年04期

2 肖丁;萬里;吳斌;陳平;;社群網(wǎng)絡(luò)中基于鏈接分類的研究與應(yīng)用[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期

3 盧春燕;雷景生;;基于模糊關(guān)聯(lián)的交互式Web信息檢索技術(shù)[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期

4 于江德;樊孝忠;尹繼豪;;基于Ultra Search的桌面搜索設(shè)計(jì)與實(shí)現(xiàn)[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期

5 吳麗華;羅云鋒;符海艷;;不確定知識(shí)的相似度量方法及應(yīng)用[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期

6 徐建民;唐萬生;;基于查詢術(shù)語同義詞的擴(kuò)展信念網(wǎng)絡(luò)檢索模型[J];計(jì)算機(jī)工程;2007年10期

7 曹傳東;郭理;;一種基于文本抽取的網(wǎng)頁正文去重算法[J];科技信息;2009年01期

8 昝紅英,蘇玉梅,孫斌,俞士汶;名人網(wǎng)頁的相關(guān)度評(píng)價(jià)[J];中文信息學(xué)報(bào);2003年05期

9 劉書一;;基于文本相似度的網(wǎng)頁消重策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期

10 徐建民;陳振亞;白彥霞;;利用查詢術(shù)語同義詞關(guān)系擴(kuò)展信念網(wǎng)絡(luò)檢索模型[J];情報(bào)學(xué)報(bào);2008年03期

相關(guān)會(huì)議論文 前1條

1 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

相關(guān)博士學(xué)位論文 前2條

1 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學(xué);2010年

2 徐建民;基于術(shù)語關(guān)系的貝葉斯網(wǎng)絡(luò)信息檢索模型擴(kuò)展研究[D];天津大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 魏一帆;分布式信息采集系統(tǒng)Web劃分技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年

2 賈玉祥;基于概率模型的名人網(wǎng)頁相關(guān)度評(píng)價(jià)研究[D];鄭州大學(xué);2006年

3 段國成;基于CCD的術(shù)語抽取研究[D];鄭州大學(xué);2007年

4 張恒;基于軍事應(yīng)用的網(wǎng)絡(luò)情報(bào)智能搜索技術(shù)[D];第四軍醫(yī)大學(xué);2007年

5 范小源;搜索引擎系統(tǒng)網(wǎng)頁消重的研究與實(shí)現(xiàn)[D];中南民族大學(xué);2007年

6 王強(qiáng);基于Web結(jié)構(gòu)挖掘的敏感社團(tuán)發(fā)現(xiàn)[D];解放軍信息工程大學(xué);2007年

7 劉冠軍;Web對(duì)象提取檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京大學(xué);2008年

8 劉利剛;中文名實(shí)體識(shí)別與新詞發(fā)現(xiàn)技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年

9 魏麗霞;基于文本結(jié)構(gòu)的近似鏡像網(wǎng)頁去重[D];山西大學(xué);2008年

10 徐靜秋;面向搜索引擎的智能個(gè)性化研究[D];重慶大學(xué);2008年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 張?jiān)茲?龔玲,王永成;面向自然語言提問的檢索技術(shù)[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期

2 韓立新 ,陽雪林 ,謝立 ,陳道蓄;一種提高WEB信息檢索系統(tǒng)查準(zhǔn)率的新方法[J];情報(bào)學(xué)報(bào);2002年05期

3 鄧珞華;概念空間——定義、意義和局限[J];情報(bào)學(xué)報(bào);2003年04期

4 李曉明,鳳旺森;兩種對(duì)URL的散列效果很好的函數(shù)[J];軟件學(xué)報(bào);2004年02期

5 孫茂松;關(guān)于詞匯使用度的初步研究[J];語言文字應(yīng)用;2000年01期

6 董振東;語義關(guān)系的表達(dá)和知識(shí)系統(tǒng)的建造[J];語言文字應(yīng)用;1998年03期

7 張普;關(guān)于大規(guī)模真實(shí)文本語料庫的幾點(diǎn)理論思考[J];語言文字應(yīng)用;1999年01期

相關(guān)會(huì)議論文 前1條

1 劉揚(yáng);俞士汶;;CCD構(gòu)造模型及VACOL輔助軟件的設(shè)計(jì)與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2002年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王曉艷;梁晉春;郭曉霞;姚穎穎;汪瑛;;基于互聯(lián)網(wǎng)的數(shù)字媒體內(nèi)容輿情分析系統(tǒng)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年08期

2 許琦;;一種基于知網(wǎng)的文檔語義模型構(gòu)建方法[J];中國科技資源導(dǎo)刊;2010年04期

3 曹玉娟;牛振東;趙X;彭學(xué)平;;基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測(cè)算法[J];軟件學(xué)報(bào);2011年08期

4 周鑫;郝志峰;蔡瑞初;溫雯;;帶噪聲的文本聚類及其在反垃圾郵件中的應(yīng)用[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期

5 孫凱;;面向古建動(dòng)畫自動(dòng)生成的中文自然語言處理[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年09期

6 王鵬;;垂直搜索引擎及其個(gè)性化推薦研究[J];濰坊學(xué)院學(xué)報(bào);2011年04期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相關(guān)會(huì)議論文 前10條

1 沙蕓;周俊武;張國英;;基于主題關(guān)鍵詞的新聞去重算法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

2 雷慶;吳揚(yáng)揚(yáng);;一種基于語義信息計(jì)算XML文檔相似度的新方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

3 秦鵬;李恒訓(xùn);張華平;劉金剛;;基于關(guān)鍵詞提取的搜索結(jié)果聚類研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

4 王洪俊;施水才;俞士汶;肖詩斌;;跨語言文檔對(duì)齊[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

5 章成志;;基于集成學(xué)習(xí)的自動(dòng)標(biāo)引方法研究[A];中國索引學(xué)會(huì)第三次全國會(huì)員代表大會(huì)暨學(xué)術(shù)論壇論文集[C];2008年

6 羅準(zhǔn)辰;劉伍穎;王挺;;關(guān)鍵詞提取中的分離模型和特征設(shè)計(jì)[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

7 馬亮;何婷婷;陳勁光;李芳;邵偉;;一種利用關(guān)鍵詞提取的面向查詢多文檔文摘技術(shù)[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年

8 薛征;廖聞劍;;基于位置權(quán)重和實(shí)體識(shí)別的關(guān)鍵詞提取[A];中國電子學(xué)會(huì)第十六屆信息論學(xué)術(shù)年會(huì)論文集[C];2009年

9 徐斌;顧宏斌;;一種基于模糊分類的多分類文檔查找方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

10 廉鑫;林偉堅(jiān);張海威;袁曉潔;;基于雙向路徑約束模型的XML文檔結(jié)構(gòu)相似性度量[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

相關(guān)重要報(bào)紙文章 前1條

1 鐘赫;練好十大絕招做好企業(yè)微博營銷[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2011年

相關(guān)博士學(xué)位論文 前10條

1 蔣昌金;基于關(guān)鍵詞提取的中文網(wǎng)頁自動(dòng)文摘方法研究[D];華南理工大學(xué);2010年

2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

3 高紅;基于統(tǒng)計(jì)語言模型的漢語淺層分析研究[D];大連理工大學(xué);2007年

4 王一川;基于內(nèi)容的海量文本探索式查詢導(dǎo)引中若干關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2011年

5 姜靜清;最小二乘支持向量機(jī)算法及應(yīng)用研究[D];吉林大學(xué);2007年

6 余利華;分布式數(shù)據(jù)存儲(chǔ)和處理的若干技術(shù)研究[D];浙江大學(xué);2008年

7 金博;面向?qū)@土悴考脑O(shè)計(jì)知識(shí)檢索方法[D];大連理工大學(xué);2009年

8 魏建香;學(xué)科交叉知識(shí)發(fā)現(xiàn)及其可視化研究[D];南京大學(xué);2010年

9 林古立;互聯(lián)網(wǎng)信息檢索中的多樣化排序研究及應(yīng)用[D];華南理工大學(xué);2011年

10 繆嘉嘉;異構(gòu)數(shù)據(jù)映射技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 梁偉明;中文關(guān)鍵詞提取技術(shù)[D];上海交通大學(xué);2010年

2 管瑞霞;基于基因表達(dá)式編程的中文文本關(guān)鍵詞提取算法研究[D];杭州電子科技大學(xué);2009年

3 謝鳳宏;基于復(fù)雜網(wǎng)絡(luò)理論的文本聚類和關(guān)鍵詞提取方法研究[D];遼寧師范大學(xué);2011年

4 江慧娜;中文搜索引擎的關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2007年

5 薛征;基于改進(jìn)TF-IDF的文本信息熱點(diǎn)話題發(fā)現(xiàn)[D];武漢郵電科學(xué)研究院;2009年

6 劉治華;面向主題的文檔摘要技術(shù)研究[D];北方工業(yè)大學(xué);2011年

7 尹倩;基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究[D];合肥工業(yè)大學(xué);2009年

8 趙嫣;信息檢索中結(jié)構(gòu)化文檔相關(guān)度計(jì)算方法的研究[D];山東大學(xué);2007年

9 呂紅良;基于大規(guī)模語料庫的中文新詞識(shí)別[D];大連理工大學(xué);2008年

10 何金艷;基于內(nèi)容分析的Blog話題檢測(cè)方法研究[D];哈爾濱工業(yè)大學(xué);2010年

,

本文編號(hào):2384255

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2384255.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8c4ba***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com