天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向化工領(lǐng)域的Web文本搜索與分類

發(fā)布時間:2019-08-01 14:35
【摘要】:隨著網(wǎng)絡(luò)信息資源的迅速增加,對于主題Web文本信息的搜索與分類日益成為信息處理領(lǐng)域的一個重要問題。本文建立了一個面向化工領(lǐng)域的Web文本搜索與分類系統(tǒng),該系統(tǒng)在crawler子系統(tǒng)搜集Web文檔的基礎(chǔ)上,利用支持向量機(jī)對網(wǎng)頁進(jìn)行二次分類,找出化工專業(yè)中文網(wǎng)頁;然后利用向量空間模型,對分類好的專業(yè)網(wǎng)頁進(jìn)行多子類分類。與綜合搜索引擎相比,具有速度快、搜索信息準(zhǔn)確度高和具備學(xué)習(xí)能力的特點。
【圖文】:

面向化工領(lǐng)域的Web文本搜索與分類


本系統(tǒng)主要由文檔搜集子系統(tǒng)、特征提取子系統(tǒng)、檢索和分類子系統(tǒng)以及用戶界面控制子系統(tǒng)組成。系統(tǒng)結(jié)構(gòu)如圖1所示。其中文檔搜集子系統(tǒng)完成網(wǎng)頁文檔的搜集、分析和存儲;特征提取子系統(tǒng)完成用戶給定示例文檔的特征分析和提取;檢索和分類子系統(tǒng)對文檔搜集子系統(tǒng)收集的文檔進(jìn)行歸類工作,分割出用戶感興趣的文檔集合;用戶界面控制子系統(tǒng)提供用戶指定示例文檔或者明確指定欲搜取文檔的特征,對文檔和特征庫進(jìn)行維護(hù)管理以及發(fā)布檢索命令。2.1文檔的表示以及特征提取文檔的表示是系統(tǒng)設(shè)計中重要的基礎(chǔ)元素。目前,Web文檔的表示主要采用向量空間模型(vsM)[‘〕,即以向量來表示文檔。在VSM中,,文本空間被看作是由一組正交詞條向量組成的向量空間。假設(shè)所有文本的特征總數(shù)是n,則構(gòu)成一個n維的向量空間,其中每一個文本被表示為一個n維的特征向量:
【作者單位】: 陜西科技大學(xué)化學(xué)與化工學(xué)院 北京理工大學(xué)計算機(jī)科學(xué)與工程系 北京理工大學(xué)計算機(jī)科學(xué)與工程系 北京理工大學(xué)計算機(jī)科學(xué)與工程系
【分類號】:TP393.09;TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 黃蘇華,李曉霞,郭力,劉宗紅,楊章遠(yuǎn);基于數(shù)據(jù)庫的Internet化學(xué)資源導(dǎo)航信息管理與自動發(fā)布[J];計算機(jī)與應(yīng)用化學(xué);2000年03期

2 彭桃芳,鄧文生,毋俊生,王利生;基于Web的工程物性數(shù)據(jù)庫查詢系統(tǒng)[J];計算機(jī)與應(yīng)用化學(xué);2003年Z1期

3 王華彥,李曉霞,郭力,楊章遠(yuǎn);Internet化學(xué)資源導(dǎo)航系統(tǒng)中的相關(guān)資源鏈接[J];計算機(jī)與應(yīng)用化學(xué);2003年Z1期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳剛,邢獻(xiàn)然,陳占恒,祝振奇,陳駿;基于網(wǎng)絡(luò)構(gòu)建稀土化合物物性數(shù)據(jù)庫[J];北京科技大學(xué)學(xué)報;2002年03期

2 李曉霞,郭力,楊章遠(yuǎn),許志宏;從Internet化學(xué)化工資源導(dǎo)航到虛擬社區(qū)[J];化工學(xué)報;2000年S1期

3 張茂元;鄒春燕;盧正鼎;;一種基于變調(diào)整學(xué)習(xí)規(guī)則的模糊網(wǎng)頁分類方法研究[J];計算機(jī)研究與發(fā)展;2007年01期

4 劉宗紅,李曉霞,郭力,黃蘇華,楊章遠(yuǎn);基于數(shù)據(jù)庫的Internet化學(xué)資源導(dǎo)航系統(tǒng)與用戶的交互[J];計算機(jī)與應(yīng)用化學(xué);2000年05期

5 賈紅陽,郭力,李曉霞,楊章遠(yuǎn),姜林,陳曉青;石油化工信息系統(tǒng)Web權(quán)限管理的研究[J];計算機(jī)與應(yīng)用化學(xué);2001年02期

6 李新宇,郭力,李曉霞;ChIN與PHP-Nuke的無縫集成[J];計算機(jī)與應(yīng)用化學(xué);2002年05期

7 李曉霞,郭力,楊宏偉,陳越,李新宇,王華彥,楊章遠(yuǎn);ChIN化學(xué)化工資源導(dǎo)航系統(tǒng)的新進(jìn)展[J];計算機(jī)與應(yīng)用化學(xué);2002年Z1期

8 張衛(wèi)華,徐揚子,李克非;遠(yuǎn)程化學(xué)教育網(wǎng)站的建設(shè)與開發(fā)[J];計算機(jī)與應(yīng)用化學(xué);2003年05期

9 謝冰;張宏忠;孫雨安;劉應(yīng)凡;王國慶;;基于B/S構(gòu)架的化學(xué)實驗管理系統(tǒng)[J];計算機(jī)與應(yīng)用化學(xué);2006年03期

10 馬金娜;田大鋼;;基于SVM的中文文本自動分類研究[J];計算機(jī)與現(xiàn)代化;2006年08期

相關(guān)會議論文 前1條

1 Zhongda Lin, Kun Deng, Yanfen Hong (Department of Computer Science and Technology, Nanchang University, Nanchang 330029, China);Research of Web Pages Categorization[A];Rough集前景——粒計算理論國際論壇(2006)論文集[C];2006年

相關(guān)博士學(xué)位論文 前10條

1 薛德軍;中文文本自動分類中的關(guān)鍵問題研究[D];清華大學(xué);2004年

2 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年

3 周翠松;核酸識體熒光光譜法研究及其關(guān)聯(lián)數(shù)據(jù)庫的構(gòu)建[D];四川大學(xué);2006年

4 賈自艷;Web信息智能獲取若干關(guān)鍵問題研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2004年

5 田永鴻;基于上下文的統(tǒng)計關(guān)系學(xué)習(xí)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年

6 趙鵬;復(fù)雜網(wǎng)絡(luò)與互聯(lián)網(wǎng)個性化信息服務(wù)的研究[D];中國科學(xué)技術(shù)大學(xué);2006年

7 劉柏嵩;基于Web的通用本體學(xué)習(xí)研究[D];浙江大學(xué);2007年

8 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年

9 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年

10 王輝;基于質(zhì)心具有增量性質(zhì)的主題爬行[D];吉林大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 劉志剛;天然藥物網(wǎng)絡(luò)數(shù)據(jù)庫中活性分子3D結(jié)構(gòu)的實現(xiàn)及其構(gòu)效關(guān)系研究[D];四川大學(xué);2002年

2 王吉星;高分子合成與性能預(yù)測的計算機(jī)模擬[D];河北工業(yè)大學(xué);2004年

3 劉卓;基于KNN算法的中文文本自動分類[D];吉林大學(xué);2004年

4 彭雅;文本分類算法及其應(yīng)用研究[D];湖南大學(xué);2004年

5 沈抖;萬維網(wǎng)上數(shù)據(jù)處理方法的研究[D];清華大學(xué);2004年

6 趙志巖;web文檔性質(zhì)分類的研究與應(yīng)用[D];東北師范大學(xué);2005年

7 程傳鵬;基于分類的智能信息檢索研究與實現(xiàn)[D];云南師范大學(xué);2005年

8 李暢

本文編號:2521809


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2521809.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3e589***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com