面向化工領(lǐng)域的Web文本搜索與分類
【圖文】:
本系統(tǒng)主要由文檔搜集子系統(tǒng)、特征提取子系統(tǒng)、檢索和分類子系統(tǒng)以及用戶界面控制子系統(tǒng)組成。系統(tǒng)結(jié)構(gòu)如圖1所示。其中文檔搜集子系統(tǒng)完成網(wǎng)頁文檔的搜集、分析和存儲;特征提取子系統(tǒng)完成用戶給定示例文檔的特征分析和提取;檢索和分類子系統(tǒng)對文檔搜集子系統(tǒng)收集的文檔進(jìn)行歸類工作,分割出用戶感興趣的文檔集合;用戶界面控制子系統(tǒng)提供用戶指定示例文檔或者明確指定欲搜取文檔的特征,對文檔和特征庫進(jìn)行維護(hù)管理以及發(fā)布檢索命令。2.1文檔的表示以及特征提取文檔的表示是系統(tǒng)設(shè)計中重要的基礎(chǔ)元素。目前,Web文檔的表示主要采用向量空間模型(vsM)[‘〕,即以向量來表示文檔。在VSM中,,文本空間被看作是由一組正交詞條向量組成的向量空間。假設(shè)所有文本的特征總數(shù)是n,則構(gòu)成一個n維的向量空間,其中每一個文本被表示為一個n維的特征向量:
【作者單位】: 陜西科技大學(xué)化學(xué)與化工學(xué)院 北京理工大學(xué)計算機(jī)科學(xué)與工程系 北京理工大學(xué)計算機(jī)科學(xué)與工程系 北京理工大學(xué)計算機(jī)科學(xué)與工程系
【分類號】:TP393.09;TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 黃蘇華,李曉霞,郭力,劉宗紅,楊章遠(yuǎn);基于數(shù)據(jù)庫的Internet化學(xué)資源導(dǎo)航信息管理與自動發(fā)布[J];計算機(jī)與應(yīng)用化學(xué);2000年03期
2 彭桃芳,鄧文生,毋俊生,王利生;基于Web的工程物性數(shù)據(jù)庫查詢系統(tǒng)[J];計算機(jī)與應(yīng)用化學(xué);2003年Z1期
3 王華彥,李曉霞,郭力,楊章遠(yuǎn);Internet化學(xué)資源導(dǎo)航系統(tǒng)中的相關(guān)資源鏈接[J];計算機(jī)與應(yīng)用化學(xué);2003年Z1期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳剛,邢獻(xiàn)然,陳占恒,祝振奇,陳駿;基于網(wǎng)絡(luò)構(gòu)建稀土化合物物性數(shù)據(jù)庫[J];北京科技大學(xué)學(xué)報;2002年03期
2 李曉霞,郭力,楊章遠(yuǎn),許志宏;從Internet化學(xué)化工資源導(dǎo)航到虛擬社區(qū)[J];化工學(xué)報;2000年S1期
3 張茂元;鄒春燕;盧正鼎;;一種基于變調(diào)整學(xué)習(xí)規(guī)則的模糊網(wǎng)頁分類方法研究[J];計算機(jī)研究與發(fā)展;2007年01期
4 劉宗紅,李曉霞,郭力,黃蘇華,楊章遠(yuǎn);基于數(shù)據(jù)庫的Internet化學(xué)資源導(dǎo)航系統(tǒng)與用戶的交互[J];計算機(jī)與應(yīng)用化學(xué);2000年05期
5 賈紅陽,郭力,李曉霞,楊章遠(yuǎn),姜林,陳曉青;石油化工信息系統(tǒng)Web權(quán)限管理的研究[J];計算機(jī)與應(yīng)用化學(xué);2001年02期
6 李新宇,郭力,李曉霞;ChIN與PHP-Nuke的無縫集成[J];計算機(jī)與應(yīng)用化學(xué);2002年05期
7 李曉霞,郭力,楊宏偉,陳越,李新宇,王華彥,楊章遠(yuǎn);ChIN化學(xué)化工資源導(dǎo)航系統(tǒng)的新進(jìn)展[J];計算機(jī)與應(yīng)用化學(xué);2002年Z1期
8 張衛(wèi)華,徐揚子,李克非;遠(yuǎn)程化學(xué)教育網(wǎng)站的建設(shè)與開發(fā)[J];計算機(jī)與應(yīng)用化學(xué);2003年05期
9 謝冰;張宏忠;孫雨安;劉應(yīng)凡;王國慶;;基于B/S構(gòu)架的化學(xué)實驗管理系統(tǒng)[J];計算機(jī)與應(yīng)用化學(xué);2006年03期
10 馬金娜;田大鋼;;基于SVM的中文文本自動分類研究[J];計算機(jī)與現(xiàn)代化;2006年08期
相關(guān)會議論文 前1條
1 Zhongda Lin, Kun Deng, Yanfen Hong (Department of Computer Science and Technology, Nanchang University, Nanchang 330029, China);Research of Web Pages Categorization[A];Rough集前景——粒計算理論國際論壇(2006)論文集[C];2006年
相關(guān)博士學(xué)位論文 前10條
1 薛德軍;中文文本自動分類中的關(guān)鍵問題研究[D];清華大學(xué);2004年
2 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
3 周翠松;核酸識體熒光光譜法研究及其關(guān)聯(lián)數(shù)據(jù)庫的構(gòu)建[D];四川大學(xué);2006年
4 賈自艷;Web信息智能獲取若干關(guān)鍵問題研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2004年
5 田永鴻;基于上下文的統(tǒng)計關(guān)系學(xué)習(xí)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年
6 趙鵬;復(fù)雜網(wǎng)絡(luò)與互聯(lián)網(wǎng)個性化信息服務(wù)的研究[D];中國科學(xué)技術(shù)大學(xué);2006年
7 劉柏嵩;基于Web的通用本體學(xué)習(xí)研究[D];浙江大學(xué);2007年
8 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年
9 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年
10 王輝;基于質(zhì)心具有增量性質(zhì)的主題爬行[D];吉林大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 劉志剛;天然藥物網(wǎng)絡(luò)數(shù)據(jù)庫中活性分子3D結(jié)構(gòu)的實現(xiàn)及其構(gòu)效關(guān)系研究[D];四川大學(xué);2002年
2 王吉星;高分子合成與性能預(yù)測的計算機(jī)模擬[D];河北工業(yè)大學(xué);2004年
3 劉卓;基于KNN算法的中文文本自動分類[D];吉林大學(xué);2004年
4 彭雅;文本分類算法及其應(yīng)用研究[D];湖南大學(xué);2004年
5 沈抖;萬維網(wǎng)上數(shù)據(jù)處理方法的研究[D];清華大學(xué);2004年
6 趙志巖;web文檔性質(zhì)分類的研究與應(yīng)用[D];東北師范大學(xué);2005年
7 程傳鵬;基于分類的智能信息檢索研究與實現(xiàn)[D];云南師范大學(xué);2005年
8 李暢
本文編號:2521809
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2521809.html