整合Dmoz和Yahoo標(biāo)簽的BNF文法及其實(shí)現(xiàn)
本文關(guān)鍵詞: 自然語言處理 巴克斯范式 文法 網(wǎng)絡(luò)挖掘 文檔分類 標(biāo)簽 搜索引擎 整合 模式 程序 出處:《計(jì)算機(jī)工程與設(shè)計(jì)》2009年19期 論文類型:期刊論文
【摘要】:Dmoz和Yahoo的標(biāo)簽采用不同的文法。為了統(tǒng)一它們的文法以利于搜索引擎的檢索,對(duì)它們的標(biāo)簽結(jié)構(gòu)進(jìn)行了分析,統(tǒng)計(jì)出了相關(guān)的數(shù)據(jù),并根據(jù)這些數(shù)據(jù)得出分別用于描述這兩種標(biāo)簽結(jié)構(gòu)的BNF(Backus-NaurForm)文法,然后將這兩個(gè)BNF文法整合成一個(gè),并應(yīng)用JavaCC(Java Compiler Compiler)實(shí)現(xiàn)了對(duì)該文法的檢測。在這個(gè)BNF文法的指導(dǎo)下,程序能夠有效地判斷一個(gè)標(biāo)簽?zāi)J绞欠駶M足Dmoz和Yahoo標(biāo)簽文法,為Web挖掘提供了良好的檢測工具。
[Abstract]:The tags of Dmoz and Yahoo adopt different grammars. In order to unify their grammars to facilitate search engine search, the tag structure of Dmoz and Yahoo is analyzed, and the relevant data are obtained. Based on these data, the BNFN Backus-NaurForm grammar, which is used to describe the two tag structures, is obtained, and then the two BNF grammars are integrated into one, and the JavaCC(Java Compiler Compiler is applied to implement the detection of the grammar. Under the guidance of the BNF grammar, The program can effectively judge whether a tag pattern satisfies Dmoz and Yahoo tag grammar, and provides a good detection tool for Web mining.
【作者單位】: 吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目(60673023、10872077) 國家863高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2007AA04Z114) 廣東省教育部產(chǎn)學(xué)研合作基金項(xiàng)目(2007B090400031) 歐盟國際合作基金項(xiàng)目(TH/AsiaLink/010(111084)) 吉林省科技發(fā)展計(jì)劃基金項(xiàng)目(20080708)
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 侯國峰;一個(gè)自然語言理解系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年02期
2 李滔,王俊普,徐楊;一種基于粗糙集的網(wǎng)頁分類方法[J];小型微型計(jì)算機(jī)系統(tǒng);2003年03期
3 馬竹根;一種自然語言理解中語法分析的算法設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)時(shí)代;2005年10期
4 王建濤,胡明玲;基于開放目錄的質(zhì)量受控學(xué)科信息門戶研究[J];圖書情報(bào)工作;2005年11期
5 宮秀軍,史忠植;基于Bayes潛在語義模型的半監(jiān)督Web挖掘[J];軟件學(xué)報(bào);2002年08期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 盛曉煒,江銘虎;基于Rough集約簡算法的中文文本自動(dòng)分類系統(tǒng)[J];電子與信息學(xué)報(bào);2005年07期
2 孫宏綱,姚景順,閆國玉;基于自然語言理解的軍事自動(dòng)標(biāo)圖系統(tǒng)[J];火力與指揮控制;2005年S1期
3 陳周娟;續(xù)海峰;鈕王杰;;基于靜態(tài)知識(shí)庫的領(lǐng)域內(nèi)自然語言理解的語義處理研究[J];機(jī)床與液壓;2007年07期
4 劉壁松,李春平;一個(gè)可擴(kuò)展的文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2004年30期
5 趙鵬;蔡慶生;;一種基于《知網(wǎng)》的中文文本聚類算法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年12期
6 宋楓溪,高林;文本分類器性能評(píng)估指標(biāo)[J];計(jì)算機(jī)工程;2004年13期
7 馬竹根;一種自然語言理解中語法分析的算法設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)時(shí)代;2005年10期
8 宮秀軍,劉少輝,史忠植;一種增量貝葉斯分類模型[J];計(jì)算機(jī)學(xué)報(bào);2002年06期
9 郭森,王知衍,吳志成,嚴(yán)和平;基于粗糙集理論的增量式規(guī)則獲取[J];計(jì)算機(jī)應(yīng)用;2005年11期
10 朱宏輝,曾開來,查靚,陳定方;控制系統(tǒng)自動(dòng)設(shè)計(jì)中的自然語言理解[J];武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版);2003年02期
相關(guān)會(huì)議論文 前1條
1 張東娜;彭宏;吳鐵峰;;一種基于粗集與貝葉斯分類器的中文網(wǎng)頁分類方法[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年
相關(guān)博士學(xué)位論文 前10條
1 彭強(qiáng);復(fù)雜系統(tǒng)遠(yuǎn)程智能故障診斷技術(shù)研究[D];南京理工大學(xué);2004年
2 宋楓溪;自動(dòng)文本分類若干基本問題研究[D];南京理工大學(xué);2004年
3 谷建軍;基于敘詞表的中醫(yī)古籍文獻(xiàn)領(lǐng)域本體建模方法研究[D];中國中醫(yī)科學(xué)院;2006年
4 王進(jìn);基于本體的語義信息檢索研究[D];中國科學(xué)技術(shù)大學(xué);2006年
5 李曉光;XML非完全結(jié)構(gòu)查詢處理中若干關(guān)鍵技術(shù)的研究[D];東北大學(xué);2006年
6 趙鵬;復(fù)雜網(wǎng)絡(luò)與互聯(lián)網(wǎng)個(gè)性化信息服務(wù)的研究[D];中國科學(xué)技術(shù)大學(xué);2006年
7 胡靜;機(jī)器學(xué)習(xí)及其神經(jīng)網(wǎng)絡(luò)分類器優(yōu)化設(shè)計(jì)[D];合肥工業(yè)大學(xué);2007年
8 王曉嘉;旋轉(zhuǎn)對(duì)稱三角傳感器智能信號(hào)處理系統(tǒng)研究[D];合肥工業(yè)大學(xué);2007年
9 朱宏輝;基于知識(shí)驅(qū)動(dòng)的擬人智能控制系統(tǒng)若干關(guān)鍵技術(shù)研究[D];武漢理工大學(xué);2006年
10 裴小兵;粗糙集的知識(shí)約簡研究[D];華中科技大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 賈建華;語音合成及語音處理[D];中南大學(xué);2002年
2 王玉美;基于神經(jīng)網(wǎng)絡(luò)的漢語文法分析專家系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2003年
3 段曉峰;網(wǎng)站日志的數(shù)據(jù)挖掘[D];重慶大學(xué);2003年
4 馬國俊;潛在語義索引在中文文本聚類中的應(yīng)用研究[D];西安建筑科技大學(xué);2004年
5 王書青;基于粗糙集理論的數(shù)據(jù)挖掘研究[D];河北農(nóng)業(yè)大學(xué);2004年
6 楊曉東;基于貝葉斯網(wǎng)絡(luò)的配電網(wǎng)可靠性評(píng)估[D];華北電力大學(xué)(河北);2004年
7 蔣超;軌道交通自動(dòng)門遠(yuǎn)程監(jiān)控系統(tǒng)中的智能故障診斷技術(shù)研究[D];南京理工大學(xué);2004年
8 趙銀春;用戶瀏覽內(nèi)容分析與用戶興趣挖掘[D];重慶大學(xué);2004年
9 朱愛華;粗糙集理論在Web信息過濾中的應(yīng)用研究[D];四川大學(xué);2005年
10 祝翠玲;基于無監(jiān)督聚類和樸素貝葉斯分類的文本分類方法研究[D];山東大學(xué);2005年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 沙淑欣;情報(bào)檢索語言研究綜述[J];國家圖書館學(xué)刊;2004年03期
2 曹青;檢索語言研究綜述[J];北京教育學(xué)院學(xué)報(bào);2000年04期
3 曹青;情報(bào)檢索中對(duì)自然語言的控制[J];北京教育學(xué)院學(xué)報(bào);2001年01期
4 鐘義信;自然語言理解的全信息方法論[J];北京郵電大學(xué)學(xué)報(bào);2004年04期
5 郭艷華,周昌樂;自然語言理解研究綜述[J];杭州電子工業(yè)學(xué)院學(xué)報(bào);2000年01期
6 張麗;情報(bào)檢索語言及控制[J];佳木斯大學(xué)社會(huì)科學(xué)學(xué)報(bào);2004年04期
7 李克榮;網(wǎng)絡(luò)信息資源組織中傳統(tǒng)分類法的應(yīng)用[J];新世紀(jì)圖書館;2005年06期
8 侯國峰;一個(gè)自然語言理解系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年02期
9 魏振樞;初峰;郭曉玉;呂志遠(yuǎn);孫江虹;;旅游專業(yè)文獻(xiàn)檢索教材建設(shè)探討[J];焦作大學(xué)學(xué)報(bào);2006年04期
10 李慶亮,張彥峰;人工智能的應(yīng)用及發(fā)展前景[J];洛陽師范學(xué)院學(xué)報(bào);1998年02期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;日本圖書情報(bào)大學(xué)的課程[J];現(xiàn)代圖書情報(bào)技術(shù);1981年02期
2 沈迪飛;;一門新興的實(shí)驗(yàn)學(xué)科——情報(bào)檢索[J];情報(bào)科學(xué);1981年02期
3 Peter Wegner;饒生忠;;軟件技術(shù)研究方向[J];計(jì)算機(jī)科學(xué);1981年02期
4 怡林;中國中文信息研究會(huì)召開新春學(xué)術(shù)座談會(huì)[J];計(jì)算機(jī)研究與發(fā)展;1983年04期
5 耿立大;;自然語言信息加工和人工智能[J];情報(bào)科學(xué);1983年04期
6 愛德華·A德格里戈略;葉自健;;適用于潛艇作戰(zhàn)指揮環(huán)境的基于知識(shí)的系統(tǒng)——用自然語言對(duì)話的人/機(jī)系統(tǒng)指揮控制[J];火力與指揮控制;1983年04期
7 錢鋒;;計(jì)算機(jī)科學(xué)與機(jī)器翻譯的相互影響[J];計(jì)算機(jī)科學(xué);1983年03期
8 ;《中文信息》已于十月創(chuàng)刊[J];微計(jì)算機(jī)應(yīng)用;1984年04期
9 陸玉昌,張?jiān)倥d;第六屆歐洲人工智能會(huì)議論文綜述[J];機(jī)器人;1985年06期
10 丁自;情報(bào)檢索的未來方向(續(xù))[J];情報(bào)雜志;1985年04期
相關(guān)會(huì)議論文 前10條
1 林耀q,
本文編號(hào):1552309
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1552309.html