基于最大熵分類器的Deep Web查詢接口自動(dòng)判定
【圖文】:
3.2 問題定義一個(gè)查詢接口( 如圖 1 所示) 通常包含一些表單控件讓用戶輸入查詢信息, 如文本框( textbox) 、單選按鈕( radio button) 、復(fù)選框( checkbox) 和下拉列表框( selection list) 等控件。每個(gè)控件一般都對(duì)應(yīng)一個(gè)標(biāo)簽( 一個(gè)描述文本) , 每個(gè)控件可以有一個(gè)或多個(gè)屬性值( value) 。邏輯上看, 一個(gè)控件和它關(guān)聯(lián)的標(biāo)簽構(gòu)成了一個(gè)屬性( attribute) , 對(duì)應(yīng)了 Deep Web 后臺(tái)數(shù)據(jù)庫中的一個(gè)字段。而一個(gè)屬性包含一個(gè)標(biāo)簽, 一個(gè)或多個(gè)表單控件。例如, 圖 1 中 Author 屬性有 4 個(gè)表單控件包括 1 個(gè)文本框和 3個(gè)單選按鈕。屬性中的標(biāo)簽可以看作屬性的名稱( attribute134
驗(yàn)中可以達(dá)到至少 93%的準(zhǔn)確性。但這些方法還有一些不完善的地方, 首先它們還不能把代表 Web 數(shù)據(jù)庫的查詢接口與搜索引擎區(qū)的查詢接口分開來, 這就需要進(jìn)一步總結(jié)這二者之間可區(qū)分的特征。另外該工作只是根據(jù) FORM 表單在頁面中的源代碼總結(jié)查詢接口的特征, 其實(shí)還有很多的特征可以利用,比如查詢接口在頁面中的視覺布局信息、所在頁面的頻繁詞匯信息等;谧畲箪胤诸惼鳑Q策過程如圖 5 所示。
【作者單位】: 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室
【基金】:國(guó)家自然科學(xué)基金( the National Natural Science Foundation of China under Grant No.60673092) 2005年度教育部科研重點(diǎn)項(xiàng)目(the Key Project of Chinese Ministry of Education under Grant No.205059) 2006 年江蘇省“六大人才高峰”項(xiàng)目( the“Six Talent Peak”Project of Jiangsu Province under Grant No.06-E-037) 2006 年度江蘇省軟件和集成電路業(yè)專項(xiàng)經(jīng)費(fèi)項(xiàng)目(the Specialized Fund Pro-ject for the Software and IC of Jiangsu Province in 2006 under Grant No.[2006]221- 41) 2007 年江蘇省重點(diǎn)實(shí)驗(yàn)室開放基金項(xiàng)目(theProject of Jiangsu Key Laboratory of Computer Information Processing Technology)
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā);使用最大熵模型進(jìn)行中文文本分類[J];計(jì)算機(jī)研究與發(fā)展;2005年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前6條
1 尚文倩;黃厚寬;劉玉玲;林永民;瞿有利;董紅斌;;文本分類中基于基尼指數(shù)的特征選擇算法研究[J];計(jì)算機(jī)研究與發(fā)展;2006年10期
2 賈寧;;使用概念基元特征進(jìn)行自動(dòng)文本分類[J];計(jì)算機(jī)工程與應(yīng)用;2007年01期
3 崔彩霞;王素格;;基于粗集的支持向量機(jī)文本分類方法研究[J];科技廣場(chǎng);2006年08期
4 孫景廣;蔡?hào)|風(fēng);呂德新;董燕舉;;基于知網(wǎng)的中文問題自動(dòng)分類[J];中文信息學(xué)報(bào);2007年01期
5 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報(bào);2006年09期
6 錢晶;張杰;張濤;;基于最大熵的漢語人名地名識(shí)別方法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2006年09期
相關(guān)博士學(xué)位論文 前5條
1 孟靜;光學(xué)層析圖像的重建技術(shù)研究[D];蘇州大學(xué);2006年
2 古平;基于貝葉斯模型的文檔分類及相關(guān)技術(shù)研究[D];重慶大學(xué);2006年
3 王樹梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
4 周順先;文本信息抽取模型及算法研究[D];湖南大學(xué);2007年
5 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 崔彩霞;基于支持向量機(jī)的文本分類方法研究[D];山西大學(xué);2005年
2 馬忠寶;基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年
3 楊軍玲;漢語動(dòng)詞詞語搭配自動(dòng)獲取方法研究[D];山西大學(xué);2006年
4 毛偉;基于統(tǒng)計(jì)語言模型的中文自動(dòng)文本分類系統(tǒng)[D];北京郵電大學(xué);2006年
5 葉浩;基于類信息的潛在語義多類文本分類模型研究[D];江西師范大學(xué);2006年
6 司廣濤;基于最大熵模型的垃圾郵件過濾系統(tǒng)研究[D];蘇州大學(xué);2006年
7 修宇;方向性聚類技術(shù)及其應(yīng)用[D];江南大學(xué);2006年
8 董學(xué)春;文本分類及其在涉密資料管理中的應(yīng)用[D];合肥工業(yè)大學(xué);2006年
9 楊鵬;面向領(lǐng)域自然語言的文本自動(dòng)分類及其在產(chǎn)品設(shè)計(jì)中的應(yīng)用[D];西安電子科技大學(xué);2007年
10 代亮;基于支持向量機(jī)的文本分類問題研究[D];大連海事大學(xué);2007年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李明;李秀蘭;;基于啟發(fā)式信息的Deep Web結(jié)果模式獲取方法[J];計(jì)算機(jī)應(yīng)用研究;2011年08期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會(huì)議論文 前1條
1 林敏;陳仲華;彭世峰;郭奕杉;駱s,
本文編號(hào):2536047
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2536047.html