基于子樹(shù)相似度計(jì)算的網(wǎng)頁(yè)評(píng)論提取算法研究
[Abstract]:The recognition and automatic extraction of web comments are transformed into subtree circular volume recognition in the DOM tree structure. A method based on the similarity calculation of web page DOM subtree is proposed. A comment block node tree is identified by traversing down the BODY node layer by layer from the web page. In view of the lack of performance of DOM tree similarity calculation algorithm in the aspect of comment extraction, this algorithm considers the label and location information of tree node to construct the leaf node path at the same time. The similarity of two subtrees is obtained by solving the path similarity matrix of two DOM subtrees. The differences in performance and efficiency between other methods based on DOM similarity calculation and one method based on tag weight for Web comment extraction are compared. Experiments show that the method based on this algorithm has a high precision and recall rate, and is better than the existing methods.
【作者單位】: 南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院;
【基金】:教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“基于信息生態(tài)學(xué)的網(wǎng)絡(luò)輿情管理機(jī)制與平臺(tái)研究”(項(xiàng)目編號(hào):10YJC870053) 江蘇高校哲學(xué)社會(huì)科學(xué)研究重點(diǎn)項(xiàng)目“涉農(nóng)網(wǎng)絡(luò)輿情的政府監(jiān)管研究”(項(xiàng)目編號(hào):2011ZDIXM027)的研究成果之一
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期
2 劉偉;嚴(yán)華梁;肖建國(guó);曾建勛;;一種Web評(píng)論自動(dòng)抽取方法[J];軟件學(xué)報(bào);2010年12期
3 李姜;;基于DOM的評(píng)論發(fā)現(xiàn)及抽取模型研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年09期
4 安增文;徐杰鋒;;基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法研究[J];微型機(jī)與應(yīng)用;2010年03期
5 聶卉;黃貴鵬;;樹(shù)編輯距離在Web信息抽取中的應(yīng)用與實(shí)現(xiàn)[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2010年05期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張彥超;劉云;李勇;沈波;;基于自動(dòng)生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報(bào);2009年05期
2 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動(dòng)摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期
3 王茹,宋瀚濤,陸玉昌;基于樹(shù)自動(dòng)機(jī)的網(wǎng)頁(yè)數(shù)據(jù)抽取[J];北京理工大學(xué)學(xué)報(bào);2004年09期
4 張敏;;基于確定性樹(shù)自動(dòng)機(jī)技術(shù)的信息抽取研究[J];才智;2011年36期
5 張敏;;信息抽取技術(shù)在網(wǎng)頁(yè)中的應(yīng)用[J];中國(guó)城市經(jīng)濟(jì);2011年20期
6 馬瑞民;錢浩;;基于時(shí)間頻率加權(quán)DOM的Web信息抽取方法[J];長(zhǎng)江大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
7 張磊;陳俊亮;孟祥武;沈筱彥;郭杰;;基于用戶偏好的垂直搜索算法[J];電子科技大學(xué)學(xué)報(bào);2010年01期
8 唐緯晟;苗放;劉斌;;XML實(shí)現(xiàn)文化數(shù)字?jǐn)?shù)據(jù)無(wú)平臺(tái)交換[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年09期
9 李春艷;徐保民;;Web數(shù)據(jù)抽取技術(shù)研究初探[J];電腦知識(shí)與技術(shù);2009年35期
10 李向陽(yáng),陸建江,張亞非;基于競(jìng)爭(zhēng)分類的Web信息抽取[J];電子學(xué)報(bào);2004年11期
相關(guān)會(huì)議論文 前6條
1 翟偉斌;許榕生;;基于Internet的CIS研究[A];第十三屆全國(guó)核電子學(xué)與核探測(cè)技術(shù)學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2006年
2 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(上)[C];2009年
3 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(中)[C];2009年
4 梁勇;張文;;網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計(jì)[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年
5 王文生;謝能付;;基于Web的農(nóng)業(yè)信息自動(dòng)抽取方法研究[A];中國(guó)農(nóng)業(yè)信息科技創(chuàng)新與學(xué)科發(fā)展大會(huì)論文匯編[C];2007年
6 呂國(guó)英;馮艷;李茹;;基于中文框架語(yǔ)義的信息抽取研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
相關(guān)博士學(xué)位論文 前10條
1 吳承榮;骨干通道上的網(wǎng)絡(luò)論壇通信信息監(jiān)測(cè)和分析的關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2011年
2 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
3 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
4 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
5 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年
6 胡國(guó)平;基于超大規(guī)模問(wèn)答對(duì)庫(kù)和語(yǔ)音界面的非受限領(lǐng)域自動(dòng)問(wèn)答系統(tǒng)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2007年
7 周順先;文本信息抽取模型及算法研究[D];湖南大學(xué);2007年
8 董寶力;Web制造資源的語(yǔ)義發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年
9 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
10 何慧;WEB文本挖掘中關(guān)鍵問(wèn)題的研究[D];北京郵電大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 孫嶺;一種基于前綴表達(dá)式的Web信息抽取方法的關(guān)鍵問(wèn)題的實(shí)現(xiàn)[D];山東科技大學(xué);2010年
2 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年
3 王樂(lè)超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年
4 方少卿;Web就業(yè)信息抽取系統(tǒng)的實(shí)現(xiàn)研究[D];合肥工業(yè)大學(xué);2010年
5 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽(yáng)理工大學(xué);2010年
6 楊鼎;基于樸素貝葉斯的中文文本情感傾向分類研究[D];湖南工業(yè)大學(xué);2010年
7 谷文;基于概念樹(shù)的Web信息抽取技術(shù)研究[D];長(zhǎng)春工業(yè)大學(xué);2010年
8 胡少榮;一種輿情信息預(yù)處理平臺(tái)的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2010年
9 孫亞南;網(wǎng)站實(shí)時(shí)時(shí)序數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
10 王佳;支持Ajax技術(shù)的主題網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)研究與實(shí)現(xiàn)[D];北京交通大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 姜波;丁岳偉;;基于約束樹(shù)編輯距離與導(dǎo)航樹(shù)的信息采集[J];計(jì)算機(jī)工程;2009年14期
2 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期
3 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
4 黃文蓓;楊靜;顧君忠;;基于分塊的網(wǎng)頁(yè)正文信息提取算法研究[J];計(jì)算機(jī)應(yīng)用;2007年S1期
5 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
6 孟憲福,狄慧;基于Agent和XML的Web頁(yè)面信息抽取研究與設(shè)計(jì)[J];計(jì)算機(jī)工程與設(shè)計(jì);2004年08期
7 孫桂煌;劉發(fā)升;;基于正文特征的網(wǎng)頁(yè)正文信息提取方法[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2008年09期
8 李亞子;方安;陳薇;朱峰;;Web頁(yè)面最大有意義節(jié)點(diǎn)發(fā)現(xiàn)算法研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2009年10期
9 劉守群;朱明;譚曉彬;;一種基于樹(shù)匹配的網(wǎng)頁(yè)語(yǔ)義塊挖掘算法[J];小型微型計(jì)算機(jī)系統(tǒng);2009年08期
相關(guān)碩士學(xué)位論文 前1條
1 徐東興;基于Gate框架的信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];華東師范大學(xué);2007年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李宗宏;如何利用FrontPage Express制作主頁(yè)[J];計(jì)算機(jī)時(shí)代;1999年11期
2 ;網(wǎng)上先生——教您上網(wǎng)(四) 上網(wǎng)第四站[J];市場(chǎng)與電腦;1999年07期
3 ;站點(diǎn)掃描[J];計(jì)算機(jī)周刊;1999年17期
4 李新 ,楊章遠(yuǎn) ,許志宏;在網(wǎng)頁(yè)中實(shí)現(xiàn)自定義滾動(dòng)條[J];電腦編程技巧與維護(hù);1999年10期
5 范建平;;給你的網(wǎng)頁(yè)安一個(gè)門鈴[J];軟件;2000年06期
6 張東淮;一步一步做網(wǎng)頁(yè)(二)[J];電腦技術(shù);2001年08期
7 張興華,趙英豪,臧愛(ài)軍;接觸網(wǎng)頁(yè)制作[J];石家莊師范?茖W(xué)校學(xué)報(bào);2001年04期
8 王黎;制作網(wǎng)頁(yè)的方法[J];沈陽(yáng)大學(xué)學(xué)報(bào);2001年02期
9 陳萬(wàn)平,馬秀峰,徐新農(nóng);網(wǎng)頁(yè)制作技術(shù)探討[J];聊城師院學(xué)報(bào)(自然科學(xué)版);2001年01期
10 王麟;巧用伊妹兒省錢[J];網(wǎng)絡(luò)與信息;2001年08期
相關(guān)會(huì)議論文 前10條
1 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
2 江志綱;丁增喜;劉洋;王大玲;鮑玉斌;于戈;;基于面向?qū)傩砸?guī)約方法的網(wǎng)頁(yè)和超鏈的分類[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語(yǔ)混合網(wǎng)頁(yè)識(shí)別新方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
4 孔輝;梁洪亮;辛陽(yáng);楊義先;陳林順;;一種高性能的網(wǎng)頁(yè)篡改檢測(cè)與恢復(fù)機(jī)制[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
5 王玉龍;葉新銘;李秀華;;網(wǎng)頁(yè)優(yōu)化策略的模糊C均值(FCM)聚類算法研究(英文)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
6 劉暉;趙萍;;新疆環(huán)境氣象中心網(wǎng)站的總體規(guī)劃及建設(shè)[A];信息技術(shù)在氣象領(lǐng)域的開(kāi)發(fā)應(yīng)用論文集(一)[C];2005年
7 鄭傳新;謝筱惠;;基于網(wǎng)頁(yè)技術(shù)的決策氣象服務(wù)信息系統(tǒng)[A];2002年廣西氣象電子專業(yè)技術(shù)交流會(huì)論文集[C];2002年
8 吳建軍;;談網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年
9 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁(yè)質(zhì)量的PageRank算法改進(jìn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
10 唐雅茜;朱海波;黎玲;;破解惡意網(wǎng)頁(yè)十大招[A];2008年廣西氣象學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 任悅采寫 本報(bào)記者 方妍;照片買家說(shuō),,網(wǎng)頁(yè)繁復(fù)不招喜歡[N];中國(guó)攝影報(bào);2009年
2 湖南 Ringfo;防止你的網(wǎng)頁(yè)被“偷拍”[N];電腦報(bào);2002年
3 鳴澗;網(wǎng)頁(yè)的編輯[N];中國(guó)電腦教育報(bào);2002年
4 李芳香;和網(wǎng)頁(yè)垃圾說(shuō)再見(jiàn)[N];中國(guó)電腦教育報(bào);2002年
5 ;給網(wǎng)頁(yè)加蓋“公章”[N];電腦報(bào);2002年
6 山東 姜元學(xué);網(wǎng)頁(yè)文字無(wú)法復(fù)制的破解[N];電腦報(bào);2002年
7 武功;捕捉網(wǎng)頁(yè)中的“蝴蝶”[N];電腦報(bào);2005年
8 河南 劉德君;強(qiáng)行改變網(wǎng)頁(yè)文字大小的方法[N];電子報(bào);2003年
9 本報(bào)記者 劉永剛;網(wǎng)頁(yè)病毒如何防范看不見(jiàn)的“敵人”[N];中國(guó)消費(fèi)者報(bào);2004年
10 湖南 Ringfo;做自己的“極速登錄”網(wǎng)頁(yè)[N];電腦報(bào);2002年
相關(guān)博士學(xué)位論文 前10條
1 荊濤;面向領(lǐng)域網(wǎng)頁(yè)的語(yǔ)義標(biāo)注若干問(wèn)題研究[D];吉林大學(xué);2011年
2 覃健誠(chéng);網(wǎng)絡(luò)多層縱深防御體系的關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年
3 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年
4 吳瑞;模糊和粗糙環(huán)境下的網(wǎng)絡(luò)用戶瀏覽模式研究[D];天津大學(xué);2006年
5 劉竟;面向概念檢索的農(nóng)史信息門戶的設(shè)計(jì)與構(gòu)建[D];南京農(nóng)業(yè)大學(xué);2008年
6 江開(kāi)忠;上下文感知的Web搜索關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2008年
7 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
8 李東方;Web 2.0環(huán)境下互聯(lián)網(wǎng)信息過(guò)濾理論與方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
9 張健毅;大規(guī)模反釣魚(yú)識(shí)別引擎關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年
10 王永剛;以數(shù)據(jù)為中心的在線社會(huì)網(wǎng)絡(luò)若干安全問(wèn)題研究[D];北京大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 孫學(xué)剛;面向奧運(yùn)的中文網(wǎng)頁(yè)信息獲取方法的初步研究[D];清華大學(xué);2004年
2 張曉宇;農(nóng)業(yè)網(wǎng)站中垃圾網(wǎng)頁(yè)過(guò)濾方法的研究[D];新疆大學(xué);2011年
3 楊碩;社交網(wǎng)頁(yè)游戲現(xiàn)象研究[D];山東藝術(shù)學(xué)院;2012年
4 李琦;基于層次聚類和網(wǎng)頁(yè)關(guān)系的人名消歧[D];山東大學(xué);2012年
5 蔣文;一種網(wǎng)頁(yè)過(guò)濾系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
6 牛慶鵬;博客朋友推薦技術(shù)的研究[D];東北大學(xué);2009年
7 牛慶鵬;博客潛在朋友推薦技術(shù)的研究[D];東北大學(xué);2009年
8 涂濤;嵌入式瀏覽器網(wǎng)頁(yè)排版技術(shù)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2004年
9 邱鵬;移動(dòng)終端網(wǎng)頁(yè)轉(zhuǎn)換系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2012年
10 楊劍;基于用戶訪問(wèn)路徑的網(wǎng)頁(yè)推薦算法研究[D];東北大學(xué);2010年
本文編號(hào):2428487
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2428487.html