互聯(lián)網(wǎng)僑情信息采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
本文選題:互聯(lián)網(wǎng)信息 + 信息采集 ; 參考:《現(xiàn)代圖書情報(bào)技術(shù)》2010年Z1期
【摘要】:采用通用搜索引擎與垂直搜索引擎相結(jié)合的互聯(lián)網(wǎng)主題信息采集策略,提出多種防屏蔽技術(shù)相結(jié)合的網(wǎng)絡(luò)采集防屏蔽解決方案,改進(jìn)一種基于文本密度的網(wǎng)頁(yè)正文抽取方法,利用基于分詞的向量空間模型和余弦夾角公式實(shí)現(xiàn)基于內(nèi)容的標(biāo)題去重,并設(shè)計(jì)一個(gè)面向僑情的互聯(lián)網(wǎng)主題信息采集系統(tǒng)。
[Abstract]:Based on the general search engine and vertical search engine, this paper proposes a new method of web text extraction based on text density. Based on the vector space model based on participle and the cosine angle formula, the content-based title is removed, and an Internet subject information collection system for overseas Chinese is designed.
【作者單位】: 華東師范大學(xué)信息學(xué)系;南京大學(xué)信息管理系;
【基金】:國(guó)務(wù)院僑務(wù)辦公室課題項(xiàng)目“網(wǎng)絡(luò)僑情智能服務(wù)平臺(tái)”(項(xiàng)目編號(hào):GQBQ2009052) 教育部人文社會(huì)科學(xué)研究項(xiàng)目“互聯(lián)網(wǎng)輿情信息分析與管理機(jī)制研究”(項(xiàng)目編號(hào):08JC870003) 上海市社會(huì)科學(xué)規(guī)劃課題“政務(wù)公開信息的網(wǎng)絡(luò)輿情反饋研究”(項(xiàng)目編號(hào):2009ETQ001)的研究成果之一
【分類號(hào)】:G354
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期
相關(guān)碩士學(xué)位論文 前1條
1 寧力;搜索引擎中網(wǎng)頁(yè)查重方法的研究[D];北京化工大學(xué);2007年
【共引文獻(xiàn)】
相關(guān)期刊論文 前6條
1 黃文蓓;楊靜;顧君忠;;基于分塊的網(wǎng)頁(yè)正文信息提取算法研究[J];計(jì)算機(jī)應(yīng)用;2007年S1期
2 趙欣欣;索紅光;劉玉樹;;基于標(biāo)記窗的網(wǎng)頁(yè)正文信息提取方法[J];計(jì)算機(jī)應(yīng)用研究;2007年03期
3 袁毓林;用動(dòng)詞的論元結(jié)構(gòu)跟事件模板相匹配——一種由動(dòng)詞驅(qū)動(dòng)的信息抽取方法[J];中文信息學(xué)報(bào);2005年05期
4 胡國(guó)平;張巍;王仁華;;基于雙層決策的新聞網(wǎng)頁(yè)正文精確抽取[J];中文信息學(xué)報(bào);2006年06期
5 何婷婷;朱薏;張勇;任函;;基于詞語(yǔ)屬性的計(jì)算機(jī)輔助獲取流行詞語(yǔ)研究[J];中文信息學(xué)報(bào);2006年06期
6 吳鵬飛;孟祥增;劉俊曉;馬鳳娟;;基于結(jié)構(gòu)與內(nèi)容的網(wǎng)頁(yè)主題信息提取研究[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
相關(guān)博士學(xué)位論文 前3條
1 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
2 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學(xué);2007年
3 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 盧睿;基于XML的Web信息抽取研究[D];大連海事大學(xué);2005年
2 劉藝琴;基于本體的Web非規(guī)范知識(shí)處理中信息抽取技術(shù)研究[D];昆明理工大學(xué);2005年
3 魏常麗;搜索引擎結(jié)果的再檢索[D];內(nèi)蒙古大學(xué);2005年
4 石宇;基于XML的Web信息抽取與集成技術(shù)的研究[D];大連海事大學(xué);2006年
5 賀智平;Web信息自動(dòng)抽取技術(shù)研究[D];西安電子科技大學(xué);2006年
6 朱薏;流行詞語(yǔ)計(jì)算機(jī)獲取模型研究[D];華中師范大學(xué);2006年
7 朱南麗;基于DOM的網(wǎng)頁(yè)主體信息塊抽取[D];昆明理工大學(xué);2006年
8 茍全登;基于XML的半結(jié)構(gòu)化Web信息提取的研究[D];電子科技大學(xué);2006年
9 劉飚;基于新型坐標(biāo)樹的頁(yè)面分析和內(nèi)容提取框架[D];北京郵電大學(xué);2006年
10 張曉衛(wèi);Web全文信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2006年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄭躍平,陳傳峰;基于XML的WEB數(shù)據(jù)收集的一種應(yīng)用[J];福建電腦;2005年12期
2 李彥剛;魏海平;侯興華;;基于HTMLParser的Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];遼寧石油化工大學(xué)學(xué)報(bào);2006年02期
3 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期
4 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實(shí)例的Web信息抽取[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期
5 趙俊嵐;XML編程中的DOM與SAX技術(shù)[J];計(jì)算機(jī)工程;2004年24期
6 黃德才;戚華春;;PageRank算法研究[J];計(jì)算機(jī)工程;2006年04期
7 李勇軍,冀汶莉,馬光思;用DOM解析XML文檔[J];計(jì)算機(jī)應(yīng)用;2001年S1期
8 劉罡;基于XSL-FO的Web數(shù)據(jù)庫(kù)報(bào)表實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2003年05期
9 白廣慧,連浩,劉悅,程學(xué)旗;網(wǎng)頁(yè)查重技術(shù)在企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2005年07期
10 張大陸,時(shí)慧;電子公文中數(shù)字簽名的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年06期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王少軍;;麗水市網(wǎng)絡(luò)圖書館建設(shè)和發(fā)展研究[J];科技創(chuàng)新導(dǎo)報(bào);2011年23期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會(huì)議論文 前1條
1 石德萬(wàn);梁曉天;廖球;何海釗;;大學(xué)生畢業(yè)論文工作期間信息查詢行為的調(diào)查[A];2010廣西圖書館學(xué)會(huì)年會(huì)暨第28次科學(xué)討論會(huì)論文集[C];2010年
相關(guān)重要報(bào)紙文章 前2條
1 孫小莉;圖書館電子閱覽室的發(fā)展與管理[N];咸陽(yáng)日?qǐng)?bào);2008年
2 陸敏;情報(bào)能力考驗(yàn)中國(guó)企業(yè)[N];經(jīng)濟(jì)參考報(bào);2003年
相關(guān)碩士學(xué)位論文 前4條
1 王亮;數(shù)字化圖書館基本體系及實(shí)現(xiàn)[D];華中科技大學(xué);2004年
2 鄭燃;基于Folksonomy的圖書館信息組織研究[D];鄭州大學(xué);2010年
3 汪維富;信息素養(yǎng)2.0的內(nèi)容模塊研究[D];江西師范大學(xué);2011年
4 程宇琳;合肥市高等學(xué)校大學(xué)生網(wǎng)絡(luò)閱讀研究[D];安徽大學(xué);2012年
,本文編號(hào):1834899
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1834899.html