MS-DOC文件文本提取研究
本文關鍵詞:MS-DOC文件文本提取研究
更多相關文章: 復合文檔 文本提取 關鍵詞 搜索 計算機取證
【摘要】:關鍵詞搜索廣泛應用于情報分析、搜索引擎和計算機取證,對MS-DOC文件進行關鍵詞搜索可能漏判,明明存在的關鍵詞卻找不到。微軟復合文檔結構由一系列流組成,流以扇區(qū)為單位存儲,通過目錄結構和扇區(qū)分配表對流及其存儲空間進行管理。MS-DOC文件中的文本存儲在WordDocument流中,文本存儲不一定連續(xù),通過Table流記錄分塊情況。關鍵詞可能跨越不相鄰扇區(qū),即使在相鄰扇區(qū),一個關鍵詞可能一部分是壓縮存儲,另一部分是非壓縮存儲,這些都是關鍵詞搜索漏判的原因。根據(jù)Table流中的分塊信息提取WordDocument流中的文本,并統(tǒng)一編碼格式,進而進行關鍵詞搜索,就可以避免漏判。
【作者單位】: 江蘇警官學院計算機信息與網(wǎng)絡安全系;淮安市公安局;
【關鍵詞】: 復合文檔 文本提取 關鍵詞 搜索 計算機取證
【基金】:國家社會科學基金資助項目(13BTQ046) 公安技術,江蘇省高等學!笆濉敝攸c學科建設專項資金資助
【分類號】:TP391.1
【正文快照】: 1引言對MS-DOC文件進行關鍵詞搜索可能漏判,明明存在的關鍵詞卻找不到。原因是MS-DOC文件文本分塊存儲,且有快速保存的complex格式和非快速保存的non-complex格式。根據(jù)分塊信息提取文本,并統(tǒng)一編碼格式,就可以解決漏判。2復合文檔結構MS-DOC文件采用復合文檔結構[1]。復合文
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 付真真;陸偉;;基于關鍵詞的搜索引擎優(yōu)化策略及效果分析[J];現(xiàn)代圖書情報技術;2009年06期
2 李洋;;圖片搜索的收納柜[J];互聯(lián)網(wǎng)周刊;2007年16期
3 陳德華;劉良旭;樂嘉錦;;支持關鍵詞搜索的空間連接查詢研究[J];計算機科學;2009年07期
4 朱宏;劉嘉胤;;內(nèi)容審計系統(tǒng)關鍵詞表的改進[J];計算機安全;2011年04期
5 阿呆;;使用自然語言搜索 增加搜索篩選范圍[J];電腦迷;2009年21期
6 ;挖掘聲音圖像信息——第三代搜索技術展望[J];每周電腦報;2005年21期
7 呂文波;;基于網(wǎng)絡課程的自動答疑系統(tǒng)研究與設計[J];山東電大學報;2008年02期
8 ;如何提高搜索的效率 改善搜索關鍵詞的一些小技巧[J];電腦迷;2011年07期
9 閆旭;;Google Trends:新SEO工具[J];互聯(lián)網(wǎng)天地;2008年08期
10 天涯衰草;;資源找不到 超凡幫你精確定位[J];電腦迷;2011年16期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 劉曉宇;翟曉飛;楊雨春;;計算機取證分析工具測試方法研究[A];全國計算機安全學術交流會論文集(第二十三卷)[C];2008年
2 田翠華;王瀟;孔麗新;劉革;孫淑杰;關沫;;“隨叫隨到訂餐導航”系統(tǒng)的設計與實現(xiàn)[A];科技創(chuàng)新與產(chǎn)業(yè)發(fā)展(A卷)——第七屆沈陽科學學術年會暨渾南高新技術產(chǎn)業(yè)發(fā)展論壇文集[C];2010年
3 鄭鐵然;李海洋;韓紀慶;;漢語語音檢索中基于音節(jié)和詞語言模型的索引方法研究[A];第九屆全國人機語音通訊學術會議論文集[C];2007年
4 陳沛;;搜索的未來[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
5 陳憶群;曹瑾音;印鑒;;查詢擴展樹:關系數(shù)據(jù)庫中的文本檢索[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 苗得雨;語義搜索PK關鍵詞搜索[N];電腦報;2008年
2 諶力;第三代搜索,Google的心病[N];網(wǎng)絡世界;2006年
3 許麗萍;提升網(wǎng)絡營銷成功率 中小企業(yè)應避免五大誤區(qū)[N];通信信息報;2008年
4 李文;自然語言搜索:Google、百度終結者?[N];中國民航報;2007年
5 馬繼前;網(wǎng)頁瀏覽量5000多次[N];海南日報;2007年
6 胥小紅 本報記者 雅梓;下一代搜索輪廓初現(xiàn)Autonomy力挺中文搜索[N];大眾科技報;2006年
7 陳靜;搜索引擎:智能技術帶來新商機[N];經(jīng)濟日報;2007年
8 陸文軍邋陳醇;網(wǎng)上公然賣病毒,誰來攻打“黑客帝國”[N];新華每日電訊;2007年
9 苗得雨;挺進圖像搜索時代[N];電腦報;2008年
10 余建斌;搜索引擎“烽煙四起”[N];人民日報;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前9條
1 唐明珠;關系數(shù)據(jù)庫中關鍵詞搜索算法的研究[D];黑龍江大學;2013年
2 王楠;基于關系數(shù)據(jù)庫的關鍵詞搜索系統(tǒng)的研究[D];天津大學;2010年
3 胡朝義;索引構建與搜索算法的研究與實現(xiàn)[D];電子科技大學;2011年
4 馮立夫;面向審計過程的審計方法導引技術研究[D];哈爾濱工程大學;2013年
5 顏志博;基于用戶反饋的關系數(shù)據(jù)庫關鍵詞搜索技術研究[D];黑龍江大學;2012年
6 徐興智;科技平臺撮合系統(tǒng)的設計與實現(xiàn)[D];吉林大學;2010年
7 王文娟;智能搜索引擎在集團企業(yè)的研究與應用[D];浙江理工大學;2012年
8 趙星;基于模板識別的中文政府文檔關聯(lián)數(shù)據(jù)提取算法[D];清華大學;2012年
9 彭晴晴;面向查詢意圖的標簽推薦技術研究[D];哈爾濱工程大學;2013年
,本文編號:603312
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/603312.html