企業(yè)網(wǎng)站建設歸檔采集范圍
日期 : 2020-11-28 22:00:33
歸檔采集范圍。自然資源部門戶網(wǎng)站網(wǎng)頁歸檔采集范圍限定于mnr.gov.cn域名下的網(wǎng)頁,其內容涵蓋政務公開、新聞宣傳、辦事服務、互動交流4個方面。政務公開主要包括部機關各司局、國家自然資源督察機構、部各直屬單位、地方各級自然資源主管部門提供的各類政策文件、標準法規(guī),以及土地市場和礦業(yè)權相關行業(yè)市場數(shù)據(jù)等內容;新聞宣傳包括重要會議、重要活動、重要講話、政策解讀等內容;辦事服務包括土地、礦產(chǎn)、測繪、地質和科技等方面辦事服務內容,以及公示查驗、備案查詢等內容;互動交流以留言評論、在線訪談、征集調查等內容為主要體現(xiàn)。
本研究經(jīng)過分析研判,政務公開、新聞宣傳和互動交流等相關內容基本只依托門戶網(wǎng)站發(fā)布系統(tǒng),可以完成歸檔采集。對于辦事服務等內容,門戶網(wǎng)站一般只提供相關系統(tǒng)的入口,有關信息存儲在其他系統(tǒng)、無法被完整獲取,此類信息暫時不納入歸檔采集范圍。
在技術上,本研究使用網(wǎng)絡爬蟲工具抓取網(wǎng)頁文本、圖片、動畫、音視頻、腳本及網(wǎng)頁相關元數(shù)據(jù)等內容。爬蟲工具根據(jù)預制的系統(tǒng)模板和網(wǎng)頁URL信息,通過網(wǎng)站拓撲結構分析、目標網(wǎng)頁內容去噪和解析、網(wǎng)頁版本控制等技術,對采集到的數(shù)據(jù)進行采集和整理,實現(xiàn)對海量網(wǎng)頁信息的高效、智能處理。
本研究經(jīng)過分析研判,政務公開、新聞宣傳和互動交流等相關內容基本只依托門戶網(wǎng)站發(fā)布系統(tǒng),可以完成歸檔采集。對于辦事服務等內容,門戶網(wǎng)站一般只提供相關系統(tǒng)的入口,有關信息存儲在其他系統(tǒng)、無法被完整獲取,此類信息暫時不納入歸檔采集范圍。
在技術上,本研究使用網(wǎng)絡爬蟲工具抓取網(wǎng)頁文本、圖片、動畫、音視頻、腳本及網(wǎng)頁相關元數(shù)據(jù)等內容。爬蟲工具根據(jù)預制的系統(tǒng)模板和網(wǎng)頁URL信息,通過網(wǎng)站拓撲結構分析、目標網(wǎng)頁內容去噪和解析、網(wǎng)頁版本控制等技術,對采集到的數(shù)據(jù)進行采集和整理,實現(xiàn)對海量網(wǎng)頁信息的高效、智能處理。