完整性采集和選擇性采集是目前比較常用的網(wǎng)絡(luò)資源采集方式,它們各有優(yōu)缺點(diǎn),為了彌補(bǔ)其各自的不足,可以實(shí)現(xiàn)兩種采集方式的優(yōu)勢(shì)互補(bǔ),采用融合二者優(yōu)點(diǎn)的混合型采集方式,在對(duì)選定的政府網(wǎng)站中所有網(wǎng)頁(yè)進(jìn)行完整性采集的同時(shí),通過(guò)人工干預(yù)的方式對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行甄別,對(duì)其中有證據(jù)價(jià)值、歷史價(jià)值、研究?jī)r(jià)值的重要網(wǎng)頁(yè),有選擇性地進(jìn)行深層次的頻繁采集,這樣既考慮到了政府網(wǎng)頁(yè)采集面的廣度,同時(shí)又照顧到了重要網(wǎng)頁(yè)采集的深度。
而網(wǎng)頁(yè)的采集與捕獲最終還需要依靠相應(yīng)的網(wǎng)絡(luò)爬蟲(chóng)工具來(lái)實(shí)現(xiàn),目前面向網(wǎng)頁(yè)存檔的爬蟲(chóng)工具比較多,其中Heritrix、HTTrack最為常用,可利用這些工具來(lái)有針對(duì)性地完成對(duì)目標(biāo)政府網(wǎng)站網(wǎng)頁(yè)的自動(dòng)批量在線采集。
本文地址:http://murenxiang.com.cn//article/30389.html