為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面地址庫中的 URL 有幾個來源:
(1) 人工錄入的種子網(wǎng)站。
(2) 蜘蛛抓取頁面后,從 HTML 中解析出新的鏈接 URL 與地址庫中的數(shù)據(jù)進行對比,如果是地址庫中沒有的網(wǎng)址,就存入待訪問地址庫。
(3) 站長通過搜索引擎網(wǎng)頁提交表格提交進來的網(wǎng)址。
蜘蛛按重要性從待訪問地址庫中提取 URL,訪問并抓取頁面,然后把這個 URL,從待訪問地址庫中刪除,放進已訪問地址庫中。
大部分主流搜索引擎都提供一個表格,讓站長提交網(wǎng)址。不過這些提交來的網(wǎng)址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的。可以說提交頁面基本上是毫無用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁面。
文件存儲
搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面蕪湖網(wǎng)站設(shè)計數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML 是完全一樣的,每個URL都有一個獨特的文件編號 。
本文地址:http://murenxiang.com.cn//article/2725.html