欧美在线一区二区三区不卡,成人综合婷婷国产精品久久免费,日本aaaaa级毛片片

地址庫

為了避免重復爬行和抓取網址，搜索引擎會建立一個地址庫，記錄已經被發現還沒有抓取的頁面，以及已經被抓取的頁面地址庫中的 URL 有幾個來源:

(1) 人工錄入的種子網站。

(2) 蜘蛛抓取頁面后，從 HTML 中解析出新的鏈接 URL 與地址庫中的數據進行對比，如果是地址庫中沒有的網址，就存入待訪問地址庫。

(3) 站長通過搜索引擎網頁提交表格提交進來的網址。

蜘蛛按重要性從待訪問地址庫中提取 URL，訪問并抓取頁面，然后把這個 URL，從待訪問地址庫中刪除，放進已訪問地址庫中。

大部分主流搜索引擎都提供一個表格，讓站長提交網址。不過這些提交來的網址都只是存入地址庫而已，是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的。可以說提交頁面基本上是毫無用處的，搜索引擎更喜歡自己沿著鏈接發現新頁面。

文件存儲

搜索引擎蜘蛛抓取的數據存入原始頁面蕪湖網站設計數據庫。其中的頁面數據與用戶瀏覽器得到的HTML 是完全一樣的，每個URL都有一個獨特的文件編號。

本文地址：http://murenxiang.com.cn//article/2725.html

分享到：QQ空間新浪微博騰訊微博人人網微信開心網百度貼吧豆瓣網

色综合天天_在线精品国产今日亚洲_不知火舞被到爽羞羞漫画_亚洲天堂一级片

蜘蛛爬行抓取的地址庫和文件存儲