搜索引擎的爬行，抓取，索引與收錄

SEO基礎優化蝸牛SEO 11年前 (2014-05-11) 9759℃

大家好，蝸牛SEO上一節給大家分享了? HTTP返回狀態碼的含義，以及詳細使用方法。? 很多朋友都表示很喜歡，內容很全面，不少朋友表示對其進行了收藏。接下來呢，蝸牛將給大家繼續爆一個每個SEOER都喜愛不已的干貨。

搜索引擎爬行，抓取，索引與收錄。相信不止一個朋友，或者所是大多數朋友都對這個話題特別的感興趣。蝸牛SEO這次就會將這個驚天大秘密悄悄得告訴大家。（一般人我還真不告訴他）。

一、????? 爬行，抓取，索引，收錄原理

首先大家要明白一點，各家搜索引擎有所不同，但是所有搜索引擎的工作原理都是千秋有同的。所以，只要你按照搜索引擎的喜好去做好了，那么，有一家搜索引擎喜歡上了你的網站，其它搜索引擎，想不喜歡都難。因為你已經成大眾情人了。

蜘蛛的工作原理是，進入一個網站后，一邊爬行，一邊抓取。它在爬行的過程中沿著鏈接發現新頁面，然后“爬”過去抓取新頁面。爬行只是一個形象的比喻，實際上并不存在蜘蛛抓取文件時發現鏈接然后立即跟蹤過去這樣一個過程。

抓取是指蜘蛛發現新的頁面后，像瀏覽器一樣打開頁面，把頁面HTML代碼和圖像音樂等元素存入數據庫。顯然，爬行和抓取是相互交織的。抓取是實際發生的我們能夠觀察到的過程，在原始日志中，蜘蛛的抓取是有完整記錄的，比如：抓取確切時間、狀態碼、抓取的文件是哪個、抓取了多大文件等等。蜘蛛對頁面的抓取和瀏覽器讀取文件是基本一樣的。蜘蛛抓取文件后存入數據庫，程序解析出文件中的鏈接后將URL存入頁面地址庫，然后蜘蛛從地址庫中按一定規則選取URL進行抓取。蜘蛛不是真的訪問頁面時看到一個URL就爬過去

索引指的是將一個URL的信息進行各種整理，如去重、分詞等等，然后將關于這個URL的信息存入數據庫，被稱為索引庫。要注意的是，索引庫中關于URL的信息不僅是組成頁面內容的關鍵詞及其特征(位置、格式等)，還有鏈接、更新情況等信息。英文索引這個詞是index。

收錄是SEOer們最關心也最常用的詞，其實也是4個概念中最不明確的。被收錄指的是我們能查到頁面被搜索引擎存入了索引庫。但進入索引庫的URL并不一定被抓取過，這和SEO們的直覺可能是不一樣的。

二、????? 搜索引擎會把什么樣的數據放進索引庫呢？

通過蝸牛SEO的解釋，相信大家已經清楚，只有你在網站上有更新，蜘蛛才會爬行過后進行抓取，當蜘蛛把抓取的頁面放進數據庫，搜索引擎分析過后認為有價值，他才會將內容放進索引庫。那么，搜索引擎會把什么樣的數據放進索引庫呢？

新的，權威的，用戶認可的，很少看見的，我想用這四個詞來形容最好不過了。

新的就是指原創的，在其它任何一個角落搜索引擎都沒有見過的。

權威的，是指受到信任的，權重高的，比如騰訊，新浪，搜狐，網易，你在上面發個垃圾信息，搜索引擎都會去收錄它。因為它的權重高，它更新的內容多，質量高，被搜索引擎所重視。

用戶認可的，你寫的內容有讓用戶看下去的愿望，如果你寫得內容死氣沉沉，用戶看著看著想睡覺，我想，用戶體驗一定不會很好，那么搜索引擎也不會對這樣的網頁給予高的權重。

很少看見的，比如，四川發生地震，廣東多了一便SARS病例，深圳舉行大運會，北京舉行奧運會，這樣的信息，這樣的信息是具有很強的時效性的，機會稍縱即逝，所以這樣的網頁搜索引擎一抓到馬上就會把它放進索引庫里面。

三、????? 收錄之后的展現

網頁收錄之后，自然是拿來給用戶看的，那么，我們怎么知道哪些內容被收錄了呢？

直接通過搜索引擎可以搜索到的數據
用site或是站長工具查詢到的收錄數據。
時間決定信任度，搜索引擎最先抓到的一般被認為是原創。
收錄之后的排序，收錄到頁面之后，搜索引擎會進行一個排序，根據相關度與質量來給予相應的排序。我們搜索到的一個關鍵詞的排序一般是由網站信任度與同業競爭度來決定的，因此出現了一些關鍵詞很容易排到前面，一些關鍵詞很難排到前面。

四、????? 如何讓快照更新，如何增加收錄量與關鍵詞的排名？