您的位置:老鐵SEO > 站長新聞 >

搜索引擎蜘蛛爬行以及抓取原理

文章來源:www.kmkusn.tw

作者:老鐵SEO

人氣:160

2018-11-25

  一、了解搜索引擎蜘蛛爬行以及抓取原理
 
  搜索引擎蜘蛛,在搜索引擎系統中又被稱之為“蜘蛛”或“機器人”,是用來爬行和訪問頁面的程序。
.
 
  ① 爬行原理
 
  搜索引擎蜘蛛訪問網頁的過程,就好比用戶使用的瀏覽器。
 
  搜索引擎蜘蛛向頁面發出訪問請求,該頁面的服務器則返回該頁面的HTML代碼。
 
  搜索引擎蜘蛛將收到的HTML代碼存入搜索引擎的原始頁面數據庫中。
 
  ② 如何爬行
 
  為了提高搜索引擎蜘蛛的工作效率,通常采用多個蜘蛛并發分布爬行。
 
  同時,分布爬行還分為兩種模式:深度優先和廣度優先。
 
  深度優先:沿著發現的鏈接一直爬行,直到沒有任何鏈接。
 
  廣度優先:先這一頁面上的所有鏈接爬行完畢之后,才會沿著第二層頁面繼續這樣爬行。
 
  ③ 蜘蛛必遵守的協議
 
  搜索引擎蜘蛛在訪問網站之前,都會先訪問網站根目錄下的robots.txt文件。
 
  搜索引擎蜘蛛不會去抓取robots.txt文件中禁止爬行的文件或目錄。
 
  ④ 常見搜索引擎蜘蛛
 
  百度蜘蛛:Baiduspider
 
  谷歌蜘蛛:Googlebot
 
  360蜘蛛:360Spider
 
  SOSO蜘蛛:Sosospider
 
  有道蜘蛛:YoudaoBot,YodaoBot
 
  搜狗蜘蛛:Sogou News Spider
 
  必應蜘蛛:bingbot
 
  Alexa蜘蛛:ia_archiver
 
  二、SEO優化內鏈如何布局提升蜘蛛抓取
 
  SEO優化中如何有效的布局內鏈讓蜘蛛抓取 SEO優化,那么網站優化時,我們要如何合理分析內外鏈呢?關于內鏈,我們需要檢查的是seo:seo.ee ,可以檢測看看:
 
  1、內頁多關鍵詞指向首頁
 
  現在還有很多網站在內容頁搞了好多關鍵詞,但是指向的全都是首頁,這個小技巧在前幾年還是有些用的,但是現在算是作弊的行為,切記。
 
  2、是否有相關推薦
 
  每個頁面是否有推薦跟內容相關的內部指向鏈接,這個很重要,對用戶,對蜘蛛都是非常有幫助的。
 
  3、每個頁面是否能鏈接到別的相關頁面
 
  內頁要做相關的推薦,還有欄目頁、專題頁、首頁都是一樣的,只不過要從不同的定位角度來指向而已。
 
  那么如何檢查外鏈呢?一般常用兩種方法:
 
  1、通過domain指令
 
  可以找出鏈接你的網站是哪些,檢查一下是否有和不良的網站出現在一起,如果有要盡快處理掉,不然也是會有影響的。
 
  2、通過友情鏈接
 
  查看友情鏈接是否正常,比如你鏈接了別人,別人卻把你的鏈接給撤銷了,或者別人的網站打不開了等等之類的情況,需要及時的處理。
 
  三、手機網站圖片如何抓取
 
  總結出了以下六種方法,協助我們優化網站和手機端的圖片,以達到優化友好,迅速被錄入的作用。
 
  1、不要盜用圖片盡量原創
 
  盡量自己做圖片,有很多免費的圖片素材,我們可以通過拼接,做出我們需要的圖片。
 
  在平時工作的時候,發現和自己網站相關的圖片可以先保存下來,在本地做出分類和標記。
 
  網站需要圖片的時候,看看相關的圖片,自己著手做一個圖片。這是一個長期積累的過程,隨之時間的增加,自己的素材量也會越來越大。熟練了再做圖片就得心應手了。
 
  2、網站圖片保存路徑
 
  這個問題很多站長都沒有注意,圖片在傳到到網站的時候,盡量把圖片保存在一個目錄下面,
 
  或者根據網站欄目做好相應的圖片目錄,上傳的時候路徑要相對固定,方便蜘蛛抓取,蜘蛛在訪問到這個目錄的時候就會“知道”這個目錄里面保存的是圖片;
 
  圖片文件命名最好使用一些有規律的或者意義的方法,可以使用時間、欄目名稱或者網站名稱來命名。
 
  例如:SEO優化下面的圖片可以使用“SEOYH2018-6-23-36”這種命名,前面“SEOYH”是SEO優化的簡拼,中間是時間,最后是圖片的ID。
 
  為什么要這么做呢?
 
  其實這樣是培養搜索引擎蜘蛛抓取習慣,方便將來更快的識別網站圖片內容。讓蜘蛛抓的順心了,網站被收錄的幾率就增加了,何樂而不為呢!
 
  3、圖片周圍要有相關文字
 
  網站圖片是能把信息直接呈現給用戶一個方法,搜索引擎在抓取網站內容的時候,也會檢測這篇文章是否有配圖、視頻或者表格等等,
 
  這些都是可以增加文章分數值的元素,其他的幾個形式暫時不表,這里我們只說說關于圖片周圍相關文字的介紹。
 
  首先圖片周邊文字要與圖片本身內容相符,例如你的文章說的是做網站優化,里面配圖是一道菜譜的圖片,這不是掛羊頭賣狗肉么?
 
  用戶的訪問感會極差,搜索引擎通過相關算法識別這張圖片以后,也會覺得圖文不符,給你差評哦。
 
  所以,每篇文章最少要配一張相應的圖片,而且在圖片的周圍要出現和你網站標題相關的內容。不但能幫助搜索引擎理解圖片,還可以增加文章的可讀性、用戶體驗友好度以及相關性。
 
  4、圖片添加alt、title標簽
 
  許多站長在添加網站圖片時可能沒有留意這些細節,有的可能覺得麻煩,希望大家千萬別有這種想法,這是大錯特錯的。
 
  搜索引擎抓取網站圖片的時候,atl標簽是它首先抓取的,也是識別圖片內容最重要的核心因素之一,圖片的alt屬性是直接告訴搜索引擎這是啥網站圖片,以及這張要表達什么意思;
 
  title標簽是用戶指向這張圖片的時候,會顯示的提示內容,這是增加用戶體驗度和增加網站關鍵詞的一個小技巧。
 
  alt和title標簽
 
  還有就是這兩個屬性,會給有閱讀障礙的訪問者提供訪問的便利,例如:有盲人在訪問你網站的時候,他看不到屏幕上的內容,可能是通過讀屏軟件來閱讀的,如果有alt屬性,軟件會直接讀出alt屬性里的文字,給他們的訪問提供方便。
 
  5、圖片的大小和分辨率
 
  盡管兩者看起來有些相同,但還是有很大的差別,相同大小的圖片,分辨率更高的話,網站最終體積也會越大。這一點大家要搞清楚。
 
  網站的上的圖片,一直以來都提倡用盡量小的圖片,去最大化呈現內容。為什么要這樣呢?
 
  因為小尺寸的圖片會加載的更快,不會讓訪問者等待太久,特別是手機訪問的時候,由于手機上網速度和流量的限制,用戶更愿意訪問能立即打開的頁面,小尺寸圖片就更有優勢了。
 
  在這里我們盡量做好平衡,在圖片不失真的情況下,尺寸最好盡量的小。
 
  現在有很多在線給圖片瘦身的工具,各位站長可以去嘗試一下,把網站的圖片適當的壓縮一下,一方面可以減少你服務器帶寬的壓力,另外還能給用戶有流暢的體驗。
 
  6、手機端自動適應
 
  很多站長都遇到過網站在電腦訪問圖片顯示很正常,可是從手機端就會出現錯位等等情況,這就是大尺寸的圖片給不同尺寸的終端造成錯位和顯示不全的情況。
 
  其實這個問題很好解決,在添加圖片的時候寬高最好不要使用絕對大小,使用百分比就解決了。
 
  具體說,CSS代碼不能指定像素寬度:width:xxx px;只能指定百分比寬度:width: xx%;或者width:auto就可以了。
 
  這樣做的目的也是為了讓百度的移動蜘蛛抓取的時候有個良好的體驗,這也是為了更符合百度移動落地頁體驗。
 
  四、如何提高搜索引擎抓取頻率?
 
  1、網站內容更新
 
  搜索引擎抓取內容,只是針對個別頁面,而不是全部的頁面,這也是搜索引擎對網頁的快照更新時間變短的原因。
 
  比如說經常更新的頁面,快照也會經常對其進行爬取,從而可以及時發現新內容與鏈接,刪除不存在的信息,所以站長一定要長期堅持更新網頁,才能使搜索引擎爬蟲穩定前來抓取。
 
  2、網站框架設計
 
  對于網站的內部框架的設計,是要從很多方面進行的,其中,代碼需要盡量簡明清晰,代碼過多容易導致頁面體積過大,影響網絡爬蟲的抓取速度。
 
  在抓取網站時,同時網頁flash圖片盡量少一些,flash格式的內容影響蜘蛛抓取,對于新網站來說,盡量選用偽靜態形式的URL,這樣可以讓整個網站的頁面都容易被抓取。
 
  在設計時對于錨文本文字要分布合理,不能全寫關鍵詞,要適當的增加一些長尾詞鏈接。對于內部鏈接設計也要通暢,方便權重傳遞。
 
  3、網站導航設計
 
  網站面包屑導航是網站設計的時候很多企業都會忽視的一個地方,導航是蜘蛛抓取的關鍵,如果網站導航不清晰,那么搜索引擎在抓取時就容易迷路,所以導航一定要合理的進行設計。
 
  這里順便提及錨文本建設,站內錨文本有利于網絡爬蟲發現和抓取更多站內網頁,但是如果錨文本太多又容易被看成是刻意的調整,在設計時要把握錨文本的數量。
 
  4、穩定更新頻率
 
  除了首頁的設計之外,網站還有其他頁面。爬蟲抓取時不會對網站上的全部網頁都建立索引,在它們找到重要的頁面之前,可能已經抓取了足夠多的網頁離開了。
 
  所以要保持保持一定的更新頻率,更新頻繁的頁面能輕易被抓取,因此能自動抓取數量很多的頁面,同時我們要注意網站層級的設計,不能太多,不然也不利于網站抓取。
相關文章

在線客服

外鏈咨詢

掃碼加我微信

0557-8818050

返回頂部

网球比分指数