Contact us now
+852 31880638

淺談網站robots的寫法

-淺談網站robots的寫法

淺談網站robots的寫法

seo.zoapcon.com

站長的工作是設計精美的網站,為大眾展現網站豐富多彩的內容。當然,我們也希望精心設計的網站獲得理想的排名,這就要求我們去研究搜索引擎排名規律,最大程度的獲得機會展現給客戶。然而,搜索引擎種類很多,有時候,我們對某一種搜索引擎的排名很好,卻在另外的搜索引擎上面獲得不到一樣的排名,原因是各個搜索引擎規則不一樣。為此,有人復制出相同的內容以應付不同搜索引擎的排名規則。然而,一旦搜索引擎發現站內有大量“克隆”的頁面,就會給以懲罰,不收錄這些重復的頁面。另一方面,我們網站的內容屬於個人私密文件,不想暴露在搜索引擎中。這時,robot.txt就是為瞭解決這兩個問題。
  一、搜索引擎和其對應的User-Agent
  那麼,目前有哪些搜索引擎和其對應的User-Agent呢?下面,我列出瞭一些,以供參考。
  搜索引擎 User-Agent
  AltaVista Scooter
  baidu Baiduspider
  Infoseek Infoseek
  Hotbot Slurp
  AOL Search Slurp
  Excite ArchitextSpider
  Google Googlebot
  Goto Slurp
  Lycos Lycos
  MSN Slurp
  Netscape Googlebot
  NorthernLight Gulliver
  WebCrawler ArchitextSpider
  Iwon Slurp
  Fast Fast
  DirectHit Grabber
  Yahoo Web Pages Googlebot
  Looksmart Web Pages Slurp
  二、robots基本概念
  robots.txt文件是網站的一個文件,它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網站首先就是抓取這個文件,根據裡面的內容來決定對網站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑,為我們站長做好SEO創造必要的條件。尤其是我們的網站剛剛創建,有些內容還不完善,暫時還不想被搜索引擎收錄時。
  robots.txt也可用在某一目錄中。對這一目錄下的文件進行搜索范圍設定。
  幾點註意:
  網站必須要有一個robot.txt文件。
  文件名是小寫字母。
  當需要完全屏蔽文件時,需要配合meta的robots屬性。
  三、robots.txt的基本語法
  內容項的基本格式:鍵: 值對。
  1) User-Agent鍵
  後面的內容對應的是各個具體的搜索引擎爬行器的名稱。如百度是Baiduspider,谷歌是Googlebot。
  一般我們這樣寫:
  User-Agent: *
  表示允許所有搜索引擎蜘蛛來爬行抓取。如果隻想讓某一個搜索引擎蜘蛛來爬行,在後面列出名字即可。如果是多個,則重復寫。
  註意:User-Agent:後面要有一個空格。
  在robots.txt中,鍵後面加:號,後面必有一個空格,和值相區分開。
  2)Disallow鍵
  該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。
  例如:Disallow: /index.php 禁止網站index.php文件
  Allow鍵
  該鍵說明允許搜索引擎蜘蛛爬行的URL路徑
  例如:Allow: /index.php 允許網站的index.php
  通配符*
  代表任意多個字符
  例如:Disallow: /*.jpg 網站所有的jpg文件被禁止瞭。
  結束符$
  表示以前面字符結束的url。
  例如:Disallow: /?$ 網站所有以?結尾的文件被禁止。
  四、robots.txt實例分析
  例1. 禁止所有搜索引擎訪問網站的任何部分
  User-agent: *
  Disallow: /
  例2. 允許所有的搜索引擎訪問網站的任何部分
  User-agent: *
  Disallow:
  例3. 僅禁止Baiduspider訪問您的網站
  User-agent: Baiduspider
  Disallow: /
  例4. 僅允許Baiduspider訪問您的網站
  User-agent: Baiduspider
  Disallow:
  例5. 禁止spider訪問特定目錄
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /data/
  註意事項:1)三個目錄要分別寫。2)請註意最後要帶斜杠。3)帶斜杠與不帶斜杠的區別。
  例6. 允許訪問特定目錄中的部分url
  我希望a目錄下隻有b.htm允許訪問,怎麼寫?
  User-agent: *
  Allow: /a/b.htm
  Disallow: /a/
  註:允許收錄優先級要高於禁止收錄。
  從例7開始說明通配符的使用。通配符包括(“$” 結束符;
  ”*”任意符)
  例7. 禁止訪問網站中所有的動態頁面
  User-agent: *
  Disallow: /*?*
  例8. 禁止搜索引擎抓取網站上所有圖片
  User-agent: *
  Disallow: /*.jpg$
  Disallow: /*.jpeg$
  Disallow: /*.gif$
  Disallow: /*.png$
  Disallow: /*.bmp$
  其他很多情況呢,需要具體情況具體分析。隻要你瞭解瞭這些語法規則以及通配符的使用,相信很多情況是可以解決的。
  五、meta robots標簽
  meta是網頁html文件的head標簽裡面的標簽內容。它規定瞭此html文件對與搜索引擎的抓取規則。與robot.txt 不同,它隻針對寫在此html的文件。
  寫法:

  …裡面的內容列出如下
  noindex – 阻止頁面被列入索引。
  nofollow – 阻止對於頁面中任何超級鏈接進行索引。
  noarchive – 不保存該頁面的網頁快照。
  nosnippet – 不在搜索結果中顯示該頁面的摘要信息,同時不保存該頁面的網頁快照。
  noodp – 在搜索結果中不使用Open Directory Project中的描述信息作為其摘要信息。
  六、robots的測試
  在谷歌站長工具中,添加網站後使用左側的抓取工具的權限,就可以對網站的robots進行測試瞭,詳細見圖。
  

  robots.txt和mtea robots的內容就介紹到這裡,相信大傢對robot已經有瞭比較詳細的瞭解。使用好robots對於我們網站的seo有著重要作用,做的好,可以有效的屏蔽那些我們不想讓搜索引擎抓取的頁面,也就是對用戶體驗不高的頁面,從而將有利於關鍵詞排名的內頁充分展示個客戶,獲得搜索引擎對站內頁面的權重,從而有利於我們將關鍵詞排名做的更好。
  

Tags:網頁設計提供seo, web design by zoapcon
SEO,
SEO,
MTR advertising,
Wechat Marketing,
Wechat Promotion,
網上商店,
網上電台,
代用碳粉,
團購網,
interior design,
Baby product,
diamond

Leave a Reply

Your email address will not be published.