Robots.txt 和 Noindex 的差別是什麼?
Robots.txt:告訴搜尋引擎爬蟲根本不要造訪此頁面,不僅不索引該頁面,甚至不要造訪和閱讀它。因此,搜尋引擎不會爬行和讀取該網頁,因此它無法爬行該網頁上存在的連結,並且這些連結不計入網頁排名分數。
Noindex:告訴抓取頁面的機器人不要將頁面編入索引,並且不要將其顯示在搜尋結果頁面中。
簡單來說,Robots.txt 限制爬取,Noindex 限制索引。
爬取(Crawl)和索引(Index)的區別?
分別又稱檢索和收錄,搜尋引擎爬蟲來網站上爬取、下載網站資料就叫做檢索;將網頁資料收錄、建檔到搜尋引擎裡面並展現在搜尋結果頁面中就叫做索引。
Robots.txt 和 Noindex 使用時機
Robots.txt
搜尋引擎有百百種,若一直被抓取會占用網站資源,使用 Robots.txt 限制搜尋引擎爬蟲爬行網站,還可以選擇要讓哪些搜尋引擎爬取、哪些不能,方便調節網站負載。另外,若網站有許多不希望被抓取的內容,就可以使用 Robots.txt 節省爬取成本。
Noindex
只要有網頁不想要被搜尋引擎收錄,就可以使用 Noindex,像是登入或註冊頁面、網站後台、結帳畫面、測試用網址等等。
為什麼 Robots.txt 對 SEO 很重要?
從 SEO 的角度來看,robots.txt 扮演著至關重要的角色,它告訴搜尋引擎如何最好地抓取您的網站。
使用 robots.txt,可以阻止搜尋引擎訪問網站的某些部分,防止重複內容並為搜尋引擎提供有用的指令,告訴他們如何更有效地抓取您的網站,可以讓搜尋引爬蟲在重要的頁面上花費更多的抓取預算。
Robots.txt 的組成
User agent:檢索器(搜尋引擎)的名稱
Allow:允許被抓取的網站內容路徑
Disallow:不允許被抓取的網站內容路徑,一個 URL 只允許有一行「Disallow:」
Crawl-delay:爬蟲在載入和抓取頁面內容之前應等待多少秒。
Sitemap:指定網站內 Sitemap 檔案放置的網址路徑,需使用絕對路徑。
延伸閱讀【Sitemap 是什麼?提交後能提升網站排名嗎?】