捌貳網路行銷

檢索(Crawl)和索引(Index)是什麼?SEO行銷人必知的基礎觀念報給你知!

相信你在察看SEO相關文章時,一定很常看到「檢索」和「索引」,或與他們相關的專有名詞,但他們到底是什麼呢?不要被搞混了!快閱讀本文來了解吧!
檢索(Crawl)和索引(Index)是什麼?SEO行銷人必知的基礎觀念報給你知!

目錄

檢索(Crawl)與索引(Index)是什麼

檢索(Crawl)-抓取、爬行

抓取是搜尋引擎用來發現和存取網路上新的或更新的內容的過程,Google 使用搜尋引擎機器人 Googlebot(又稱爬蟲或蜘蛛)來進行此步驟,用來瀏覽網路並追蹤頁面之間的連結。

爬行的主要目的是:

  • 發現新的網頁
  • 識別對現有頁面的更動
  • 刷新頁面和網站的快取版本

爬蟲從已知頁面開始,追蹤這些頁面上的超連結,循序漸進地探索連結內容並將新發現的頁面添加到搜尋引擎的索引中。爬蟲存取每個 URL,分析內容,提取關鍵數據和訊息,並將其儲存在搜尋索引庫中。

搜尋引擎進行的抓取有幾種類型:

  • 廣泛爬行:爬行整個網路以發現新的 URL(通常不那麼頻繁地進行)
  • 深度爬網:對搜尋引擎已知的網站進行徹底爬網,以檢查新的或更新的內容(通常更頻繁地進行)
  • 新鮮抓取:集中抓取最近更新的網站和頁面,以更快地識別新內容(持續在進行)

對於小型網站,搜尋引擎機器人可以順利抓取頁面,然而,對於大型網站,爬蟲只有在未耗盡抓取預算的情況下才會抓取頁面。搜尋引擎使用爬行過程中收集的資料來了解網站的架構、網站包含的內容以及不同網頁之間的相互關係。

延伸閱讀【好的網站架構是什麼?一文告訴你SEO友善的網站架構應該怎麼做!

抓取預算是什麼?

抓取預算是指 Google 在一段時間內為某個網站抓取的頁面或請求的數量,預算頁面數量取決於:網站的大小、受歡迎程度、品質、更新和速度。

如果您的網站浪費爬行資源,您的爬行預算將會減少,並且頁面的爬行頻率將會降低,從而導致 SEO 排名較低。網站可能會因為向爬蟲提供太多低附加價值 URL 而無意中浪費網路爬蟲資源,這包括分面導航、重複內容、錯誤頁面、被駭頁面、重定向循環、低品質和垃圾內容等等。

索引(Index)-收錄

SEO 索引是指搜尋引擎將網頁新增至其索引庫的過程,搜尋引擎從中獲取資訊以根據使用者請求返回網頁。

一旦爬蟲找到並抓取您的網頁,該過程的下一步就是索引。索引涉及分析和儲存在爬行過程中收集的資訊。收集到的資料被組織起來並添加到 Google 的索引庫中,這是一個包含搜尋引擎發現的所有網頁資訊的龐大資料庫。

當搜尋引擎的抓取最終找到您的網站時,它會沿著連結發現新的或更新的網頁。同樣,當一個頁面滿足搜尋引擎的收錄標準時,它就會被收錄。

搜尋引擎使用複雜的演算法來評估和分類索引期間在每個頁面上找到的內容,過程中會考慮關鍵字、頁面結構、元標記和整體相關性等因素。

索引很重要,因為它使搜尋引擎能夠在使用者執行搜尋查詢時快速檢索相關結果,這些索引結果隨後顯示在搜尋引擎結果頁面(SERP)上。

延伸閱讀【為什麼我的網頁沒有被Google索引?告訴你10個可能導致網頁未被收錄的原因!

爬行和索引差在哪?

爬行是發現新的或更新的網頁的過程,搜尋引擎爬蟲透過超連結以及網站地圖逐頁瀏覽網路。而索引是實際儲存、分類和排名已爬行的網站和網頁的相關性和品質的更被動的過程。

為什麼檢索和索引對 SEO 很重要?

抓取和索引對於 SEO 來說非常重要,Google 抓取頁面是第一步,然後它將對其建立索引,建立索引後 Google 才能對相關搜尋查詢的頁面進行排名。

換句話說,如果沒有先被抓檢索和索引,則該頁面將不會被 Google 排名,而沒有排名 = 沒有搜尋流量。

什麼會影響檢索和索引?

內部連結

內部連結會直接影響到網站的可抓取性和可索引性,搜尋引擎使用機器人來抓取和發現網頁,而內部連結對機器人來說就像是指引路線,引導機器人從網站內的一個頁面到另一個頁面。

製作路線清晰的內部連結更容易找到您網站的所有頁面,因此,確保您網站上的每個頁面都有放置網站內的其他頁面連結非常重要,您可以在首頁新增導覽選單、頁腳連結和上下文連結等等。

如果您的網站是新網站,建立有邏輯的內部連結網站架構也可以幫助您打造強大的內部連結基礎,邏輯站點架構將您的網站組織成類別,然後這些類別再連結到您網站上的各個頁面。

首頁連接到每個類別的頁面,每個類別的頁面再連接到網站上的特定子頁面。透過此架構,您將為搜尋引擎輕鬆導航和索引內容奠定札實的基礎。

內部連結
內部連結

Robots.txt

Robots.txt 是用來告訴 Google 爬蟲,哪些頁面可以爬取,而哪些不要爬取,因此網站若不小心設定到 Robots.txt ,可能導致網站無法正常被爬取的後果。

  • User-agent: *:適用於所有搜尋引擎機器人
  • Allow: /blog/:此指令允許搜尋引擎機器人抓取「/blog/」目錄中的頁面。也就是說,所有的部落格頁面都允許被抓取
  • Disallow:/blog/admin/:告訴搜尋引擎爬蟲不要抓取部落格的管理頁面

當搜尋引擎機器人到訪您的網站時,它們首先檢查 robots.txt 檔案以檢查是否有限制,因此,請定期檢查網站是否有不小心設定到 Disallow 指令阻止搜尋引擎爬蟲找到重要頁面。

另外,雖然 robots.txt 可以控制抓取可訪問性,但它不會直接影響到網站的可索引性。搜尋引擎仍然可以發現並索引從其他網站連結的頁面,即使這些頁面在 robots.txt 檔案中被 Disallow 也一樣。因此,若不想某些頁面被索引,請使用「noindex」標籤。

XML網站地圖

XML 網站地圖能夠有效提高網站的可抓取性和可索引性,它向搜尋引擎機器人顯示您網站上想要被抓取和被索引的所有重要頁面。

這就像給他們一張藏寶圖,讓搜尋引擎機器人能更輕鬆地發現您的頁面。因此,請在網站地圖中包含所有重要頁面,確保搜尋引擎機器人可以有效地抓取您的網站並為其建立索引。

內容品質

內容品質會影響搜尋引擎抓取和索引您的網站,搜尋引擎機器人喜歡高品質的內容,當您的網站內容寫得越好、內容越豐富且與用戶相關時,它可以吸引搜尋引擎的更多關注。

搜尋引擎希望向用戶提供最好的結果,因此,他們優先考慮對具有優質內容的頁面進行爬取和索引。

所以請專注於創作原創、有價值且內容豐富的內容,並使用正確的 SEO文案,H1-H6標題、清楚的摘要和有邏輯的架構,使搜尋引擎機器人可以輕鬆抓取和理解您的內容。

技術問題

技術問題可能會阻止搜尋引擎機器人有效地抓取您的網站並為其建立索引,如果您的網站頁面載入時間緩慢、連結損壞或重定向循環,則可能會阻礙機器人瀏覽您的網站。

技術問題也可能導致搜尋引擎無法正確索引您的網頁,例如,如果您的網站有重複內容問題或不正確地使用標準網址標籤(Canonical URL),搜尋引擎可能很難理解要對哪個頁面進行索引和排名。這類技術性問題會損害您網站的搜尋引擎可見性,所以請盡快發現並解決問題。

如何提高網站的可爬行性和可索引性

向 Google 提交 Sitemap

將網站地圖檔案提交給 Google 有助於抓取您的網頁並為其建立索引,透過您的網站的 Google Search Console(GSC)帳號將其提交給 Google,這可以提高網站的抓取和索引。

加強內部連結

網站的可爬行性和可索引性也取決於其內部連結架構,修復與內部連結相關的問題,例如損壞的內部連結和孤立頁面(即沒有內部連結的頁面),並加強您的內部連結結構。

要解決損壞的內部連結問題,您可以修復損壞的頁面或實施 301 重定向到您網站上的相關替代頁面。

定期更新和添加新內容

定期更新和添加新內容對於網站的可抓取性和可索引性非常有利,搜尋引擎喜歡新鮮的內容,當您定期更新和新增內容時,就表示您的網站處於活躍狀態。這可以吸引搜尋引擎機器人更頻繁地抓取您的網站,以確保它們能夠抓取最新的資訊。

無論是發布新的部落格文章還是更新現有的部落格文章,這都有助於搜尋引擎機器人與您的網站保持互動,並使您的內容能夠持續被索引。

避免重複內容

重複的內容可能會擾亂搜尋引擎機器人並浪費爬行資源,當網站的多個頁面上存在相同或非常相似的內容時,搜尋引擎可能很難確定要抓取和索引的版本。

因此,請確保您網站上的每個頁面都有獨特的內容,避免從其他來源複製和貼上內容,並且不要在多個頁面上複製您自己的內容。

如果您發現重複的頁面,請考慮將它們合併到一個頁面中,並將重複的頁面 301 重新導向到合併頁面,或者您可以使用標準網址標籤(Canonical URL),指引搜尋引擎應考慮建立索引的首選頁面。

結論

搜尋引擎演算法靠著爬行(Crawl)、索引( Index)、用戶搜尋(Search)和排名(Rank)四個步驟循序進行,如果沒有最初的爬行和檢索,那麼網站理所當然地不會有流量,現在您已經知道什麼是爬行和索引以及它們為何對 SEO 如此重要,接下來就可以針對搜尋引擎優化您的網站了!

延伸閱讀【Google 演算法是什麼?操作SEO必看的7個排名演算法運作方式!

你可能也會喜歡…

更多推薦文章

如何結合UGC(使用者生成內容)來優化你的SEO?社群時代不可不知的行銷法寶!

如何結合UGC(使用者生成內容)來優化你的SEO?社群時代不可不知的行銷法寶!

使用者生成內容(UGC)已成為增強 SEO 的強大工具,特別是在 Google 優先考慮真實、吸引人的內容的情況下。透過 UGC,品牌能夠與真實受眾建立聯繫、提高知名度和搜尋引擎排名、增加網站流量和參與度,並建立反向連結。然而,將 UGC 納入 SEO 策略需要仔細考慮和規劃,本文將帶你深入了解 UGC,一起看下去!

如何避免SEO過度優化?不藏私分享8個優化撇步,確保你的網站不受懲罰!

如何避免SEO過度優化?不藏私分享8個優化撇步,確保你的網站不受懲罰!

對於大多數線上行銷人員而言,SEO 是提高網站流量和搜尋引擎排名的重要策略之一,然而過度優化是許多網站不知不覺會踏進去的陷阱,過度優化可能會造成反效果,甚至是被搜索引擎認為是作弊行為,進而降低排名。在本文中,我們將告訴你要避免的過度優化做法以及提供SEO合理化策略的執行,以幫助你正確進行SEO!

Web 2.0是什麼?行銷人要知道的站外SEO操作策略!

Web 2.0是什麼?行銷人要知道的站外SEO操作策略!

 Web 2.0 網站的使用是 SEO 中一項非常有用的連結策略,這些平台提供了互動式和協作的內容創建和共享方法,使 Web 2.0 網站成為增強 SEO 工作的寶貴資源,本文將告訴你使用 Web 2.0 網站的好處和優化方法。

UX/UI設計是什麼?強化使用者體驗,有效提升你的SEO排名!

UX/UI設計是什麼?強化使用者體驗,有效提升你的SEO排名!

在競爭激烈的數位行銷環境中,擁有精心設計的網站不足以吸引和留住用戶。使用者體驗(UX)和使用者介面(UI)設計旨在建立一個不僅美觀而且功能實用的網站。然而,UX/UI 設計和搜尋引擎優化(SEO)之間的相關性經常被忽略。在本文中,捌貳行銷將告訴你何謂 UX 和 UI,以及它們如何與 SEO 結合來達到最佳的效果!