成都網站製作
當前位置: 首頁 >新聞資訊 > 網站建設 > 10分鍾解鎖搜索引擎背後的秘密:關於SEO的4個知識點
2018-05-23 09:41:04

10分鍾解鎖搜索引擎背後的秘密:關於SEO的4個知識點

 10 分鍾解鎖搜索引擎背後的秘密:關於SEO的 4 個知識點

提起Search Engine Optimization(SEO),想必大家一定熟悉又陌生。SEO是最先被我們所熟悉的數字營銷概念之一。酒店市場部或數字營銷負責人在每月或每季度,也會收到來自總部的SEO報告;那為何又用 “陌生” 來形容它呢?

作為第一篇,我們先來了解一些基礎內容,大家是否曾思考過以下問題:

  • SEO是什麽?我們如何去定義它?

  • 為什麽要做SEO?

  • 移動互聯時代,還需要做SEO嗎?

  • 搜索引擎的工作原理是什麽?在簡單的 “輸入-搜索” 這幾步簡單的操作後,搜索引擎是如何從海量的數據中,找尋到我們所需要的內容,並展現給我們的?

帶著這些疑問,一起√get今天的知識吧!知識點1:SEO是什麽?我們如何定義它?

SEO的全稱是 “Search Engine Optimization”,中文譯為 “搜索引擎優化”。

  • 簡單地理解,SEO是一個從自然搜索結果中獲取網站流量的手段和過程;

  • 更加嚴謹地去定義的話,SEO是一個 “在了解搜索引擎自然排名機製的基礎上,對成都網頁製作網站進行內部和外部的調整和優化,改進網站在搜索引擎中的關鍵詞自然排名,以便爭奪流量,進而促成網站銷售或品牌曝光” 的一個過程。

知識點2:為什麽要做SEO?

網站所有者都希望自己的網站流量越大越好,無論網站盈利模式和目標是什麽,有人訪問是前提。SEO則是給網站帶來訪問者的最好方法。讓我們一起來了解一下SEO的 “優勢”:

  • 低成本:雖可能會產生費用,但成本相對較低

  • 高回報:來自SEO的用戶多數情況下是在 “主動地找尋” 酒店,目標非常精準

  • 可遷移:搜索引擎是用戶搜索、比較、購買商品的重要渠道,即便移動互聯網發展迅猛,SEO核心仍在,隻不過載體有所變化

  • 夠持久:精準廣告投放、付費搜索等類型推廣模式,一旦停止投放,流量將急劇下降;線上活動等事件營銷效果明顯,但話題過後流量隨即下降。而搜索排名一旦上去,可相對穩定地維持比較久的時間,流量也因此會源源不斷地輸送過來

  • 可擴展:掌握關鍵詞研究和內容擴展方法後,我們可以持續地,為網站增加目標關鍵詞及流量 

 

知識點3:移動互聯時代,還需要做SEO嗎?

讓我們來看一些行業調查數據,了解一下SEO是否還有效?

  • 2017 年上半年,即時通信、搜索引擎、網絡新聞作為基礎的互聯網應用,用戶規模趨於穩定,搜索引擎應用繼續保持移動化趨勢。

  • 雖然即時通信作為移動互聯網流量核心入口的地位已經確立。在新網民各類應用中的滲透率排名第一,高於排名第二的搜索引擎16. 9 個百分點,但搜索引擎在目前仍舊穩居第二位。

  • 截至 2017 年6 月,我國搜索引擎用戶規模達 6.09 億,使用率為81.1%,用戶規模較 2016 年底增加707 萬,增長率為 1.2%

 

 

數據取自《 2017 中國互聯網絡發展狀況統計報告》

知識點4:搜索引擎的工作原理?

麵對數以萬億的信息,搜索引擎如何做到在 1 秒鍾甚至更短的時間內,返回我們想要的內容?回答這個問題,需要對搜索引擎工作原理做個分解,大致分為 3 個階段:

 
  • 爬行和抓取:搜索引擎程序通過訪問網頁,獲得頁麵HTML代碼存入數據庫

  • 預處理:程序對數據庫網頁進行一係列處理,為排名程序調用做準備

  • 排名:用戶輸入關鍵詞後,程序調用預處理好的數據,計算相關性,生成結果首先看第一階段,即 “爬行和抓取”

    對於搜索引擎來說,首要任務是完成對互聯網內網頁數據收集。而用於數據收集的工具,就是我們常常聽到的 “蜘蛛”,它是搜索引擎用來爬行和訪問頁麵的程序。蜘蛛發出頁麵訪問請求後,服務器返回HTML代碼,蜘蛛把收到的代碼存入數據庫中。蜘蛛會對鏈接進行跟蹤,根據一個頁麵上的鏈接,爬行(讀取)至下一個,這也是為什麽被人稱之為 “蜘蛛”。在數據收集過程中,聰明的蜘蛛為了提升效率,避免重複讀取網頁數據,搜索引擎會建立地址庫,記錄 “被讀取的”,和 “發現但未被讀取的” 頁麵。構建原始頁麵數據庫,以儲存讀取後的頁麵數據。

    讀取結束,構建好原始數據庫後,搜索引擎將進行第二階段的任務 - “預處理”。什麽是 “預處理” 呢?原始數據庫中存在數以萬億的網頁數據,排名程序無法做到每時每刻,對數量如此龐大的數據進行分析,也就無法在1- 2 秒內返回搜索結果。因此必須處理這些數據,為最後排名程序調用做準備。

    預處理的第一步是對數據進行篩選,去除無用的信息,提取文字。現在搜索引擎仍以文字內容為基礎,數據庫中的頁麵數據,除了我們在網頁上看到的文字外,還包含HTML標簽、JavaScript程序等無法用於排名的內容。程序需要去除這些無用信息,提取出可用於排名的內容。除文字外,程序也會提取出一些特殊的包含文字信息的代碼,例如Meta標簽中的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。

     

    隨後,我們需要介紹一個小知識,即中文搜索引擎所獨有的步驟 - “中文分詞”。“詞” 是程序處理數據、用戶查詢的單位和基礎。與英文不同,搜索引擎必須區分用戶搜索的中文內容裏,哪幾個字組成一個單詞,才能進行下一步工作。

    在分詞過後,程序需要進行另一個步驟,即剔除 “停止詞”。在任何語言裏,都存在出現頻率高,但對內容影響不大的詞匯,例如中文 “的”、“啊”、“卻”;英文中 “the” “a” “and” “to”“of”等。這些被稱作 “停止詞”,程序會去除這些停止詞,使搜索內容更突出,減少程序計算上內耗。

    此外程序會對版權聲明文字、導航欄文字等對搜索無用的內容進行剔除,消除噪聲。

    緊接著,程序還會對網頁數據進行去重,同一內容可能會重複發布在多個網站,為了避免將多篇重複的內容返回給擁護,所以需要在預先剔除重複內容。

    在完成上述後,程序得到的是 “獨特的,能反應頁麵主題的,以詞匯為單位的” 內容,緊隨其後,程序將正向索引。通過提取關鍵詞,把內容轉化成 “以關鍵詞為單位” 的集合,同時記錄關鍵詞出現頻次、格式(黑體、加粗錨文字)、位置(標題、頁麵段首、段尾)等屬性。然後將其轉化為如下結構,儲存進數據庫:

     

    經 “正向索引” 後的數據,無法直接排名,因為同一關鍵詞可能出現在多個文件中,所以聰明的程序猿們,發明了 “倒排索引” ,將文件重新構造為倒排索引:

     

    現在,搜索引擎已經做好了隨時處理用戶搜索請求的準備,那麽隨之而來的,就是搜索引擎第三階段的任務,即排名。

    每當搜索引擎接受到用戶搜索的內容後,會進行這樣的處理:

    • 分詞(與預處理一樣,將我們搜索的內容,劃分為以“詞”為基礎組合)

    • 剔除停止詞(與預處理一樣,剔除不相關詞匯)

    • 指令處理(搜索引擎默認是在關鍵詞之間運用 “與”的邏輯)

    • 拚寫矯正(對程序檢測判定為錯誤的內容,進行矯正)

    經過以上處理並進行匹配後,程序會在倒排索引數據庫中找出符合搜索內容關鍵詞的文件集合。例如,搜索內容包括 “關鍵詞1” “關鍵詞2”,排名程序僅需要找到含有這 2 個關鍵詞的文件,即 “文件2” “文件3”。

    你可能會問,匹配成功的文件肯定有上千萬,搜索引擎會對他們進行排名嗎?答案是否定的。由於數量龐大,因此搜索引擎程序不會對這些龐大的數據進行處理,隻會針對最重要的部分頁麵數據進行排名,此外用戶通常也隻會查看前兩頁搜索結果,因此,搜索引擎也不需要大費周折地去對所有數據進行排名。那麽,怎樣針對 “最重要的部分頁麵數據” 去排名呢,這裏就要依賴於自身算法 - 相關性計算的幫助,該算法會計算某個頁麵數據與用戶搜索內容的相關性,從而完成排名。

    到這裏,搜索引擎已基本完成用戶的 “搜索請求”,但根據2/ 8 定律,約20%的搜索內容,占總搜索次數的80%左右。搜索引擎會把常見詞匯的排名以及數據進行緩存,在用戶搜索時會直接調用緩存數據,從而減少一係列龐大又耗能的步驟,縮短反饋時間、提升用戶體驗。

返回 BACK
服務項目
網站建設
互聯網開發
微應用(微信)
微信小程序
APP定製開發
400電話
主機租用
域名注冊
聯係我們

地址:成都市府青路二段 • 首匯觀築1棟28樓

郵箱:service@jikejun.com

熱線:18980803640 / 18190984800

座機:028-61382296

微信公眾號 二維碼