• <menu id="oqauk"><strong id="oqauk"></strong></menu>
  • <xmp id="oqauk"><menu id="oqauk"><tt id="oqauk"></tt></menu>
    <xmp id="oqauk">
  • <menu id="oqauk"></menu>
  • 百度搜索原理?
    來源:δ? 日期:2021-08-12 18:46 作者:admin

    搜索引擎并不真正搜索互聯網,它搜索的實際上是預先整理好的網頁索引數據庫。

    真正意義上的搜索引擎,通常指的是收集了因特網上幾千萬到幾十億個網頁并對網頁中的每一個詞(即關鍵詞)進行索引,建立索引數據庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的算法進行排序后,這些結果將按照與搜索關鍵詞的相關度高低,依次排列。

    現在的搜索引擎已普遍使用超鏈分析技術,除了分析索引網頁本身的內容,還分析索引所有指向該網頁的鏈接的URL、AnchorText、甚至鏈接周圍的文字。所以,有時候,即使某個網頁A中并沒有某個詞比如“惡魔撒旦”,但如果有別的網頁B用鏈接“惡魔撒旦”指向這個網頁A,那么用戶搜索“惡魔撒旦”時也能找到網頁A。而且,如果有越多網頁(C、D、E、F……)用名為“惡魔撒旦”的鏈接指向這個網頁A,或者給出這個鏈接的源網頁(B、C、D、E、F……)越優秀,那么網頁A在用戶搜索“惡魔撒旦”時也會被認為更相關,排序也會越靠前。

    搜索引擎的原理,可以看做三步:從互聯網上抓取網頁→建立索引數據庫→在索引數據庫中搜索排序。

    從互聯網上抓取網頁
    利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,并沿著任何網頁中的所有URL爬到其它網頁,重復這過程,并把爬過的所有網頁收集回來。

    建立索引數據庫
    由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等),根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網頁索引數據庫。

    在索引數據庫中搜索排序
    當用戶輸入關鍵詞搜索后,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。
    最后,由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。
    搜索引擎的Spider一般要定期重新訪問所有網頁(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網頁有不同的更新頻率),更新網頁索引數據庫,以反映出網頁內容的更新情況,增加新的網頁信息,去除死鏈接,并根據網頁內容和鏈接關系的變化重新排序。這樣,網頁的具體內容和變化情況就會反映到用戶查詢的結果中。

    互聯網雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網頁各不相同,排序算法也各不相同。大型搜索引擎的數據庫儲存了互聯網上幾億至幾十億的網頁索引,數據量達到幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網頁的索引數據庫,也只能占到互聯網上普通網頁的不到30%,不同搜索引擎之間的網頁數據重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的內容。而互聯網上有更大量的內容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。

    你心里應該有這個概念:搜索引擎只能搜到它網頁索引數據庫里儲存的內容。你也應該有這個概念:如果搜索引擎的網頁索引數據庫里應該有而你沒有搜出來,那是你的能力問題,學習搜索技巧可以大幅度提高你的搜索能力。

    上一篇:百度是不是又有新算法了啊 下一篇:淘寶的搜索權重是如何計算的?
    猜你喜歡
    各種觀點
    熱門排行
    精彩
    • 百度框計算
      百度框計算
      百度框計算是可以更好地搜索你想要的答案,(盡可能)按你想要的意思,而不是按你所給出的文字來斷章取義的搜索. 百度新算法有知道的嗎 其實沒有
    • 百度移動搜索改變算法,讓站長提前意識到該做
      百度移動搜索改變算法,讓站長提前意識到該做
      目前,百度針對網站主提供“兼有手機站和PC站”、“只有手機站”、“只有PC站”三類不同的優化幫助。網站主可以通過登錄百度無線主頁(open. shouji.bai
    • 算法導論第二版中文版下載地址
      算法導論第二版中文版下載地址
      http://www.ibook8.com/Software/catalog826/11093.html 第二版貌似沒有中文的,.你可以用金山快譯.就可以變成中文的了 我只有英文版的下載地址,不好意思 求發我《算法
    • 春鵑的藥用價值
      春鵑的藥用價值
      杜鵑花科春鵑花屬植物杜鵑RhododendronsimsiiPlanch.,以根、葉及花入藥。春末采花,夏季采葉,秋冬采根,曬干備用或鮮用?!拘晕稓w經】根:酸、澀,溫。有
    • 請教算法導論這本書怎么樣?適合什么程度的學
      請教算法導論這本書怎么樣?適合什么程度的學
      可以。算法領域本身更偏邏輯,你不看C和數據結構都可以看它。不過對大多數人來說開始看它的時候至少已經掌握一種編程語言了??催@本書本身需求的更
    大量老肥熟女偷拍视频
  • <menu id="oqauk"><strong id="oqauk"></strong></menu>
  • <xmp id="oqauk"><menu id="oqauk"><tt id="oqauk"></tt></menu>
    <xmp id="oqauk">
  • <menu id="oqauk"></menu>