當前位置:主頁 > 刷百度指數 > /正文

搜索引擎收錄網頁的四個階段

作者:風力刷百度指數 ???時間:2018-07-21 11:31

第一階段:大小通吃

搜索引擎網頁的抓取主要采取的是大小通吃的策略,簡單的說就是把網頁中所能發現的鏈接逐一添加到待抓取的URL中,然后機械性的將新抓取的URL從網頁中提取出來,雖然這種方式較為古老,但是其效果還是很好的,而這也是蜘蛛訪問后,沒有收錄的原因。

第二階段:網頁評級

Pagerank是目前比較著名的一種鏈接分析算法,可以用來衡量網頁的重要性,并且非常自然,而站長們都用pagerank的思路來對URL進行排序,這也就是大家所熱衷的發外鏈,據了解,中國的發外鏈市場每年大概有上億元的規模。爬蟲的目的是下載網頁,但是pagerank卻是個全局性的算法,只有當所有網頁下載完成,那么所計算的結果才會是最可靠的。對于中小網站來說,如果服務器的質量不好,在進行抓取時,就只能看到部分內容,那么在抓取階段是無法獲得可靠的pagerank得分。

第三階段:OCIP策略

OCIP策略可以說是更像pagerank算法的改進,在算法開始前,每個網頁都會給予相同的“現金”,每當我們對某個頁面A進行下載后,A就會將自己的“現金”平均分給頁面中所包含的鏈接頁面,從而清空自己的“現今”,而這也是導出鏈接越來越少,權重越來越高的原因之一。

對于待抓取的頁面,它會根據自己手頭擁有的“現金”多少來進行排序,優先下載“現金”充足的頁面,OCIP的思路還是大致和pagerank是一樣的,都適合于實時計算,而很多網頁出現秒收的情況也很有可能就是因為這個。

第四階段:大站優先策略

大站都是走的優先策略,多以網站為單位來衡量一個網頁的重要性,對于待抓取的URL隊列中的網頁,會根據所述來進行網站分類,例如:哪個網站等待下載的頁面最多,就對其優先下載。由于大型網站一般包含的頁面更多,也大多都是名站,其網頁質量相對也比較高,所以它的本質思想還是傾向于優先下載大型網站URL。

總結:雖然這個算法相對比較簡單粗暴,但是其收錄高質量網頁的效果卻很好,而這也是為什么很多網站內容被轉載后,大站卻能把你擠下來的原因之一。

本文地址:http://www.pwkzxw.tw/bdzs/617.html

上一篇:刷西瓜視頻播放量
下一篇:如何刷新浪博客訪問量

相關推薦
Tags:
刷指數

最新文章



刷百度指數 聯系我們
  • 咨詢電話:18927460947
  • 客服QQ:208777028

  • 掃一掃關注我們的微信號

    刷百度指數二維碼
    ? 杀平特一肖公式规律