日韩第一页在线观看,国产精品美女久久久久久久,精品无码国产自产在线观看老师,中文字幕一区二区三区无码

堅持為客戶提供有價值的服務和內容

白銀網站優化:爬蟲質量的評價標準

商企云 | 2019-08-16 | 分享至:

爬蟲質量的評價標準

如果從搜索引擎用戶體驗的角度考慮,對爬蟲的工作效果有不同的評價標準,其中最主要的 3 個標準是:抓取網頁的覆蓋率、抓取網頁時新性及抓取網頁重要性。如果這 3 方面做得好,則搜索引擎用戶體驗必定好。

爬蟲質量的評價標準(圖1)

對于現有的搜索引擎來說,還不存在哪個搜索引擎有能力將互聯網上出現的所有網頁都下載并建立索引,所有搜索引擎只能索引互聯網的一部分。而所謂的抓取覆蓋率指的是爬蟲抓取網頁的數量占互聯網所有網頁數量的比例,覆蓋率越高,等價于搜索引擎的召回率越高,用戶體驗越好。

索引網頁和互聯網網頁對比

抓取到本地的網頁,很有可能已經發生變化,或者被刪除,或者內容被更改,因為爬蟲抓取完一輪需要較長的時間周期,所以抓取到的網頁當中必然會有一部分是過期的數據,即不能在網頁變化后第一時間反應到網頁庫中。所以網頁庫中過期的數據越少,則網頁的時新性越好,這對用戶體驗的改善大有裨益。

如果時新性不好,搜索到的都是過期數據,或者網頁被刪除,用戶的內心感受可想而知。

互聯網盡管網頁繁多,但是每個網頁的差異性都很大,比如來自騰訊、網易新聞的網頁和某個作弊網頁相比,其重要性猶如天壤之別。如果搜索引擎抓取到的網頁大部分是比較重要的網頁,則可以說明在抓取網頁重要性方面做得比較好。這方面做的越好,則越說明搜索引擎的搜索精度越高。

通過以上 3 個標準的說明分析,可以將爬蟲研發的目標簡單描述如下:在資源有限的情況下,既然搜索引擎只能抓取互聯網現存網頁的一部分,那么就盡可能給選擇比較重要的那部分頁面來索引;對于已經抓取到的網頁,盡可能快的更新內容,使得索引網頁和互聯網對應頁面內容同步更新;在此基礎上,盡可能擴大抓取范圍,抓取到更多以前無法發現的網頁。

3 個“盡可能”基本說清楚了爬蟲系統為增強用戶體驗而奮斗的目標。

大型商業搜索引擎為了滿足 3 個質量標準,大都開發了多套針對性很強的爬蟲系統。以Google為例,至少包含兩套不同的爬蟲系統:一套被稱為Fresh Bot,主要考慮網頁的時新性,對于內容更新頻繁的網頁,目前可以達到以秒計的更新周期;另外一套被稱之為Deep Crawl Bot,主要針對更新不是那么頻繁的網頁抓取,以天為更新周期。

除此之外,Google投入了很大精力研發針對暗網的抓取系統,

非常感謝您有耐心的讀完商企云建站公司的這篇文章:"seo優化公司:爬蟲質量的評價標準",僅為提供更多信息供用戶參考使用或為學習交流的方便。我們公司不僅提供:網站建設網站制作、seo網站優化、網站推廣、APP開發、快速排名、網頁設計、建網站等服務,而且利用互聯網營銷手法,多平臺,多樣化進行品牌內容鋪設,營造企業正面形象,誠摯為您服務,歡迎您的到來。

掃二維碼與項目經理溝通

7*24小時為您服務

解答:網站優化,網站建設,APP開發,小程序開發,H5開發,品牌推廣,新聞推廣,輿情監測等

  非常感謝您有耐心的讀完這篇文章:"爬蟲質量的評價標準",更多內容請繼續瀏覽,我們將為您提供更多參考使用或學習交流的信息。我們還可為您提供:網站建設與開發網站優化品牌推廣、APP開發、小程序開發新聞推廣等服務,我們以“降低營銷成本,提高營銷效果”的服務理念,自創立至今,已成功服務過不同行業的1000多家企業,獲得國家高新技術企業認證,且擁有14項國家軟件著作權,將力爭成為國內企業心目中值得信賴的互聯網產品及服務提供商。如您需要合作,請掃碼咨詢,我們將誠摯為您服務。
我要咨詢
姓名 :
電話 :
其他地區
长泰县| 漳州市| 监利县| 右玉县| 四平市| 巢湖市| 明溪县| 抚顺县| 额尔古纳市| 锡林郭勒盟| 大宁县| 固原市| 开封市| 彩票| 长顺县| 张家港市| 囊谦县| 龙胜| 深圳市| 灌南县| 鲁甸县| 长沙县| 永仁县| 旅游| 嵊泗县| 广安市| 本溪市| 五莲县| 西青区| 伊通| 温州市| 嵊泗县| 荥阳市| 贵德县| 彝良县| 惠水县| 铜鼓县| 定南县| 河津市| 永川市| 广饶县|