嫩草影视在线欧美国产欧美|亚洲中文字幕av|伊久综精品69国产奶水自拍视频|日本一区二区三区高清在线蜜臀

解讀百度站長(zhǎng)學(xué)院中的《搜索引擎工作原理》之

來源:南充領(lǐng)跑網(wǎng)絡(luò)技術(shù)有限公司   發(fā)布時(shí)間:2016-07-27

很早之前就看過百度官方發(fā)布的搜索引擎工作原理,最近百度站長(zhǎng)平臺(tái)改版,將原來的資訊改成了站長(zhǎng)學(xué)院,其中也對(duì)搜索引擎工作原理進(jìn)行了更新。

今日又看了一遍,發(fā)現(xiàn)還有很多值得琢磨的地方,下面我就對(duì)我比較感興趣的段落摘錄下來并大概解讀一下。

一,抓取篇

spider抓取系統(tǒng)包括鏈接存儲(chǔ)系統(tǒng)、鏈接選取系統(tǒng)、dns解析服務(wù)系統(tǒng)、抓取調(diào)度系統(tǒng)、網(wǎng)頁(yè)分析系統(tǒng)、鏈接提取系統(tǒng)、鏈接分析系統(tǒng)、網(wǎng)頁(yè)存儲(chǔ)系統(tǒng)。

蜘蛛從鏈接庫(kù)中選取鏈接,對(duì)鏈接對(duì)應(yīng)的頁(yè)面進(jìn)行抓取,保存網(wǎng)頁(yè)到網(wǎng)頁(yè)庫(kù)的同時(shí)再提取抓取頁(yè)面中的鏈接,并對(duì)這些鏈接和鏈接庫(kù)進(jìn)行對(duì)照、合并重復(fù)鏈接、建立新鏈接入庫(kù)。其中在抓取頁(yè)面的時(shí)候,已經(jīng)對(duì)頁(yè)面進(jìn)行簡(jiǎn)單分析,過濾掉垃圾頁(yè)面。這是一個(gè)不斷循環(huán)的過程。

Baiduspider根據(jù)上述網(wǎng)站設(shè)置的協(xié)議對(duì)站點(diǎn)頁(yè)面進(jìn)行抓取,但是不可能做到對(duì)所有站點(diǎn)一視同仁,會(huì)綜合考慮站點(diǎn)實(shí)際情況確定一個(gè)抓取配額,每天定量抓取站點(diǎn)內(nèi)容,即我們常說的抓取頻次。那么百度搜索引擎是根據(jù)什么指標(biāo)來確定對(duì)一個(gè)網(wǎng)站的抓取頻次的呢,主要指標(biāo)有四個(gè):
1,網(wǎng)站更新頻率:更新快多來,更新慢少來,直接影響B(tài)aiduspider的來訪頻率
2,網(wǎng)站更新質(zhì)量:更新頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對(duì)質(zhì)量是有嚴(yán)格要求的,如果網(wǎng)站每天更新出的大量?jī)?nèi)容都被Baiduspider判定為低質(zhì)頁(yè)面,依然沒有意義。
3,連通度:網(wǎng)站應(yīng)該安全穩(wěn)定、對(duì)Baiduspider保持暢通,經(jīng)常給Baiduspider吃閉門羹可不是好事情
4,站點(diǎn)評(píng)價(jià):百度搜索引擎對(duì)每個(gè)站點(diǎn)都會(huì)有一個(gè)評(píng)價(jià),且這個(gè)評(píng)價(jià)會(huì)根據(jù)站點(diǎn)情況不斷變化,是百度搜索引擎對(duì)站點(diǎn)的一個(gè)基礎(chǔ)打分(絕非外界所說的百度權(quán)重),是百度內(nèi)部一個(gè)非常機(jī)密的數(shù)據(jù)。站點(diǎn)評(píng)級(jí)從不獨(dú)立使用,會(huì)配合其它因子和閾值一起共同影響對(duì)網(wǎng)站的抓取和排序。
如果你的網(wǎng)站新更新的文章百度收錄慢或者不收錄,就可以從以上四點(diǎn)上找下原因,其中影響最大的就是更新頻率,也就是我們常說的,要學(xué)會(huì)養(yǎng)蜘蛛,更新頻率不但指更新量上,還要注意每日的更新篇數(shù)不要懸殊太大。另外,網(wǎng)站訪問穩(wěn)定也要注意,打開速度過慢或者無法打開都會(huì)影響到收錄問題。

Baiduspider抓了多少頁(yè)面并不是最重要的,重要的是有多少頁(yè)面被建索引庫(kù),即我們常說的“建庫(kù)”。眾所周知,搜索引擎的索引庫(kù)是分層級(jí)的,優(yōu)質(zhì)的網(wǎng)頁(yè)會(huì)被分配到重要索引庫(kù),普通網(wǎng)頁(yè)會(huì)待在普通庫(kù),再差一些的網(wǎng)頁(yè)會(huì)被分配到低級(jí)庫(kù)去當(dāng)補(bǔ)充材料。目前60%的檢索需求只調(diào)用重要索引庫(kù)即可滿足,這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。
我認(rèn)為,這三個(gè)等級(jí)的索引庫(kù)也是有相互轉(zhuǎn)化的,比如普通庫(kù)的頁(yè)面會(huì)被提升到優(yōu)質(zhì)庫(kù)中,對(duì)于很多新站或者信任度不高的站點(diǎn),新發(fā)布的頁(yè)面很難直接進(jìn)入到優(yōu)質(zhì)庫(kù)中,但后期如果經(jīng)過搜索用戶檢驗(yàn),以及大量的外鏈導(dǎo)入可能會(huì)轉(zhuǎn)化到優(yōu)質(zhì)庫(kù)中。

哪些網(wǎng)頁(yè)可以進(jìn)入優(yōu)質(zhì)索引庫(kù)呢。其實(shí)總的原則就是一個(gè):對(duì)用戶的價(jià)值。
包括卻不限于:
1,有時(shí)效性且有價(jià)值的頁(yè)面:在這里,時(shí)效性和價(jià)值是并列關(guān)系,缺一不可。有些站點(diǎn)為了產(chǎn)生時(shí)效性內(nèi)容頁(yè)面做了大量采集工作,產(chǎn)生了一堆無價(jià)值面頁(yè),也是百度不愿看到的.
2,內(nèi)容優(yōu)質(zhì)的專題頁(yè)面:專題頁(yè)面的內(nèi)容不一定完全是原創(chuàng)的,即可以很好地把各方內(nèi)容整合在一起,或者增加一些新鮮的內(nèi)容,比如觀點(diǎn)和評(píng)論,給用戶更豐富全面的內(nèi)容。
3,高價(jià)值原創(chuàng)內(nèi)容頁(yè)面:百度把原創(chuàng)定義為花費(fèi)一定成本、大量經(jīng)驗(yàn)積累提取后形成的文章。千萬(wàn)不要再問我們偽原創(chuàng)是不是原創(chuàng)
4,重要個(gè)人頁(yè)面:這里僅舉一個(gè)例子,科比在新浪微博開戶了,需要他不經(jīng)常更新,但對(duì)于百度來說,它仍然是一個(gè)極重要的頁(yè)面。
請(qǐng)注意這里面的時(shí)效性、價(jià)值性、整合、成本、獨(dú)立無二,特別是里面的成本,復(fù)制粘貼的無成本、標(biāo)題黨無成本、所以,就算你不原創(chuàng),你也要讓人感覺你的文章是花了很大時(shí)間成本或金錢成本搞成的。上面百度所講的四個(gè)點(diǎn)中不包含權(quán)威性,但權(quán)威性也是一個(gè)很很關(guān)鍵的因素,同樣一個(gè)文章,大門戶復(fù)制和一個(gè)小站長(zhǎng)復(fù)制,那層次是不一樣的。

哪些網(wǎng)頁(yè)無法建入索引庫(kù)

上述優(yōu)質(zhì)網(wǎng)頁(yè)進(jìn)了索引庫(kù),那其實(shí)互聯(lián)網(wǎng)上大部分網(wǎng)站根本沒有被百度收錄。并非是百度沒有發(fā)現(xiàn)他們,而是在建庫(kù)前的篩選環(huán)節(jié)被過濾掉了。那怎樣的網(wǎng)頁(yè)在最初環(huán)節(jié)就被過濾掉了呢:

1, 重復(fù)內(nèi)容的網(wǎng)頁(yè):互聯(lián)網(wǎng)上已有的內(nèi)容,百度必然沒有必要再收錄。

2, 主體內(nèi)容空短的網(wǎng)頁(yè)

1)有些內(nèi)容使用了百度spider無法解析的技術(shù),如JS、AJAX等,雖然用戶訪問能看到豐富的內(nèi)容,依然會(huì)被搜索引擎拋棄

2)加載速度過慢的網(wǎng)頁(yè),也有可能被當(dāng)作空短頁(yè)面處理,注意廣告加載時(shí)間算在網(wǎng)頁(yè)整體加載時(shí)間內(nèi)。

3)很多主體不突出的網(wǎng)頁(yè)即使被抓取回來也會(huì)在這個(gè)環(huán)節(jié)被拋棄。

3, 部分作弊網(wǎng)頁(yè)

了解搜索引擎的工作原理,對(duì)從事seo是十分關(guān)鍵的,有時(shí)候,我們不需要刻意研究怎樣才能獲取好的排名,只要你站在搜索引擎的角度上,了解其基本工作原理,如果整個(gè)抓取和排序系統(tǒng)讓你去開發(fā)的話,你會(huì)怎樣做?換位思考后,千萬(wàn)別再去考慮站長(zhǎng)的利益,而是更多地去考慮搜索用戶喜歡什么,他們想要什么。

 

   
標(biāo)簽:
上一篇:揭秘手機(jī)在QQ空間首發(fā)奧秘
下一篇:360推出獨(dú)立搜索產(chǎn)品 好搜

網(wǎng)站建設(shè)知識(shí)網(wǎng)站建設(shè)知識(shí)

企業(yè)官方網(wǎng)站建設(shè) 品牌創(chuàng)意網(wǎng)站建設(shè) B2C電子商務(wù)網(wǎng)站建設(shè) 其他web應(yīng)用開發(fā)
微信官網(wǎng)建設(shè) 微信影響活動(dòng) 微信點(diǎn)餐系統(tǒng) 其他微信應(yīng)用開發(fā)

更多 +聯(lián)系我們

業(yè)務(wù)范圍:南充、遂寧、巴中、廣安、達(dá)州

業(yè)務(wù)電話:156-0827-8880180-8154-3787

業(yè)務(wù)合作:  278422624 地圖導(dǎo)航: 點(diǎn)擊查看

E-mail:  lingpaonc@qq.com 渠道合作 : 278422624

我們的認(rèn)知

當(dāng)對(duì)手還在將注意力停留在碎片化的互聯(lián)網(wǎng)設(shè)計(jì)或程序?qū)崿F(xiàn)時(shí),領(lǐng)跑早已開始將數(shù)字品牌的建設(shè)和傳播進(jìn)一步整合。只有通過整體的互聯(lián)網(wǎng)品牌分析,幫助品牌建立互聯(lián)網(wǎng)品牌傳播價(jià)值,并圍繞價(jià)值建立品牌粘性,提升品牌與用戶的互動(dòng),更好的幫助品牌傳播,觸發(fā)用戶的行動(dòng)力才是我們工作的終極目標(biāo),這正是一流品牌的成功秘訣。
不可否認(rèn),建立互聯(lián)網(wǎng)品牌傳播價(jià)值的確是門藝術(shù),但互聯(lián)網(wǎng)不同于藝術(shù)涂鴉,企業(yè)投資品牌絕不是希望品牌成為某個(gè)藝術(shù)家的實(shí)驗(yàn)品?;ヂ?lián)網(wǎng)傳播的對(duì)象是用戶,用戶擁有自己的文化體系,群落共性才是互聯(lián)網(wǎng)品牌傳播創(chuàng)意的源頭,如果我們不能幫助企業(yè)激發(fā)目標(biāo)用戶的共鳴,產(chǎn)生購(gòu)買沖動(dòng),那將是品牌的悲劇! 因此,互聯(lián)網(wǎng)傳播必須建立品牌傳播價(jià)值,為夢(mèng)想者創(chuàng)造夢(mèng)想品牌,領(lǐng)跑與您同行!