搜索引擎的工作過程大致可以分為三個(gè)階段:
(1)爬行:搜索引擎蜘蛛通過跟蹤鏈接來查找和訪問頁面,讀取頁面的HTML代碼,并將其保存在數(shù)據(jù)庫中。
(2)預(yù)處理:索引程序?qū)Σ东@的頁面數(shù)據(jù)進(jìn)行文本提取、中文分詞、索引、倒排索引等處理,調(diào)用排名程序。
(3)排名:用戶輸入查詢詞(關(guān)鍵字)后,排名程序調(diào)用索引數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。
爬行是搜索引擎工作的首步,完成數(shù)據(jù)采集任務(wù)。搜索引擎用來抓取頁面的程序叫做蜘蛛
一個(gè)合格的SEOER,為了讓自己的頁面更多的被收錄,我們必須盡量吸引蜘蛛來抓取。
蜘蛛抓取頁面有幾個(gè)因素:
(1)網(wǎng)站和頁面的權(quán)重。高質(zhì)量、長時(shí)間的網(wǎng)站通常被認(rèn)為是具有高權(quán)重、高爬行深度和更多包含頁面的網(wǎng)站。
(2)頁面的更新頻率。每次蜘蛛爬行,它都會存儲頁面數(shù)據(jù)。如果第二次和第三次與初次相同,則表示沒有更新。隨著時(shí)間的推移,蜘蛛不需要經(jīng)常抓取你的頁面。如果內(nèi)容經(jīng)常更新,蜘蛛會頻繁訪問頁面以獲取新頁面。
(3)導(dǎo)入鏈接,無論是內(nèi)部鏈接還是外部鏈接,都要被蜘蛛抓取,必須有導(dǎo)入鏈接進(jìn)入頁面,否則蜘蛛就不會知道頁面的存在。
(4)與主頁的點(diǎn)擊距離一般是網(wǎng)站上權(quán)重較高的主頁,而且大部分外部鏈接都會指向主頁,所以蜘蛛比較常訪問的頁面就是主頁。與主頁的單擊距離越近,頁面權(quán)重越高,被爬網(wǎng)的機(jī)會就越大。
堅(jiān)持網(wǎng)站內(nèi)容更新的頻率,較好的是高質(zhì)量的原創(chuàng)內(nèi)容。
主動把我們的新頁面提供給搜索引擎,讓蜘蛛更快地找到它們,比如百度的鏈接提交、抓取診斷等。
要建立外部鏈接,可以與相關(guān)網(wǎng)站交換鏈接,也可以轉(zhuǎn)到其他平臺,發(fā)布指向自己頁面、包含相關(guān)內(nèi)容的高質(zhì)量文章。
要制作網(wǎng)站地圖,每個(gè)網(wǎng)站都應(yīng)該有一個(gè)網(wǎng)站地圖。網(wǎng)站的所有頁面都在網(wǎng)站地圖中,方便蜘蛛抓取。