SEO優(yōu)化經(jīng)驗(yàn):2013年最新百度搜索引擎蜘蛛爬行工作原理
發(fā)表時(shí)間:2024-06-18 來(lái)源:明輝站整理相關(guān)軟件相關(guān)文章人氣:
[摘要]搜索引擎工作原理的圖片詳解 根據(jù)上圖解釋的搜索引擎工作原理,下面為大家一步一步解釋?zhuān)v解。 1、www:我們的互聯(lián)網(wǎng),一個(gè)巨大的、復(fù)雜的體系; 2、搜集器:這個(gè)我們站長(zhǎng)們就都熟悉了,我們對(duì)它的俗稱(chēng)也就是蜘蛛,爬蟲(chóng),而他的工作任務(wù)就是訪問(wèn)頁(yè)面,抓取頁(yè)面,并下載頁(yè)面; 3、控制器:蜘蛛下載下來(lái)的傳給控...
搜索引擎工作原理的圖片詳解
根據(jù)上圖解釋的搜索引擎工作原理,下面為大家一步一步解釋?zhuān)v解。
1、www:我們的互聯(lián)網(wǎng),一個(gè)巨大的、復(fù)雜的體系;
2、搜集器:這個(gè)我們站長(zhǎng)們就都熟悉了,我們對(duì)它的俗稱(chēng)也就是蜘蛛,爬蟲(chóng),而他的工作任務(wù)就是訪問(wèn)頁(yè)面,抓取頁(yè)面,并下載頁(yè)面;
3、控制器:蜘蛛下載下來(lái)的傳給控制器,功能就是調(diào)度,比如公交集團(tuán)的調(diào)度室,來(lái)控制發(fā)車(chē)時(shí)間,目的地,主要來(lái)控制蜘蛛的抓取間隔,以及派最近的蜘蛛去抓取,我們做SEO的可以想到,空間位置對(duì)SEO優(yōu)化是有利的;
4、原始數(shù)據(jù)庫(kù):存取網(wǎng)頁(yè)的數(shù)據(jù)庫(kù),就是原始數(shù)據(jù)庫(kù)。存進(jìn)去就是為了下一步的工作,以及提供百度快照,我們會(huì)發(fā)現(xiàn),跟MD5值一樣的URL是不重復(fù)的,有的URL有了,但標(biāo)題就是沒(méi)有,只有通過(guò)URL這個(gè)組件來(lái)找到,因?yàn)檫@個(gè)沒(méi)有通過(guò)索引數(shù)據(jù)庫(kù)來(lái)建立索引。原始數(shù)據(jù)庫(kù)主要功能是存入和讀取的速度,以及存取的空間,會(huì)通過(guò)壓縮,以及為后面提供服務(wù)。網(wǎng)頁(yè)數(shù)據(jù)庫(kù)調(diào)度程序?qū)⒅┲胱ト』貋?lái)的網(wǎng)頁(yè),進(jìn)行簡(jiǎn)單的分析過(guò)后,也就是提取了URL,簡(jiǎn)直的過(guò)濾鏡像后存入數(shù)據(jù)當(dāng)中,那么在他的數(shù)據(jù)當(dāng)中,是沒(méi)有建立索引的;
5、網(wǎng)頁(yè)分析模板:這一塊非常重要,seo優(yōu)化的垃圾網(wǎng)頁(yè)、鏡像網(wǎng)頁(yè)的過(guò)濾,網(wǎng)頁(yè)的權(quán)重計(jì)算全部都集中在這一塊。稱(chēng)之為網(wǎng)頁(yè)權(quán)重算法,幾百個(gè)都不止;
6、索引器:把有價(jià)值的網(wǎng)頁(yè)存入到索引數(shù)據(jù)庫(kù),目的就是查詢(xún)的速度更加的快。把有價(jià)值的網(wǎng)頁(yè)轉(zhuǎn)換另外一個(gè)表現(xiàn)形式,把網(wǎng)頁(yè)轉(zhuǎn)換為關(guān)鍵詞。叫做正排索引,這樣做就是為了便利,網(wǎng)頁(yè)有多少個(gè),關(guān)鍵詞有多少個(gè)。幾百萬(wàn)個(gè)頁(yè)面和幾百萬(wàn)個(gè)詞哪一個(gè)便利一些。倒排索引把關(guān)鍵詞轉(zhuǎn)換為網(wǎng)頁(yè),把排名的條件都存取在這個(gè)里面,已經(jīng)形成一高效存儲(chǔ)結(jié)構(gòu),把很多的排名因素作為一個(gè)項(xiàng)存儲(chǔ)在這個(gè)里面,一個(gè)詞在多少個(gè)網(wǎng)頁(yè)出現(xiàn)(一個(gè)網(wǎng)頁(yè)很多個(gè)關(guān)鍵詞組成的,把網(wǎng)頁(yè)變成關(guān)鍵詞這么一個(gè)對(duì)列過(guò)程叫做正排索引。建議索引的原因:為了便利,提高效率。一個(gè)詞在多少個(gè)網(wǎng)頁(yè)中出現(xiàn),把詞變成網(wǎng)頁(yè)這么一個(gè)對(duì)列過(guò)程叫做倒排索引。搜索結(jié)果就是在倒排數(shù)據(jù)庫(kù)簡(jiǎn)直的獲取數(shù)據(jù),把很多的排名因素作為一個(gè)項(xiàng),存儲(chǔ)在這個(gè)里面);
7、索引數(shù)據(jù)庫(kù):將來(lái)用于排名的數(shù)據(jù)。關(guān)鍵詞數(shù)量,關(guān)鍵詞位置,網(wǎng)頁(yè)大小,關(guān)鍵詞特征標(biāo)簽,指向這個(gè)網(wǎng)頁(yè)(內(nèi)鏈,外鏈,錨文本),用戶(hù)體驗(yàn)這些數(shù)據(jù)全部都存取在這個(gè)里面,提供給檢索器。為什么百度這么快,就是百度直接在索引數(shù)據(jù)庫(kù)中提供數(shù)據(jù),而不是直接訪問(wèn)WWW。也就是預(yù)處理工作;
8、檢索器:將用戶(hù)查詢(xún)的詞,進(jìn)行分詞,再進(jìn)行排序,通過(guò)用業(yè)內(nèi)接口把結(jié)果返回給用戶(hù)。負(fù)責(zé)切詞,分詞,查詢(xún),根據(jù)排名因素進(jìn)行數(shù)據(jù)排序;
9、用戶(hù)接口:將查詢(xún)記錄,IP,時(shí)間,點(diǎn)擊的URL,以及URL位置,上一次跟下一次點(diǎn)擊的間隔時(shí)間存入到用戶(hù)行為日志數(shù)據(jù)庫(kù)當(dāng)中。就是百度的那個(gè)框,一個(gè)用戶(hù)的接口;
10、用戶(hù)行為日志數(shù)據(jù)庫(kù):搜索引擎的重點(diǎn),SEO工具和刷排名的軟件都是從這個(gè)里面得出來(lái)的。用戶(hù)使用搜索引擎的過(guò)程,和動(dòng)作;
11、日志分析器:通過(guò)用戶(hù)行為日志數(shù)據(jù)庫(kù)進(jìn)行不斷的分析,把這些行為記錄存儲(chǔ)到索引器當(dāng)中,這些行為會(huì)影響排名。也就是我們所說(shuō)的惡意點(diǎn)擊,或是一夜排名。(如果通過(guò)關(guān)鍵找不到,那么會(huì)直接搜索域名,這些都將會(huì)記入到用戶(hù)行為數(shù)據(jù)庫(kù)當(dāng)中);
12、詞庫(kù):網(wǎng)頁(yè)分析模塊中日志分析器會(huì)發(fā)現(xiàn)最新的詞匯存入到詞庫(kù)當(dāng)中,通過(guò)詞庫(kù)進(jìn)行分詞,網(wǎng)頁(yè)分析模塊基于詞庫(kù)的。
SEO常用搜索引擎命令大全
百度SEO優(yōu)化經(jīng)驗(yàn):百度外鏈經(jīng)驗(yàn)分享
學(xué)習(xí)教程快速掌握從入門(mén)到精通的電腦知識(shí)