索引
搜索引擎以網(wǎng)頁中的詞語為關(guān)鍵詞,建立的便于查詢的有序文件條目存儲(chǔ)于搜索引掌索引庫中,索引通常分為正排索引和倒排索引兩種。
正排索引是搜索引擎將抓取的網(wǎng)頁經(jīng)過分詞、去噪等操作后以網(wǎng)頁文件為單位,對網(wǎng)頁文件中關(guān)鍵詞的映射。簡單地說就是,正排索引是將網(wǎng)頁文件的各個(gè)關(guān)鍵詞信息存為一個(gè)項(xiàng),包括關(guān)鍵詞的次數(shù)、頻率、加粗加黑、出現(xiàn)的位置等信息,并按照重要程度對關(guān)鍵詞進(jìn)行有序排列。為搜索引擎索引庫正排索引的簡化表,其中每個(gè)網(wǎng)頁的所有關(guān)鍵詞都進(jìn)行了排序,更重要的關(guān)鍵詞被排在更靠前的位置。需要注意的是網(wǎng)頁文件和關(guān)鍵詞都有各自的編號(hào),在檢索時(shí)速度就更快,這與倒排索引中是相同的。
倒排索引是搜索引擎以關(guān)鍵詞為單位對不同網(wǎng)頁文件的映射。也就是搜索引擎以關(guān)鍵詞為條目名,內(nèi)容是含有相同關(guān)鍵詞的網(wǎng)頁文件排序,用戶常用的關(guān)鍵詞搜索就是調(diào)用倒排索引。因?yàn)檎潘饕⒉荒苤苯荧@得搜索結(jié)果排名,所以倒排索引是對正排索引的補(bǔ)充也是用戶搜索調(diào)用的關(guān)鍵索引。當(dāng)用戶搜索某個(gè)具體關(guān)鍵詞時(shí),如“SEO”,搜索引擎調(diào)用以“SEO”為條目名的索引項(xiàng),然后將其中按相關(guān)度排列的網(wǎng)頁文件經(jīng)過處理的結(jié)果返回給查詢用戶。
所示為搜索引擎索引庫倒排索引的簡化表,從中可以看到每個(gè)關(guān)鍵詞對應(yīng)了很多含有這個(gè)關(guān)鍵詞的網(wǎng)頁,這些網(wǎng)頁都是經(jīng)過排序的,極大地提高了搜索引擎搜索引擎索引庫是整個(gè)搜索過程的基礎(chǔ),沒有索引搜索引擎很難查找到相應(yīng)的內(nèi)容。
倒排索引則更好地降低了關(guān)鍵詞搜索網(wǎng)頁的難度,使搜索引擎返回結(jié)果的速度大大提升。
|