老师的大兔子好软水好多的网站|井田制的特点|亚洲精品无码专区在线在线播放|古典文学下载|少女配狗1-12集全集在线观看|99久久点在线精品|av人人揉揉资源站免费

思億歐觀點

搜索引擎的排序和算法

發布時間:2009-02-23

如何在檢索結果提供時,將最符合檢索要求的資源在排列中靠前,成為提高檢準率的重要手段。

搜索引擎的一個突出問題是,關鍵詞搜索返回的網絡資源數量過多,用戶很難完整地瀏覽,研究發現,多數普通用戶在檢索時,只瀏覽前一、兩頁的網絡資源。因此如何在檢索結果提供時,將最符合檢索要求的資源在排列中靠前,成為提高檢準率的重要手段。針對這一情況,網絡關鍵詞搜索系統的搜索結果提供,一般都采用按匹配加權的方式加以排序顯示,即在返回全部搜索結果的同時,按照與搜索需求的符合程度排序顯示,以便將最符合用戶需求的資源在前面顯示,在保持檢全率的同時提高檢準率。

由于這一原因,自從主題搜索引擎使用以來,好的搜索排序方案成為反映搜索引擎質量的關鍵因素之一。不同的系統往往采用不同的排序提供策略,著名搜索引擎如Google多年來被一些機構評為最佳搜索引擎,其率先提出PageRank算法,優化了搜索排序的效果,是一個重要的因素。根據目前能見到的資料,各種搜索引擎用來確定網絡資源排序依據的因素,基本上涉及兩個方面,其一是相關性因素,即確定其內容是否符合搜索提問;其二則是重要性因素,即判斷該資源本身是否有價值。從實際使用情況看,目前采用作為排序依據的加權方案涉及的因素通常包括:

1.詞頻。即將搜索關鍵詞的匹配詞頻作為排序顯示的一個因素。搜索關鍵詞詞的匹配數量是資源相關性的一個基本因素。在這類算法中,反文獻頻率往往被作為一個因素納入權值計算的范圍。

2.詞匯一致度。在使用多個詞進行搜索匹配時,通常需要根據不同詞匯的匹配度分配權值,如,文本與搜索式中的詞是全部匹配還是部分匹配,文本檢索詞的詞序與搜索式的次序是否一致以及搜索詞的距離因素等,均可以根據情況確定相應的權值。

3.詞位因素。即根據匹配詞出現位置的重要程度給予不同的權值,傳統數據庫系統中通常將標題關鍵詞文摘小標題首段尾段段落的首句一般的正文等賦予不同的權值,在網絡搜索中,一般根據網絡文本的特點,對標題、黑體字、URL等的詞分別給予特定的權值。

4.鏈接因素。根據鏈接的情況賦予相應權值,作為排序的依據。比較典型的如(Google按照PageRank算法,將鏈接數量以及鏈接對象的重要程度作為排序依據;Teoma則采用按照同一專業領域網站(Community)的鏈接情況作為重要性依據的排列策略。

5.點擊因素。即根據用戶使用情況,將使用頻率較高的搜索對象賦予相應權值,提前排列。如HotBot采用Direct Hit技術,對用戶的搜索結果集進行分析,根據訪問網站的用戶的數量和用戶在網站平均停留時間來判斷哪些網站是“受歡迎的網站”,然后對檢索結果進行重新排序,提高那些符合檢索要求而又“受歡迎的網站”在結果集中的排名,相應降低不受用戶關注網站的排名。

6.排除商業因素。如,某些系統若發現搜索對象與人為增加搜索要素的商業公司網站有聯系,則不予排列,以保持系統排列的客觀性。

分享至share
  • pin
  • weibo
  • wechat
email

上一篇:搜索策略

下一篇:文章頁面優化的技巧

tel 24小時免費服務咨詢熱線:400-080-3010

立即咨詢立即咨詢 聯系我們聯系我們