在(exist)一(one)般的(of)搜索引擎架構中,網頁去重一(one)般在(exist)Spider抓取部分就存在(exist)了(Got it),“去重”步驟在(exist)整個(indivual)搜索引擎架構中實施得越早,越可以(by)節約後續處理系統的(of)資源使用(use)。搜索引擎一(one)般會對已經抓取過的(of)重複頁面進行歸類處理,比如,判斷某個(indivual)站點是(yes)否包含大(big)量的(of)重複頁面,或者該站點是(yes)否完全采集其他(he)站點的(of)内容等,以(by)決定以(by)後對該站點的(of)抓取情況或是(yes)否直接屏蔽抓取。
去重的(of)工作(do)一(one)般會在(exist)分詞之後和(and)索引之前進行(也有可能在(exist)分詞之前),搜索引擎會在(exist)頁面已經分出(out)的(of)關鍵詞中,提取部分具有代表性的(of)關鍵詞,然後計算這(this)些關鍵詞的(of)“指紋”。每一(one)個(indivual)網頁都會有個(indivual)這(this)樣的(of)特征指紋,當新抓取的(of)網頁的(of)關鍵詞指紋和(and)已索引網頁的(of)關鍵詞指紋有重合時(hour),那麽該新網頁就可能會被搜索引擎視爲(for)重複内容而放棄索引。
實際工作(do)中的(of)搜索引擎,不(No)僅僅使用(use)分詞步驟所分出(out)的(of)有意義的(of)關鍵詞,還會使用(use)連續切割的(of)方式提取關鍵詞,并進行指紋計算。連續切割的(of)方式提取關鍵詞,并進行指紋計算,連切割就是(yes)以(by)單個(indivual)字向後移動的(of)方式進行切割就是(yes)單個(indivual)字向後移動的(of)方式進行切詞,比如,“百度開始打擊買賣鏈接”會被切成“百度開”“度開始”“開始打”“始打擊”“打擊買”“擊買賣”“買賣鏈”“賣鏈接”。然後從這(this)些詞中提取部分關鍵詞進行指紋計算,參與是(yes)否重複内容的(of)對比。這(this)隻是(yes)搜索引擎識别重複網頁的(of)基本算法,還有很多其他(he)對付重複網頁的(of)算法。
因此網絡上(superior)流行的(of)大(big)部分僞原創工具,不(No)是(yes)不(No)能欺騙搜索引擎,就是(yes)把内容做的(of)鬼都讀不(No)通,所以(by)理論上(superior)使用(use)普通僞原創工具不(No)能得到(arrive)搜索引擎的(of)正常收錄和(and)排名。但是(yes)由于(At)百度并不(No)是(yes)對所有的(of)重複頁面都直接抛棄不(No)索引,而是(yes)會根據重複網頁所在(exist)網站的(of)權重适當放寬索引标準,這(this)樣使得部分作(do)弊者有機可乘,利用(use)網站的(of)高權重,大(big)量采集其他(he)站點的(of)内容獲取搜索流量。不(No)過自2012年6月份以(by)來(Come),百度搜索多次升級算法,對采集重複信息、垃圾頁面進行了(Got it)多次重複級的(of)打擊。所以(by)SEO在(exist)面對網站内容時(hour),不(No)應該再以(by)僞原創的(of)角度去建設,而需要(want)以(by)對用(use)戶有用(use)的(of)角度去建設,雖然後者的(of)内容不(No)一(one)定全部是(yes)原創,一(one)般如果網站權重沒有大(big)問題,都會得到(arrive)健康的(of)發展。關于(At)原創問題,本書後續會在(exist)第12章進行詳細讨論。
另外,不(No)僅僅是(yes)搜索引擎需要(want)“網頁去重”,自己做網站也需要(want)對站内頁面進行去重。比如分類信息、B2B平台等UGC類的(of)網站,如果不(No)加以(by)限制,用(use)戶所發布的(of)信息必然會有大(big)量的(of)重複,這(this)樣不(No)僅在(exist)SEO方面表現不(No)好,站内用(use)戶體驗也會降低很多。有如SEO人(people)員在(exist)設計流量産品常見的(of)一(one)般爲(for)以(by)“聚合”爲(for)基礎的(of)索引頁、專題頁或目錄頁,“聚合”就必須有核心詞,不(No)加以(by)過濾,海量核心詞所擴展出(out)來(Come)的(of)頁面就可能會有大(big)量重複,從而導緻該産品效果不(No)佳,甚至會因此被搜索引擎降權。
“去重”算法的(of)大(big)概原理一(one)般就是(yes)如上(superior)所述,有興趣的(of)朋友可以(by)了(Got it)解一(one)下I-Match、Shingle、SimHash及餘弦去重具體算法。搜索引擎在(exist)做“網頁去重”工作(do)之前首先要(want)分析網頁,内容周圍的(of)“噪聲”對去重結果多少會有影響,做這(this)部分工作(do)時(hour)隻對内容部分操作(do)就可以(by)了(Got it),相對來(Come)說會簡單很多,并且可以(by)很有效地(land)輔助産出(out)高質量的(of)“SEO産品”。作(do)爲(for)SEO人(people)員隻要(want)了(Got it)解實現原理就可以(by)了(Got it),具體在(exist)産品中的(of)應用(use),需要(want)技術人(people)員來(Come)實現。此外還涉及效率、資源需求等問題,并且根據實際情況“去重”工作(do)也可以(by)在(exist)多個(indivual)環節進行(比如對核心詞的(of)分詞環節),SEO人(people)員隻要(want)稍微了(Got it)解一(one)些原理,能夠爲(for)技術人(people)員建議幾個(indivual)方向就很不(No)錯了(Got it)(技術人(people)員并不(No)是(yes)萬能的(of),也有不(No)熟悉、不(No)擅長的(of)領域,在(exist)特定時(hour)刻也需要(want)别人(people)提供思路)。如果SEO人(people)員能在(exist)這(this)些方面和(and)技術人(people)員進行深入的(of)交流,技術人(people)員也會對SEO另眼相看,至少不(No)會再認爲(for)“SEO人(people)員就隻會修改标題、改鏈接、改文字之類‘無聊’的(of)需求”了(Got it)。
總結:在(exist)次感謝痞子瑞的(of)怎麽好的(of)書本,妮子在(exist)SEO思維中,找到(arrive)新的(of)知識,去重,指紋原理。希望兄弟姐妹們(them)可以(by)去看看這(this)本書,今天給大(big)家分享一(one)部分吧!往後的(of)日子,看到(arrive)好的(of)知識點,會繼續和(and)大(big)家分享了(Got it)。
上(superior)一(one)篇:新網站快速見效果的(of)辦法
下一(one)篇:網絡營銷SEO的(of)好處