搜索引擎識別偽原創的算法技術有很多,這里啟邁
網絡公司向大家簡單介紹幾種:
1、信息指技信息指紋技術是指搜索引擎截取一段文字信息,通過然后根據這組詞調用特別的算法,例如MD5,將之轉化為一組代碼,這組代碼就成為標識這個信息的指紋。如果兩篇文章的信息指紋相同,搜索引擎就認為這兩篇文章是重復的。這些信息可能是標點符號,可能是一個詞,也可能是一個句子、一個段落。通常一篇文章會對應多個信息指紋,因此網絡營銷認為,單純的詞語替換(同義/反義)、打落段落順序等偽原創手法是騙不了搜索引擎的。
2、TF/IDF算法這是一種常用的計算相似度的算法。TF是Term Frequency的縮寫,譯成中文是詞頻,指的是某一個詞在文章中出現的次數;IDF是Inverse Document Frequency的縮寫,中文譯成反文檔頻率,IDF越大,表明這個詞在其它文章中出現的次數很少,說明這個詞有很好的類別區分能力。 將兩篇文章分別用TF/IDF算法計算后,各產生一個內容特征向量,如果兩篇文章的特征向量相近,搜索引擎就認為這兩篇文章的內容相似,如果兩個特征向量一致,就認為這兩篇文章是重復的。
3、文章與站點主題的相關性百度等搜索引擎在收錄網站的時候,就已經為每個站點劃定了主題范圍。如果某篇文章的主題與整個站點的主題相關度很低,比如你的站是一個做化妝品評測的站,其中卻有篇文章是說挖掘機性能的,這樣與整站主題不相關的文章也容易被搜索引擎認為是重復內容。 搜索引擎喜歡獨特的原創的內容,在這里也提醒廣大站長,在做關鍵詞布署時一定要注意主題相關,站內不相關的文章或者網頁占到一定幅度,就可能引發搜索引擎的反作弊機制,被降權甚至K站。
4、借鑒二次搜索率、跳出時間等數據判定偽原創文章,尤其是程序生成的偽原創文章,它的閱讀體驗是非常差的。大家可以想象,用戶如果在搜索時點擊了此類文章,一定會很快的跳出頁面,點擊其它搜索結果,或者搜索另一個關鍵詞。搜索引擎通過數據監測到用戶的這種行為,也可能會判定這篇文章是偽原創文章。
看了上面的分析,站長朋友們應該了解簡單的替換詞語等偽原創方式對網站是弊大于利,即使做偽原創,也要做深加工的偽原創,在借鑒別人觀點的基礎上自己再進行總結、分析,這樣寫出來的文章才對用戶有價值,也才會被搜索引擎認可。