◆網(wǎng)址規(guī)范化問題會產(chǎn)生復制內(nèi)容;
◆代理商和零售商從產(chǎn)品生產(chǎn)商那里轉(zhuǎn)載產(chǎn)品信息,這倒沒什么不對,一般生產(chǎn)商也都同意,沒有版權問題,但是絕大部升代理商、零售商、批發(fā)商都是直接copy而不做任何改動,大家用的都是一模一樣的產(chǎn)品說明,所以這些電子商務網(wǎng)站上充斥著大量復制內(nèi)容;
◆打印版本,很多網(wǎng)站除了正常供瀏覽的頁面外,還提供更適于打印的頁面版本;
◆如果沒有用適當方式禁止抓取,這些打印版本網(wǎng)頁就會變成復制內(nèi)容 ;
◆網(wǎng)站結構造成的各種頁面版本。如產(chǎn)品列表按價格、評論、上架時間等排序頁面博客的分類存檔、時間存檔等;
◆網(wǎng)頁內(nèi)容由RSS生成。有很多網(wǎng)站,尤其是新聞類網(wǎng)站,用其他網(wǎng)站的 RSS feed生成網(wǎng)站內(nèi)容,這些內(nèi)容在原始出處和很多其他類似網(wǎng)站上都已經(jīng)出現(xiàn)過很多次了;
◆使用Session ID,搜索引擎蜘蛛在不同時間訪問網(wǎng)頁的時候,被給予了不同的SessionID,實際上網(wǎng)頁內(nèi)容是一樣的。由于Session ID參數(shù)不同,就被當成了不同的網(wǎng)頁實質(zhì)內(nèi)容太少。每個網(wǎng)頁上都不可避免地有通用部分,比如導航條、版權聲明、廣告等。如果網(wǎng)頁的正文部分太短,內(nèi)容數(shù)量還抵不上通用部分,就有可能被認為是復制內(nèi)容頁面;
◆轉(zhuǎn)載及抄表。有時是其他人抄襲了你的網(wǎng)站內(nèi)容,有時是善藯的轉(zhuǎn)載,有時是作者自己在不同網(wǎng)站發(fā)布文章,這些都會造成復制內(nèi)容
◆鏡象網(wǎng)站,鏡象網(wǎng)站曾經(jīng)很流行,當一個網(wǎng)站太忙太慢的時候,用戶可以通過替代鏡象來看內(nèi)容或下載,這也有造成復制內(nèi)容的風險;
◆產(chǎn)品或服務類型之間的區(qū)別比較小,比如有的網(wǎng)站把自己的服務按地區(qū)進行分類,但實際上提供給每個地區(qū)的產(chǎn)品或服務都是一樣的。這些按地區(qū)分類的頁面只是把地名改了改,其他服務內(nèi)容說明完全一樣;
◆URL任意加字符還是返回200狀態(tài)碼。有的網(wǎng)站由于技術原因,用戶在URL后加上任意字符或參數(shù),服務器還能正常返回200狀態(tài)碼,并返回沒加上任意字符時樣的重復內(nèi)容頁面;
檢查頁面是否有復制版本相對簡單。合肥網(wǎng)站設計拿出頁面正文中的一句話,加上雙引號,在搜索引擎中搜索一下,從結果中就能看到是否有多個頁面包含這句話。一般來說,隨機挑選的一個句子,完整出現(xiàn)在另一篇無關文章中的可能性很低 。
本文地址:http://m.hbbqcd.cn//article/2777.html