公司網(wǎng)站制作基于網(wǎng)頁鏈接的通用識別方式
日期 : 2020-12-22 12:10:16
基于網(wǎng)頁鏈接的通用識別方式。前面介紹的垃圾網(wǎng)頁識別技術(shù)并不具有通用性,而且非常被動,總是等到出現(xiàn)一種作弊方式后才針對性的采用一種相應(yīng)的補(bǔ)救措施,有些事后諸葛亮的做法。而下面要介紹的基于鏈接結(jié)構(gòu)以及稍后介紹的機(jī)器學(xué)習(xí)分類法與作弊方式均無關(guān),具有很強(qiáng)的通用性。
Trust Rank算法是一種基于鏈接結(jié)構(gòu)的用來識別垃圾網(wǎng)頁的經(jīng)典算法。這個算法的假設(shè)條件是頁面A鏈接到頁面B則意味著頁面A推薦頁面B的內(nèi)容,因此頁面A的Trust Rank值可以傳遞分配一部分給頁面B。也就是說質(zhì)量高的網(wǎng)頁通常只會被質(zhì)量更高的網(wǎng)頁鏈接指向。
于是可以先構(gòu)建一定數(shù)量的具備較高權(quán)威內(nèi)容或者較多出鏈接的知名網(wǎng)頁作為起點(diǎn)種子網(wǎng)頁,然后將它們的Trust Rank值按照出鏈接數(shù)量比例傳遞分配到第二層頁面,按照同樣的方法將Trust Rank值傳遞分配到第三、四層,以此類推。這樣,通常越遠(yuǎn)離第一層種子網(wǎng)頁的Trust Rank值越小,越有可能是垃圾網(wǎng)頁。于是可以設(shè)定一個閾值,當(dāng)?shù)陀谶@個值時將其判斷為垃圾頁面。
Trust Rank算法是一種基于鏈接結(jié)構(gòu)的用來識別垃圾網(wǎng)頁的經(jīng)典算法。這個算法的假設(shè)條件是頁面A鏈接到頁面B則意味著頁面A推薦頁面B的內(nèi)容,因此頁面A的Trust Rank值可以傳遞分配一部分給頁面B。也就是說質(zhì)量高的網(wǎng)頁通常只會被質(zhì)量更高的網(wǎng)頁鏈接指向。
于是可以先構(gòu)建一定數(shù)量的具備較高權(quán)威內(nèi)容或者較多出鏈接的知名網(wǎng)頁作為起點(diǎn)種子網(wǎng)頁,然后將它們的Trust Rank值按照出鏈接數(shù)量比例傳遞分配到第二層頁面,按照同樣的方法將Trust Rank值傳遞分配到第三、四層,以此類推。這樣,通常越遠(yuǎn)離第一層種子網(wǎng)頁的Trust Rank值越小,越有可能是垃圾網(wǎng)頁。于是可以設(shè)定一個閾值,當(dāng)?shù)陀谶@個值時將其判斷為垃圾頁面。