杭(háng)州SEO专用徐少辉要说(shuō)的是(shì):网页查重算法(fǎ),也就是(shì)搜索引擎是怎(zěn)么检查(chá)两个网页(yè)的相(xiàng)似(sì)性的?这应该是大家应(yīng)该比较关心的问(wèn)题吧,因为这有助(zhù)于(yú)让你(nǐ)的(de)“伪原创”更像一个“原创”
首先我跟(gēn)大(dà)家讲有名的I—MATCH算法。
我们在比较(jiào)两件事(shì)物的相似性时,往往都会拿能均衡的反(fǎn)应这事物本质(zhì)的(de)东西来比(bǐ)较,就(jiù)像比赛时,要(yào)去除一个最高分和最低分(fèn),然后再(zài)变算总(zǒng)分一(yī)样(yàng)~~
I—MATCH算法基于的依据是(shì),在文挡中,特别高频的(de)词和特别低频的词无法反应这(zhè)一个文挡的真实(shí)内容,所以在比较之前,先将文挡中高频词和低频词去掉(diào)(注意:这里的高频和低频指的是(shì)文档频率,并非(fēi)关键词在你网(wǎng)页中的密度!)
我(wǒ)们来看一个(gè)例子:
这里有两(liǎng)段网页文字:
1.中国足球队在(zài)米(mǐ)卢的率领下首次获得世界(jiè)杯决(jué)赛阶(jiē)段的比赛(sài)资格,新浪体育播(bō)报(bào) 。
2.米卢率领中国足(zú)球队员(yuán)首次(cì)杀(shā)入世界杯决赛阶段(duàn),搜狐体育(yù)播报。(嘿嘿,看到这两(liǎng)句很熟吧?)
文档(一(yī))中(zhōng)去掉高频:中国(guó),在,的(de),获得,比赛(sài),资格,新(xīn)浪,体(tǐ)育,播报(bào)
去掉低频:米卢
则(zé)剩下(xià)中频词有:足(zú)球队(duì),率领,首次(cì),世界杯,决赛,阶段(duàn)
文(wén)档(二)中去掉高频(pín):中国,搜狐,体育,播报
去(qù)掉低频:米卢,杀入
则剩(shèng)下中(zhōng)频词有:率领,足球队(duì),首次,世界杯,决赛 ,阶段
看(kàn)到(dào)了吧?剩下的,两者是一模(mó)一(yī)样 这(zhè)就(jiù)是相似性的存在
呵呵,其实(shí)这个例(lì)子很早就有过(guò)的。。
综上所述:搜索(suǒ)引擎要检测相似性(xìng),主要就是要分词(cí)和词频的比较!!
|