关于网页信噪比和相关度计算

看到飘渺蝶舞这篇文章的时候,真是很惊喜,这应该是在网上为数不多的SEO技术的量化帖子了。

一般我们查相关关键词可能会通过两个方式,一个是查看百度相关搜索,另外一个是通过目测,看看两个词汇之间是否具有相关度,实际上后面一种办法是相当不科学和不准确的。

还记得小达哥做163邮箱这个词的时候,在百度搜索“163邮箱”出现“丘仕达”这个关键词吗?当时很多人开始研究相关关键词,前段时间我也做过类似实验,搜索SEO出现“飘渺蝶舞”。那么这究竟是如何出现的呢?

举个例子,我们现在有两个网页

A网页的内容是手机描述,出现最高频率的关键词是:手机,蓝牙,彩屏

B网页的内容是手机服务,出现最高频率的关键词是:中国移动,彩铃,短信

如果我们仅仅按照目测的话,我们会得出以下的结果

A网页和B网页是不相关的

搜索A的词不会出现B,而搜索B的词,不会出现A

这是明显有错误的,我们在查看网页词汇的相关度的时候,如果仅仅看到的是网页表面的词汇,我们无法把握很多相关长尾词汇,我们要看到的是这个词后面隐含更深的意义。

我们在搜索“手机”这个关键词的时候,搜索引擎返回的数据往往有可能会是以下这样

{彩屏*彩屏在文章中的权重,蓝牙*蓝牙在文章中的权重,彩铃*彩铃在文章中的权重,……}

按照这样的算法,我们就可以将一篇文章中的关键词拓展出多个相关词汇,也可以将其他相关词汇所对应的向量拓展更多的词汇。

这样我们就需要计算一个相关词汇的矩阵M。

假如现在有a词和b词

那么M(a,b) = {关键词a,b的相关度}

这样以来,两篇文章的相关度的计算公式就变成了R= Sigma Vi*M(a,b)*Vj

那么相关度到底如何计算呢?

举个例子,手机和蓝牙,我们用以下方式计算

一个文章集合 {W},总文章数目为N,其中含有单词A的文章总数为N1,含有单词B的文章总数是N2,含有{A+B}的文章总数是 N12,那么相关性这么计算

CorrAB= N12/(N1+N2-N12)-(N1*N2)/(N*N)

注意,这里计算的结果有可能会变成负值,如果A和B都是小量的

CorrAB= N12/(N1+N2-N12)

这样就可以算出两篇文章中的相关度了

现在让百度来告诉我们手机和蓝牙之间到底会被百度认为有多少相关度

搜索手机:百度一下,找到相关网页约100,000,000篇

搜索蓝牙:百度一下,找到相关网页约28,000,000篇

搜索手机+蓝牙:百度一下,找到相关网页约22,400,000篇

Corr{手机,蓝牙}=22,400,000/(100,000,000+28,000,000-22,400,000)=0.21 也就是21%

利用这个办法计算网页信噪比,是衡量一个网页关键词的最准确的,当然也是最核心的算法。呵呵,看明白了吗?没有的话多看几次,这些都是一个seoer所必须拥有的哦~

转自:飘渺蝶舞

相关日志:

  1. DedeCMS如何SEO的探索(2)
  2. 翻译《The Art of the Content Site》第三波
  3. 翻译《The Art of the Content Site》第四波
  4. SEO之目的
  5. 2007年点石最后一次线下活动南京茶话会专题
  6. 点石论坛正式关闭注册
  7. 外链的建设(一)
  8. 外链建设(二)
This entry was posted in SEO. Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>