网站推广-网站优化-合肥久飞SEO论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 6441|回复: 0

搜索引擎是如何计算词语权重的

[复制链接]
发表于 2008-9-22 15:59:20 | 显示全部楼层 |阅读模式
今天我们拿原子能的应用”这个词来给分析一下看看搜索引擎是如何识别词的权重和如何计算的:

短语原子能的应用”可以分成三个关键词: 原子能、的、应用。根据我们的直觉,我们知道,包含这三个词多的网页应该比包含它们少的网页相关。当然,这个办法有一个明显的漏洞,就是长的网页比短的网 页占便宜,因为长的网页总的来讲包含的关键词要多些。因此我们需要根据网页的长度,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数。我 们把这个商称为关键词的频率”,或者单文本词汇频率”(Term Frequency),比如,在某个一共有一千词的网页中原子能”、的”和应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询原子能的应用”
相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性就是:
TF1 + TF2 + ... + TFN。

读 者可能已经发现了又一个漏洞。在上面的例子中,词的”站了总词频的 80% 以上,而它对确定网页的主题几乎没有用。我们称这种词叫应删除词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删 除词还有是”、和”、中”、地”、得”等等几十个。忽略这些应删除词后,上述网页的相似度就变成了0.007,其中原子能”贡献了 0.002,应用”贡献了 0.005。


细心的读者可能还会发现另一个小的漏洞。在汉语中,应用”是个很通用的词,而原子能”是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件:

1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到原子能”这个词,或多或少地能了解网页的主题。我们看到应用”一次,对主题基本上还是一无所知。因此,原子能的权重就应该比应用大。

2. 应删除词的权重应该是零。

我 们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍 然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。在信息检索中,使用最多的权重是逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词的”在所有的网页中都出现,即Dw =10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。假如专用词原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词应用”,出现在五亿个网页中,它的权重IDF = log(2)
则只有 0.7。也就只说,在网页中找到一个原子能”的比配相当于找到九个应用”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。在上面的例子中,该网页和原子能的应用”的相关性为 0.0161,其中原子能”贡献了 0.0126,而应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。

本文地址: https://jiufei.net/bbs/thread-411-1-1.html
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|合肥网站优化,合肥百度优化,合肥网络推广,合肥SEO优化论坛 ( 皖ICP备2022014487号-2 )

GMT+8, 2025-1-31 13:01 , Processed in 0.061538 second(s), 19 queries , File On.

Powered by jiufei X3.4

© 2008-2020 www.jiufei.net

快速回复 返回顶部 返回列表