网站推广-网站优化-合肥久飞SEO论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 4826|回复: 0

浅析搜索引擎中分词与索引的关系

[复制链接]
笑一笑 该用户已被删除
发表于 2010-1-17 23:08:09 | 显示全部楼层 |阅读模式
分词与索引,是中文搜索里最重要的两个技术,而且两者间是密不可分的。

    很多研究搜索技术的人,都致力于如果提升分词结果的准确性,但在实际应用中,分词准确度稍差些或更好些,对搜索结果影响其实反而不大,对于精确搜索而言,通常采用的还是最大切分法。

这里举一个例子:

    教育部日前颁布实施《中小学实验室规程》,要求各地将实验室建设、维护费用纳入学校教育公用经费开支范围,并保持逐年增长。

这句话理想的分词结果如下:

    “教育部 日前 颁布 实施 《 中小学实验室规程 》 , 要求 各地 将 实验室 建设 、 维护费用 纳入 学校 教育 公用经费 开支 范围。”

    但如果按这样形式去进行索引,事实上它并不是最理想的结果,因为如果用户在前台直接搜索“中小学实验室规程”,它将搜索不到任何内容,   原因很简单,因为词典里是不可能存在“中小学实验室规程”这样的词的,这个词是根据“《》”自动适别为一个词,但如果搜索“中小学实验室规程”,系统却不会把它直接当一个词,而是分为“中小学 实验室 规程”,这样便找不到这条记录了。

如果用最大切分法,上面则应该切分为:

    “教育部 日前 颁布 实施 《 中小学实验室规程 中小学 实验室 规程 》 , 要求 各地 将 实验室 建设 、 维护费用 维护费 用 维护 费用 纳入 学校 教育 公用经费 开支 范围。”

    用这样的数据进行索引才能真正把内容一网打尽。

    当然,如果完全不分词的话,那样结果将很不理想,特别是在统计权重方面,依据十分模糊,因此分词仍然是有必要的,但绝对不是主要的因素。

本文地址: https://jiufei.net/bbs/thread-1675-1-1.html
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|合肥网站优化,合肥百度优化,合肥网络推广,合肥SEO优化论坛 ( 皖ICP备2022014487号-2 )

GMT+8, 2025-4-29 06:18 , Processed in 0.044376 second(s), 16 queries , File On.

Powered by jiufei X3.4

© 2008-2020 www.jiufei.net

快速回复 返回顶部 返回列表