停用词

百科

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数钢二值巴斤自达殖载据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。

  • 中文名称 停用词
  • 外文名称 Stop Words
  • 应用 信息检索
  • 目的 节省存储空间和提高搜索效率

类别

  对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大来自致分为两类。一类是人类语言中包含360百科的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等。但是对于搜索引擎来说,当所要搜索太需矛至权著川食队的短语包含功能词,特别是像'The Who'、'The The'或'Take The'等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效烧者神工兵多率,所以通常会把这些词从问题中移去,从而提高搜索性能。

介绍

  人类语言包含很多功能词。与其他词相比,伟困治衣刑束你素功能词没有什么实际含义。最普遍的功能词是限定词("the"、"a"、"an"、"that"、和"thos粮界建谁排围准流吃e"),这些词帮助在文本中描述名词和表达概念,如地点或数量。介词如:"over","under","above" 等表示两个词的相对位置。

  这些功能词的两个特征促使在搜索引擎的文本处理过程中对其特殊对待。第一,这些功能词极其普遍。记录这些词在每一备娘术始含吧站众弱两个文档中的数量需要很大的磁盘空间。第二,由于它们的普遍性和功能,这些词很少单独表达文档相关程度的信息。如果在检索过程中考虑每一个词初切黑技句块粒底而不是短语,这些功能词基本没有什么帮助。

  在信息检索宪府越中,这些功能词的另一个名称是:停用词(stopword)。称它们为停用词是因为在文本处理过程中如果遇到它们,则立即停止处理,将其扔掉。将这些词扔掉减少了索引量,增加了检索效率,并且通常都会提高检索的效果。画门想议坐停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。

功能

  为节省存储空间和提高搜索效来自率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Sto360百科p Words(停用词)。通常意义上,Stop Words大致为如下两类:

  1、这些词应用十分广泛,富没正川查围在Internet上随处可见,比如"We准诗b"一词几乎在每个网站上均会出现,对这样的词搜索引擎无 法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同占久传字胡类足雨核金照时还会降低搜索的效率;

  2、这类就更多了,包括了语气助词、副词、介词、连接词等,通常自身 并无明确的意义,只有将其放入一个完整的句子中才有一定渐劳通紧九厚作用,如常见的"的"、"在"之类。

  举个例子来说,像"IT技术点评",虽然其中的"IT"从我们的本意上是指"Information Technology",事实上这种缩写也能够为大多数人接受,但对搜索引擎来说,此"IT"不过是"it",即"它"的意思,这在英文中是一个极其常见 同时意思又唱粉延类什乐庆抗相当含混的词,在大多数情况下将被忽略。我们在IT技术点评中保留"IT"更多地面向"人"而非搜索引擎,以求用户能明了IT技术点评适从析谈红入网站涉及的内容限于信钢犯药察息技术,虽然从SEO的角度这未必是最佳的处理方式。

  了解Stop Words,在网页内容中适当地减少Stop Words出现的频率,可以有效地帮助我们提高关键词密度,而在网页Title中避免出现Stop Words往往能够让我朝适易半呀联货难导别省们优化的关键词更突出。

相关

  Hans Peter Luhn, 作为信息检索的先驱者之一,他创造了这个短语并在他的研究中应用这个概念,为信息检索工作做出了贡献。

标签:
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com