首页 » 科技 » 词表的构建

词表的构建

为什么要对词汇进行控制?

    词汇控制主要用于改善信息存储和检索,网络导航的效果,同时在一些通过语言描述来查找和定位所需要的信息的环境中也能起到作用。词汇控制最初的目的是为了在描述同一个对象时取得一致从而提高检索效率。

1.1 词汇控制的必要

 

    词汇控制主要是由于自然语言的两个基本特点,即:

  •     两个或多个词语能够表达同一个概念(同义词现象)

            例如:salinity/saltiness;VHF/Very High Frequency

  •     拼写相同的两个或多个词语可以代表不同的概念(同形异义现象)

            例如:Mercury (planet),Mercury (metal),Mercury (automobile),Mercury (mythical being)

1.2怎样控制词汇

    词汇控制基于下面三个基本方法:

  •     确定词语的范围和含义
  •     同义词和近义词之间通过等同关系连接
  •     区分同形异义词

    构建受控词汇的准则

  •     选词
  •     定词
  •     确定词间关系
  •     以印刷,联机和网站导航形式提交信息(presenting the information effectively in printed, online, and web navigation sites.)

1.3 词汇控制的目的

    词汇控制是信息组织的一种方法。通过选取受控词汇来描述文件和其他对象,这些文件和对象也就通过受控词汇组织起来了。

    受控词汇有多种类型,常见的有:

  •     可选词单
  •     统一词环
  •     等级分类表
  •     叙词表

    本教程主要关注用于信息表示的受控词汇。

    使用受控词汇主要有五个目的:

  1. 翻译:将作者,标引人员和用户的自然语言转换为能够用于标引和检索的受控语言。
  2. 一致性:促进词汇统一和方便词汇转换(Promote uniformity in term format and in the assignment of terms)
  3. 显示词间关系:显示词间的语义关系
  4. 标签和浏览:提供清晰一致的等级浏览界面帮助用户定位查找。
  5. 检索:作为辅助检索

1.4 词汇受控对信息检索的影响

    信息检索效率有两个传统的评价参数:检全率和检准率。受控词汇对这个两个评价指标都有积极的影响。

    检全率可以通过以下词汇控制方法来改善:

  • 通过正式词和等同关系来控制同义词(见Z39.19 5.3.2章)
  • 正式词表(见Z39.19 6.3章)
  • 联想关系(相关词)(见Z39.19 8.4章)
  • 类目等级关系(见Z39.19 8.3章)
  • 后组配(见Z39.19 7.2.2.1章)
  • 概念图/聚类(见Z39.19 9.3.5章)

     检准率可以通过以下词汇控制方法来改善:

  • 通过附加限定词来防止模棱两可(见Z39.19 6.2.1章)
  • 上位词和下位词的层级关系(见Z39.19 8.3章)
  • 复合词(见Z39.19 7章)
  • 前组配(见Z39.19 7.2.2.2章)

【本文翻译仅为外语学习及阅读目的,原文作者个人观点与译者及译言网无关】

0

返回正文评论