自考02117《信息组织》课程重点知识归纳
第一章
一.信息组织的含义
信息组织,即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
序是事物的一种结构形式,是指事物或系统的各个结构要素之间的相互关系以及这种关系在时间和空间中的表现。
二.信息组织在信息资源建设中的地位与作用
1.信息资源建设的基本内容与环节包括信息的采集,组织,开发和利用。信息组织在其中属于关键因素,处于关节点的地位。
现在社会信息的基本特征是庞杂性和分散性,人们对信息需求的特点是专业的高度选择性,内容的精良性,时间的紧迫性。
2.信息组织是一个信息增值过程。
3.信息组织是信息生命周期管理思想的最积极,最活跃的因素,做好信息组织工作,会促进信息流通,发挥信息效用,使信息流形成良性循环,使信息在时间上更快速的传播。
4.信息组织是信息检索利用的基础。
三.信息组织的发展阶段
1.清册职能时间:它主要通过对信息的记录和登载,如同“信息账房先生”,告诉人们有什么信息而已。
2.查检职能时期:信息组织活动不仅告诉人们有什么信息,而且告诉人们怎样找到信息。
3.组织职能时期:利用计算机技术,通信技术和网络技术已经不满足告诉人们有什么信息和怎样找到信息。它不仅可以告诉人们我们这里有什么信息,而且还可以告诉人们其他地方有什么信息。人们还可以知道什么信息适合于自己,可以多途径多角度地查检信息。
四.信息组织的理论基础
系统论,耗散结构理论和协同论使信息组织有了理论基础。
五.信息组织的方法基础
语言学,逻辑学,知识分类是信息组织的方法基础。
要把庞杂分散的信息组织成有序优化的整体,就必须建立符号系统,但都和自然语言一样,有着共同特征:有语词,有词汇,有语法,这就是信息组织的语言学基础。
知识分类是一门研究知识体系结构的学问。
六.信息组织的基本方法
信息的外在特征和内容特征,它们是信息组织的基本对象和管理依据。
信息的外在特征:就是指信息的物质载体所直接反映的特征,构成信息载体的外在的,形式的特征。
信息的内容特征:就是信息所包含和承载的具体内容。
信息的序化和优化是信息组织的结果和目标。信息的序化就是按照一定的方法将无序的信息组织成有序信息的过程。信息的优化则是在序化的基础上,按照结构功能优化的目的对信息进行再序化的过程。
七.信息序化的基本方法P5(简答题)
1.语法信息序化法:即根据信息的外在特征,使用一套形式化的符号系统来组织信息的方法。包括号码法,物名法,专门代码法,引证关系法,时序法,地序法。
2.语义信息序化法:即根据信息的内容特征,使用一套含有语义的符号系统来组织信息。语义信息序化法有分类法和主题法两种基本类型。
3.语用信息序化法:就是指根据信息的实用价值来组织信息的方法,主要有权值序化法和逻辑序化法。
(1)权值序化法:就是按信息的重要性来组织信息。
(2)逻辑序化法:就是按某种逻辑关系来组织信息。
八.信息优化的基本方法
信息的优化主要包括信息的优选,浓缩,重新表述及三者的综合运用。
1.信息的优选正是实现社会信息有相对贫集向信息富集转化的优化过程。
2.信息的浓缩是使社会信息由博而约,由粗而精的一个信息加工过程。
信息浓缩的主要形式有文摘,题录,目录,词条。
3.信息的重新表述是使某些信息由不便利用向便于利用转化的加工过程。
信息重新表述有改写、编译、翻译等方式。
信息的综合优化是前述三种基本优化方法的结合运用,其主要形式是信息综述和信息述评。
九.信息组织的一般过程和原则
信息组织的一般过程包括信息替代和信息序化两部分了。信息的替代过程(亦可成为信息揭示过程)实际上是对原始信息的外表特征(包括题名,著者,出处等)和内容特征(包括分类号,主题词,摘要等)进行表述的过程,这项工作通常称为著录。
信息序化是对替代信息给出信息标识的过程,这项工作通常称为标引。
信息组织与信息检索在实际操作中是两个互逆的过程。
通过信息检索可以进行信息组织质量的评价,通常我们在进行评价时惯用的两个指标是,查准率和查全率。
1.查准率简写为P,是指所检出的相关信息占所有检出信息的比率
查准率=检出相关信息量/检出信息的总量;
2.查全率简写为R,是系统在进行某一检索时,检出的相关信息量与系统信息库中相关信息总量的比率
查全率=检出相关信息量/信息库内相关信息总量。
十.信息组织的基本原则
1.客观性原则:信息组织中进行描述和揭示的基本依据就是信息本身,因此,我们描述和揭示信息的外在特征和内容特征必须客观而准确,要根据信息本身所反映的各种特征加以科学地反映和序化,形成相应的信息组织成果。
2.系统性原则:为实现系统性必须把握4个原则
(1)宏观信息组织和微观信息组织的关系。
(2)信息组织部门与其他部门的关系。
(3)信息组织工作的各个环节之间的关系。
(4)不同信息处理方法之间的关系。
3.目的性原则
4.现代化原则
第二章
分类法是以知识属性来描述和表达信息内容的一种信息处理方法。分类语言是以数字,字母与数字结合作为基本字符,采用字符直接连接并以圆点作为隔离的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
传统的分类体系以枚举方式为特征(中图法的分类思想)
一.分类法
1.分类法的类型:现今主要有两种类型分类法,一种是体系型分类法(《中图法》);一种是体系—组配分类法(UDC)。
体系型分类法是传统的分类法,它的特点是:直线型的序列,层累制的结构,列举式的类目,码号式的语言。
体系—组配分类法,它的特点仍然有体系分类法的特点,但它增加了复分组配能力。
《中国图书馆分类法——中图法》是典型的体系型分类法,而《国际十进制分类法——UDC》是典型的体系——组配型分类法。分类法通常由类目,号码,正表,附表,说明和索引等六个部分组成。
二. 类目
1.类目:类是一组在某一点上彼此相同或相似的许多事物的总称。图书分类表的类就是一组在某一点上彼此相同的许多图书的总称。每一类必须给予相应的名称,这就是类目,或称为类名。
所谓类目的内涵,是指这个类目所反映的图书有关本质属性,也即是类目的含义。类目的外延则是指这个类目的适用范围,也就是这个类目所能包含的范围。
2.类目间的关系
(1)从属关系:凡具有共性与个性,全局与局部,总论与分论关系的类目都可以看做从属关系。
例:化学与有机化学
(2)同一关系:即两个或两个以上的类目反映的是同一内容,它们有着同一的外延,但类名可以相同也可以相异。
例:概率论(几率论,或然论) 晶体学与结晶学
(3)交叉关系:交叉关系又称交错关系,凡是相关类目都具有这种关系。
例;大学和共青团员
(4)并列关系:同为某一类的下位类,但不含有互相反对或矛盾之意。
例:原始社会制度,奴隶社会制度,封建制度,资本主义制度,共产主义制度。
(5)对立关系:即两个类目所反映的图书内容彼此极端相反,但相加并不等于全体。
例:无产阶级和资产阶级 无机肥料和有机肥料
(6)矛盾关系:两个类目所反映的图书内容相互排斥,但相加等于全体,即等于它的上位类。
例:脊椎动物和无脊椎动物 黑色金属冶金学和有色金属冶金学
三.号码
(简答题)
1、号码又称类号,即类目的代号,或称分类标识,它是代表各级类目的标记。
有关号码的要求主要是:
①逻辑性:指该逻辑系统必须与类目的分类体系一致,使各级类号能够显示出类目在分类体系中的位置
②简易性:指号码必须简短易写并便于使用
③伸缩性:号码编制必须有一定的伸缩性,即便于类目的增减。伸缩性也称弹性,要求在一定的地点、时间、条件下有它的相对稳定性,又要求随着地点、时间、条件的变化要有扩充发展或削减压缩的可能性
号码的类型及其编制方式:
(1)号码类型:号码可分为单纯号码和混合号码两种类型
A.单纯的数字号码:它与其他数字比较有着容易辨认,念读,记忆,书写,排列,检索的优点。
B.单纯的字母号码;由于它的基数较大,因而最大的优点是能组合较多的号码,而号码并不会太长。但它的最大缺点是不易认,不易读,不易记,不易写,使用时常常会发生差错。
C.混合号码:取上述两种号码的优点
(2)号码的编制方式:顺序制,层累制,混合制。
(3)号码的编制方法:(简答题时多写点)
A.间接编号法:间接编号法也称留空位。
B.扩展编号法:扩展编号法也称八分法。
C.双位编号法
D.借位编号法
E.起讫编号法:起讫编号又称扩充编号。
F.连接编号法(采用冒号“:”目的是连接原有两个相关类目的号码,重新构成另一个类目的号码)
G..辅助编号法:“a”推荐符号只供马、恩、列、斯和毛泽东的著作。“—”总论复分号 “[ ]”交替符号 “+”联合符号 “( )”国家区分符号 “=”时代区分符号 “< >”通用时间,地点区分符号 “《 》”民族区分符号。
四.正表
1.正表:正表是整个文献分类表的主体,是分类体系的具体表现。它的形式一般有:基本部类表,基本大类表,主要类目表和详细类目表等。
(1)基本部类表:由基本部类组成,基本部类又称为大部,或称为基本序列。
(2)基本大类表:基本大类表又称为大纲,是在基本序列的基础上进一步展开而成。(P25页的正表结构大类A----Z要记得)
(3)主要类目表:主要类目表又称基本类目表,或称简表。
(4)详细类目表:详细类目表又简称详表。
2.附表:附表又称辅助表或复分表。其主要功能是为了辅助正表的不足,便于正表各类目的扩充和展开。
(1)通用附表:包括总论复分表,地域区分表,时代区分表,民族区分表。
(2)专类附表
(一)UDC:国际十进分类表——UDC(Universal Decimal Classification)是以杜威《十进分类法》简称DC或DDC为基础改进而编成的。
UDC的基本大类共十个
0总论
1哲学,心理学
2宗教 ,神学
3社会科学,法律,管理
4
5. 数学,自然科学
6. 应用科学(医学,工程学,农学)
7. 美术,文艺,体育运动
8. 语言学,文学
9. 地理,历史
(二).UDC号码组配
符号 名称 应用
+ 加号 并列符号
/ 斜杠 表示彼此相互排列的十进分类号的连续扩充符号
‘ 撇号 组配符号(也称合成符号)
: 冒号 关联符号
4.UDC组配符号的使用
(1)并列符号“+” (2)关联符号“:” (3)扩充符号“/” (4)合成复分号“’”
5.UDC辅助表和辅助类号
(1)通用语言辅助号“=”(等号)
(2)通用类型辅助号“(0…)”
例:(05)期刊,杂志,评论,年鉴。
(3)通用地区辅助号“(1/9)”
例:(4/9)现代世界
(4)通用民族与种族复分号“(=)”
(5)通用时间辅助号“…”
(6) 通用观点辅助号“.00”
第三章
一.标题法
1.主题法是以主题语言为基础描述和表达信息内容的一种信息处理方法
2.所谓主题语言,是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。
主题语言的发展经历了一个由严格规范到自由组配再到适当规范的过程。主题法是文献检索工作中两大检索方法之一,它是一种文献主题标识和查找文献的依据。
3.标题法的含义:这是主题法的最早类型,也称传统式主题法,又称字顺主题分类语言。文献主题的内容是用规范化了的词或词组来标识,这个词或词组就是所谓文献的标题,把它们按字顺排列起来就成为标题表。
4.标题词词组语法:正叙式(如:DIESEL EGINES 柴油机),倒叙式(如:PIPE,COPPTER 铜管),并列式(如:BOLTS AND NUTS 螺栓和螺帽),形容词+名词(如:Optical Properties 光学性质), 动词+名词(如:Amplitude Modulation), 名词+名词(如:Electron Beams 电子束),名词+介词+名词(如:Flow of Fluids 流体),复合名词+动名词 (如:Coal mines and Mining 煤矿与采矿)
5.标题语言的缺点:
(1)缺乏按学科专业概念进行族性检索的能力。
(2)缺乏描述复杂概念较高专指度的能力。
(3)缺乏具有多种途径检索和自由扩检的能力,它的扩检和缩检的能力。
二.叙词法
1.叙词的含义:叙词语言是以规范化科学名词作为基础的一种主题法检索语言。以主题词(叙词)作为文献内容标识和查找的依据,它是从自然语言中优选出来的经过规范化处理的名词术语。它是一种后组式语言。
2.叙词的性能:叙词的优异检索性能,首先在于它是一种后组式检索语言,可以自由地进行广泛的组配,形成各种专指标识,扩大或缩小检索范围,以及进行多维性,多途径检索等。
(1)保留了单元词组配的基本原理
(2)采用了标题法对词语进行严格规范化的方法,以保证词与概念的一一对应
(3)采用了体系分类法的基本原理,编制叙词分类索引(范畴索引)和等级索引(词族索引)
3.叙词的作用:直观性,单义性,组配性,网罗性和专指性,多维检索性,语义关联性,计算机检索与手工检索的兼容性,现代科学技术的适应性。(简答题P48要再加点内容)
三.叙词表
1. 叙词表的体系结构有5部分:(简答题)
(1)叙词字顺表:又称叙词表的主表。它给出叙词表收录的全部叙词和非叙词,并有标注事项和显示词间关系的参照系统
(2)分类索引:又称范畴索引。将叙词按其概念所属学科或范畴分成若干大类,在大类下再分小类,在小类下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统
(3)等级索引,又称词族索引。利用概念的属分关系,将具有属分关系的叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级关系
(4)双语种对照索引。提供了另一种语言字顺入手查词的途径
(5)附表。它是主表的一种特殊形式,是主表主题词的组成部分。
2.主题词款目实例
(1)主题词款目著录各项含义P50(属分关系图)
A.款目主题词 B.范畴号 C.用代项和组代项 D. 属分项 E.参项 F.族首词项 G.词义注释 H.范围注释
3.叙词表作用:把款目主题词、款目主题词的汉语拼音、英文译名、范围分类号、注释和参照项等项目组成款目结构。
检索语言或词表的主要作用在于:控制标引与检索用语,使用同一主题或相关主题的文献集中,并通过系统化组织文献。
4.范畴索引:是将主表的全部主题词按照主题词的学科和词义范畴,划分为若干大类,二级类或三级类,每类之下再依主题词的汉语拼音字顺排列的一种索引。
汉语主题词表,根据主题词表的专业特点、主题词的数量和实际需要,范畴索引共设置了五大部58个大类,674个二级类,1080个三级类。
范畴索引的分类原则还是以学科为主,词义为辅,把学科性质和概念性质相近的主题词归并在一起而形成各个大类。
5.“范畴索引”类目的标记符号:(1)双位数字法 (2)双位字母法(3)字母与数字相结合的方法。
6.范畴索引的作用
(1)分类的角度查找主题词,作为标引和检索图书资料起属性作用的一种辅助工具。
(2)对图书资料进行分门别类编辑,通报,交流,发行和组织手检分类主题目录工具。
(3)范畴索引又可以作为一种编制主题词表的辅助工具。对选词,编制参照等工作能起到分工协调和检查遗漏的作用。
四.词族索引
1.词族索引的含义:词族索引又称族系索引,等级索引,词族表。它是主表中具有种族关系,部分与整体关系和包含关系的正式主题词,按其本质族性展开全显示的一种词族系统。即这一词族中概念最大的主题词,叫做族首词,或叫做顶端主题词。
2.词族索引的款目结构:将全部词族索引以族首词款目的字顺和等级相结合的方法表示的称为词族索引。族首词就是指能概括一族主题词的最上位概念的词,它列在一族之首,并在其右上角有“*”号。
3.词族索引的作用:(1)满足族性检索需要 (2)起自动扩检和缩减的作用 (3)限定词义,提高标引和检索时选词的准确性,专指性。
五.英汉对照索引:就是将英文与汉语主题词互相对应,并按英文字母顺序排列的一种索引。
《汉语主题词表》的英汉对照索引分为六大块,即:主表主题词表的英汉对照索引(2块)和附表主题词表英汉对照索引(四块)。
六.附表:附表是主表的一种特殊形式,是主表主题词的组成部分。
七.关键词
1.关键词的含义:所谓关键词,是从文献资料的正文,摘要或书名,篇名中抽出的并在表达文献内容主题方面具有实在意义起关键性作用的词汇。因为这些具有实质意义的词汇,对能否检索到这篇文献起着关键性的作用,所以称为关键词。
2.关键词的性质:
关键词与标题词、单元词、叙词童属主题法系统的检索语言。
(1)关键词法基本上不作规范化处理,或仅作极少的规范化处理。其明显不同是:标题词,单元词和叙词都需要词表,关键词则不存在所谓的词表。
(2)关键词是文献中现成的词汇,是一种自然语言。因而,关键词能够达到任意的专指度和泛指度。
(3)关键词是一种非控制的语言,因而能用计算机进行自动抽词标引,这样可大大加速文献的标引过程。
3.关键词的规范:
关键词方法的基本原理,是把信息的主题分拆为单位概念,然后对这些概念加以组配,以实现信息的存储和检索。
(1)对非关键词进行规范,编制非关键词表。
(2)对文献题名作吧必要修改。
(3)对一些词和符号进行改写。
(4)缩略与拆同。
4.关键词的缺点:
(1)同义词语近义词的问题
(2)同一主题的文献可能分散在不同的关键词名下,因而可能产生漏检,影响查全的效果。
(3)表达主题的专题性,准确性较差,因而容易产生误检,影响查准的效果。
(4)计算机检索时,需要扫描的款目较多,因此,关键词索引比较适用于数量不太多的文献。
八.题内关键词
1.题内关键词的含义:就是从文献篇名中抽取的关键词为题内关键词。英文名称为Keyword in Context Index, 简称KWIC.
2.题内关键词的特点:
优点:(1)在列出关键词时,同时保留了题目中的非关键词,而且词序不变。使检索者对题目中的各个关键词之间语法关系有一个清晰的了解,帮助检索者更好地理解文献的中心内容。
(2)由于这种索引便于采用计算机编排,因而编制容易,速度快,报道传播信息及时。
缺点:(1)同义词,单复词无法规范。因而使同一主题的文献,因关键词的词形不同而被分散,影响查全的性能。
(2)揭示文献的专指性,准确性受到影响。由于抽词主要取决于文章题目,因此可能使许多重要信息得不到充分的反映。
P63文献的著录格式
九.题外关键词
1.题外关键词的含义:除题名外,从文献正文中抽取的关键词,称为题外关键词。这种索引的英文名称为“Keyword out of Context”, 简称“KWOC”.
2、题外关键词索引是为了克服题内关键词索引存在缺点而编制的一种索引,最大特点是关键词的抽词不局限于文章的标题,包括从文摘甚至正文中抽取最能反映文献主题内容的关键词。抽出的几个关键词也采取轮流编排,但没有上下文结构,节省了索引的篇幅。
十.参照系统
Y(用)——USE D(代)——UF S(属)——BT F(分)——NT
Z(族)——TT C(参)——RT
1.See的含义:“S”就是把不是主题词的词,通过它引见到作为主题词的词。“See Also”用它来联系相关的主题词,进一步扩大检索的范围。
2.See的实例见书P68
十一.叙词与叙词,非叙词间概念逻辑关系P70
(1)同一关系:同义词,近义词,多义词
(2)等级关系
(3)相关关系
十二.分类主题一体化词表大致可以分为以下三种类型:
(1)分面叙词表 (2)分类主题词表 (3)集成词表
第四章
一.标引与著录
1.标引:是对文献进行主题分析,从自然语言转换成规范化的检索语言的过程,即对主题分析结果赋予检索标识的过程。
2.分类标引:就是将文献主题的自然语言形态,转换成分类语言形态的一种标引,也就是将文献主题转换成分类号的一种标引。因此,分类标引是一种直接对文献主题,采用某种号码标识的标引。这种标引是建立分类检索系统的依据。
3.分类标引包括分类和归类两个概念。
(1)所谓分类,就是将大量的图书信息,根据它们的内容性质,形式体裁,立场观点和读者用途上的异同,按照图书分类体系,由上而下,由大到小。由整体到部分,由一般到特殊,由总论到分论的层层划分,这样就可以把相同的图书集中在一起,相近的连接在一起,不同的则区别开来,整理成为有条,有理的系统,在进行时须运用概念的缩小。
(2)归类,即是运用这个体系来分类图书,它是由下而上,由小到大,由部分到整体,由特殊到一般,由分论到总论的集合过程,在进行时须运用概念的扩大。
4.分类标引的优点:
(1)在于它具有达到较高查全率的族性检索性能,有利于从学科或专业范围角度进行全面检索。
(2)另一种独特的优越功能就是组织图书资料的排架,其他检索语言就没有这种可能。
5.分类标引的任务:
(1)揭示每种书,每篇文章的内容性质,形式体裁,立场观点和读者用途,只有这样才能针对不同用户提供所需的不同文献。
(2)把相同的文献聚集在一起,把不同的文献区别开来,只有这样才可以使用户因类以求。
(3)根据各类文献之间的关系组成一个系统,只有这样才能科学地组织,管理文献。
6.为了能较好完成上述任务,对文献分类标引的要求是:
(1)充分性,即是充分揭示文献的内容,性质,形式和用途。
(2)针对性,即是文献分类标引必须有的放矢。
(3)准确性,即要求分类标引做到迅速,及时,不积压。
(4)一致性,即是说同性质的文献,必须归到同一类;同一种文献的不同复本,版本或卷次必须归到一处。
7.分类标引的一般分类原则:
(1)科技图书根据内容性质和形式体裁归类
(2)文艺作品根据文艺形式体裁归类
(3)综合性图书根据编制形式体裁归类
(4)揭示图书内容的政治方向
(5)根据作者写作目的和书中主要意旨归类
(6)要遵循图书分类法本身的逻辑性和系统性
(7)必须保持分类与编目的一致性
(8)先归入主要类,必要时互见其他类或作分析
(9)先按学科性质归类,后按地域,时代归类
(10)一书的研究,评论,解说应随原书归类
(11)不要单凭书名归类或按临时需要归类
8.两个主题分类标引P93:并列关系(如:动物与植物),从属关系(如:物理化学及胶体化学),因果关系(如:血吸虫及血吸虫病),影响关系(如:植物与光),比较关系(如:资本主义和社会主义制度的婚姻道德),应用关系(如:优选法在金属切削中的应用)。
二.专业信息部门分类标引
1.针对分类表盒本信息机构的特点,在文献处理上应采取如下措施:
(1)在不违背科学性的基本前提下,尽量进行专业集中
(2)尽量对有关本专业的资料进行细分
(3)尽量将与本专业有关的一切文献资料在本专业类目下完全揭示出来。
三.主题标引
1.主题标引是对文献进行主题分析,并给予主题词标识的过程。
它以文献篇名和文献为依据,必要时参考全文的内容,考虑检索途径的全面性和表达主题的专指性,充分利用词表提供的各种辅助选词手段,充分反映馆藏特点和各类用户的要求。
2.标引质量:(1)标引的准确性 (2)标引深度:指对一篇文献所给予的全部检索标识的数量 (3)标引的一致性:是指同一个标引人员对同一篇文献在不同时间的标引是否一致。
3.标引规则的意义:标引误差主要来源于不遵守标引规则,而检索误差在很大程度上也是由于不了解标引规则。主题标引可分为一般规则,专指性标引规则,组配标引规则,上位词标引规则,近义词和增词标引规则。标引规则是保证标引质量的依据,因此文献标引必须保证质量。标引规则是联系标引者和检索者之间的桥梁。
4.主题标引一般规则:
(1)要客观地反映文献所论述的食物或研究对象, 不考虑作者立场和观点。
(2)不能用非正式主题词标引,所使用的主题词,必须是词表中规定的正式主题词。
(3)以主题分析为依据,不能只依篇名。
(4)当没有专指主题词时,应选用最相关的主题词组配标引。
(5)当无法进行组配又无法用上位词标引时,应选用含义最接近的主题词标引。
(6)标引有机化合物,无主题词时是能用上位词标引,不允许组配。
(7)需要时可增补主题词进行标引,即增词标引。
(8)标引结果应按规定著录。
5.主题标引类型表见书P102(一定要记得,常考选择题)
6.标引方案次序选择:(1)专指性标引 (2)组配标引 (3)上位词标引 (4)近义词标引 (5)增词标引
7.正确析出文献主题
(1)析出的主题必须确切地反映文献内容,不能以大代小火以偏概全。
(2)析出的主题不能只依据题名
(3)正确析出文献主题词
8.对全文分析和标引
(1)为了使标引结果正确而恰当,往往必须浏览全文或读重点章节
(2)浏览全文是克服过度标引和欠缺标引的依据
(3)浏览全文是全面摄取有关信息资源的唯一方法
(4)阅读文章全文方可判定关键词的轻重缓急
8.分组标引:把同一文献中没有直接限定关系的主题词分在不同的组中,这种处理技术称为分组。其目的是为了避免组配元之间产生错误的逻辑判读,即防止虚假组配所造成的误检。
9.上位词标引:是对某些文献主题,在词表中既无专指概念,又无法组配表达时,采取用最近一级直接上位概念来进行标引。
10.适度标引:是指标引出的叙词与原文献主题概念基本一致,既不过度,也不过粗的标引技术。
11.过度标引:是指标引时,不切合文献主题的实际需要,不根据文献内容的实际要求,标引了一些专指性过深或者无实际信息价值的叙词。
12.过粗标引:是指标引时,所标引的主题概念,大于原来文献的实际主题概念。
13.靠词标引:靠词标引又称近义标引,是在词表中既无专指概念,也不能组配表达和用上位词标引的情况下,采用在含义上相近的主题词来表达文献主题的一种标引技术。
14.增词标引:当主题表中查不到与标引概念对应的主题词,又需要增加某一主题词时,用新增的主题词标引的方案,称为增词标引。
三.组配标引技术
1.所谓组配,就是把几个主题词按一定的组合方式合理地组合在一起,用来表示达到更专指的主题。
2.组配的作用:它是主题词法的重要方法,是提高检索效率的重要措施之一。采用组配可以控制主题词的数量,能比较及时反映新事物和新科学,可以自由扩大和缩小检索范围,可以对同一信息进行多途径检索,能使文献集中而不分散和提高概念的专指性。
3.组配规则:是标引规则的核心内容。
(1)组配必须具有实际检索意义,是概念组配,而不是字面组配
(2)能进行交叉组配时,不要使用方面组配
(3)表中已有复合概念的叙词时,不能使用组成这个复合概念单元叙词进行组配
(4)组配时应用最恰当的概念,而不能越级组配。能用下位概念,就不用上位概念组配
(5)避免一种组配多种含义
(6)当主题概念没有专指性叙词的情况下,既可以用上位概念的叙词,又可用泛指叙词组配加以标引时,应以后者,而不用前者
(7)组配结果要防止虚假组配或虚假联系的产生
(8)在手工检索中,对文献并列概念主题的组配,应当作两个主题,分别予以组配,在组配中允许同一叙词重复使用
(9)组代组配
(10)化合物,合金等组配
4.组配选词与符号
(1)组配选词;正确选用主题词,剔除多余的词
(2)组配符号:P117-118
A.同级词组配,用“:”号
B.自然词序用“——”号
C.倒置词序用“,”
D.事物与其特征词组配,用“,”号
E.事物主题词与说明语组配,用“,”号并加“#”号
6.字面组配:指的是单纯字面组配,所谓单纯字面组配,这是指那些单纯从字面的拼合形式出发,而不考虑概念之间的逻辑关系和语法关系的组配。
字面组配其实质是词的分析与组合;概念组配,其实质是概念的分析与综合,两者的检索效果是有很大差异的。
7.概念组配:所谓组配标引是指采用几个叙词的组合形式,对文献的内容特征进行的标引。但组配的叙词之间必须具有概念上的某种逻辑关系。
(1)概念交叉组配:交叉组配是指参加组配的概念,属于限定组配的性质,而又有共同的上位概念的组配,称为交叉组配。如:“喷气式飞机”与“垂直起落飞机”组配“喷气式垂直起落飞机”
(2)概念限定组配:是指参加组配的概念在内涵上不同,而外延有部分重叠的组配,称为概念限定组配。 如:“汽车”与“理论”组配成“汽车理论”
(3)概念并列组配:是指两个或两个以上具有概念并列关系的同级叙词之间的组配,组配结果形成一个属概念,即原来用以组配的两个或两个以上概念的上位概念。如:“汽车”,“拖拉机”组配出“汽车与拖拉机”
四、著录
1、文献信息著录:在编制文献目录时,对文献信息的各种特征进行分析、选择和记录的过程。
文献的内容特征:分类、主题
文献的外表特征:题名、著者、来源出处、出版地、出版者、出版时间
文献的物质特征:文献类型、页册数、图表、开本、装订、价格
2、文献:记录有知识的一切载体
款目:著录的结果,是反映文献内容和形式特征的著录项目的组合
目录:将一批款目按照一定的次序编排而成的一种文献报道和检索工具。
3、著录项目:P122
著录格式:P125 重点
4、著录详简级次
(1)著录项目,区分为主要项目和选择项目
主要项目:题名与责任者项的正题名、第一责任者;版本项;出版地或发行地、出版者或发行者、出版日期或发行日期;载体形态项
选择项目:并列题名、副题名及说明题名文字、文献类型标识、其他责任者;
(2)著录详简级次,区分为简要级次、基本级次和详细级次
凡款目仅著录主要项目的称为简要级次或第一著录级次。
凡款目除著录主要项目为,还著录部分选择项目的称为基本级次或第二著录级次
凡款目著录主要项目和全部选择项目的称为详细级次或第三著录级次。
第五章信息组织自动化技术
一、自动标引技术
自动标引的目的在于能让计算机从存储的信息中自动抽取主题词(主题标引)
自动标引分为:自动抽词标引和自动赋词标引两种方式
一个标引系统的有效性取决于:
(1)标引的网罗度:表示标引词对文献各方面内容的表达和识别程度。网罗度越高,则越有利于提高检索的查全率
(2)标引的专指度:表示标引词对文献特定内容描述的详细程度。专指度越高,则越有利于提高检索的查准率
二、自动抽词标引
1.自动抽词标引是由计算机自动从文本中抽取词或短语来表达信息资源的主题内容。
根据自动抽词标引时所采用的标准:
○绝对频率法:
(1)统计文本中非虚词出现的频率,将他们出现的频率排序
(2)排在最前面的词为“高频词”,可选作文献的“标引词”
(3)对英文词或短语选择时,只将词干存储起来,以代替许多不同的变体。
○相对频率法:当某个词或短语在某一文献资源中出现的频率高于它在整个数据库中出现的频率时,这个词或短语就可被选作标引词,这就是相对频率抽词法
不必使用停用词表
○位置法:利用词语在文献总出现的位置来选择。
2.自动赋词标引:从某种形式的受控词表中选取词语来表达文献资源的主题内容。
基于关联词表的自动赋词标引
基于中介词典的自动赋词标引
3.中文自动标引的难度:词的切分问题;难以进行比较全面的语法分析;汉语用词的灵活性;主题词选择和隐含标引问题
中文自动标引的主要方法分析:
(1)词典标引法:主题词表法;关键词词典法;部件词典法
(2)切分标记法:表外用字;表内用字;条件用字;非用字
(3)语法分析标引法
(4)汉语自动标引专家系统
(5)单汉字标引法
(6)汉语自动标引方法评价
4.智能化标引
汉语的语法分析问题;汉语的语义学和语用学的研究;语用学的研究
三、自动分类计数
1.文本自动分类利用计算机对文本集按照一定的分类体系或标准进行自动分类,属于同一类别的文本被标上相同的类别标记,为文本信息资源的检索提供系统化的解决方案。
2.自动分类:由计算机代替人工对文献或文本信息进行分类,赋予其分类标识,以描述文献主题内容的过程。
自动分类一般包括自动聚类、自动归类、类号的自动转换。
3.自动聚类:基于词语特征的自动聚类;基于非词语特征的自动聚类
四、自动文摘技术
1.自动文摘:利用计算机自动地从原始文摘中提取文摘
文摘:准确全面地反映某一文献中心内容的简洁连贯的短文。
自动文摘有4种方法:自动摘录、基于理解的自动文摘、信息抽取和基于结构的自动文摘
2.自动摘录
自动摘录的步骤:计算词的权值;计算句子的权值;对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘具;将所有文摘句按照它们在原文中的出现顺序输出。
3.特征:词频;标题;位置;句法结构;线索词、指示性短语
4.自动摘录的不足:不全面;不简洁;不连贯
基于理解的自动文摘:以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法。
基于信息抽取的自动文摘:只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高。
第六章
一、数字信息资源概述P159
1.数字信息资源:用户可通过计算机本地或远程读取、使用,以数字形式存储在光、磁载体上的图像、文字、声音、视频等信息,如电子邮件、专题讨论和论坛、电子布告板新闻、电子期刊等。
(1)按数字信息资源的分布来分类:现实资源和虚拟资源
(2)按数字信息资源加工制作者来分类:出版机构出版的电子出版物、图书信息机构制作的数据库、网络公司及社会团体制作的数据库
(3)按用户存取的方式分类:检索型;邮件型;揭示板型(如:网络新闻);广播型;电话型(如:用户进行的网上咨询)
2.数字信息资源的特征:数字信息资源对系统的依赖性;信息与实体的可分离性;数字信息资源的非直接可读性;数字信息结构的复杂性;数字信息资源的共享性;数字信息的易更改性;数字信息的质量参差不齐,缺乏必要的控制;数字信息的跨国界数据流动和传递;数字信息的不安全性。
二、Metadata
1.内涵:描述资料的资料,可用来协助对网络数字信息资源的辨识、描述、指示其位置的任何资料。
2.分类:管理元数据(它是对源数据及其内容、数据仓库主题、数据转换及各种操作信息的描述);用户元数据(帮助用户查询和理解信息,了解数据仓库中的数据和组织)
3.特点:(简答题)
(1)描述性:这是所有元数据最本质的特征。
(2)动态性:元数据不是静止不变的,它随着所描述的对象的变化而变化
(3)多样性:指元数据的类型多样。
(4)复杂性:强制性的元数据与选择性的元数据共存
(5)多层次性:一方面是由元数据所描述对象的多层次决定的,另一方面,是由元数据使用对象的多层次性决定的。
(6)支撑性:
5.Dublin Core
都柏林核心元素集(Dublin Core Element Set),简称都柏林核心(DC),是目前比较成熟的元数据之一
6.Dublin Core 的成果:
(1)确立Dublin Core的15个核心元素;
(2)确定了附加的Dublin Core限定词—堪培拉限定词
(3)采用HTML和RDF作为主要的语法格式
7.Dublin Core 结构:(简答题)
是由15个核心元素组成,可大致分为三类:(选择题、简答题)
(1)内容字段7个:题名(Title)、主题词和关键词(Subject)、内容描述(Description)、资源类型(Type)、关联(Relation)、资料来源(Source)、内容范围(Coverage)
(2)知识产权字段4个:作者或创造者(Creator)、出版者(Publisher)、其他责任者(Contributor)、权限管理(Rights)
(3)例示字段4个:、日期(Date)、资源格式(Format)、资源标识(Identifier)、语言(Language)
8.Dublin Core 的功能(简答题)
(1)查找:它的设计主要是为了支持数字信息资源的发现或查找,其元素意在成为用户查找数字信息资源的最重要的依据。
(2)识别:识别被检索的特定信息资源和区别相似信息资源不是它明显的目标之一
(3)选择:它的意图不是为用户在多个检索结果中做出选择提供必要的信息。
(4)获取:它的目的之一是支持数字信息资源的检索,在网络环境下,元素“识别符”中的准确地址,可超越时间的限制,全面支持数字信息资源的获取。
9.DC的主要优点:(简答题)
(1)简易性:只有15个基本字段,且都有一个能够普通理解的语义,适合各种背景的人员使用。
(2)可扩展性,DC格式具有弹性化和扩展性,允许使用者为了特定目的或在特定的学科领域可以增加一些必要的著录信息
(3)著录的全面性:DC比较全面地概括了网络信息资源的主要特征,涵盖了资源的重要检索点、辅助检索点或关联检索点以及有价值的说明性信息
(4)与机读目录接轨,DC与标准的机读目录之间可进行转换
(5)广泛的适用性:DC对于地图、绘画、生物标本、历史文物等均适用
10.DC的缺点:
(1)字段定义上的模糊性
(2)限定词的制定使DC变得复杂化
(3)格式不稳定
三、RDF—元数据的“容器”
1.概念:Resource Description Framework 功能是利用当前存在的多种元数据标准来描述各种网络资源,形成人机可读,并可以由计算机自动处理的文件
RDF的目标:建立一个供多种元数据标准共存的框架。RDF可看作是一个元数据的“容器”,其关键是框架结构
RDF框架由三个部分组成:RDF Data Model,RDF Schema 和RDF Syntax
2. RDF Data Model又称RDF数据模型,它包括了三个对象类型:资源;属性;称述
3. RDF Schema的具体作用:定义资源的属性类、语法、属性值的类型;定义资源类以及属性所应用到的资源类;声明由一些机构定义的元数据标准的属性类
四、搜索引擎
1.概念:以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。
2.分类:信息收集方法和服务提供方式的不同分为目录式搜索引擎(代表是Yahoo、LookSmart);机器人搜索引擎;元搜索引擎
3、机器人搜索引擎的工作原理与基本构成P173
4、机器人搜索引擎的的基本构成:搜索器、索引器、检索器和用户接口等四个部分组成。
5.搜索引擎的发展趋势:向垂直化专业领域搜索;向智能化搜索;向关联式的综合搜索发展;向个性化搜索;向结构化搜索;向本土化搜索发展;向多媒体搜索。
五、Z39.50协议
1.简介:它是应用层的协议,是关于信息检索的协议,包括书目信息、全文信息、商业信息等。它把互联的双方分别称为请求方和服务方,当检索命令和检索方法各不相同的双方,不能直接检索和使用对方数据库是,则需要通过Z39.50为双方提供服务。
2. Z39.50协议的内涵
(1)Z39.50协议是一种网络协议,由一套用来控制和管理计算机之间通信过程中所涉及的格式和进程的规则所组成。
(2)Z39.50协议是一种开放网络平台上的应用层协议:
(3)Z39.50协议是一种基于网络的信息检索标准
(4)Z39.50协议是符合客户机/服务器模式。
第七章
1.数据库技术
第一代数据库(层次式数据库与网状数据库)
第二代数据库(关系数据库)
第三代数据库面向对象数据库
2.数据库系统的结构:单用户数据库系统、主从式数据库系统、分布式数据库系统和C/S(Client/Server)数据库系统
P193计算机辅助设计/制造(CAD/CAM);计算机辅助软件工程(CASE)计算机集成制造(CIM)
2.数据库系统的信息组织方法
INSPEC 分为四辑:A辑物理专辑B电气电工 C辑 计算机与控制 D辑 为信息技术
3.Web数据信息与半结构化数据库系统
半结构化数据:Web上的数据则介于完全结构化和完全无结构之间。
4.多媒体数据库的信息组织方法
关键技术有:
(1)数据模型,建立数据库模型是实现多媒体数据库的关键。
(2)数据的压缩和还原技术
(3)存取管理和存取方法
(4)用户界面
(5)分布式技术
(6)多媒体信息的检索与查询
(7)多媒体数据的输入
5.分布式超媒体数据库
分布式超媒体数据库系统HDB(Hypermedia Data Base)是一种以超媒体信息管理技术为基础的分布式系统。
HDB有三层结构:最底层;中间层;最上层
第八章 数字图书馆的信息组织
一.数字图书馆概念与特征
1.数字图书馆的起源与发展
图书馆的自动化阶段;电子图书馆阶段;数字图书馆阶段
2.数字图书馆的基本要素:
数字化的馆藏;先进的信息存储与检索系统;便捷的电子服务
3.数字图书馆的特征:P208
数字图书馆是一种有别于传统图书馆的新型图书馆,与传统图书馆相比,数字图书馆新型组织发生了重大变化,呈现以下特征:
(1)数字图书馆信息组织对象类型已大大扩展,除了文字信息外,声音、图像、视频等类型的信息只要能够数字化的也都可以是数字图书馆的收藏和组织对象。
(2)数字图书馆的信息组织是一种分布式模式,其信息对象可能并不存储在同一个地方,而可能分布在不同的数据服务器上。
(3)数字图书馆的信息对象是一种以机读型信息形式存储于检索的数字化信息对象。
(4)数字图书馆信息对象的格式化特征和多格式化特征,数字信息按照特定格式存储,各种类型的信息可以用不同的信息格式来描述,同一内容的信息也可用多种格式来描述。
数字图书馆是依托因特网而存在的图书馆,是没有时空限制、便于使用、超大规模的知识中心。
4.数字图书馆是国家信息基础设施的重要组成部分,已成为衡量和评价一个国家信息基础水平的重要标志。
中国试验型数字式图书馆项目有:中国古籍善本影像数据库、中国博士论文影像数据库、历史图片数据库、孙中山文献全文数据库、深圳特区文献数据库、国内外旅游多媒体数据库、民国时期文献数据库、东北文献目录数据库和国际数字图书馆文献数据库等。
5.数字图书馆的体系结构P215(简答题,可画图也可文字说明)
数字图书馆的系统设计一般有三层结构:外层、内层和虚拟网站层
外层为外部用户层,可以使因特网的任何用户,通过Internet与Web服务器或应用服务器连接,共享数字图书馆的信息资源
内层为Intranet层,主要为满足内部用户需要,为内部用户服务。可根据用户需求,不断调整服务项目,满足新的信息需求
虚拟网站层是信息资源的提供层,它有大量的信息资源数据库作支撑。
6.数字图书馆信息组织原则:选择性原则;多维揭示原则;非线性组织原则;标准化原则;完备性原则
7.数字图书馆信息资源库建设的步骤:(简单题时要多答点)
脚本变形;资源内容再制作;对资源内容标引;质量检查;归档;元数据抽取
8.数字图书馆信息资源库中的元数据分为三类:描述性元数据;结构性元数据;管理性元数据
部分简答题
1、信息组织的历史发展,经历了清册职能时期、查检职能时期和组织职能时期,主要与古代信息管理时期、近代信息管理时期和现代信息管理时期相对应。
(1)清册职能时期:主要通过对信息的记录和登载,如同“信息帐房先生”,告诉人们有什么信息而已。这时的信息主要是指图书、档案等文献信息
(2)查检职能时期:这一时期信息组织的发展可用主题揭示语言对分类揭示语言的冲击、文献和索引型序化成果对书目型序化成果的冲击、机械化和半机械技术手段的冲击,给予充分地概括,这些变化特征为信息组织由查检职能为主导向完整意义的组织职能发展奠定了坚实的基础。
(3)信息组织融信息描述、信息揭示、信息分析、信息贮存于一体,现代管理时期中信息组织活动的联合化、信息组织产品的商品化、信息组织方式的专营化、信息组织成果的媒体化、信息组织基础的需求化是这一时期最明显的标志。
2、什么叫信息的外在特征和内在特征?P5
信息的外在特征是指信息的物质载体所直接反映的特征,构成信息载体的外在的,形式的特征,如信息的物理形态、题名和责任者及信息的类型、信息生产和流通状况等方面的特征。
信息的内容特征就是信息所包含和承载的具体内容,即通过信息载体传递和交流的具体内容,两者共同统一于信息本身。
3、信息组织的方法基础:语言学、逻辑学、知识分类
信息组织的基本方法:以信息外在特征和内容特征为基础的信息序化法和信息优化法。
信息序化的基本方法有:语法信息序化法、语义信息序化法、语用信息序化法。
4、简述语法信息序化法P6
语言学中的语法学是研究语言符号之间的结构规则的,主要有词的构成和变化、词组和句子的组织,研究的语言内容属于形式的范畴。根据信息的外在特征,使用一套形式化的符号系统来组织信息的方法,序化符号不揭示所组织信息的内容特征。它的常用方法有:
(1)号码法
(2)物名法 :用事物名称的字顺特征来序化信息
(3)专门代码法:在某一专业领域采用的有一定专业含义又形式化了的编码系统
(4)引证关系法:利用信息直接的引证与被引证关系来组织信息
(5)时序法:以信息的形成时间为序化符号,按时间顺序组织信息
(6)地序法
5、什么是语法信息序化法?P5
语言学中的语法学是研究语言符号之间的结构规则的,主要有词的构成和变化、词组和句子的组织,研究的语言内容属于形式的范畴。信息组织借用了“语法”二字,表征的是从形式特征方面进行组织的信息。根据信息的外在特征,使用一套形式化的符号系统来组织信息的方法,序化符号不揭示所组织信息的内容特征。这类序化法有号码法、物名法、专门代码法、引证关系法、时序法、地序法等。
6、简述语义信息序化法P6
语义信息序化法是根据信息的内容特征,使用一套含有语义的符号系统来组织信息。信息的内容特征表现为信息的知识范畴、主题内容、概念属性,所以语义信息序化法有分类法和主题法两种基本类型。
(1)分类对象可概括为三种:一实物,如商品;二概念,如知识;三概念与实物的结合体,如文献。所以有三种分类方法:实物分类、知识分类和文献分类。
(2)主题法是建立在自然语言基础上的一类方法,它用自然语词作符号系统,并在某种控制下使用。主题法的发展经历了自然语言----规范语言---自然语言的历史过程,自然语言如题名、责任者、关键词等,规范语言如主题词和某些代码等。
7、简述语用信息序化法P7
语用信息是借助于语用学的特有含义来研究随环境与使用者的不同而不断变化的一些信息群。它是根据信息的实用价值来组织信息的方法,主要有权值序化法和逻辑序化法。
(1)权值序化法:按照信息的重要性来组织信息,如报纸总是把最重要的信息放在头版头条的位置
(2)逻辑序化法:按照某种逻辑关系来组织信息,如一本书的内容编排,或从总论到分论,或从绪论到正论,都是根据各章节的逻辑关系
8.号码(标记符号)的要求有哪些?P16
号码又称类号,即类目的代号,或称分类标识,它是代表各级类目的标记。要求主要有:
(1)逻辑性:指该逻辑系统必须与类目的分类体系一致,使各级类号能够显示出类目在分类体系中的位置
(2)简易性:指号码必须简短易写并便于使用
(3)伸缩性:号码编制必须有一定的伸缩性,即便于类目的增减。伸缩性也称弹性,要求在一定的地点、时间、条件下有它的相对稳定性,又要求随着地点、时间、条件的变化要有扩充发展或削减压缩的可能性
9.Metadata的特点如何?
Metadata具有传统目录的著录功能,即以简单的资料描述资源的内容。它的特点有:
(1)描述性:所有元数据的最本质特征
(2)动态性:元数据不是静止不变的,它随着所描述对象的变化而变化
(3)多样性:指元数据的类型多样,一个描述对象的元数据会有各方面的特征
(4)复杂性:一是元数据既可以是集合概念也可以是个体概念,元数据中还可以包括其他的元数据;一是对不同的描述对象,有些元数据是必须的,有些则不一定强求,即强制性的元数据与选择性的元数据共存
(5)多层次性:这一方面是由元数据所描述对象的多层次决定的,另一方面,是由元数据使用对象的多层次性决定的
(6)支撑性:在某种程度上,元数据相对于内容而言处于次要的地位,但又是必不可少的,起支撑的作用。