国家语委现代汉语通⽤平衡语料库
国家语委现代汉语通⽤平衡语料库
标注语料库数据及使⽤说明
1. 国家语委现代汉语通⽤平衡语料库
1.1 语料库全库
国家语委现代汉语通⽤平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为⼿⼯录⼊印刷版语料;1997之后的语料约为3000万字符,⼿⼯录⼊和取⾃电⼦⽂本各半。
语料库的通⽤性和平衡性通过语料样本的⼴泛分布和⽐例控制实现。语料库类别分布如下所⽰:
1.2 标注语料库
标注语料库为国家语委现代汉语通⽤平衡语料库全库的⼦集,约5000万字符。标注是指分词和词类标注,已经经过3次⼈⼯校对,准确率⼤于>98%。
语料库全库按照预先设计的选材原则进⾏平衡抽样,以期达到更好的代表性。标注语料库在样本分布⽅⾯近似于全库,不破坏语料选材的平衡原则。标注语料库类别分布如下所⽰:
标注语料库与全库的样本分布⽐较如下所⽰:
(蓝⾊曲线为语料库全库;红⾊曲线为标注语料库)
2. 国家语委现代汉语通⽤平衡语料库语料选材与样本分布
2.1 选材原则
依据材料内容,选材⼤体作如下分类:(下⽂字数为建库时数据)
2.1.1 教材
⼤中⼩学教材单作⼀类,约2000万字。
2.1.2 ⼈⽂与社会科学的语⾔材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);
·历史(含民族等)
·社会(含社会学、⼼理、语⾔、教育、⽂艺理论、新闻学、民俗学等);·经济;
·艺术(含⾳乐、美术、舞蹈、戏剧等);
·⽂学(含⼝语);
·军体;
·⽣活(含⾐⾷住⾏等⽅⾯的普及读物)。
2.1.3 ⾃然科学(含农业、医学、⼯程与技术)的语⾔材料,应涉及其发展的各个领域。拟从⼤、中、⼩学教材和科普读物中选取。其中,科普读物约占6%,共300万字。教材字数另计。
2.1.4 报刊。以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。这部分语料约占26%,共1300万字。其中,报纸900万字,刊物400万字。
2.1.5 应⽤⽂。指各类政府公⽂、⽂告、书信、说明书、⼴告等。这部分语料约占8%,共400万字。
2.2 选材年限及密度
2.2.1 教材类
选取现在通⽤的教材为建库的语⾔材料。中⼩学课本所选内容涉及各个学科的基本知识,⼀般为典范的现代汉语作品,具有相当的普及性、代表性。⽐较通⽤的具有通论性质的⾼等师范院校和某些专科院校的基础必修教材,内容涉及各个学科的基础理论、基本术语,可为⾃然科学语汇的收集、科学术语的规范⼯作提供依据。
2.2.2 ⼈⽂与社会科学类
以1919年为上限,选取五四以来的语⾔材料。对五四以来各个历史时期的语料采取不等密度选⽤的⽅式。
·1919——1925年。鉴于五四时期的⽩话⽂仍留有⽂⾔痕迹,拟选⽤少量的对后世影响较⼤的代表性作品。被选⽤的作品在⾏⽂上要尽量符合现代汉语的规范。这部分语料拟占⼈⽂与社会科学类的5%。
·1926——1949年。⽩话⽂逐步脱离⽂⾔痕迹,现代汉语⽇趋成熟的时期。这部分语料拟占⼈⽂与社
会科学类的15%。·1950——1965年。中华⼈民共和国的成⽴给社会⽂化⽣活带来巨⼤变化,新词新语⼤量涌现。这部分语料拟占⼈⽂与社会科学类的25%。
·1966——1976年。⽂化⼤⾰命时期产⽣的作品,其中许多随着⽂⾰的结束⽽仅作为历史词语存于现代汉语之中。这部分语料拟占⼈⽂与社会科学类的5%。
·1977——。新时期的语料代表了现代汉语的最新发展。这部分语料拟占⼈⽂
与社会科学类的50%。
2.2.3 ⾃然科学(含农业、医学、⼯程与技术)类
⾃然科学的发展具有较强的优胜劣汰的性质,故对这部分语料做共时性选取,
选材范围包括:
·⽬前⽐较通⽤的中、⼩学各科教材。
·⽬前⽐较通⽤的具有通论性质的⼤学各科基础必修课程的教材。
·涉及⾃然科学各个门类的科普读物。
2.3 现代汉语语料库选材字数的分布
2.3.1 ⼈⽂与社会科学的语⾔材料占全部5000万字语料的60%,为3000万字。这3000万字在各个学科的分布见表⼀。
2.3.2 ⽂学的语⾔材料占⼈⽂与社会科学类的50%,共1500万字。这1500万字在
不同体裁、题材的语料的分布见表⼆。
2.3.3 长、中、短篇⼩说的选取⽐例⼤致为:长:中:短=1:2:3
2.4 语料的通⽤性原则和描述性原则
2.4.1 语料的通⽤性原则
2.4.1.1 作为通⽤型语料库,现代汉语语料库应真实地反映现代汉语在⽂字、词汇、语法、语义等⽅⾯的全貌。
2.4.1.2 现代汉语语料库在语料的选择上,应当具有区别性特征。
·有别于专业性。该语料库的语料要有别于各类专业性的语料,但专业语词与
通⽤语词并⽆严格的界限,⼀些专业的⽤语已经进⼊通⽤语⾔之中,该语料库应尽量涵盖这部分专业语料。
·有别于地域性。部分⽅⾔语词已随社会交际的发展进⼊标准书⾯语,各类语料中⽅⾔语词也屡见不鲜,有些⽅⾔语词已和普通话语词⽆明显区别,但该语料库在选材上应做到有别于纯⽅⾔性的语料。
·有别于纯⼝语性。⼝语语词随地域的不同⽽有所区别,它的使⽤范围是⽐较
有限的,所以,该语料库的语料应当是书⾯语和表义连贯明确、能够⽤书⾯语转述的⼝语语料(如剧本、相声、谈话录、演讲录等),并以前者为主,后者为辅。
北京现代是哪个国家的
2.4.1.3 为确保5000万字语料的质量,尽可能地提⾼所选语料在采字、采词、采句
和采义等⽅⾯的涵盖量,选材不仅要考虑到语料的时间层次、⽂化层次和社会使⽤⾯层次,还应采取“抓住中⼼,其他补充”的⽅式。
·时间层次。即指语料的历时性。选取1919年⾄今的各个时期的语料;以
1977年⾄今的语料为主,其他各个时期的语料为辅进⾏补充。
·⽂化层次。以具有⾼中⽂化程度的⼈能够阅读的语料为主,其他⽂化程度为辅。
·社会使⽤⾯层次。以社会使⽤⾯较为⼴泛的语料为主,其他语料为辅进⾏补充;以⼈⽂与社会科学为主,⾃然科学为辅;以门类为主,以语体为辅,对门类进⾏补充。
2.4.2 语料的描述性原则
·从现代汉语语料库建设的主要⽤途出发,语料应在必要的⼈⼯⼲预的前提下,做描述性选取,以便为语⾔⽂字的规范与科研提供客观的科学依据。
·为了保证现代汉语的字、词、句、义在语料中具有合理的出现频率,语料的
选择应在控制⽐例的前提下,尽量做到采样⼴泛。
2.5 抽样原则
2.5.1 语⾔材料的多样性
选⽤政论性⽂章、新闻报道、各类⽂学艺术作品、科普读物、通俗读物、学术专论及各种应⽤⽂语体等现代汉语作品。
2.5.2 语⾔材料的完整性
2000字以下的⽂章原则上全篇采⽤。报纸可采取整篇⽂章、整版和整张相结合
的⽅式。
2.5.3 语⾔材料的遍历性
选材要注意各学科,各学科分⽀,各⾏各业,以及社会⽣活各个领域的语⾔⽂字应⽤的代表性。
2.6 抽样要求
2.6.1 抽样的数量与⽅式
2.6.1.1 书籍
抽样数量⼀般占全书字数的3——5%,字数最多不超过10000字。样本容量2000字,允许±500字的伸缩。
2.6.1.2 报纸
采⽤整版(4版或8版)选⽤的⽅式。不同的报纸选⽤不同的⽉份,以免内容重复。
报纸上的⼴告、启事等归在应⽤⽂类,不在报刊类语料的统计之列。
2.6.1.3 刊物
每本刊物上所选的总字数原则上不超过5000字。样本容量2000字,允许±500字的伸缩。
对同⼀版⾯的不同⽂章,按从上⾄下、从左到右的顺序选取。
⼀个样本必为同⼀作者的同⼀篇⽂章,限字数不限样本数(报刊除外)。
每个样本之中必为连续的语料内容。
应⽤⽂(包括⼴告、说明书等)
2000字以内的应⽤⽂宜整篇选⽤。对于篇幅较长的应⽤⽂,所选样本的容量为2000字,允许±500字的伸缩。
2.6.2 抽样材料的取舍要求
·每个样本头尾处⼩于句⼦的语⾔⽚段应删除。
·书信中的落款、套语、⽇期等应删除。
·图⽚的⽂字说明⼀律删除。
·剧本中的⼈物名要删除。
·作者、记者、实习⽣、通讯员、编辑、摄影、绘画等的名字⼀律删除。
·报刊中的专栏及其承办、协办单位的名称⼀律删除。
·旁注及旁注号⼀律删除。
·报刊中标明稿件来源的字样,如“本报讯”、“通讯员”、“实习⽣”、
“本报记者”、“新华社北京×⽉×⽇电”、“××杯散⽂特写征⽂”、“本报电视照⽚”、“插图”、“题图”、“本报编辑”、“责任编辑”等字样⼀律删除。
·报纸上的电影⼴告、电视节⽬预告、体育⽐赛预告、戏剧节⽬预告等内容⼀
律删除。
·报刊上的报刊名称、⽇期、天⽓预报及版权说明部分⼀律删除。
·报缝中的内容⼀律删除。
·删除的内容⼀律⽤红笔加框。
·印刷错误要改正。
·字数采⽤通栏字数与⾏数的乘积去掉明显的空⽩的⽅式加以统计。
·复印中字迹不清楚的当采⽤校对符号予以标明。
2.7 抽样的补充要求
2.7.1 在现代汉语语料库选材过程中,各承担任务的单位与个⼈应严格按照本原
则所阐述的宗旨与规定进⾏,如遇确需改动的情况,须事先提出商量。
2.7.2 以上有关选材年限及密度的规定是着眼于科学的整体发展⽽制定的。各个学
科的发展在不同的年代并不是齐头并进的,可根据具体情况适当调整依年限分布的⽐例、字数。调整的理由、调整后的⽐例和字数当详细说明,并作为附件收于清单之后。
2.7.3 ⼤学教材门类以国家规定的⼤学基础必修课为准。
2.7.4 避免选取⽂⾔⾊彩较重的篇章作语料,例如鲁迅等作家的作品不宜⽤作语料。避免选取诗歌作语料;剔除篇章中诗歌形式的内容。
2.7.5 详细、准确⽆误地填写选材清单及选材卡⽚中的每⼀项。选材字数的统计精
确到⼗位数。
2.8 分类别的样本分布⽰例
表⼀:⼈⽂与社会科学类