语料库语言学基本概念
语料库语言学是一门实证性(empirical)学科。
语料库主要类型
- 通用语料库
- 英国国家语料库(British National Corpus, BNC)
- 英语文库(Bank of English, BoE)
- 美国国家语料库(American National Corpus, ANC)
- 专用语料库
- 共时语料库
- 历时语料库
- 赫尔辛基英语文本语料库(Helsinki Corpus of English Texts)
- 口语语料库
- 笔语语料库
- 本族语者语料库
- 学习者语料库
- 英语学习者国际语料库(International Corpus of Learner English, ICLE)
- 鲁汶英语中介语国际数据库(Louvain International Database of Spoken English Interlanguage, LINDSEI)
- 中国学习者英语语料库(Chinese Learner's English Corpus, CLEC)
- 中国学生口笔语语料库(Spoken and Written Corpus of Chinese Learners, SWECCL)
- 中国学习者英语口语语料库(College Learners' Spoken English Corpus, COLSEC)
- 中国大学生英汉汉英口笔译语料库(Parallel Corpus of Chinese EFL Learners, PACCEL)
- Corpus for English Majors, CEM语料库
- 单语语料库
- 平行/双语语料库和多语语料库
- Europarl Parallel Corpus (European Parliament Proceedings Parallel Corpus)
生文本 vs. 标注文本
- 词性赋码
- 句法标注
- ……
标注
- 元信息标注
- 如引用源、出版商、出版年代、作者、作者性别、语境、标题、段落、文献……
- 词性赋码(part-of-speech tagging, POS tagging)
- Brill POS tagger
- CLAWS
- TreeTagger
词、形符、类符、类符/形符比
- 形符 token
- tokenization: It's → it 's can't → ca n't
- 类符 type (语料文本中有多少独特的词形 word form)
- Rose is a rose is a rose is a rose. 该句诗中形符有10个,类符有3个:rose is a
- 类符/形符比(type-token ratio, TTR)
- TTR = (token number)/(type number) * 100%
- TTR是衡量文本中词汇密度(lexical density)的常用方法
- 标准化的TTR:计算每个文本每1000词(数量可调整)的TTR,然后计算这些TTR的平均值
概率和频率
频率(frequency)是标准化了的频数(平均每百万、十万、万或千词中某个单词的频数)
索引、索引工具和索引行
索引(concordance)又称为“语境中的关键词”(key word in context, KWIC)
常见索引工具
- WordSmith Tools
- AntConc
- Concordance
- BNC配套索引工具Sara和Xaira
- Bank of English配套的jLookup
- Hong Kong Virtual Lanugage Centre的在线索引工具
- 伯明翰城市大学的WebCorp
- Brigham Young University的Mark Davis的在线索引工具
搭配与类联接
搭配(collocation),类联接(colligation)
多词序列
多词序列(MWE/multiword expression)又称多词单位(MWU/multiword units)、复现词组(recurrent word combination),与此相关的还有词块(lexical chunks)、词簇(word clusters)、预制语块(prefabs或prefabricated chunks)、套语(formulaic sequence)、N元组(n-grams)等。
语义韵
语义韵(semantic prosody):举个例子,就是cause这个词,在concordance中就可以看出来,后面跟的总是不良的意义,这就是语义韵。
正则表达式
推荐EditPad Pro文本编辑器,全面支持正则,并可以对正则进行调试。
语料库应用的基本要素及步骤
语料库应用的基本要素
- 提出可回答的研究问题
- 拥有合适的语料库
- 拥有得力的语料库分析工具
- 建库阶段
- Sitman PC复读机(www.sitmansoft.com)
- 文本整理器
- PowerGREP
- 手工标注软件AnnoTool(www.ling.sinica.edu.tw)
- 英语自动词性赋码软件CLAWS4
- 多语言自动词性赋码软件TreeTagger
- 数据提取阶段
- WordSmith Tools
- AntConc
- ParaConc 平行语料库检索及分析工具
- PatCount 多文本语言特征数据提取工具
- BFSU Collocator 搭配分析专用工具
- BFSU Colligator 类联接分析专用工具
- PowerGREP
- 统计和数据分析阶段
- 建库阶段