推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

《语料库应用教程》读书笔记

   日期:2024-11-10     移动:http://ktsh.xhstdz.com/mobile/quote/65137.html

《语料库应用教程》读书笔记


语料库语言学基本概念

语料库语言学是一门实证性(empirical)学科。

语料库主要类型

  • 通用语料库
    • 英国国家语料库(British National Corpus, BNC)
    • 英语文库(Bank of English, BoE)
    • 美国国家语料库(American National Corpus, ANC)
  • 专用语料库
  • 共时语料库
  • 历时语料库
    • 赫尔辛基英语文本语料库(Helsinki Corpus of English Texts)
  • 口语语料库
  • 笔语语料库
  • 本族语者语料库
  • 学习者语料库
    • 英语学习者国际语料库(International Corpus of Learner English, ICLE)
    • 鲁汶英语中介语国际数据库(Louvain International Database of Spoken English Interlanguage, LINDSEI)
    • 中国学习者英语语料库(Chinese Learner's English Corpus, CLEC)
    • 中国学生口笔语语料库(Spoken and Written Corpus of Chinese Learners, SWECCL)
    • 中国学习者英语口语语料库(College Learners' Spoken English Corpus, COLSEC)
    • 中国大学生英汉汉英口笔译语料库(Parallel Corpus of Chinese EFL Learners, PACCEL)
    • Corpus for English Majors, CEM语料库
  • 单语语料库
  • 平行/双语语料库和多语语料库
    • Europarl Parallel Corpus (European Parliament Proceedings Parallel Corpus)

生文本 vs. 标注文本

  • 词性赋码
  • 句法标注
  • ……

标注

  • 元信息标注
    • 如引用源、出版商、出版年代、作者、作者性别、语境、标题、段落、文献……
  • 词性赋码(part-of-speech tagging, POS tagging)
    • Brill POS tagger
    • CLAWS
    • TreeTagger

词、形符、类符、类符/形符比

  • 形符 token
    • tokenization: It's → it 's can't → ca n't
  • 类符 type (语料文本中有多少独特的词形 word form)
    • Rose is a rose is a rose is a rose. 该句诗中形符有10个,类符有3个:rose is a
  • 类符/形符比(type-token ratio, TTR)
    • TTR = (token number)/(type number) * 100%
    • TTR是衡量文本中词汇密度(lexical density)的常用方法
    • 标准化的TTR:计算每个文本每1000词(数量可调整)的TTR,然后计算这些TTR的平均值

概率和频率

频率(frequency)是标准化了的频数(平均每百万、十万、万或千词中某个单词的频数)

索引、索引工具和索引行

索引(concordance)又称为“语境中的关键词”(key word in context, KWIC)

常见索引工具

  • WordSmith Tools
  • AntConc
  • Concordance
  • BNC配套索引工具Sara和Xaira
  • Bank of English配套的jLookup
  • Hong Kong Virtual Lanugage Centre的在线索引工具
  • 伯明翰城市大学的WebCorp
  • Brigham Young University的Mark Davis的在线索引工具

搭配与类联接

搭配(collocation),类联接(colligation)

多词序列

多词序列(MWE/multiword expression)又称多词单位(MWU/multiword units)、复现词组(recurrent word combination),与此相关的还有词块(lexical chunks)、词簇(word clusters)、预制语块(prefabs或prefabricated chunks)、套语(formulaic sequence)、N元组(n-grams)等。

语义韵

语义韵(semantic prosody):举个例子,就是cause这个词,在concordance中就可以看出来,后面跟的总是不良的意义,这就是语义韵。

正则表达式

推荐EditPad Pro文本编辑器,全面支持正则,并可以对正则进行调试。

语料库应用的基本要素及步骤

语料库应用的基本要素

  1. 提出可回答的研究问题
  2. 拥有合适的语料库
  3. 拥有得力的语料库分析工具
    • 建库阶段
      • Sitman PC复读机(www.sitmansoft.com)
      • 文本整理器
      • PowerGREP
      • 手工标注软件AnnoTool(www.ling.sinica.edu.tw)
      • 英语自动词性赋码软件CLAWS4
      • 多语言自动词性赋码软件TreeTagger
    • 数据提取阶段
      • WordSmith Tools
      • AntConc
      • ParaConc 平行语料库检索及分析工具
      • PatCount 多文本语言特征数据提取工具
      • BFSU Collocator 搭配分析专用工具
      • BFSU Colligator 类联接分析专用工具
      • PowerGREP
    • 统计和数据分析阶段

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号