相关动态
张博 张茜 | 从词频符频探测学术汉语的若干语言特征——基于学术论文与报刊词频符频的对比
2024-11-10 18:10

引用方式:张博,张茜.从词频符频探测学术汉语的若干语言特征——基于学术论文与报刊词频符频的对比[J].语言教学与研究,2024,(05):1-13.

张博 张茜 | 从词频符频探测学术汉语的若干语言特征——基于学术论文与报刊词频符频的对比

从词频符频探测学术汉语的

若干语言特征——

基于学术论文与报刊词频符频的对比

张博,张茜

提 要本研究将语体上最接近学术汉语的通用书面语作为参照,采用语料库驱动的研究范式,以自建学术论文库和报刊库显著的词频和符频差异为线索,探测到学术汉语有别于通用书面语的一些语言特征;单音节词占比高,语体风格比通用书面语偏“文”:不少高频词的意义和/或用法不同于通用词;定语繁复;动词的时体特征不凸显;复句多,结构层次复杂,常用有文言色彩的关联词;句子长度长,句法复杂度高;疑问句少,做主宾语的疑问小句多,正反选择问多;括号的标示功能丰富多样。

关键词学术汉语;通用书面语;词频;符频;语料库驱动

一. 引言

学术汉语泛指学术语境下使用的汉语从狭义上说特指中文学术论著使用的语言是一种专门用途书面语。近年来汉语教师和研究者普遍认识到学术汉语水平低下是制约国际学生学术阅读能力和论文写作能力发展的重要因素。有调查显示本科留学生认为在专业学习的各个环节中写论文或者报告是最难的其次是阅读中文论文。李海燕等2020)多达61%的硕士留学生受试表示在整个学位论文写作过程中最困难的阶段是语言表达”,其困难程度远远超过选题定题”“搜集资料”“开展调査数据分析”(杨凝卓2016)。为促进国际学生学术论文写作能力发展张博(2024)建议学术汉语写作类课程在教学内容的安排上应强化学术汉语教学由学术汉语的语言知识向学术论文的写作技巧过渡。

学术汉语语言知识包括学术词汇、常用句式、惯用表达、衔接和连贯手段、修辞方式、语篇结构、标点符号及风格特征等。近年来学界开始关注学术汉语从不同侧面进行考察分析涉及词汇特征张赪等2020;张博2022;唐文菊、汲传波2023)、惯用表达周启红、王海峰2023)、语法特征朱宇、胡晓丹2021;金常心、李加攀2023)和语篇结构李婷、吴勇毅2022)等。从研究视角来看现有研究多关注不同学科学术汉语的异同也有个别研究旨在揭示学术汉语与通用汉语、留学生论文与汉语母语者论文的差异;从研究范式来看,多采用基于语料库(corpus-based)的方法,将已初步认识或发现的学术汉语特征放到语料库中进行检索,通过语料库数据及其分布并结合语言实例精细地考察反映该特征的形式、频率和功能等。我们认为,不同学科学术汉语的异同是相对微观的特征,从支持学术汉语教学的角度来说,认识学术汉语的整体性特征是更为紧要的工作;通用汉语、留学生论文都不是学术汉语的理想参照,因为,比较所得或许不是学术汉语的特征而是汉语书面语的特征,甚或是汉语的特征;基于语料库的研究只能对原有发现或预测进行验证、补充或修正,难以呈现学术汉语的整体面貌并探测到新的更多的特征。为此,本文拟采取与以往不同的研究思路和研究范式,即:以中文学术论文和中文报刊分别作为学术汉语和通用汉语书面语的典型语料,将语体上最接近学术汉语的通用书面语作为参照,以使所发掘的语言特征不是汉语书面语的语言特征,而是作为专门用途书面语的学术汉语的特征;采用语料库驱动(corpus-driven)的研究范式,不预先设定学术汉语语言特征的观测层面或观测点,而是从词语频率(下文简称“词频”)和标点符号频率(下文简称“符频”)人手,以两库显著的词频、符频差异为线索,从多个维度自下而上地探讨学术汉语有别于通用书面语的词汇特征、语法特征、语体特征及表达特点,以期为学术汉语教学提供一些更有针对性的参考依据。

. 语料库构建与词频符频统计方法

本研究自建学术论文语料库和报刊语料库(以下分别简称“论文库"“报刊库”)。为方便有效计算标准型次比、对比两库词种和词频等指标,两库各收集约1000万字的语料论文库10153764报刊库10152289两库库容基本均等。语料时间范围均为2018-2024年间。鉴于语料是否具有代表性关系到研究结果能否推广到更大的语料范围中(Leech 1991),因此两库的语料选取充分考虑到代表性和均衡性。

学术论文语料以期刊论文为来源,论文学科分布依据国务院学位委员会最新颁布的《研究生教育学科专业目录》(2022。在该目录14个学科大类(哲学、经济学、法学、教育学、文学历史学、理学、工学、农学、医学、军事学、管理学、艺术学、交叉学科)中各选取较具代表性的核心期刊,各学科语料规模控制在71万字左右。

报刊语料兼收日报(以报道时政新闻为主)和晚报(以报道社会新闻为主),力求涉及社会生活各个领域。包括《光明日报》《广州日报》《华西都市报》《环球时报》《经济日报》《南方都市报》《人民日报》《文摘报》《新华每日电讯》《羊城晚报》和《中国青年报》等11种报纸语料,这些报纸均入选国家新闻出版广电总局发布的《百强报纸名单》,受到社会各界的广泛认可,具有代表性。此外,考虑到可能存在通稿情况,避免采集不同报纸同一日期的语料。每种报纸语料规模控制在91万字左右。

两库的语料获取方式和处理程序是:学术论文语料需将下载的PDF格式转为可编辑文本格式,在此过程中,由于转换程序的限制,不可避免地出现一些错误和乱码,为此采取严格的人工控制,删除和使用通配符批量替换错误字符,以最大程度地保留可用正文。报刊语料使用“八爪鱼”网页数据采集器进行网页抓取,在生成文本列表后将文本粘贴至Word文档。语料获取后,统一对语料进行清洗。学术论文语料手动删除中英文摘要、关键词、中图分类号、标题、作者信息、脚注、页眉页脚、参考文献、图表等信息,只保留正文。报刊语料手动删除作者和编辑人员署名、版序、标题、广告和图片说明等,也只保留正文。将所有语料清洗完成后,转成文本文档格式。为确保正文内容的连贯性,转为文本文档后再次将所有语料做人工校对。

使用的分词和词频统计软件是由国家语委开发的Corpus Word ParserCorpus Word FrequencyCorpus Word Parser是语料库分词和词性标注软件具有中文分词、词性标注、用户自定义词表等功能。Corpus Word Frequency是语料字词频统计软件,同时还可以统计语料库中的标点符号。利用该软件对两个语料库的语料进行统计,分别得到其所有词语以及标点符号的频次、频率和频序。

. 从词频探测到的词汇及语体特征

3.1 单音节词占比高,语体风格比通用书面语偏“文”

在论文库和报刊库字数相当的情况下,论文库词语数为7184628,报刊库词语数为6761687,前者多于后者。据此测算,论文语料平均词长1.413字,报刊语料平均词长1.501字,表明学术汉语平均词长短于通用书面语。

进一步分析两库中频序位于前2000的高频词语,可以看到,论文库中常用单音节词的词种、频次及频率都高于报刊库。

论文库中常用单音节词占比相对较高,这是学术汉语词长相对较短的重要原因。

以往多有研究关注到单双音节词在口语和书面语中的分布情况,认为双音节词占优势是书面语的典型特征,“若一对同义词有音节上的差异,则口语倾向于为单音节,书面语倾向于为双音节”(张文贤等2012)。但从书面语内部来看,本研究基于语料库的统计数据却发现,若一对同义词有音节上的差异,单音节词在学术汉语中的常用度往往高于通用书面语,反之,双音节词在通用书面语中的常用度则高于学术汉语,如表2所示:

从语体色彩来看,论文库中频次高于报刊库的单音节词都是具有文言语体色彩的词,如果是口语色彩明显的单音节词,则可能出现报刊库频次高于论文库的情况,例如,“买”在报刊库出现920次,在论文库只出现111次;与表2中文言色彩强的“购”在论文库中频次高而报刊库中频次低的情况(751435)正相反。

单双音对立的同义词在学术汉语中还呈现出“以单求单”的组配特点,即,如果一对单双音同义词在特定语境中用单未用双,会压制与之搭配的另一个词也用单音节的,而排斥与该单音节词同义的双音节词,以使两个单音节词组配为一个双音节的“标准韵律词”。例如,“富一丰富”“极一极其"是两对单双音同义词,在“美国国会图书馆收藏极富”中,谓词性成分使用的是单音节形容词“富”,这要求其修饰性成分不能用双音节词“极其”而必用单音节的“极”,从而组成双音节韵律词“极富”。再如:

这类双音节韵律词并不是真正的复合词,仍会被语料库分词软件处理为两个单音词。单双音同义词这种“以单求单”的组配规则进一步提高了学术汉语单音节词的使用频度。

冯胜利等(2021)指出,“语体上,单音兼有‘庄典与口语’两级功能。”论文库中词频高于报刊库的单音节词通常体现的正是学术汉语的庄典风格,使学术汉语比通用书面语的庄典度更高,在语体风格上更为偏“文”。

3.2 不少高频词的意义和/或用法不同于通用词

对比两库词频表,可以看到有些词语在论文库中的频次显著高于报刊库,以此为线索,发现其在两库中的主要意义和/或用法往往存在明显差异,如下页表3所示。

3中论文库频次远高于报刊库的词语,通常是在通用义之外另有出现频率较高的学术义及特殊用法。例如,“较”在报刊库和论文库中都主要用作副词,表示具有一定程度;但在论文库中,“较”还常作介词,用于比较性状、程度,常出现于“较……更//更为……”“相较(于)……(更/更加/更为)……”“较之(于)……更/更为/更加……”等固定结构中:

有些学术汉语高频词的学术义在通用汉语中鲜少出现,以至于《现汉》没有收录。例如,“区域”在《现汉》中是单义词,只有“地区范围”一个义项;而在学术汉语中,“区域”常用来表示“物体或图像的一部分”(例1314)和“活动或变化的范围”(例1516)。

上例中的“响应”都表示一个系统或一些相互联系的要素受到刺激或外力作用时所产生的反应。这个意义不是通用义,故《现汉》也未收录。

英语第二语言阅读研究发现,在影响阅读的四种主要词汇知识缺陷中,最严重的缺陷是“对一词多义意识薄弱,对多义词在具体语境中的词义判断出现错误”,错误频次(824)明显高于“词性与词义关系”(594)“固定短语”(588)和“词与词之间的意义关系”(390)等方面的缺陷。(魏峥2003)鉴于此,学术汉语中意义和/或用法不同于通用词语的高频词不仅应当收入学术词汇表,还应在教学中予以适当处理,以使学习者注意其特殊意义及用法,避免在文献阅读时用通用汉语中的常用义理解学术词语而导致误解文意。从学术写作的角度说,只有准确把握学术词语的词义,才谈得上贴切地使用学术词语。

四. 从词频探测到的语法特征

4.1 定语繁复

助词的频序在论文库和报刊库中都位列第一但频次和频率却有显著差异。

从频次来看论文库中的比报刊库多出现115000余次从频率来看论文库每百字中出现的多于5报刊库则出现不到4个。这表明在学术汉语中的常用度远高于通用书面语。

助词并不属于具有文言语体色彩或庄典风格的单音节词相反它是中古时期口语系统中产生的语言成分。那么在语体偏文的学术汉语中的常用度为何反而更高考察论文库中的句法功能发现其多用于构成充当定语的字短语由此我们探测到学术汉语一个突出的句法特征——定语繁复。

字短语来看学术汉语中定语的繁复性主要体现在两个方面其一一个名词常被多个字短语修饰形成多重定语。其二多重定语内部多个字短语之间的关系复杂。或为并列关系即多个字短语地位平等可以分别修饰中心语如例(19)中三个字短语分别修饰智能”,表示的是拓展的智能”“模拟的智能”“人造的智能”;或为偏正关系字定语或其中的名词递相受其前面字定语的修饰如例(20)字短语位置的中的位置那些点的修饰那些点又受电子最可能的修饰。

学术语言讲求严谨精准信息密度大定语繁复当是其普遍特征。Biber et al.1999:578)发现在学术论文中绝大多数名词短语60%)会被修饰语(modifier)所修饰相比之下日常口语交流中仅有较少的名词短语15%)带有修饰语。本研究论文库和报刊库字的频度差异使我们观察到学术论文中的名词不仅会比口语性会话中的名词更常使用修饰语即便在汉语书面语系统内部学术汉语名词修饰语的使用频度也显著高于通用书面语。在面向第二语言学习者的学术汉语教学中定语与中心语的关系、多项定语之间的关系、多项定语的顺序、定语后的隐现等有关定语的语法知识应当列为教学重点之一。

4.2 动词的时体特征不凸显

现代汉语中最能反映动词时体语义特征的是体助词”“”“”,其在论文库和报刊库中的数量分布有明显差异。从总体上看三者在论文库中的使用频率都明显低于报刊库尤以为甚其使用频率不及报刊库的一半。

学术论文较少使用体助词首先当与语体有关。刘林、陈振宇(2012)考察发现“‘了、着、过'在文本中依操作、说明和叙事语体的顺序呈现逐步递增的趋向。报刊的新闻报道和人物专访类文章中叙事语体的比重比学术论文高较多涉及事件的动态性和持续性因而较常使用体助词;而学术论文在语体上更倾向操作和说明叙事语体少因而较少使用体助词。例如学带表示动作完成的体助词带表示动作正在进行或状态持续的体助词”,在论文库和报刊库中的出现频次非常悬殊分别为2:233:38

然而我们发现语体特征并不是影响学术汉语较少使用体助词的唯一因素因为在动词时体一致的情况下常有报刊用体助词而论文未用的情况。例如

对两库双音节动词加体助词”“的情况做抽样调查发现论文库中只有表示数量变化的增加”“降低等加的情况多于报刊其他动词加”“的比重多低于报刊。具体数据见下页表6

我们分析学术论文较少使用体助词”“”“”,动词的时体语义特征不凸显除了与语体有关外还可能与三个因素有关其一研究过程复杂而曲折时常会经历多次实验和否定之否定的过程研究行为具有一定的恒常性这使得研究过程的时间性较为模糊。例如(25采用1:1近邻匹配的方法很难说采用这个动作是在哪个时间点上完成的或许贯穿整个研究因此采用未加表示动作完成的。其二作为科学研究总结性文件的学术论文重在论述研究发现或创新性见解阐明科学原理揭示普遍现象或规律不太关注动作是否完成或动作状态是否持续。例如尽管家伦理迄今一直承载着世人的价值依托但在例(27)承载之后并未加表示状态持续的。其三学术汉语偏的语体特征决定了其比通用书面语更为简洁精炼对于不表示概念意义的体助词”“”“能省则省。

4.3 复句多结构层次复杂常用有文言色彩的关联词

粗略观察词频数据可以看到论文库中复句所用的关联词语普遍比报刊库中的高频。为了深人探查学术汉语复句使用情况和特点我们采用AntConc汉语助研两款软件进行复句关联词检索。对于单用关联词使用AntConc“KWIC(关键词工具直接检索对于有跨距的关联词利用汉语助研双词检索功能检索该功能允许用户自定义双词的跨距。鉴于学术论文中关联词之间可能存在较大的距离为避免遗漏我们将跨距设定为100,以确保提取语料中所有目标复句。由于单用的关联词很容易出现非连词用法混入或切分失误的情况例如查找另外还可能出现其代词和副词用法查找以致可能出现[以致]”“[以致]命打击等非词成分),因此我们对检索出的目标词条进行人工筛别以确保检索结果的可靠性。

对比两库复句使用情况发现学术汉语中的复句有四个特点

1)各类复句的使用频度皆高于通用书面语。

2)更常使用因果复句和转折复句。两库中最常用的复句都是因果复句和转折复句而且这两类复句在两库中的频次比也最高表明学术汉语比通用书面语更常使用因果复句和转折复句。

3)复句的结构层次复杂存在大量多层复句。例如

4更倾向使用有文言色彩的关联词。两库中同类复句同功能关联词频次比有大小之分,例如因果复句关联词因为……所以……在论文库和报刊库中的频次分别为149102者频次比只有1.46,由于……因此……的频次比却高达15.1(589:39);假设复句关联词”“即使在两库中的频次比分别为2.07(1631:787)2.22(637:287),也远高于如果在两库中的频次比1.29(2444:1898)。当然也有个别关联词在论文库中的频次反而低于报刊库如假设复句中的哪怕”(32:127)就算”(8:76)。从总体上看论文库常用度远高于报刊库的复句关联词由于……因此……”“”“即使通常是有文言色彩的词语。

五. 从符频探测到的语法特征和表达特点

5.1 句子长度长句法复杂度高

句号、问号和感叹号都是句末点号逗号是表示句子或语段内部一般性停顿的点号从符频统计数据来看学术论文库中这些点号的频次和频率明显比报刊库少

(30)长在宾语复杂充当宾语的是动宾短语其动词探讨前有介宾短语构成的长状语后有疑问小句充当的宾语(31)状语宾语都长而复杂状语是由介词通过加两个并列的动词短语构成的介宾短语宾语中心词思考前有复杂的多重定语。这类复杂长句提示我们在学术汉语教学中应当注重培养来华留学生的长句分析能力帮助他们掌握简化句子结构、识别句子主干和核心成分的方法。

5.2 疑问句少做主宾语的疑问小句多正反选择问多

前文表8中点号的统计数据显示学术汉语中问号和叹号远远少于通用书面语。叹号少很好理解因为叹号主要用于感叹句和语气强烈的祈使句及反问句而学术论文通常客观描述事实和阐述理论不带明显的主观情感因而极少使用带有强烈感情的感叹句和反问句也不涉及人际会话不会使用祈使句。然而论文库中作为疑问句标记的问号显著少于报刊库频次不到报刊库的一半却有些出人意料因为学术论文是针对特定问题的研究成果问题在论文库中出现9832频次显著高于报刊库的6913那么学术论文为什么问题多而提出问题的疑问句少呢以论文库中疑问代词、疑问语气副词为线索我们发现其主要用于充当主宾语的疑问小句中。例如

上列句中加下划线的部分如果独立成句则是疑问句句末需使用标记疑问语气的问号而作为陈述句中的句法成分这些疑问句降格为疑问小句不再携带疑问语气。尽管疑问小句有时位于句末整个句子仍然携带的是陈述语气通常不能在充任宾语的句末疑问小句后使用问号。由此推测疑问小句做主宾语的情况较多当是学术汉语较少使用问号的重要原因。

在考察疑问代词和疑问语气副词的使用情况时我们还发现学术汉语疑问表达的另一显著特点即用“X"类词语的正反选择问小句远多于通用书面语。首先引起我们注意的是两库中的常用疑问代词和疑问语气副词在频次上大多没有显著差异有的是论文库频次略高于报刊库如何(2295:2177)、究竞(214:150)、何以(171:67”,有的是论文库频次略低于报刊库什么(1072:1719)、怎样(308:453)、哪些(223:445)、为何(187:274”,而疑问语气副词是否在论文库和报刊库中的频次则十分悬殊(2124:824)是否是用于正反选择问的语气副词进一步考察能否”“可否”“应否”“与否等其他用于正反选择问的词语发现其在论文库中的频次均高于报刊库频次之比分别为能否”302:224可否”15:9应否”4:0与否”94:22是否是判断词"语法化而来的疑问语气副词能否”“可否”“应否是由助动词与构成的凝固性结构与否是连词构成的跨层序列其中的是称代性的否定词吕叔湘1942/2014:338-340)。这些“X"类词语用于疑问小句有相通之处都是对正反两种情况进行选择性提问或存疑。例如(36应否在家事诉讼法中增设行为保全制度应当在家事诉讼法中增设行为保全制度还是不应当在家事诉讼法中增设行为保全制度”;(37虚假陈述纠纷中的因果关系存在与否"虚假陈述纠纷中的因果关系存在还是不存在

学术文本借助“X类词语提问兼及结论或观点主张的两种可能性或不确定性有助于体现作者的客观立场淡化作者先人为主的主观倾向以期经过分析论证令人信服地引出或正或反的答案。此外借助“X类词语可将正问反问合并在一个疑问小句中也符合学术汉语结构紧凑、言简义丰的表达风格。

5.3 括号的标示功能丰富多样

论文库中频次最高的标号是圆括号以下简称括号”),报刊库频次最高的标号则是引号“”),而括号的使用量仅为论文库的21.7%

学术论文中的括号多用来标示引文出处这是受到西方学术引用方式的影响。我国传统引用方式较为笼统简单通常是将作者或文献名置于所引内容之前子曰”“《书》云这种引用方式强调的是所引内容出自先贤或经典从而强化引述的权威性西方学术引用要求详细呈现作者、论著发表/出版时间、引文所在页码或章节等通常需以括注形式将其置于引文之后从而突出所引内容减少出处信息对上下文连贯性的影响。目前中文学术论文也已通用引文后括注出处的征引规范这是论文库中圆括号频次远高于报刊的重要原因。

括号除了用以标示引文出处外还有多种标示功能包括标示说明、补充、确指、强调、举例、交、存、简称、注音、次、外语原词/原文、汉语译词/译文以及提示参看等。例如

这种情况之所以少见是因为小句、句子或句段的注释通常较长插在文中会阻隔上下文,因此小句、句子或句段的注释在学术论文中通常采用脚注或尾注的形式处理而词语注释数量较大注释较短出于阅读友好的考虑多采用随词括注的形式避免影响阅读的连贯性。

六. 结语

以往学术汉语词频统计及与通用汉语词频对比的目的比较单一,主要是为了提取学术词语,编制学术词汇表(Coxhead 2000;Gardner&.Davies 2014;李加

    以上就是本篇文章【张博 张茜 | 从词频符频探测学术汉语的若干语言特征——基于学术论文与报刊词频符频的对比】的全部内容了,欢迎阅览 ! 文章地址:http://ktsh.xhstdz.com/news/4680.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://ktsh.xhstdz.com/mobile/ , 查看更多   
最新文章
ks秒单关注(快速秒单关注,提升用户转化率)
KS秒单关注是一种快速秒单关注的方法,旨在提升用户的转化率。这种方法通过一系列的策略和技巧,能够快速吸引用户的关注,并使他
密码技术应用员理论知识题及答案.docVIP
PAGEPAGE1密码技术应用员理论知识题及答案单选题1.密码系统试运行报告中,记录的每个问题均应具备唯一标识,其作用是()。A、描
外链自动增加:全面解析和战略规划198
引言外链是搜索引擎优化 (SEO) 至关重要的组成部分,可以提高网站在搜索结果页面 (SERP) 中的排名。然而,有时网站可能会经历外
OpenAI 与马斯克“恩怨”再升级!公开历史邮件,揭秘“控制权”争夺战
OpenAI 与马斯克的法律战已持续数月,核心争议点在于 OpenAI 是否背离了其最初的非营利使命,即让 AI 研究成果惠及所有人。上个
AI智能写作助手:一站式文案创作与优化解决方案,覆多种场景需求
1. 文案生成器是一款利用先进的人工智能技术帮助客户快速生成创意文案的工具。它免费采用可以按照使用者输入的关键词或主题,自
07 高性能系统架构设计
本课时讲解大家常听到的高性能系统架构。 高性能系统架构,主要包括两部分内容,性能测试与性能优化。性能优化又可
百度营销黑帽seo【百度seo营销公司】
在当今数字化的时代,搜索引擎优化(SEO)已经成为了企业网站推广的重要手段,百度作为中国(黑帽seo)的搜索引擎,拥有庞大的用户
1000亿美元!微软与OpenAI的“AI超级霸权”野心
财联社及科创板日报旗下产品——未来已来,AI前沿,独家、深度、专业!
Wordpress哪个主题对SEO和页面速度友好,谷歌排名高?
在我多年的网站建设与优化实践中,我发现选择一个合适的WordPress主题对于网站的SEO表现和页面速度至关重要。特别是在谷歌这样的
相关文章