王战旗
摘要:在中小学英语阅读理解命题生词率控制方面,教师普遍缺乏简单、高效的生词率检测工具,已有生词率统计方式或者效率低、误差大,或者流程复杂。为解决此问题,特编制一个专门用于生词率统计的工具,内嵌人教版小学、初中、 三套教材的单元词表,直观呈现阅读理解题中的单词以及生词,避免因生词量过大导致题目区分度下降、教学效果不明显,以及学生缺乏学习积极性等弊端。
英语教学中,测试具有多方面的作用,比如帮助教师了解学生学习进度,为教师教学效果提供评价依据,帮助学生发现学习中的不足,指明下一步学习方向等。可见,测试在英语教学中占据非常重要的地位,并对教学产生重要影响。如果测试题的编制出现问题,不仅会导致师生无法很好地实现预期的测试目标,有时还会对教师教学产生不利的影响[1]。而测试出现问题,有时是因为教师缺乏理论指导,有时则是因为缺乏合理的手段和工具。
阅读理解是中小学英语测试中的一种重要题型,它考查的是学生的阅读能力。很多研究表明,影响学生阅读能力的因素很多,文本中的生词量则是影响阅读理解效果的重要因素[2-4]。一项实证研究发现,在不借助词典等工具阅读虚构文本的情况下,当生词率为20%时,被试的阅读理解情况不佳;当生词覆盖率为5%和10%时,只有极少部分人的阅读理解情况尚可,大部分人的阅读理解情况依然不理想。经过对数据进行回归分析,该研究认为只有当生词率在2%以内时,阅读者才能不借助任何工具顺利地完成阅读[5]。国内的一项研究也得出了类似结论[6]。
既然词汇量对阅读理解的影响如此之大,那么英语测试就要注意把生词控制在合理的范围内,以免学生觉得生词过多、试题过难,出现“地板效应”。当然,也要避免应检测的新学词汇没有呈现,使试题过于简单,出现“天花板效应”。
那么,国内教师在英语测试阅读理解命题中生词率控制方面的观念和做法如何呢?本研究首先对我国英语教师进行了问卷调查,发现教师普遍缺乏简单、高效检测生词率的方法,然后介绍目前常见的生词率统计方式,最后介绍本研究尝试编制的计算机生词率统计工具。
一、我国教师英语测试阅读理解命题中生词率控制现状调查和结果分析
为了解国内教师在英语测试阅读理解命题中生词率控制方面的观念和实际做法,笔者在2021年9月做了一次网络问卷调查,共收到来自全国17个省(自治区、直辖市)的有效问卷708份。被调查者基本信息见表1。
调查结果表明,在708名英语教师和教研员中,54.9%的人(389人)参加过英语测试命题。在这部分被调查者中,99.2%的人(386人)认为“应该把阅读理解题的生词率控制在一定范围内”。持此观点的386人中,98.2%的人(382人)称在英语试题编制时会对阅读理解题的生词率进行控制。但是在这382人中,63.1%的人(241人)控制生词率的方式是“进行大致估计,不进行量化判断”,只有36.9%的人(141人)“通过量化计算”来控制生词率。其中,62.4%的人(88人)通过人工统计的方式计算生词率,37.6%的人(53人,占参与过命题者人数的13.6%)使用计算机工具计算生词率。
对于使用计算机工具控制生词率的情况,调查问卷进一步提供6个选项(多选题):Word、Excel、安东尼(Anthony)开发的Ant Word Profiler、 希特利(Heatley)等人开发的Range、自己开发的工具,以及其他情况。这些选项涵盖普通的文字工具以及专业的词汇分析工具,并提供自定义选项。由被调查者的选择统计情况可知(如图1),绝大部分人用的是非专业的文字处理工具,如Word、Excel等,使用Ant Word Profiler、Range等专业词汇分析工具的人非常少,也没有自主研发工具控制生词率。
由本次调查可知,英语教师基本上都认为英语测试中的阅读理解题需要控制生词率,在实践中也以某种方式实施。但是大多数教师只是凭感觉和经验进行大致判断,只有少数教师通过计算机工具进行量化统计。在使用的工具中,绝大部分教师用的是Word、Excel,只有极个别教师使用比较专业的词汇分析工具,如Ant Word Profiler、Range等。那么,这些工具是否适用于英语测试题编制中的生词率统计呢?下面对这些工具的使用方法进行分析。
二、教师常用生词率统计工具比较
(一)利用Word统计生词率
用Word进行生词率统计,基本流程如下:
教师准备一份截至目标检测单元已学单词的词表,对阅读理解题的语篇逐词查看并判断,对生词进行特殊标记,比如用某种颜色突出显示;对语篇全部完成标记后统计生词数量;然后利用Word的“字数统计”功能得出总单词数(在“审阅”选项卡“校对”区,对英文单词数的统计是统计信息中的“字数”,注意不是“字符数”),生词总数除以总字数,即可得出生词率。
(二)利用Excel统计生词率
使用Excel统计生词率的流程比较复杂。以下是其中一种统计生词率的方法。这种方法同样要求教师准备如前所述的词表,并且对于任何截至目标单元学生应该掌握的英语屈折变化形式都要包括进来。首先,利用Word的查找替换功能把要检测生词率的阅读理解语篇用空格替换为回车符,使文本呈现一个单词一行的格式,去掉无关的标点符号;然后,选择全部文本,粘贴到Excel表格的一列中(比如A列);接着,把准备好的词表按一个单词一行的方式放至另一列(比如B列),之后在另一个空列(比如C列)用函数功能对比A列每一个单词是否出现在B列中,如果出现代表学生学过该词,未出现则代表这是一个生词。具体实现对比的函数可以有不同的方式,一种方式如“IF(ISERROR(MATCH(A1, $B$1:$B$X,0)), "", A1)”,注意把函数中的X替换为词汇表的实际长度,即把该公式输入C列第一行单元格,然后通过快速单元格复制到和语篇列表具有同样的数量。这个公式利用了Excel的三个函数嵌套实现对比,并把词表中包含的词写入C列,然后计算C列的空格数,除以A列总单词数,即可得到语篇的生词率。
(三)利用Ant Word Profiler统计生词率
除了用常见的文字和电子制表工具统计生词率外,教师还可用专业的词汇分析软件计算生词率。可以实现该功能的软件有安东尼编制的Ant Word Profiler [7]和希特利等人编制的Range [8]等。
使用Ant Word Profiler统计生词率,和运用Excel统计生词率方法一样,需要准备同样的词表,然后按照软件要求的格式对词表进行处理(每个单词的原形形式独立一行,每个屈折变化形式另起一行后加TAB符后列出),最后把词表放入一个文本文件。接着,把要分析的阅读理解题放入另一文本文件并保存。在软件主界面,清空左下角的分级词表列表,选择前面做的词表文本文件作为词汇分析的基础词表。之后,在左上角的用户文件区点击“Choose”按钮选择要分析的阅读语篇文本文件加载,单击下边列表框中列出的相应文件,点击“View”按钮,弹出新窗口,点击“Non - Level List Word”,在右上角的“Token Coverage”中显示的数字即为该语篇的生词率(如图2)。
通过对以上三种生词率统计方法的介绍,我们可以很明显地看出它们各有优缺点。用Word统计生词率流程简单,但是判断生词时需要人工,耗时耗力,效率极低,误差大。用Excel统计生词率准确率高,但是操作复杂:一是须和Word软件配合使用;二是需要准备复杂的词表;三是需要掌握Excel函数的使用方法。用Ant Word Profiler统计生词率的流程比较简单,但同样需要准备复杂的词表,而且词表需要按照软件要求格式处理,对使用者的能力要求较高。实际上,制作已学词表耗时费力,且不同的单元都需要做新的词表,对于教师而言过于繁杂。
由上述分析可知,目前教师使用的生词率统计方式或者效率太低、误差大,或者流程复杂,且需要教师制作多个已学词表(如果是以单元检测为目的,每个单元都需要编制一个词表)。这或许也解释了本研究问卷调查中发现的一个有趣的现象:教师普遍接受需要控制生词率这一理念,但在实际操作中对生词率只进行大致估计,而不进行量化。为了解决此问题,笔者编制了一个专门用于统计生词率的工具,内嵌人教版小学、初中、 三套教材的单元词表,使用者只需简单的操作就能快速便捷地计算出阅读理解题语篇的生词率,从而根据生词率情况进行相应调整,如用简单的词改写、括注生词等。下面对该工具的编制及使用进行说明。
三、生词率统计工具的开发与应用
(一)词表的编制
要编制具有生词率统计功能的软件工具,首先要解决的是词表问题。有了词表,才能用编程手段对比并统计生词率。现行国家课程标准对义务教育阶段及 阶段学生应该掌握的词汇有明确的规定,教材是以课程标准的规定为依据编写的[9],词汇也是根据课标规定系统安排的,并在学段结束时完成相应课标词汇的呈现和复现。因此,编制英语测试题对词汇的考查也应结合教材及教学进度进行。也就是说,制作词表需要统计教材各单元依次呈现的所有课标词汇。这里说的“所有课标词汇”,既包括单词原形,也包括按照教材编写中相应单元要求学生掌握的单词的屈折变化形式,如名词单复数变化,动词的原形、第三人称单数、过去式、过去分词、现在分词,形容词和副词的原形、比较级、最高级等。
基于上述分析,本研究编制了包含33568个英语词条(lemma)的普通单词词表,加上单词的屈折变化形式共72221个词型(word type),如词条take包含原形take、动词第三人称单数takes、动词过去式took、过去分词taken及现在进行时taking共5个词型。为了更好地识别专有名词,本研究还编制了包含17677个人名的人名词表和包含549个常见地名的地名词表,然后收集了人教版小学英语(PEP)、初中新目标英语,以及2019年版普通 英语的全部文本,编制软件提取出各单元的课标词汇。
(二)工具的编制和说明
1. 工具的编制思路
本研究编制的生词率统计软件的工作原理很直观:首先,使用者输入文本并指定教材和目标单元信息,即检测的是哪套教材的哪个单元(如果是期末检测,选择最后一个单元即可);其次,运用计算机程序调入对应教材对应单元的课标词表,并把使用者提供的文本去掉无关符号后切分为一个一个的单词,然后将每一个词与词表做对比;最后,统计出所有不在词表里的单词数量,除以文本总字数,即可得到生词率。
2. 工具的操作说明
考虑到国内一般使用者的需求,本研究编制的生词率统计软件工具以视窗(Windows)系统为目标平台。由于本工具解决的首要问题就是易用性,这也是目前国内教师面临的最大挑战,因此在用户交互界面设计方面尽量简洁。本工具的开发以计算机语言C#实现,程序主界面左侧上边是使用者操作区。使用者只需把编制好的阅读理解题放入特定文本文件,点击“打开文件”,选择该文件,即可把文件里的文本载入右边的文本框(使用者也可从其他文本编辑界面把要分析的内容直接拷贝并粘贴到该文本框)。然后,使用者选择测验针对的教材和目标单元,点击“开始统计”,该文本的生词率即可很快显示在信息输出区。本工具能自动识别出已学的课标词汇和人名、地名等专有名词以及生词,将其分别列在“已学 + 排除词”和“未学词”两个列表中。实际应用中,如果出现一些未包含在软件词表中的人名、地名,或者已经括注了的生词,或者教师认为学生根据学习过的构词法知识能够理解的派生词,可以手动把这些词调整到右侧的“已学 + 排除词”列表,生词率也会实时自动重新计算。
3. 工具使用过程说明
本工具开发完成后,笔者挑选了现有的一些阅读理解题,首先人工仔细计算生词率,然后用本工具进行统计,对比结果表明,该工具效率高,准确性也很可靠。下面以2021年全国新高考英语试卷I的一篇阅读理解题为例说明使用该工具统计生词率的过程,并提出一些统计的基本原则(如图3)。
首先,点击“打开文件”导入该篇阅读理解题,在“选择测试目标”部分选择“ ”,并勾选“毕业考试”,接着点击“统计”按钮。运用统计工具进行统计后,在下面列出文本中需要使用者判断的同形异义词。这里列出的同形异义词是软件无法根据拼写自动判断的词,比如does可以表示助动词do的第三人称单数形式,也可以表示名词doe的复数形式,因此需要人工手动判断。使用者选择判断后,点击下边的按钮确认,列表中被判定为义务教育和 课标词表以外的词和其他直接被软件对比判断为义务教育和 课标词表以外的词一起被列出,使用者可根据具体情况调整。
在尚未处理未学词列表的时候,我们可以看到统计结果显示的生词率是15.85%,但在这些列出的未学词里,有些是可以根据构词法规则和上下文推断其意义的。实际上,课程标准明确要求学生应掌握一定的构词法知识,包括合成法、派生法、转化法、缩写和简写等[10]。《义务教育英语课程标准(2011年版)》设定的语言技能目标也要求学生能根据上下文和构词法推断与理解生词的含义。因此,对于课标词的常见合成词、派生词等,应视为对学生构词法知识的考查,所以要从未学词表中排除。具体方法是在界面上的未学词列表中选中该词,点击下边的按钮,下方统计区会实时显示重新计算的生词率。在上述例子中,首先排除阅读语篇注释过的词emotional、perspective等,然后排除课标词的简单派生词,如accurately、cheater、re-evaluate等,以及基于常见的合成法构词规则构成的单词,如makeup、skill-based等。排除后可以看到调校后的生词率是 4.58%。这个比例基本符合外语教育领域研究者对合理生词率的研究结论[11][12]。如果需要输出统计信息,可点击下方的“输出结果至剪贴板”,在其他文本编辑器中按Ctrl+V即可把总单词数、生词率、排除的和未排除的词、目标单元(或学段)的课标词等信息输出至编辑区。
另外,软件里还内置了课标词的4280个常见派生词,如果勾选了未学词表下边的“自动设定已学课标词的派生词为已知词”复选框,程序可以自动排除截至目标单元 / 学段已学课标词的派生词。比如上述应用案例中,accurately、cheater等7个未学词汇因被判断为课标词accurate、cheat等的派生词,在勾选了复选框后,被自动认定为已学词汇。当然,使用者要一一核对软件自动排除的单词,以确保无误。
本研究编制的生词率统计工具尝试解决目前教师缺乏高效生词率统计工具的问题。它可以使教师方便地把握阅读理解文本在词汇方面的呈现情况。首先,教师可以直观地看出阅读理解题中呈现出哪些单词,方便实时调整。其次,教师还能直观地看到试题中有多少生词。如果生词比超过合理范围,教师就要考虑对其中个别生词进行适当处理,如改写、括注等,从而降低生词率,避免生词量过大导致题目区分度下降、测验无法很好体现教学效果以及打消学生学习积极性等不良后果。
注:本文系人民教育出版社课程教材研究所“计算机辅助英语教材词表制作软件的研制及应用”(课题批准号:KC2020-022)的阶段性研究成果。