语音识别技术在教育领域的应用与发展

在最近的一份白皮书中,前 Scholastic 教育总裁 Margery Mayer 将 2021 年称为教育领域的“语音识别年”。她可能是对的:今年上半年,edtech 开发者对其采用率的激增,反映出人们认识到技术不仅有可能为学生创造更具吸引力的学习体验,而且完全改变早期识字教学的实践。
在过去几年中,这种愿景可能听起来很牵强。但正如 EdSurge 此前所指出的那样,儿童语音识别背后的科学已经开始成熟,这使得教育应用引起了 edtech 开发者、教育工作者和研究人员的兴趣。
促成语音识别在教育中日益普及的部分原因是,如今有专门为迎合儿童声音和行为而构建的技术。以前的语音识别系统是根据成人声音建模的,缺乏教育环境所需的准确性。现在为口语流畅性工具提供支持的儿童专用语音识别技术更加准确和有效,并且有可能为儿童及其教师提供我所描述的“教学回报”的增加。
这些新的语音学习工具也有可能解决公平性和偏见问题。为它们提供支持的语音识别技术在构建时就考虑到了多样性,因此所有口音和方言都可以被平等理解——从而使获得教育资源的机会民主化,并减轻了隐性偏见的风险,例如,在观察性评估中。但也许最重要的是,这些解决方案是“个性化和真实的”,因为它们利用了学生最自然的学习工具:他们自己的声音。
虽然 2021 年可能是教育领域的语音识别年,但即使大多数教育工作者、家庭和学生在家中拥有语音助手或智能扬声器,这项技术本身对他们来说也相对较新。而且,鉴于这项技术的强大功能,我预计像 Amplify 的 mClass Express 这样的解决方案将更多地进入市场,这使得教育工作者和其他人了解它们的工作方式以及如何最好地使用它们变得很重要。
最近,我与 SoapBox Labs 的语音技术副总裁 Amelia Kelly 合作,创建了一个术语表,以帮助教育工作者和 edtech 开发者更好地熟悉语音识别,并在教育环境中就其使用做出明智的决定。以下是一些特别重要的关键术语,以及这些术语为何重要的解释。
旨在自主执行任务,而不是由人类专门编程的系统。
重要性:人工智能正越来越多地被用于教育产品,这种趋势无疑将在未来几年持续下去。
人工智能的一个子集,它在大量数据上训练计算机,以便它们可以自动且大规模地执行任务。
重要性:机器学习算法会随着每次体验而“学习”和“改进”,从而改善语音辅助教育工具的语音识别功能。
基于深度神经网络的机器学习算法,需要大量训练数据,并且具有多层架构,使其能够对人类语音和语言使用等复杂行为进行建模。
重要性:神经网络被广泛用于语音识别、图像识别和其他模式识别问题,这些问题适用于 K-12 学习。
一个总括术语,指允许用户使用语音与产品、服务和平台交互的技术。支持此功能的底层技术包括语音识别(理解人类语音)、语音合成(计算机大声说话)、自然语言处理(阅读和理解人类语言)和机器翻译(将人类语音从一种语言转换为另一种语言)。
重要性:在 K-12 edtech 领域,语音技术——尤其是语音识别——可以支持许多用例,例如独立的阅读练习、语言学习、阅读障碍筛查、学习反馈以及总结性和形成性评估。
允许数字设备将语音转换为文本,从而使设备更容易理解说话者的意图。文本中的单词或概念可以触发操作(例如,“关灯”、“给我姐姐发短信”)。
重要性:一旦数字设备获得了孩子阅读的文字记录,它就可以将其与评分标准进行比较,以确定阅读流畅度和理解力。它还可以为单个单词提供时间戳,使老师可以轻松找到孩子阅读的特定单词或短语,并将其听回去。这些系统还可以在发声、单词甚至音素级别返回发音“置信度分数”。
用于减少或消除语音识别中意外偏差的有意过程。人工智能系统可能会反映其创建者的偏见,从而导致代表性不足的用户体验较差,甚至带有偏见。特别是,机器学习算法根据其接受训练的数据集执行决策,如果这些数据集不能代表不同人群,则可能会产生偏见。
重要性:有偏见的系统会放大并传播该系统设计者所持有的根深蒂固的偏见,以及可用数据集的局限性。这种偏见在实践、评估和筛查平台以及儿童学习工具中的影响可能是灾难性的。例如,如果一个有偏见的系统无法理解孩子在阅读时的口音或方言,那么它可能会向那个孩子反馈,说他/她是一个差劲的读者,而事实上,他/她读得正确。另一方面,一个无偏见的系统将提供公平且不受损害的反馈和数据,以帮助教育公司和平台支持儿童的学习之旅。
使用语音识别技术在孩子大声朗读时,无形地聆听、识别和评估学习情况。
重要性:课堂上和远程使用的语音评估工具可以提供关于发音和口语流畅度的数据。它们还可以用于筛查学习障碍,如阅读障碍。当用于支持评估时,语音识别技术提供的数据可以支持和改善儿童的教育成果,并帮助确定教师提供的支持类型和级别。
语音识别引擎的一项功能,用于识别语音中的关键词和短语。
重要性:关键词检测在分析儿童的语音时特别有用,可以在音频文件中识别搜索词,无论是在孤立的、句子中还是通过背景噪音。例如,一个孩子可能会从列表中选择他或她最喜欢的动物。关键词检测可以对每个可能的响应进行评分,从而触发游戏或课程中的响应。
评估一个单词或短语的发音质量。
重要性:发音评估是教师的一个巨大的省时工具,尤其是在支持面对面的观察性评估时,因为它们为教师提供了分数,将孩子实际说的话与给定的目标单词进行比较,从而使教师能够更好地了解学生可能在哪里苦苦挣扎,需要更多支持或关注。
评估儿童的口语流畅度。
重要性:教师的另一个省时工具。当孩子阅读一段文章时,语音识别系统会记录并计算单词替换、省略、插入和正确单词的数量。反过来,这就会成为衡量流畅度的指标,有时表示为“每分钟正确单词数”或“WCPM”。
评估语音模式和句子结构的语音评估。
重要性:语音识别驱动的筛查和练习工具可以识别可能指向语音发展病理的说话模式,使学生能够在语言治疗课程之间在家练习,同时也向语言治疗师提供进度数据。
一种技术开发、设计和流程的方法,可确保从最早阶段到最终用户体验,保护个人用户的数据隐私权。隐私设计要求公司在处理数据时保持透明,例如,承诺仅使用他们收集的数据来改进他们的服务,而不是用于任何商业目的,例如转售、分析或广告。
重要性:在儿童的数据权利方面,隐私不能成为事后考虑或在后期设计。隐私需要在基础设施、数据和流程的每个层面都牢固地构建,并且从一开始就成为语音解决方案的指导思想和愿景的一部分。