2020年数据反思:预测模型在高等教育中的应用与挑战

作者:蕾妮·蒂特2025年05月15日
2020年数据反思:预测模型在高等教育中的应用与挑战

尽管许多人都渴望忘记 2020 年,但数据科学家们将铭记这一年,因为我们将确定疫情的影响是使 2020 年的数据成为异常值,还是表明高等教育发生了更持久的变化。当我们开发新的预测模型并使用去年收集的数据更新现有模型时,我们需要分析其影响,并决定在预测未来时如何权衡这些数据。

除了去年申请和入学学生人数的巨大变化之外,甚至来自申请材料的熟悉数据也变得越来越难以获取,这使得大学更难以预测申请人和返校学生的行为方式。由于学生在大流行期间参加 SAT 或 ACT 考试的困难,许多机构已经取消了考试可选政策。考试数据的稀缺以及申请和入学数量、类型和时间的巨大变化使得高等教育运营的熟悉年度周期变得更难以预测。

招生官员和入学管理人员正在问自己几个问题。他们应该期望事情在今年恢复到 COVID 之前的“正常”模式,还是永久改变他们的期望?他们应该更改招生或奖学金标准吗?在经历了前所未有的一年之后,他们应该抛弃他们在过去数据上训练的预测模型吗?如果他们保留现有的流程和工具,他们如何才能与数据科学家合作,重新校准它们以保持其有用性?

我相信预测模型仍然为大学提供了很多价值。一方面,在过去数据上训练的模型在理解现实与期望的差异方面特别有用。但过去一年揭示了我们充分理解这些工具对“谁”最有可能入学或可能需要额外服务以帮助他们在机构中取得成功的预测的“如何”和“为什么”是多么重要。

模型哪里错了,哪里对了

过去一年揭示了我们充分理解这些工具对“谁”最有可能入学或可能需要额外服务以帮助他们在机构中取得成功的预测的“如何”和“为什么”是多么重要。

在评估我在 COVID-19 之前构建的模型时,我发现这场疫情催化了模型在过去数据中已经识别出的趋势和相关性。从本质上讲,它做出了合理的预测,但没有预测到速度和规模。

一个例子是未满足的财务需求与学生保留率之间的关系。没有获得经济援助的学生往往会以较低的比例重新入学。这种模式似乎在大流行期间持续存在,模型通常正确地识别出哪些学生由于财务问题而最有可能无法在下一学期入学。

然而,在危机的背景下,这些模型可能也过于乐观地认为其他学生会返回。随着越来越多的家庭的财务前景变得不确定,未通过贷款、奖学金和助学金解决的财务需求可能对学生不重新入学的决定产生了比平时更大的影响。这可以帮助解释为什么 2020 年的总体保留率在许多机构中下降得比模型预测的更剧烈。

一个使用更“黑盒”(不太可解释)方法生成保留可能性分数,并且没有关于它最看重哪些变量的额外上下文的模型,提供的信息较少,无法帮助机构解决现在放大的保留风险。依赖这种类型模型的机构对疫情如何影响其预测的输出知之甚少。这使得更难确定是否以及在什么情况下继续使用它们。

当然,仅仅因为一个预测模型表现良好并且可解释,并不意味着它及其所代表的系统可以免于深入的检查。我们必须更仔细地研究我们模型的输出,并确定在新的情况下模型对谁有效,对谁无效,这可能是一件好事。

如果富裕家庭能够更好地“度过”这场疫情,来自这些家庭的学生可能会以更接近疫情前的比例入学。反过来,模型很好地预测了他们的入学情况。但是,对于那些病毒带来更高健康或经济风险的家庭来说,他们可能会做出不同的决定,即使他们目前的状况在“纸面上”或模型使用的数据集中没有改变,也会在大流行期间将他们的孩子送到大学。确定模型预测在困难时期不太准确的群体,突出了模型未知但对学生有实际影响的因素。

挑战算法偏差

在一个社会不平等现象特别明显且有害的时期,识别那些被模型忽视或错误描述的人,这一点更为重要。弱势群体承受着 COVID-19 的健康和财务影响。我们的数据和建模系统中存在历史性的社会偏见,而加速和扩展现有流程的机器通常会延续这些偏见。预测模型和人类数据科学家应该协同工作,以确保社会背景和其他基本因素为算法输出提供信息。

例如,去年,一种算法取代了英国的大学入学考试,据称预测学生在参加考试后的表现。该算法产生了极具争议的结果。

教师估计了他们的学生在考试中的表现,然后算法根据来自每所学校的学生的历史表现调整了这些人类预测。正如 Axios 报道的那样,“最大的受害者是来自不太有利学校的成绩优秀的学生,他们的分数更有可能被降低,而来自较富裕学校的学生更有可能提高他们的分数。”

文章总结道:“设计不当的算法有可能造成一种新的偏见,其影响可能远远超出大学录取。” 在大规模公众抗议之后,包括那些在模拟考试中表现比他们的算法生成的结果预测要好得多的学生,英国政府此后放弃了该算法。

为了避免影响学生生活轨迹的不公平情况,在没有具有领域专业知识的人员审查每个结果并有权挑战或覆盖结果的情况下,不应使用预测模型来做出高影响力决策。这些模型必须尽可能透明和可解释,并且必须完全记录和提供其数据和方法以供审查。自动化预测可以为人类决策者提供信息,但不应取代他们。此外,应始终将预测与实际结果进行比较,并且必须监控模型以确定它们何时需要重新训练,因为现实在不断变化。

最终,虽然 2020 年暴露了我们现有系统和模型的残酷真相,但 2021 年为各机构提供了一个机会,可以认识到缺陷,解决偏见并重置方法。模型的下一次迭代将因此而变得更强大,更好的信息和见解使每个人受益。