教育A|B测试的伦理困境:学生知情权与实验设计

想象一下,你是一家edtech公司,你的平台上拥有成千上万的学生。你看到一个机会,可以做一个小的改动,可能会改善他们的学习成果,所以你把它推广给一组学生,而他们并不知道自己是样本的一部分。
你仅仅是在使用整个技术领域常见的A/B测试吗?或者是在未经同意的情况下,将不知情的学生当成实验的豚鼠?
这就是在一个在线教育者空间里正在展开的伦理辩论,这是最近一次关于教育A/B测试的研讨会上热烈讨论的来回辩论。
这也是一个及时的辩论,因为最近的新闻已经显示出学生们对秘密监控是多么厌倦。6月份,达特茅斯学院撤销了一项针对医学生的作弊调查,原因是可疑地使用Canvas来跟踪考试期间的感知活动。全国各地的学生都在抵制使用考试监考软件,理由是持续监控带来的精神负担和对隐私的担忧。
但是,如果研究人员正在A/B测试两个无害的选项,有什么危害呢?
提供火花
学习机构的学习工程总监Jenessa Peterson在她的组织运营的Google Group中提出了这个问题,引发了讨论:在参与者不知情的情况下,在两个良性条件下进行A/B测试可以吗?
一个例子是几年前Pearson的一项A/B测试,该测试在媒体上受到了负面报道。作为实验的一部分,在随机选择的大学里的学生在在线测验中选择了错误的答案后,被显示出鼓励性的信息,Pearson后来发表了一篇关于其“社会心理干预”的论文。
Peterson对媒体报道中对测试的担忧表示疑惑。她还分享了研究,研究发现参与者不赞成医疗A/B测试,即使他们认为每个条件本身都是可以接受的。她写道,如果Pearson向所有用户提供这两种选择——带有或不带有鼓励性信息的软件,大多数人都会觉得没问题。
“如果这两种处理方法本身都可以接受,那么为什么即使在参与者不知情的情况下,为了查看哪种处理方法能带来更好的学习效果而进行实验,却是不可接受的呢?”Peterson在留言板上问道。
在与EdSurge的对话中,Peterson表示,她希望看到研究人员在保护研究参与者的联邦指南的基础上进行构建。她解释说,法规规定,研究人员不必为了测试涉及正常教育实践的细微变化而获得知情同意,只要它们不太可能对学生学习必要的教育内容的能力产生不利影响。
“我认为我们真正需要的是一套共享的协议或清单,我们可以作为一个社区来创建,供研究人员建立对学习参与者及其家人的信任,”Peterson说,她描述了一种可以被世界各地的研究人员使用的工具,它阐明了何时可以放弃知情同意。“我认为研究界应该尝试对这些标准进行统一和讨论。”
有多无害?
这种思维方式有一个问题:在测试之前,你如何知道你的A/B测试是无害的?如果它不是呢?北卡罗来纳州立大学计算机科学系助理教授Collin Lynch在帖子中提出了这些问题。
“A/B方法,特别是那些基于欺骗的方法,本质上是实验性的,这意味着你将一组人置于与其他组不同的处理方式中,”他写道。
在接受EdSurge采访时,Lynch提出了这种情况:由于在一对教室上进行了A/B测试,其中一位老师发现自己的学生表现更差,因为他们没有控制的变量。像Lynch这样的研究人员可能会从实验中了解到一些东西,但一些学生和他们的老师将遭受后果。他说,更好的方法是让学生体验实验的两个方面,然后切换,这样他们最终就可以接触到两者。
“我对它的总体看法是,简单的A/B测试是一种有用的技术,但教育是一个独特的背景,与例如Facebook这样的随心所欲的体验大不相同,”Lynch说。“这确实是驱动我对全面使用A/B测试持怀疑态度的原因。在某个时刻,我们确实必须进行实验,但你必须小心,只要你引入可能对一组人产生不利影响的东西。特别是如果你在没有任何形式的知情同意或讲师参与的情况下这样做。”
他补充说,讨论最终是从业者之间关于方法和什么是伦理的问题。
“它带来了这个问题,什么是良性的?我们如何确定什么是可以安全测试的,什么是不安全的?”Lynch说。“这是一个我们需要讨论的研究和方法论问题。”
制衡
麻省理工学院综合学习计划的副主任Jeff Dieffenbach提出,这些担忧可以通过类似于大学的机构审查委员会来解决。
“当然存在一个连续统一体,但我怀疑大多数教育公司进行的A/B测试都是良性的,”Dieffenbach写道。“是的,如果A和B之间的差异很大,可能会造成教育方面的损害,但这种损害很可能(尽管不能保证)是小而暂时的。”
Dieffenbach告诉EdSurge,根据他在K-12研究方面的经验,父母不希望他们的孩子在A/B测试期间处于对照组中。他的实验室缓解这种担忧的一种方法是提供仍然有学术益处的替代方案。如果研究人员正在测试识字计划的益处,对照组中的儿童可能会接受数学、计算机科学或正念课程——这些课程不会影响识字能力。
在这样的研究中,Dieffenbach说,父母总是给予完全知情的同意,甚至这些文件也得到了机构审查委员会(IRB)的批准,该委员会审查研究方法并权衡伦理考虑因素。
“我们总是在进行实验。每次老师选择在课堂上做某件事时,他们实际上都在进行一个针对一些不同事物的实验,”Dieffenbach说。“如果我们想让学习变得更好,我们应该逐步地这样做,这样我们就不会注定一代孩子陷入一个完全错误的假设。但与此同时,不改变现状,实际上是将孩子们注定于一个不如他们应得的未来。”
测试的责任
密歇根大学信息学院助理教授Christopher Brooks在留言板上写道,他已要求IRB放弃知情同意,因为参与者的同意可能会改变他们的反应率或引入偏见。他告诉EdSurge,任何实验,包括问卷调查或访谈等,都应该谨慎对待。他补充说,这就是与IRB合作的好处。
“我非常沮丧的一件事是,‘实验’这个词会在人们的脑海中触发某种疯狂科学家的形象,”Brooks说,他指的是留言板上的另一位用户,该用户提到了纽伦堡守则——一套在二战后为涉及人的大部分医学实验制定的伦理原则。“这甚至没有达到学习科学家正在做的事情的水平。当时的人们正在谈论着截然不同、可怕的事情——而不是通过提供略有不同的考试问题来改善教育。”
Brooks说,在辩论中尚未广泛触及的一件事是让学生参与研究结果的“巨大错失机会”。
“我认为我们有机会进行转化工作,将我们在高等教育中进行的研究提供给正在研究/参与研究的学生,”他说。
卡内基学习的创始人兼首席科学家Steven Ritter在留言板上指出,他的公司一直在调整其软件,无论是应客户的要求还是为了改进产品。
“我们永远不会对所有内容进行A/B测试,但我认为我们有义务尽可能地了解我们是否朝着正确的方向前进,”他写道。
General Assembly的学习与创新副总裁David Porcaro写道,他参与了引发辩论的引人注目的Pearson研究。他说,在经过广泛审查后,该公司得出结论,告知学生进行A/B测试会影响结果。
“虽然这项研究的结果并不像每个人希望的那样有影响力(呼应了最近的大部分研究,表明背景在教育环境中应用成长心态信息的重要性),但所有参与这项研究的人……都了解了很多关于人们在教育A/B测试中的舒适程度,”他写道。
Porcaro说,用户对补充课程材料的A/B测试没有意见,但对涉及评分材料的A/B测试意见很大,但最终,教育中A/B测试的逻辑是“颠倒的”。
Porcaro认为,一个导致改进的结构化实验会吓到人们。但是,一个非结构化的实验,比如一个新功能的推出或内容调整,即使它造成了损害,也可能被视为一种改进。