新浪新闻客户端

“16万高中生没高考,用统计模型估成绩”引争议,IB为啥没做错

“16万高中生没高考,用统计模型估成绩”引争议,IB为啥没做错
2020年07月24日 13:07 新浪网 作者 大数据_文摘

  作者:钱兵

  上周,针对“国际文凭组织(IB)取消高考后,通过一个统计模型给16万全球高中生估分”的新闻,文摘菌编译发布了一篇伯克利机器学习研究者Ishan反对的声音,他认为这一做法是对算法的滥用,放大了机器学习的“歧视性”,并且呼吁考生和家长反对这一做法。

  文章发布后也引发了激烈讨论,不少机器学习从业者为IB鸣不平,文摘菌今天也发布一篇不同的见解,来自中国电信研究院AI研发中心研发总监钱兵老师的投稿,听一听他为什么觉得,利用统计模型估分虽然不完美,但是多方权衡后一个比较实际的方案。

  上周无意刷到“大数据文摘”发表的一篇文章《16万高中生今年没高考,用统计模型估成绩》。

  看完之后,对于从事数据分析的我,血压有点上升。

  冷静几天来分享下我的观点。

  回顾该文的内容

  该文介绍了在今年受到疫情影响,全球受认可度最高的基础教育组织“国际文凭(IB)在今年5月被迫取消了期末统考,但考虑到16万在读高中生需要类似高考成绩来申请大学,计划通过模型预测每位学生的成绩。

  至于这个模型如何来建立,文章中并未提及到相关具体信息,只提到“考生最终得分由IB联合一个技术公司一起,根据学生课程作业、老师预测成绩和其他历史数据,通过模型分析给出,并在7月5日准时公布。”

“16万高中生没高考,用统计模型估成绩”引争议,IB为啥没做错

  该文作者针对国际文凭提出的这样计划,坚决反对,他的理由是:

  1)模型会“不可避免地会因为性别、种族和社会经济地位等的差异而歧视某些学生群体。”

  2)双重危险:如果考生的课程表现不好,再由课程表现预测他的期末成绩也会不好,这样则会导致该考生两次都不好。

  3)老师的偏见:中学老师对有色人种和背景不利的学生有偏见,对他们的课程表现打分有影响,从而影响最终成绩的预测。

  4)学校学生规模越小,错误越大

  5)评估偏差:各学校的课程评估的频率不同,导致模型输入的数据量不同,会带来偏差。另外一个老师评估不同数量的学生,导致老师评估的预测成绩质量也不同。

  6)可获得的附加数据:这里作者依然在说课程成绩和预测成绩存在偏见的问题。

  7)偏态分布:学生的成绩不是正态分布。

  8)学校老师会有变动,导致课程成绩与预测成绩不匹配。

  9)所有的模型都是错误的,都不可能做到百分百准确,这是不道德。。。看到这条差点一口老血喷在屏幕上

  10)模型只考虑了变量间的相关关系,而且这种相关很可能是伪相关。

  在提出这些反对理由后,原文作者以自己不懂教育领域为由,未给出替代方案。但非常相信自己的数学能力,坚决反对这个计划,并呼吁学生、家长和老师一起来反对。

  我个人的观点

  从原文中“我对自己的数学能力充满信心,可以确定当前的解决方案无疑是错误的。”这句话来分析,作者本人应该是数据分析专业人士。经与大数据文摘编辑确认,也确实如此。

  不考虑原文作者质疑反对的动机,我仅从作者提出的那些反对理由来分享我的观点。

  先说下我的总观点:

  基于帮助国际文凭机构解决当前考生入学申请没有考试成绩这个实际问题的角度出发,当前除组织考生现场考试外,唯有依靠数学建模的方法来解决是最为客观的。其他方法无疑漏洞和问题更多,即使是组织线上考试也如此。

  1)模型中的输入变量有考生平时的课程作业成绩、老师的预测该考生如果高考可获得的成绩、其他杂项数据(文章中没具体说有哪些杂项数据),如果其他杂项数据中没有最近几年学生平时成绩、高考真实成绩的话,即没有历史真实值而建立预测模型的话,而是主要依据前两个输入变量来建立的模型,是属于综合评价模型。这样的模型准确度永远无法准确评估,这是让人不敢信服的关键因素。好比无监督模型的结论永远让人不太放心一样。

  2)在原文作者提出的那些反对理由中,除第4条(学校规模越小,误差越大)外,其他都不太认同,或者说其他那些理由不能成为反对的理由。甚至第4条也有数学上的解决办法,后面我会提出相应解决办法。

  3)常说否定一个解决方案,比提出一个解决方案简单很多。对于国际文凭当前遇到这样的问题,作者只全面反对人家提出的方法,而不给出可行的替代方案,这有点抬杠的味道。

  接下来详细说下我的理由:

  1)模型存在偏见的问题

  首先,模型会根据历史数据,分析学生课程成绩与最终高考成绩之间是否存在受性别、种族、社会地位、老师的影响,如果确实受到考生的基础信息影响,那在模型中为什么不考虑这些基础因素让模型预测更加准确呢?

  如果模型已经验证偏见是客观存在的,反而在模型中不考虑这些偏见,是否对“有利性别、种族、社会地位”的考生不利呢?难道这样的预测就道德吗?

  其次,模型会根据历史数据来判断性别、种族、社会地位在各个学校的偏见有多大,而通过回归系数实现控制。另外,老师对每个学生的成绩进行预测,老师会带有偏见这个问题也是可以控制和修正的(其实老师的偏见也是由于日常生活中所见所闻而形成的,也存在一定合理性,在此不做过多辩证)。

  例如,如果某老师认为亚裔学生的数学成绩比其他种族学生更好,在预测时给亚裔学生更高的数学成绩。那么在建模时可以先通过历史高考成绩判断亚裔学生数学成绩是否明显高于和其他种族学生,如果确实每年都存在这样的现象,则这不是偏见而是客观事实。

  还有一种更为复杂的偏见处理方法,依然以上面数学成绩为例。对于老师给学生的数学预测成绩中,需要判断亚裔与其他种族之间的差异程度,与历史高考中亚裔和其他种族间的差异程度,两个差异程度之间是否存在统计学意义上的显著差异。如果存在,则需要通过加权处理,使得两者的差异程度保持一致,即亚裔与其他种族之间的数学成绩虽然有一点差异,但老师在预估成绩时既不能放大也不能缩小这种差异,否则都会产生偏见。

  这点再补充一句:偏见不可怕,不承认偏见才有点可怕

“16万高中生没高考,用统计模型估成绩”引争议,IB为啥没做错

  2)双重危险的问题

  这点其实不是问题。考生平时课程成绩不理解,预测其期末成绩也不理想,这完全符合逻辑。但很多人在期末考试前会努力抱佛脚,使得期末成绩看来还是不错的。这在数据上的反应是,平时课程成绩与期末成绩之间的相关性并不是很强

  但对于老师而言,老师会根据学生平时课程作业而形成刻板印象,会放大课程作业对期末成绩的影响。具体放大了多少,也是可以通过数据分析判断的。如,历史上学生平时成绩A1与期末成绩B1之间的相关性为0.4;今年老师预估的期末成绩B2与今年学生平时成绩A2的相关性为0.7。则知道老师的预估中带有刻板偏见,则可以尝试建立双重差分模型来修正今年老师的预估成绩。

  另外,在西方很多高校读研、读博的入学申请都需要他人推荐,体育比赛的评委打分等等,这些评语、打分肯定也带有刻板偏见的。这类的评价偏见在实际生活中是客观存在的,一定范围内的偏见是客观合理的,为什么模型能识别并降低这种偏见反而不能接受呢?

  3)模型中考虑相关关系,这些相关关系可能是伪相关的问题

  原文作者用“美国人花在宠物的费用”与“加州律师人数”存在相关性来举例,说明不能用这些看似相关的变量来预测最终高考成绩。我看到这点时猜测作者应该属于“卡尔·皮尔逊”学派,即坚信相关关系为一切模型的根本

  首先,加到模型中的预测变量有考生平时的课程作业成绩、老师的预测该考生如果高考可获得的成绩、其他杂项数据。这些变量在加入前,机构肯定会评估与考生成绩是否存在因果关联的

  其次,更重要的是,除了我们平时接触到的统计学、机器学习等大量基于相关关系的模型外,还有专门用来研究因果关系的概率图模型、路径模型等,可以解决与最终高考成绩存在因果关系的变量(其实这次评估中并不需要用到这些复杂模型来验证因果关系,主要通过教育专家与数据分析结果相结合来判断因果关系即可)。

  最后,即使有些变量与高考成绩存在很强的伪相关,那背后一定是有原因的,可以去分析这种伪相关是由其他哪些因素干扰导致的,这样一步步去深入分析是有可能找到那个和高考成绩存在真实相关的变量的。

  4)所有模型都是错误,都有误差的问题

  再次看到这个问题,感觉有点好笑了,我想这点大家都知道如何反驳。

  PS:作者说“假设IB构建了一个“准确率90%”的模型。.....这意味着每10名学生中至少有1人的期末成绩不正确。”(已在英文原文中确认,作者确实这么表述的)

  这句话其实是不准确的,因为针对连续变量(期末成绩)的回归模型,我们常说一个模型具有90%的准确率,是指模型预测值与真实值之间的误差是10%,而不是说100人预测对90人。即这个准确率不是根据预测正确的样本人数来统计的,而是根据预测成绩与真实的成绩之间的误差来计算的。准确率90%的模型,有可能每个人都预测不准确,每个人都有10%误差。

  如果换成是分类预测模型,那句话则是对的。

  5)老师变动、学校评估误差、学生成绩偏态等其他问题

  这几个问题确实是客观存在,而且会影响到预测结果。但同样的道理,这几个问题并非不能使用模型预测的根本问题,相反有相应解决办法,比如学生成绩偏态问题,可以通过数据变换等方法将其转成正态分布,或将学生进行分组来解决。

  如何更好的通过模型来预测考生成绩

  针对模型预测成绩的客观问题,如学校考生规模不同、偏见等。如何解决呢?

  1)尽量去查找历年考生的课程作业成绩、高考成绩,找到的年数越多,对建模越有利。

  2)将16万学生基于性别、种族、社会地位、老师等信息进行聚类分组,解决各学校考生数分布不均、偏见、考生成绩偏态等问题。在聚类分组中,先分组每个预测变量与考生成绩之间是否存在相关性,如果存在相关性则加入到聚类变量中。接下来再针对每个类的学生建立预测模型,评估学生的高考成绩。

  3)对于一些特殊学校、特殊学生,即和大多数学生具有鲜明区别(数据分析上称之为异常值),以及多个老师预测成绩差异很大,难以达成统一意见的学生。可通过与其申请的学校,进行一对一专项评估,即从通用的预测模型中将这些异常人群剔除,以免影响到总体模型的准确性。

  4)对于考生数量较少的学校,可以组织老师进行两轮以上的预测,对于预测成绩前后不一致的需调整(可通过再测信度来判断一致性);对于考生数量较多的学校,一个老师需要预测较多学生的成绩,也可以分批进行两轮以上的预测。尽量降低评估偏差的问题。

  5)由于16万考生人群确实较为庞大,受很多客观因素的干扰,而且这些客观因素的变量无法收集,常用断点回归法也难以有效。建议在实际预测时,只预测每个考生的成绩等级,而不预测每个考生的最终成绩得分。即把一个回归预测模型改为多分类预测模型。比如,先将16万学生分成20个类,针对每个同类的考生,将考生成绩分为A-J十个等级,这样可以大大减少不可控因素的影响,增加模型的准确率。

  写完这篇文章后,真为国际文凭捏一把汗,这模型不好建啊,别到最后花了钱,还被人骂惨(我的心操的细碎)。

  投稿作者介绍:

  钱兵,中国电信研究院AI研发中心研发总监,CDA二级建模师。获中国市场研究“宝洁论文一等奖、宝洁数据挖掘黑马大赛一等奖等数据分析相关比赛十多次奖项。拥有近10年数据分析和大数据研究经验,现主要从事AI、大数据技术在通信、泛娱乐等领域的应用研究。

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
高考
权利保护声明页/Notice to Right Holders 我要反馈
新浪新闻客户端
新浪新闻客户端

扫描左侧二维码下载,更多精彩内容随你看。(官方微博:新浪新闻

图片故事

新浪新闻意见反馈留言板 400-052-0066 欢迎批评指正

违法和不良信息举报电话:4000520066
举报邮箱:jubao@vip.sina.com

Copyright © 1996-2020 SINA Corporation

All Rights Reserved 新浪公司 版权所有