近日,上海人工智能实验室与司南评测体系联合发布了一项有趣的实验结果。他们让多个AI模型挑战中国高考的语文、数学和英语科目,采用的是全国统一的新课标I卷。
参与测试的AI包括6个开源模型和GPT-4o。值得注意的是,所有开源模型的发布日期都早于今年的高考。评分工作由具备高考阅卷经验的教师完成,以确保公平性。
成绩揭晓后,Qwen2-72B、GPT-4o和书生·浦语2.0文曲星(InterLM2-20B-WQX)三个模型脱颖而出,它们的总分均超过了满分的70%。
有趣的是,大部分AI在语文和英语科目上表现出色,但数学却成了它们的"滑铁卢"。所有模型在数学科目上都未能及格。其中,InterLM2-20B-WOX在数学上拿到了75分(满分150),略微领先于GPT-4o的73分,成为数学科目的"最佳选手"。
根据这些AI高考评测结果,我们可以得出以下几点分析和结论:
- 语言能力接近人类: 在语文和英语科目上,顶级AI模型表现相当不错,得分率达到70-80%左右。这表明AI在语言理解、表达和应用方面已经接近人类高中毕业生水平。
- 数学能力仍有明显差距: 所有AI模型在数学科目上全部不及格,最高分也只有75分(满分150)。这反映出AI在逻辑推理、抽象思维和复杂问题解决方面与人类相比还有较大差距。
- 模型之间存在明显差异: 不同模型之间的表现差异较大,总分从185分到303分不等。这说明AI技术发展很快,但不同公司和机构的技术水平仍有差距。
- 与人类的差距仍存在: 尽管最好的模型总分率超过70%,但与优秀高中生相比仍有差距。特别是在需要综合思维和创新能力的数学科目上,差距更为明显。
- AI发展潜力巨大: 考虑到AI模型是在没有专门针对高考进行训练的情况下取得这样的成绩,其潜力是巨大的。随着技术的进步,AI在各个领域的能力可能会进一步接近甚至超越人类。
结论: AI在语言处理和知识应用方面已经接近人类高中毕业生水平,但在需要深度思考、创新和复杂问题解决的领域仍有明显差距。AI的发展速度很快,但目前仍无法全面超越人类智慧。人类的创造力、抽象思维和综合问题解决能力仍然是我们的独特优势。
未来,AI很可能在某些特定领域超越人类,但在全面的智慧和认知能力上,人类和AI可能会长期并存,各有所长。我们应该关注如何利用AI增强人类能力,而不是简单地将两者对立。











网友评论