科大讯飞星火大模型数学表现：揭秘其学术水平之谜

当我看到网上发布的这个应用程序的功能时，我无疑感到震惊。作为一个在IT行业摸爬滚打十多年的老手，我深知这个应用的开发就像送人一样困难。去月球（虽然美国已经把阿姆斯特朗等人送上了月球，但还是有人质疑阿波罗计划是假的，只是电影布景，原因是登陆月球太难了）。同时也希望国内企业能够做出类似的产品。 5月6日，国内人工智能领先企业科大讯飞宣布发布相应的大型模型产品。我提交了试用申请，没想到申请很快就被批准了。

我之前的工作是软件测试。这次拿到测试账号后，我立即登录，问了他几个简单的问题。科大讯飞的回答还可以。为了测试他的能力，我没有问这些问题。开放式问题，例如“目前认为宇宙中哪些行星可能存在生命？”这些问题可以在搜索引擎上找到，而且无法定量判断答案的准确性。最终，我选择问几组不同阶段有标准答案的数学题，来衡量大模型的逻辑能力，判断与人类智能的差距（下文将科大讯飞的大模型简称为“AI”）简称）。

首先确定身份，即“我是谁”

他说他是科大讯飞Spark的认知模型

首先，我问了小学水平的申请问题。

问题1和问题2回答正确

第3题和第4题回答正确

第5题回答错误

小学题一共有5道。问题1：40个梨分配到3个班级，20个分配到1班，剩下的平均分配到2班和3班，那么2班分配多少个梨？答案是10，AI回答正确。

问题2：工人叔叔在3小时内制作了24个零件。据此计算，他在8 小时内制作了多少个零件？答案是64。AI回答正确。

问题三：王叔叔拿了1500元去买化肥。他买了9袋化肥，拿回了15元。每袋肥料多少钱？答案是165元，AI答对了。

问题四：张叔叔花了7455元买了15头小猪。他还想再购买30头小猪。他需要准备多少钱。答案是14910元，AI答对了。

问题五：买花20元一束，买4束送1束。李阿姨一次买4串。每串的价格是多少？答案是每包便宜4元。因为鲜花原价20元，李阿姨花了80元买了4束，送了1束，相当于80元买了5束，每束16元，比国内便宜了4元。原价20元。这个问题AI的答案是0元，AI的答案是错误的。

因此，按照总分100 分计算，如果小学生答对5 题中的4 题，AI 就会得到80 分。

我们来看看初中阶段的数学题。我在网上找了4道题来考察AI。

第一题AI正确

问题2 AI错误

问题3 AI回答错误

第4题AI回答正确

初中一共4题。 AI正确回答2题，得50分。

我们再看一下高中数学题。

高中第一题AI答错

高中题2 AI答错

高中第3题回答正确

高中一共有3道题。 AI答对1题，得33分。

用小学、初中、高中三个维度的数学题进行测试，结果有些令人失望。科大讯飞的Spark模型不具备类似人类的思维能力。它使用模板回答问题，但不理解这些模板。基本原则。所以，这没有创意。现实中，遇到类似问题时，人们还是需要建模并编写相应的算法，然后交给AI进行计算。人工智能只能作为帮助人们的辅助工具，而不能替人思考。

综合以上测试结果，就解决数学问题而言，Spark Model在高中生中只能算是渣男。