科大讯飞星火大模型数学表现:揭秘其学术水平之谜
当我看到网上发布的这个应用程序的功能时,我无疑感到震惊。作为一个在IT行业摸爬滚打十多年的老手,我深知这个应用的开发就像送人一样困难。去月球(虽然美国已经把阿姆斯特朗等人送上了月球,但还是有人质疑阿波罗计划是假的,只是电影布景,原因是登陆月球太难了)。同时也希望国内企业能够做出类似的产品。 5月6日,国内人工智能领先企业科大讯飞宣布发布相应的大型模型产品。我提交了试用申请,没想到申请很快就被批准了。
我之前的工作是软件测试。这次拿到测试账号后,我立即登录,问了他几个简单的问题。科大讯飞的回答还可以。为了测试他的能力,我没有问这些问题。开放式问题,例如“目前认为宇宙中哪些行星可能存在生命?”这些问题可以在搜索引擎上找到,而且无法定量判断答案的准确性。最终,我选择问几组不同阶段有标准答案的数学题,来衡量大模型的逻辑能力,判断与人类智能的差距(下文将科大讯飞的大模型简称为“AI”)简称)。
首先确定身份,即“我是谁”
他说他是科大讯飞Spark的认知模型
首先,我问了小学水平的申请问题。
问题1和问题2回答正确
第3题和第4题回答正确
第5题回答错误
小学题一共有5道。问题1:40个梨分配到3个班级,20个分配到1班,剩下的平均分配到2班和3班,那么2班分配多少个梨?答案是10,AI回答正确。
问题2:工人叔叔在3小时内制作了24个零件。据此计算,他在8 小时内制作了多少个零件?答案是64。AI回答正确。
问题三:王叔叔拿了1500元去买化肥。他买了9袋化肥,拿回了15元。每袋肥料多少钱?答案是165元,AI答对了。
问题四:张叔叔花了7455元买了15头小猪。他还想再购买30头小猪。他需要准备多少钱。答案是14910元,AI答对了。
问题五:买花20元一束,买4束送1束。李阿姨一次买4串。每串的价格是多少?答案是每包便宜4元。因为鲜花原价20元,李阿姨花了80元买了4束,送了1束,相当于80元买了5束,每束16元,比国内便宜了4元。原价20元。这个问题AI的答案是0元,AI的答案是错误的。
因此,按照总分100 分计算,如果小学生答对5 题中的4 题,AI 就会得到80 分。
我们来看看初中阶段的数学题。我在网上找了4道题来考察AI。
第一题AI正确
问题2 AI错误
问题3 AI回答错误
第4题AI回答正确
初中一共4题。 AI正确回答2题,得50分。
我们再看一下高中数学题。
高中第一题AI答错
高中题2 AI答错
高中第3题回答正确
高中一共有3道题。 AI答对1题,得33分。
用小学、初中、高中三个维度的数学题进行测试,结果有些令人失望。科大讯飞的Spark模型不具备类似人类的思维能力。它使用模板回答问题,但不理解这些模板。基本原则。所以,这没有创意。现实中,遇到类似问题时,人们还是需要建模并编写相应的算法,然后交给AI进行计算。人工智能只能作为帮助人们的辅助工具,而不能替人思考。
综合以上测试结果,就解决数学问题而言,Spark Model在高中生中只能算是渣男。
相关问答
答: 科大讯飞星火大模型在数学领域的表现确实还有待提高,一些简单的数学问题它甚至无法准确解决。这可能是因为它训练的数据集中缺乏充足的数学相关的知识,导致其对数学概念理解比较薄弱。
215 人赞同了该回答
答: 相比起专门针对数学问题的训练模型,科大讯飞星火大模型更倾向于处理语言任务,因此在数学领域的表现相对较逊色。需要更多的数据和算法改进才能提升其数学水平。
147 人赞同了该回答
答: 除了数学问题,科大讯飞星火大模型在逻辑推理、复杂问题的解决等方面也存在一定的局限性。因为它主要依靠预训练数据和模式识别能力,对需要深度理解和分析能力的任务表现不如人意。
38 人赞同了该回答
答: 同时,由于其规模庞大,训练和部署也需要比较高昂的资源成本,这限制了其在一些实际应用场景中的应用.
258 人赞同了该回答
本文由发布,不代表千千择校网立场,转载联系作者并注明出处:https://www.qqzexiao.com/tsjy/11952.html