讯飞星火大模型体验报告_微信小程序讯飞大模型 csdn-程序员宅基地

技术标签: 随笔  人工智能  

近日,科大讯飞召开了星火认知大模型成果发布会,会上表示讯飞星火大模型将突破开放式问答,对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当。对此,你怎么看?

笔者准备给bing/chat_GPT、百度文心一言、星火大模型用同样的问题实测一波,来确认星火大模型究竟是什么样的一个水平~

一、对话式AI简介

首先还是简要的介绍一下生成式大模型AI,去年末由美国openAI公司引爆的新一代人工智能模型,给原本要凉凉的AI领域放了一把火。导致所有具备能力的大集团一窝蜂似的涌入,希望能涌现出相当甚至超越人类的智能。这类大模型,之所以叫“大”,是由于它是典型的大力出奇迹,就像编程中的暴力“算法”,以循环多而闻名!大模型这玩意和循环一样,for用得多了,总能把复杂的问题给解决掉,以堆参数、堆GPU来解决问题。不是一般小公司玩得起的,openAI虽然小,但这公司后面站着微软。闲话少叙,咱以几个问题来实测一下今天的主角–星火大模型。

二、古典文学陷井题

星火大模型既然说在中文能力上已经超越了chatGPT,咱先来一题中文的:简介中国古典名著《水浒》中梁山泊好汉马文才在攻打祝家庄时与庄主之女祝英台双双化蝶的爱情故事。这是一道有深坑的题~

1、百度回答:

在这里插入图片描述
很好!编得有鼻子有眼的,笔者差点就信了。就是相约化蝶而去有点生硬了,至少逻辑通顺,咱给个60分。

2、bing回答:

《水浒》是中国古典四大名著之一,描写了北宋末年一百零八位梁山好汉的反抗斗争和社会理想。其中有一个感人的爱情故事,就是马文才与祝英台的化蝶传说。

马文才是梁山泊的好汉之一,擅长弓箭,有“神箭八九”的绰号。他曾经参与了三打祝家庄的战役,与祝家庄的庄主祝朝奉交战。祝朝奉有一个美丽聪明的女儿,名叫祝英台,她从小就喜欢读书,有“才女”之称。

祝英台见到马文才后,对他一见钟情,暗中送信给他,希望能够与他相会。马文才也被祝英台的才貌所吸引,便答应了她的邀请。两人在祝家庄的后花园里相见,相谈甚欢,互诉衷肠,许下了白头偕老的誓言。

不料,他们的私会被祝朝奉发现了,祝朝奉大怒,认为马文才是梁山泊的强盗,不配与他的女儿相配,便命人将马文才囚禁起来”

这里笔者用的EDGE的bing撰写功能。可能字数限制,没写全吧~不过也够了,从回答来看。它编得比百度更详细一点,都给马文才起上绰号了,神箭八九,经查水浒中没有这个外号!…还整出一个祝朝奉!更能迷惑人。加上它是个外籍AI,就给个70分吧。

3、今天的主角星火

在这里插入图片描述

笔者申明:我只问了这一次,不知道为什么它来个对不起,回答有误…难道真有人在后台看着?
咱先忽略这个对不起,从结果来看。这是三者中唯一没掉进出笔者的陷阱的一个,只从这一点讲。说它更懂中文也是很有道理的。扣掉“对不起”这点让我疑惑的10分,给它90分没问题。
希望没人在后台看着,要有的话,这得忙成什么样子。细思极恐啊!

三、现代文学常识题

咱不能太欺负外籍AI,这还是来一道容易的中文题吧:概括朱自清先生的《背影》

1、百度文心一言

在这里插入图片描述
在笔者看来,回答得很好,反正我也不知道对不对。加上老是让它打头阵,有点不公平,给90分吧。

2、bing

《背影》是朱自清先生的一篇散文,描写了他与父亲分别的场景。文章以细腻的笔触,展现了父亲对儿子的深厚爱意,以及儿子对父亲的敬慕之情。文章中,朱自清先生用了许多比喻和细节,把父亲的形象刻画得栩栩如生。文章的结尾,朱自清先生回忆了父亲送他上车时的背影,表达了他对父亲的不舍和怀念。《背影》是一篇感人至深的散文,体现了中华民族的孝道和亲情。

比百度略多了几个字,回答大同小异,也给90分吧。

3、星火

在这里插入图片描述
嗯~ 比bing又略详细了点,同样也给90分吧。文学领域的东西,笔者不懂。而且这种简单的送分题就是为了不让结果太难看。

四、甲骨文认知

1、百度

在这里插入图片描述

因为星火没有生成图片的能力,为了公平起见,咱先给文字描述也打个分,鉴于描述得还算能让人看明白个大概,就给文字描述打75分吧。

明显百度是有画图能力的,但它没有直接给出图片,而是用了文字描述。显然它不会主动为你生成图片,需要我们指定,所以笔者追问了一句:

在这里插入图片描述
笔者认为是它在上下文衔接上很有问题,再问详细一点就好了吧~

在这里插入图片描述
我无语了~无法再给小度找理由了。话说回来,还是要强行给小度找点理由的!看头上那两角,还是和文心一言的描述还是有几分像的…同鞋们记好了,甲骨文的羊是酱紫滴,心疼古人三秒钟,写个羊字得花几个小时吧。上古时期,文字只掌握在少数人的手里是很有道理的。
这题文心一言虽然给出了两张漂亮美女图,但是很明显出丑了!多模态能力打59分。从这也可以看出文心一言的多模态并不是在一个框架下的。所以你懂的…

以下是问完bing以后的补充问题,由文心一言手机app生成:

在这里插入图片描述

咱放弃了…不再试图挽救。

2、bing

这里笔者觉得EDGE的bing不好用,换了网页版
在这里插入图片描述
回答虽还不如百度开篇详细,但文字描述至少也能让人看出了个大概,就给文字描述70分吧。
为了看看它会不会生成图片,笔者又换了手机bing,因为手机bing是可以生成图片的。
在这里插入图片描述

很好嘛,这才是多模态!为了公平,我又去百度文心一言app试试。又补充到百度的回答中让大家看看笔者的猜测…
bing明显是个多模态AI优等生,95分!

3、星火

在这里插入图片描述
这??是什么鬼…
虽然我知道当前星火并不具备生图能力,我还是问了一句:
在这里插入图片描述
好吧,它还是??
这个回答文字方面远不如百度和bing,文字描述只能给了59分,不能再多了。

从以上的关于中文的三个问题来看,星火虽然有点让人迷惑,但说中文能力领先,也不完全算是吹牛,至少对古典文学的理解,超过了另两者。下面我们换编程能力,这里为了避免太大众的语言太好回答,咱找点小众的。

五、cmd编程

问题是:请用Windows批处理语言,写一个脚本,计算(2+3)乘 4 的结果。
为什么要用这么简单的东西呢?是因为笔者认为在互联网上是找不到这个简单功能的现成代码的。主要笔者也不精通这玩意!

1、百度

在这里插入图片描述

没有考虑2+3的事,直接让你输入了,算是变通吧。但是后面的%4%又是啥玩意…明显没有这个变量,去掉4左右的%,这个写法还是能用的。从它的解释来看,逻辑是对的。可为什么要写成%4%呢,迷一样的行为。打分就困难了,给个60分吧,至少解释对了。

2、bing

在这里插入图片描述

很好!简单直接的给出了答案。让程序员来写多半也是这个写法。99分,少给1分是怕它骄傲了。bing是码农的好帮手,笔者也问过一些较复杂的编程问题,有时也会给出类似百度的迷一样代码,比如经常分不清字符串和数字,但稍微改改还是能用的。

3、星火

在这里插入图片描述

这是什么鬼~ 不用试就知道错的,!result!这种写法是要设置变量延迟的。这比笔者这初学者都还不如,看着眼花缭乱的… 我只能给10分,理由是它用对了语言,没用别的语言来生搬硬套。

从这可以看出,也就别期望星火大模型的编程能力了。如此简单的一个问题都回答得豪无逻辑可言。嗯~ 也许它有它的逻辑,但明显不是人类逻辑。

总结

虽然笔者是很希望有超越GPT4的国产大模型出现的,但笔者对这个问题是持悲观态度的!百度都把文心一言做成这半生不熟的样子,其它公司希望更小。笔者这个观点和大模型训练的三要素有关,算力、算法、数据。算力是资金问题,这个不怕,有钱的公司多去了。人家不卖显卡?咱多堆几块好了,咱也不缺电力是吧!算法嘛人家都给出正确的路了,总能学会的。唯有数据,中文互联网的数据肯定是不少的,就算质量上略差吧,数量来补。最大的问题就是中文互联网的数据是属于各app的,这简直离了大谱!所以除了百度有海量数据外,其它公司想要训练出超越GPT的模型是基本不可能的(个人浅见)。

笔者也没试用过阿里等别的大模型,就不对它们做评价了。之所以测试星火大模型,也是因为讯飞本身具有较强的AI能力,深耕AI领域多年。

要说星火大模型中文超过了GPT那肯定有吹水的成份,只能说在中文文学领域并不弱于GPT!从实用性来讲,去写写作文还可以胜任的。各细分专业领域其实从编程就可以看出来了,如此简单的一段代码都不能正确生成。说它有编程能力都是夸张了!编程代码相对于其它专业领域更容易在互联网得到大量训练数据。也许星火的python,C++等更流行的语言的能力会略强,可显然它并没有涌现出较强的逻辑能力,没逻辑能力一切都枉然。

本文以上测试均为实测,只对本次测试负责!以上结论均为笔者个人主观评测,不代表所测试的AI大模型的真实能力。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/alal001/article/details/130663820

智能推荐

一位ORACLE DBA大牛离职时候的过往总结-程序员宅基地

文章浏览阅读3.1k次,点赞9次,收藏26次。 我只是一个很普通的DBA,任职快有4年的时间,即将辞职之际,趁这几天交接工作比较空闲,回顾下自己走过的DBA之路。希望我的经历能够帮助刚毕业的想学数据库的朋友。 在4年前,DBA是我曾经梦想的工作。这几年,我也一直在很享受当初梦想的工作,可以说,我已经做到了我当初想要目标。在这里首先要感谢ITPUB论坛,我也是从这里开始我的DBA之路,这里有很多乐于助人的高手,我也从这论坛中吸收..._中国oracle大牛

非模态对话框和模态对话框_创建_模态对话框与非模态对话框的创建-程序员宅基地

文章浏览阅读6.9k次,点赞2次,收藏13次。一、非模态对话框:创建后,主程序还可以运行。创建步骤如下:1.1先建立一个基本对话框MFC工程,在资源列表添加一个对话框资源1.2将创建的对话框修改名字和ID,比如将ID名为:IDD_TIP_DIALOG 1.3给对话框添加一个类,类名称为:TipDlg。(注意:TipDlg类的基类为CDialog)则在解决方案列表可以看到创建了一个TipDlg.h_模态对话框与非模态对话框的创建

Linux学习笔记-基础篇-文件查找-程序员宅基地

文章浏览阅读827次,点赞16次,收藏19次。本片笔记以Linux文件查找命令find,grep的使用为主要内容,顺带一些WindTrem的快捷键使用方法。

三维重建学习(二)_离焦三维重建-程序员宅基地

文章浏览阅读1.1k次。根据使用的摄像机数目不同,基于视觉的三维重建方法可以分为单目视觉方法、双目视觉方法和多目视觉方法。1.单目视觉方法单目视觉方法是指用一台摄像机进行三维重建的方法。可以使用单视点的单幅或多幅图像,也可以是多视点的多幅图像。其中,前者的结构设备简单,运算量小,但是得到的重建模型不理想;后者可以满足大场景的三维重建方法,但是运算量大。单目视觉方法主要有六种:(1)明暗度法明暗度法就是明暗..._离焦三维重建

makefile学习 (2) —— autotools生成makefile_no proper invocation of am_init_automake was found-程序员宅基地

文章浏览阅读615次。autotools生成makefile利用autotools系列工具可以快速生成makefile,我们输入目标文件,依赖文件,文件目录等信息即可。 我们需要保证有这些工具:aclocal, autoscan, autoconf, autoconf, autoheader, automake. 在安装的时候仅仅需要指令 yum install automake 或 sudo apt-get ins_no proper invocation of am_init_automake was found.

人工智能发展史总结_符号推理时代-程序员宅基地

文章浏览阅读588次。人工智能发展史总结_符号推理时代

随便推点

计算机之机器数,真数,原码,反码,补码-程序员宅基地

文章浏览阅读7k次,点赞2次,收藏9次。机器数一个数在计算机中的表现形式叫做机器数,这个数有正负之分,在计算机中用一个数的最高位(符号位)用来表示它的正负,其中0表示正数,1表示负数。例如正数7,在计算机中用一个8位的二进制数来表示,是00000111,而负数-7,则用10000111表示,这里的00000111和10000111是机器数真数计算机中的机器数对应的真实的值就是真数,对最高位(符号位)后面的二进制数转换成10进制,并根据最高位来确定这个数的正负。对于上面的00000111和10000111来说,对最高位后面._机器数

线程面试题_怎么检测互相等待资源的线程-程序员宅基地

文章浏览阅读394次。不管你是新程序员还是老手,你一定在面试中遇到过有关线程的问题。Java语言一个重要的特点就是内置了对并发的支持,让Java大受企业和程序员的欢迎。大多数待遇丰厚的Java开发职位都要求开发者精通多线程技术并且有丰富的Java程序开发、调试、优化经验,所以线程相关的问题在面试中经常会被提到。在典型的Java面试中, 面试官会从线程的基本概念问起, 如:为什么你需要使用线程, 如何创建线程,用_怎么检测互相等待资源的线程

Uncaught TypeError: vue_router__WEBPACK_IMPORTED_MODULE_1__.default is not a constructor(vue 报错)-程序员宅基地

文章浏览阅读7.3k次。使用webpack构建Vue单页面应用项目,项目运行时,浏览器报“Uncaught TypeError: WEBPACK_IMPORTED_MODULE_2__router.a is not a constructor”,组件中的内容也不能正常显示,to animal也不能正常出现标签的效果。因为./表示当前src目录,目录下并没有router文件,所以webpack会找不到,所以会报错。_vue_router__webpack_imported_module_1__.default is not a constructor

FastDFS的配置、部署与API使用解读(6)FastDFS配置详解之Storage配置-程序员宅基地

文章浏览阅读95次。1 基本配置 disabled #func:该配置文件是否生效#valu:## true:无效## false:生效disabled=false group_name #func;本storage server所属组名group_name=group1 bin..._storage_fun.c, line: 346 in stat file /data/storage_stat.dat item count: 0<1

WSL构建nRF5 SDK + ARM GCC开发环境 – RTT打印调试日志(二)_nrf51422 如何添加rtt打印-程序员宅基地

文章浏览阅读551次。WSL构建nRF5 SDK + ARM GCC开发环境 – RTT打印调试日志(二)_nrf51422 如何添加rtt打印

2018年中国人工智能城市感受力指数报告_2018年城市al智能识别普及率-程序员宅基地

文章浏览阅读480次。 文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。 转自 | 艾瑞咨询 研究报告丨工具与技术 全文字数:5973字 精读时间:10分钟 核心摘要: 人工智能发展进入全面落地期,成为城市发展重要支撑;典型城市居民对AI需求度高,居民幸福感与AI感受力正相关;上海、北京、深圳人工智能城市建设发展良..._2018年城市al智能识别普及率