值得一提的是,讯飞星火并不是“PPT发布”,目前已经向大规模开放体验,发布会现场也演示了星火认知大模型的多种能力。
那么,它的实力究竟如何呢?
构建科学评价体系
对标ChatGPT
自诞生以来,ChatGPT通过高质量清洗海量数据,学习训练上亿参数的模型,实现不断进化。
最新的GPT-4在文本生成、语言理解、基于思维链的逻辑推理、数学和代码能力等多个领域的表现让人惊叹。
讯飞星火想要追赶并超越ChatGPT,首先需要构建一套科学的评测体系。
因为这样才能知道目前技术达到什么程度、存在哪些不足,还有下一步该往哪走。
根据这套评价体系,目前讯飞星火在文本生成和数学能力(一定程度代表通用认知大模型的智慧水平)已经显著领先国内同类产品,且相比ChatGPT也具有一定优势。
而在语言理解和知识问答方面也达到接近ChatGPT水平,处于国内领先水平。
为了测试讯飞星火的实力,科技每日推送也注册体验了一番,并设计了多个场景的测试。
我们来问个简单的脑筋急转弯,看看它的IQ如何。
可以看到,讯飞星火成功Get到了这是一个玩笑,并没有掉进陷阱里,还呼吁我们要保护动物不要当真。
同样,中文十级测试题也没能难倒它,可以准确理解了我们的语意。
此外,讯飞星火还十分精通国际象棋。
既然逻辑理解没问题,接下来就上点难度,问它一个经典“电车难题”。
面对这道让无数男人头疼的家庭伦理题,讯飞星火不仅给出了合情合理的答案,还会提醒我们救人的同时要注意自身安全。
他真的,我哭死.......
当然,如果你先选择救妈妈,还能让它给你支招去和老婆 狡辩 解释(反之亦然)。
关于长文本生成,例如写邮件、做方案、讲故事、写新闻稿件这些活儿,讯飞星火也通通不在话下。
比如,我们可以让它针对即将到来的618写个促销方案,还可以让它不断调整细节,享受一把当甲方当乐趣。
在数学能力方面,讯飞星火也展示出好学生的气质,不仅能正确回答,还会展示解题过程和思路。
让它敲个Python爬虫代码,也是几秒钟的事情。
存在的不足
当然,讯飞星火也不是百分百完美,在发布会上刘庆峰也表示,目前大模型技术还有待攻克的缺陷。
这是因为认知大模型都是使用历史数据进行训练,通过在海量的模型参数中记忆学习,从而实现智慧涌现和触类旁通。
而这也造成了新知识难以及时更新的问题。
我们也实际测试了一下,在面对“特种兵旅行”这种网络流行词汇,讯飞星火也没有及时更新,就算多次重新生成,答案都不尽如人意。
同时,讯飞星火在回答事实类问题时偶尔会张冠李戴,而在一些史实、传统典籍上也容易“编造情节”等。
如果我们问“耶稣比刘邦大多少岁”这种“关公战秦琼”的题目,它很可能会给出错误的答案。
在回答“唐朝帝王顺序”这类历史问题时,讯飞星火容易搞乱顺序,偶尔还会夹杂着英文,这可能跟中英文一起双语训练有关。
或者一开始我们就往错误的历史上引导,讯飞星火有时也不会发现。
例如问它“泰坦尼克号为什么会在太平洋沉没”,它会顺着我们的问题说下去,而不是指出泰坦尼克号在大西洋沉没。
除了上述问题,多模态的输入和表达也是很多用户期待的功能。
不仅能生成文案,还可以根据用户的描述和指令,输出图片甚至视频,带来更广泛的应用前景和发展空间。
针对用户的期待,科大讯飞也坦率承认不足,并表示有非常明确的方法来改进它。
同时,发布会上还给到了今年大模型技术持续升级的三个关键里程碑节点:
6月9日,将突破开放式问答、多轮对话能力明显提升、数学能力再升级;“1+N”全场景布局
除了能“唠嗑”,讯飞星火认知大模型技术正逐渐为更多行业赋能。
围绕星火认知大模型“1+N”架构中“N”个领域的内容,科大讯飞还带来了大模型在教育、办公、汽车、数字员工等多个方向的行业应用成果。
教育方面,星火大模型的语言能力跟讯飞学习机结合,能达到因材施教的效果。
比如,可对作文进行深度理解,同时自动生成评语和范文,像老师一样批改作文,并给出优化建议。
它还可以实现写作思路启发,利用 AI 润色技术生成片段优化参考和写作建议提升,让孩子在启发中精准提升。
让无数家长头大的英语口语练习,在讯飞星火的帮助下也不再是问题。
它可以实现跟人一样的自由对话,对话的时候还可以自动进行翻译评测,目前已覆盖了所有中小学课标话题。
相比传统面对面的口语练习,这种学习方法更加灵活高效。它打破了时空限制,学生党可以随时随地和大模型互动交流,利用好零碎时间提升效率。
对于社恐人群来说,这也是一大福音;在大模型的帮助下,他们可以一个人努力练习,再默默惊艳所有人。
办公方面,在讯飞星火的加持下,根据现有录音和笔记,讯飞智能办公本能把一大段录音转写出来的文字生成会议纪要。
甚至可以把一大篇口水稿,通过语篇规整变成更容易阅读的书面语言,极大减少不必要的工作量。
不仅如此,在讯飞听见中,只需提供一段录音,即可生成品宣文案、新闻稿件、工作总结等文案,可以说是无数打工人的梦寐以求的功能。
其他方面,在数字员工场景中,数字员工可以按照事先编写的脚本,自动操作计算机中的各种软件,实现业务流程的自动化,轻松胜任各种工作。
而在汽车场景中,讯飞星火不仅可提供自驾游、亲子游推荐路线,还能订餐、买电影票、听新闻等等,可谓十分方便。
实现智慧涌现
讯飞底气从何而来?
讯飞星火发布会上,刘庆峰自信表示:讯飞星火完全可以重现OpenAI的智慧涌现。
简单来说,智慧涌现就是通过自我学习和推理来产生新的知识和洞察力。
要知道,对于人工智能来说,实现智慧涌现是一项非常复杂和困难的任务,需要多学科的知识技能,以及长期的努力和不断的创新。
刘庆峰这句话的背后,有着科大讯飞长远的战略谋划和充足的技术实力作为支撑。
如果从发展的视角来看,大模型仅仅是人工智能历程中的一个阶段而已。
早在1999年,科大讯飞就致力于让机器像人一样能听会说。
2014年,讯飞启动讯飞超脑项目,开始布局认知智能,提出要让机器像人一样具备能理解会思考的能力,并在2017年开始承载认知智能国家重点实验室的重任。
正是在相关国家级平台和讯飞超脑计划的支撑下,科大讯飞在认知智能领域才能取得一系列全球领先成果,为星火认知大模型的推出和落地应用提供充分铺垫。
当然,对于大模型来说最重要的还是数据,数据的质量和数量直接影响模型的质量。
科大讯飞在Transformer深度神经网络算法方面拥有丰富经验,达到国际领先水平。
同时,作为国内语音AI龙头,讯飞开放平台每天有超50亿次用户交互,给大模型投喂海量文本语料和用户反馈数据,进一步提高模型理解能力,推进更新迭代。
此外,由于超大模型由于参数规模大、数据体量大,因此需要更大的算力支持。
讯飞自建有业界一流的数据中心,目前已建成四城七中心深度学习计算平台,为大模型训练平台建设奠定了可靠的硬件基石。
-最后-
1950年,英国数学家阿伦·图灵发表了具有里程碑意义的论文《电脑能思考吗?》,创造性提出“机器思维”的概念,成为人工智能领域的金科玉律。
如今,以ChatGPT为代表的认知大模型,不仅能听会说,还会理解和思考,让我们看到了通用人工智能的曙光。
作为后起之秀,讯飞星火体验下来给我们带来的惊喜远远高于预期。
尽管还存在一些不足,但已燃起星星之火,在不断更新迭代中,我们也期待星火大模型在未来能实现“智慧涌现”,为我们创造更大的价值。
责任编辑: