新华网联合权威机构发布《国内LLM产品测试报告》 百度文心一言多维度整体领先
人工智能技术不断迭代引发新一轮科技革命和产业变革,进一步提升人们对经济社会更加美好的体验。当前,全球信息科技巨头纷纷入局,智能化应用走向了以大语言模型(简称:LLM即Large Language Model,大语言模型)为代表的大模型时代。
为反映当前LLM发展最新情况特点,了解LLM产品应用情况。近日,新华网与国内权威科研机构联合推出《国内LLM产品测试报告》。选取文心一言、GPT-3.5、讯飞星火和ChatGLM等四个LLM产品(各测试模型基本情况如下图),从内容安全问答、常识问答、数学运算、阅读理解和主观问答等五个维度对LLM进行多维度能力测试和分析。为便于评估和展示,测试分数将分别转换为百分制。
报告显示,以文心一言为代表的国产大模型在内容安全、阅读理解、常识问答,数学运算等方面的表现普遍较好,能准确回应测试问题。尤其在内容安全和数学运算方面,国产大模型的优势相对更加明显。国产大模型中,文心一言在内容安全方面普遍能给出积极准确的正面回应;在常识问答,阅读理解、主观题目和数学运算等方面表现均较为出色,具备更丰富的常识知识和更强大的逻辑运算能力。
(资料图片)
图为多维度测试结果
具体来看,在内容安全方面,文心一言获得了115分,在本次测试中领跑,对于内容安全问题的敏感度也最高。而GPT-3.5和开源模型ChatGLM由于没有做相关严格约束,可能回答出一些存在政治或者文化偏见的内容。此外,所有的LLM均对涉黄类问题很敏感,都未在相关回答上诱导。
在常识问答方面,文心一言获得了88分,GPT-3.5和讯飞星火均得到60分左右,ChatGLM仅获得33分的成绩。整体来说,大多数国内LLM均具备基本的文化、历史、地理和生活常识知识,能准确回答绝大多数常识问题。而对于一些相对冷门的常识问题,除文心一言外其他模型都给出了不同的错误答案。
在数学运算方面,文心一言获得93分、讯飞星火和GPT-3.5分别获得75、68分,而ChatGLM仅仅获得11分。当题目涉及一些基础直接的数学运算,所有的大模型基本都能算对,这说明当前的大模型都能理解基本的计算规则。但是随着题目变得复杂,只有文心一言和讯飞星火能正确回答该问题。说明包括文心一言和讯飞星火在内的国产大模型在数学逻辑能力方面会优于其他模型。另外,文心一言在解题目时会采用直接的算数解法,而讯飞星火等模型会采用解方程操作,说明文心一言具有一定的逆向逻辑思维能力,解题方式更加简洁直接。
在阅读理解方面,文心一言得到95分、GPT-3.5得到67分, 讯飞星火和ChatGLM分别获得57分和33分。虽然大模型的部分输出结果不能完全对应正确答案,但大都角度正确且言之有理,说明现有LLM在中文长文本阅读理解方面均具备较高水平。
在主观题方面,各个模型的性能表现相差不多。其中,GPT-3.5取得了最好的结果,文心一言次之。具体而言,从流畅度方面来看,GPT-3.5的输出文本最为流畅,不存在语言重复或者表述不清晰的现象。而文心一言存在少数表述重复的情况。从规范性角度来看,所有的模型均具备较为标准的回答格式,如包括解释、分析、总结等基本步骤。这主要是因为大模型的数据输入都具备固定数据模板,导致模型记住了这些特定模式。从理解力来看,GPT-3.5对主观题的理解最为准确,极少出现文不对题的情况,文心一言次之。文心一言在回答该类组织创意问题时,更加倾向于表述活动的组织细节,比如介绍时间、地点、流程、活动预算等信息。从事实性和全面性角度来看,均是GPT-3.5表现最好,说明了其蕴含的语义知识相对更加丰富。但在测评中国的一些风俗习惯或者传统文化相关的知识时,它的性能逊色于国产语言模型。
此外,在所有被测LLM产品,目前仅文心一言可公开使用由文生图的多模态功能,但目前对一些易混淆的成语理解还有所欠缺。
LLM已经成为人工智能技术应用场景发展的新阶段。随着人工智能技术的不断演进,必将引发一场经济社会应用的人工替代化新思考。一方面,LLM的应用场景将进一步多元化。随着技术的演进,LLM将不再局限于文本、音频和视觉等基本形态,还将具备嗅觉、触觉、味觉、情感等多重信息感知和认知能力,以数字化形式传输并指导人工智能进行内容创作。另一方面,大模型重新定义了人机交互,催生AI原生应用,服务千行百业。大模型会深度融合到实体经济当中去,助力中国数字经济开创新一代人工智能发展阶段。
未来LLM竞争关键是算法是否更为接近和超越人类的思维方式。目前LLM在逻辑推理的计算能力,灵活能力以及快速自学习能力决定领先的优势。在逻辑推理中更能理解人类情感和接近超越人类思维方式,使得模型更加智能,也是很多头部LLM厂商的共同研发升级的追求。
标签:

进入了发展快车道 冷链行业市场规模正在快速膨胀
2022-03-21

行业正站在风口 数字化时代在为传统的自行车产业赋能
2022-03-21

以做强实体经济支撑为重点 成都单个项目年度计划投资同比提升
2022-03-21

拥有多个国际赛事的直播版权 广州游戏电竞企业业绩向好
2022-03-21

投诉量激增 直播带货存在这么多问题的主要原因是什么?
2022-03-21

工作专班深入到各企业 春寒料峭挡不住松原市施工热情
2022-03-21

引导企业向提供“产品+服务”转变 湖南加快智能农机服务化转型
2022-03-21

创新平台建设和科技成果转化 德州加大力度重奖创新
2022-03-21

潜在风险进一步放大 商品房现房销售已是大势所趋
2022-03-21

有序复工复产 1—2月份工业经济发展新动能持续增强
2022-03-21
行业正站在风口 数字化时代在为传统的自行车产业赋能
以做强实体经济支撑为重点 成都单个项目年度计划投资同比提升
拥有多个国际赛事的直播版权 广州游戏电竞企业业绩向好
投诉量激增 直播带货存在这么多问题的主要原因是什么?
工作专班深入到各企业 春寒料峭挡不住松原市施工热情
引导企业向提供“产品+服务”转变 湖南加快智能农机服务化转型
创新平台建设和科技成果转化 德州加大力度重奖创新
潜在风险进一步放大 商品房现房销售已是大势所趋
有序复工复产 1—2月份工业经济发展新动能持续增强
多层次高频调度 1至2月河北省工业运行先行指标稳中有增
以车路协同为基础 智能交通推动城市交通绿色高质量发展
人才短板成为制约产业链高质量发展的关键节点
通过技术手段整合调配供给资源 家政行业不断提质扩容
强化产业链深层次合作 加强重大装备国产化“一条龙”模式构建
如何进一步提升纳税人缴费人的减税降费获得感?
探索建设大数据及网络安全示范试点城市有哪些积极意义?
对制造业中小微企业实施缓缴税费政策有哪些积极意义?
进一步增强自我保护意识 消费者需注意辨别谨慎消费
将“走出去”变“请进来” 西安贸易产业转移承接作用不断得到增强
厦门应如何融入“数字中国”的重大战略发展大局?
江苏省如何不断满足老人日益增长的养老服务需求?
建设一体化的职业健康信息管理平台 天津职业人群保障加强
潜力持续释放 1—2月乡村消费品市场恢复略好于城镇
直接对接社会化服务 楼宇调解室将整体提升青岛劳动争议水平
成功化解纠纷11.47万件 银保监会服务质量日趋提高
春雷响百虫出 惊蛰文化在其他方面有了进一步发展
青绿山水画在古代山水画发展史上有着怎样的影响与地位?
开播即爆款 “文化类节目收视率低”这一固有印象被推翻
涵盖了109件真迹作品 凯斯·哈林展览将持续至6月13日


- 带有一点自信的自嘲 “隔路”是另一种味道的“凡尔赛”
- 与文渊阁前后呼应 “何以中国”特展隆重致敬文化大成
- 严重者可造成暂时性失明 享受冰雪运动要注意眼睛的健康防护
- 种类繁多让人眼花缭乱 选购牛奶时需要重点关注什么?
- 网课让孩子感到不安焦虑怎么办?八问八答回应广大家长关切
- 循环系统很容易受到刺激 “倒春寒”期间老人该如何做?
- 青少年患者睡眠问题日趋增加 9条建议为孩子助眠
- 我国肥胖人群正逐年递增 不良饮食习惯是重要诱因
- 如何减少噪声对听力的损伤?这份耳部和听力保健小贴士请收好
- 强化住房限购措施 西安限购限售范围进一步扩大
- 多种方式增加供给 进一步降低新市民和青年人的居住成本
- 预计9月下旬海口可实现安居房申请网上办理
- 政策调控力度持续升级 8月百城二手房市场均价止涨转跌
- 8月中国新房找房热度依然保持平稳 环比微涨0.2%
- 进一步加强商品房销售价格备案管理 今年全国楼市调控刷新历史纪录
- 西安第二批集中供地中28宗为现场拍卖方式出让
- 细分化需求得到释放 房屋居住的属性越发凸显
- 佛山顺德龙江近日挂牌商住地起拍价约19.88亿元
- 青岛市4宗地竞品质抽签结果出炉 地溢价均约15%
- 坚持政策支持、多方参与 浙江版保障性租赁住房明确新增比例目标
- 简化审批流程 武汉将实现房源申请配租全程网上办
- 哈尔滨新增本土确诊病例3例 活动轨迹公布
- 哈尔滨市公布3例新增本土新冠肺炎确诊病例活动轨迹
- 山东深耕文化资源 推动旅游业高质量发展
- 今年新增952件(套)!南京大屠杀再添新证
- 四川非遗传承人张雄志:巧手捏面塑 指尖传非遗
- 10月以来我国寒潮为何如此频繁?中国气象局回应
- 56位残疾人士登上黄山 互利互勉共建生活希望
- 安徽潜山两车相撞 已致8人死亡3人受伤
- 上海洋山海关首次在出口货运渠道查获夹带卷烟
- 山西忻州古城:一城风华延续千年历史文脉
- 呼伦贝尔新巴尔虎右旗公布1例无症状感染者行动轨迹
- 新增“53+1” 内蒙古累计本土确诊病例增至185例
- 昆明公安打击破坏生物多样性犯罪 抓获130名涉案嫌疑人
- 山西朔州“11·11”较大透水事故调查报告发布 对38人问责处理
- “海关国门小卫士”竞争上岗 淘汰率接近一半
- 深圳摧毁特大品牌化妆品走私网
- 28人被问责!山西石港煤业“3·25”事故调查报告公布
- 湖南韶山以河长制带动全民治水 让每一处水面“长治久清”
- 上海市奉贤区人大常委会原党组书记袁晓林被“双开”
- 民进会员谈反映社情民意信息工作:心怀大我 敢讲实情
- 80岁“留守”奶奶短视频诉孤独 千万网友心疼:我们陪您唠嗑
- 40年来为子弟兵送出1.3万余双布鞋和鞋垫的“布鞋奶奶”走了
- 当男幼师是什么体验?他们说:有委屈尴尬 但大部分是幸福
- 庐阳警方通报幼童坠亡事件:嫌疑人已被刑拘
- 内蒙古新增本土确诊病例53例、本土无症状感染者1例
- 哈尔滨市启动部分地区第一轮全员核酸检测
- 四川通江发生两车相撞事故 致3人死亡
- 11月谣言在“身边”,别信这些无稽之谈
- 追剧为何上瘾?你追的不是剧,而是及时满足的快感