LiveBench 最新榜单:阶跃星辰位列中国大模型第一
近日消息,新榜国际权威榜单 LiveBench 官网公布了最新的单阶第语言大模型测评结果,阶跃星辰自研的跃星万亿参数语言大模型 Step-2 的技术表现位列中国基座大模型第一,成绩逼近 OpenAI 的辰位 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、列中gemini-1.5-pro-002 等国际主流模型,模型是新榜唯一进入榜单前十名的中国语言大模型,位列全球第五。单阶第另外,跃星同时上榜的辰位中国大模型公司还有通义千问和 DeepSeek。 LiveBench 是列中由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、模型纽约大学等机构联合推出的新榜大模型测评基准。LiveBench 从包括数学、单阶第推理、跃星编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估,采用新颖的数据来源并保持每月更新,被誉为「世界上第一个不可玩弄的 LLM 基准测试」。 值得关注的是,Step-2 在 IF Average(Instruction Following)一项表现突出,超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。这意味着,Step-2 在语言生成上对细节有最强的控制力,模型能够更好地理解和遵循人类指令,捕捉到模糊需求背后用户的真实意图,对通用及特定领域知识的覆盖上都有更好的表现。比如当使用 Step-2 创作古诗词,模型在发挥创意的同时能够对字数、格律、押韵、意境做到精准把握。 据了解,今年 3 月,阶跃星辰发布了 Step-2 语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型。目前,阶跃星辰开放平台为开发者提供 Step-2 的 API 接口,该公司的 C 端智能助手「跃问」也已经接入了 Step-2 万亿参数语言大模型,用户在跃问 App 和跃问官网(https://yuewen.cn)皆可体验。
- 最近发表
-
- [流言板]手感冰凉!波普全场7投2中,三分3中0,得到4分2篮板2助攻
- 又一个世界波!莱斯蒂耶纳小角度搓射破门,浙江2球落后
- [流言板]要花了?巴雷特突破上篮命中,分差已经拉开至18分
- 博主建议国产新能源暂时不要碰跑车:不是老百姓消费的东西
- 4am被T1投诉了,说是破坏比赛!刚在X刷到的,Navi选手和ibiza在聊这事!
- [流言板]太阳今日首发:杜兰特、比尔、布克、琼斯、努尔基奇
- 人偶们觉得如果自己获得了读心术的超能力,但是这个读心术是被动技能,这是一件好事吗?
- 球员已就位!勒沃库森发布赛前海报预热与费耶诺德的欧冠比赛
- 诺伊尔17分钟染红,纳格尔斯曼:事后人们总是会变得更聪明
- 5场全败!欧冠最弱种子队:积分为0,奖金5522万,超过23队
- 随机阅读
-
- 《惊声尖叫7》动态《坏种》麦肯娜·格蕾丝加盟
- 迪亚斯调侃:我希望阿莫林在曼联一切顺利,但也不要太顺利🤣
- 意媒:河床有意国米前锋科雷亚,将在明年1月尝试将其引进
- [流言板]对飚局!马克西迎着杰伦
- [流言板]媒体人:本赛季山西队已脱胎换骨,客场不敌新疆但虽败犹荣
- 意媒:河床有意国米前锋科雷亚,将在明年1月尝试将其引进
- 意媒:河床有意国米前锋科雷亚,将在明年1月尝试将其引进
- 罗德曼和拉塞尔,街头打名人堂局哪个好点
- [流言板]媒体人:新疆和山西打得太过激烈,两队球员估计要缓好几天
- 阿斯预测马竞首发:阿尔瓦雷斯领衔锋线,德保罗&格子先发出战
- 有一说一,除了最菜的RA,7组队伍的diff居然连起来了
- 👀维尼修斯转发帖子:参与46球 维尼修斯主宰2024年进球+助攻榜
- 赖因德斯各项赛事主场已进5球,是米兰本赛季主场进球最多的球员
- 3场3球2助!阿根廷球员闪耀欧冠,3大巨星当选MVP,大马丁献神扑
- 记者:菲尔克鲁格和埃莫森出战切尔西存疑
- 特尔在友谊赛打入的世界波,当选拜仁8月最佳进球
- 这是怎么了?加纳乔英超重大机会转化率仅22.2%,并列倒数第三
- 罗马诺:国米与比塞克续约至2029已达协议 24小时内签署
- 双城同开!盒马在徐州、滁州再落一子
- [流言板]无法阻挡!斯马特抢断三分再中,上场6分钟已得13分4助攻
- 搜索
-
- 友情链接
-