火山引擎发布豆包深度思考模型

4月17日,火山引擎面向企业市场发布豆包1.5・深度思考模型,同步升级文生图模型3.0、视觉理解模型,并推出OS Agent解决方案及AI云原生推理套件,帮助企业更快、更省地构建和部署Agent应用。

火山引擎总裁谭待表示,Agent智能体应用发展将带动大模型进一步普及。深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。

图片1.jpg

火山引擎总裁谭待

据谭待介绍,豆包1.5・深度思考模型在专业领域的推理任务中表现出色,数学推理AIME2024测试得分追平OpenAI o3-mini-high,编程竞赛和科学推理测试成绩也接近o1。在创意写作、人文知识问答等通用任务上,模型也展示出优秀的泛化能力,能胜任更广泛的使用场景。

豆包深度思考模型还具备视觉推理能力,能像人类一样对看到的事物进行联想和思考,极大拓展了智能推理的应用边界。谭待举例说道,“模型可以看懂复杂的企业项目管理流程图表,快速定位到关键信息,并以强大的指令遵循能力,严格按照流程图,回答客户的问题;分析航拍图时,能结合地貌特征判断区域开发可行性。有多模态能力的加持,豆包深度思考模型可以助力企业在更多场景实现智能化升级。”同时,豆包文生图模型Seedream3.0也正式向企业开放。

2025年被业界视为“Agent智能体元年”。谭待认为,在多模态深度思考模型的基础上,Agent需要良好的架构和工具,去操作数字世界和物理世界。同时,模型的推理成本和延迟要持续降低,才能推动应用普惠。

为此,火山引擎宣布推出OS Agent解决方案,并演示了由Agent操作浏览器,搜索商品页,实现iPhone比价的任务,甚至由Agent在远程计算机上用剪映进行视频编辑、配乐。

未来,随着AI技术与产业场景的深度融合,火山引擎的创新成果有望进一步释放商业价值,助力更多企业解锁智能时代的增长潜力。

顶部