DeepSeek
发布时间:2025-08-29 10:47
中东金融应用程序发现,8月21日,Deviceek正式发布了DeepSeek-V3.1。此升级包括关键更改:混合推理体系结构(模型支持思维方式和非思想模式);较高的精神效率(与DeepSeek-R1-0528相比,DeepSeek-V3.1-思维可以在较短的时间内提供答案);代理的功能越强(通过优化培训后,使用工具和代理活动的新模型的性能得到了很大改善)。官方应用程序和网络端模型立即升级到DeepSeek-V3.1。用户可以使用“深思熟虑”按钮在心理模式和非思想模式之间实现自由过渡。 DeepSeek API也在同时升级。 DeepSeek-Chat匹配您的非思考D,DeepSeek-Reasoner对应于思维方式,并且上下文扩展到128K。同时,API Beta接口支持严格模式的调用,以确保输出功能符合MEA模式的宁静。此外,DeepSeek增加了对人类API格式的支持,从而使所有内容都可以轻松地将DeepSeek-V3.1功能连接到Claude代码框架。工具呼叫/代理支持以改善编程代理表1:编程代理评论(SWE使用内部轮廓审查,使用官方终端1框架)在命令行的审判终端审查代码SWEL维修和复杂任务时。搜索智能身体表2:搜索智能身体评估(测试结果呼叫商业搜索引擎API +网络过滤 + 128K上下文窗口; R1-0528使用内部工作流程进行测试; HLE测试使用Python工具和搜索)DeepSeek-v3.1对许多搜索测试指标做出了很好的改进。 DeepSeek-V3.1在需要多步推理的复杂搜索测试(BrowseComp)和多学科拼图水平(HLE)中具有重要的R1-0528性能领先。测试结果表明,在CHA训练后在链条压缩中,当输出令牌数量减少20%-50%时,每个任务的v3.1-思考的平均性能与R1-0528相同。在各种试验中,索引标记通常相同(AIME 2025:87.5/88.4,GPQA:81/80.1,LiveCodeBench:73.3/74.8),R1-0528和v3.1- think的代币消耗比较图表。同时,在非思维模式下的HABA v3.1输出也得到了有效控制。与DeepSeek-V3-0324相比,当输出长度显着降低时,它可以保持相同的模型性能。 特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。 注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。