突然,字节打开了资源的种子
发布时间:2025-08-29 10:47
来自Aofeisi量子位的Mengchen |官方帐户QBITAI BYTEDANCE BUSS BURSS开源模型,并采用360亿种子-36B参数。种子套件的方法显然与Openai先前发布的GPT-oss系列一致。 Openai的开放方法也是如此。这不是DOUBAO业务模型的直接开源,而是专门为基于内部技术的开放社区资源而创建的版本。 Bontedance种子团队使用Apache-2.0开源协议正式在拥抱面和Github上正式发布了这一系列模型,该协议可免费用于学术和商业扩展研究。 512K上下文窗口还可以控制预算思维。要谈论种子最引人注目的特征,应该是本地512k的超长背景。 SA Tabiupayan是模型的主要开放源,例如DeepSeek v3.1,具有128K上下文窗口,而种子已经增加了4次。而且,这512K WERE建立在训练阶段的基础上,后来插值和其他方法不支持。这意味着种子可以轻松赢得专业情况,例如法律文件审查,长期报告审查以及对需要处理大量信息的代码守则的复杂理解。此外,种子还引入了“预算思维”机制。通过设置多个令牌,您可以控制模型思维的深度。例如,如果将预算设置为512代币,则该模型将在推理过程中这样工作:复制它,让我解决此问题步骤 - 步骤。标题说...我使用了129个令牌,还有383个令牌。使用电源规则,我们可以...我使用258个令牌,剩下254个令牌。另外,请记住...我已经用完了令牌预算,现在它开始给出一个答案。对于简单的任务,您可以设置较小的预算以快速响应;对于复杂的数学推理或代码生成,您可以给它更多预算仔细思考。 Bytedance建议使用512的整数倍数(例如512、1K,2K,4K,8K或16K),因为该模型在这些间隔中进行了广泛的训练。在模型架构方面,种子 - 采用成人和稳定的设计:具有360亿参数(不是MOE)的密集模型,使用绳索的位置编码,GQA注意机制,RMSNorm归一化和Swiglu激活功能。整个型号具有64层,隐藏层尺寸5120,词汇尺寸为155K。考虑到综合教学数据可能会影响训练后的研究,Byteseed团队提供了两个版本的码头模型,一个包含合成教学数据(更多绩效)和另一个非(纯净),这为研究社区提供了更多选择。多个基准测试打开资源sotisis,那么该模型如何真正执行?在对知识的理解方面,种子-Else-36b基碱基标记为MMLU-PRO中的65.1点,超过QWEN2的58.5点。相同大小的5-32b基础。他甚至在Triviaqa得分高82.1。 BBH识别能力的BBH基准分数为87.7,即直接NA -REFRESH是开放资源模型的记录。在数学能力方面,GSM8K达到90.8分,数学达到81.7分。种子代码的功能也不错,人类76.8分,MBPP达到80.6。种子-OS-36B教学的微调版本在AIME24数学竞赛问题中得分91.7分,仅在OpenAI的OSS-OSS-2010中获得第二名,这些结果仅在12T代币中进行了培训。相比之下,许多相同大小的训练数据量高于15T。 Byteseed团队的开源图Byteseed团队成立于2023年。它定位为“开发其最先进的AI行业模型”,其研究指示涵盖了许多切割场,例如大型语言模型,多模式和AI基础架构。在过去的一年或更长时以上,玛玛尼有影响力的P已经打开了rompts,但其中大多数被分为域模型,而不是语言引人入胜的语言模型。今年5月,他们发布了一个种子编码器,这是8B级代码生成的模型。最大的变化是允许LLM自己管理和灌输培训数据,从而大大提高了代码生成的能力。此后,他们立即启动了百吉饼,Bagel是一种可以同时处理文本,图像和视频的单模型模型,真正意识到“所有这些都可以输入和输出”。早些时候,他们还发布了种子扩散,这是一种基于状态扩散技术的实验语言模型,该模型实现了非常高的理解代码生成工作的速度。为了支持这些模型的培训,我还开设了Veomni Source,这是一个本地模态分配的训练框架。最近,他们还开发了一个种子Live Interpret端到端同时解释模型,不仅s的翻译精度和低潜伏期的高度,但也可以复制说话者声音的特征。在种子TOS的开源中,国内开源基础模型增加了另一个强大的玩家。 github:https://github.com/bytedance-heed/seed-sshuggingface:https://huggingface.co/collections/bytedance-heedance-heed/seed-oss-68a609f4201e7888888888888db05b5b5b5b5b5dcd 特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。此平台仅提供此信息存储服务。 请注意:上面的内容(包括照片和视频,如果有的话)已由NetEase Hao用户上传和发布,该用户是一个社交媒体平台,仅提供信息服务。