DeepSeek 简介

栏目分类DeepSeek 简介

你的位置:KOK手机网页版下载 > 新闻动态 >

DeepSeek 简介

发布日期:2025-03-07 16:38    点击次数:173
DeepSeek目前主要有V3和R1两类模型:V3是通用语义大模型:参数量671B,最大支持128K tokens,对标ChatGPT 4o,文心一言、豆包、kimi等一线闭源语义大模型;R1是推理语义大模型:参数量600B,在V3模型基础上通过自主强化学习得到强大的推理生成能力,对标一线闭源推理大模型。DeepSeek还基于LLama、Qwen等开源模型蒸馏了一些小尺寸【32B、71B等】R1模型(本地部署的基本都是这级别参数量的模型)目前测评结果显示DeepSeek模型的综合性能不弱于甚至稍优于这些一线闭源大模型。贡献1:模型结构优化创新(MoE、MLA、MTP等)、工程优化创新(混合精度训练、流水线并行、底层硬件优化)等多维度创新显著降低训练的成本,使得大模型训练具有更多的可能性。2、DeepSeek能力接近一线闭源模型,但DeepSeek论文开源、技术开源、模型开源、参数开源、输出推理过程、免费使用;本地部署算力需求参考图1

图片

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。