标签: DeepSeek

  • 用DeepSeek和剪映三分钟生成视频

    在短视频内容井喷的当下,效率是创作者的核心竞争力。将 DeepSeek 的强大文本生成能力与剪映的轻量化剪辑功能相结合,能够构建出一套从创意到成片的极速生产管道。以下是一套针对新手的三分钟快速上手指南,旨在通过 AI 辅助解决脚本撰写与素材匹配的痛点。

    一、 需求拆解:向 DeepSeek 下达明确指令

    大多数新手卡壳在“不知道拍什么”或“不知道写什么”。此时,DeepSeek 扮演的是“创意脑”的角色。你需要做的不是让 AI 直接写脚本,而是先进行需求拆解。

    Prompt 公式参考: “我需要制作一个关于 [目标受众,如:职场新人] 的 [核心主题,如:高效沟通技巧] 视频。要求:[视频风格,如:干货解说/动画演示],时长 [60秒/3分钟],包含 [关键信息点1/2/3]。请为我生成一份结构化的视频脚本。”

    技巧: 明确的约束条件(Constraints)能大幅提升 AI 输出的可用性。例如,要求“每段文案不超过30字”或“每句对应一个独立画面”。

    二、 脚本生成:结构化输出适配剪映

    DeepSeek 生成的文案往往是段落式的,这不利于直接剪辑。你需要引导它输出 “分镜脚本” 格式。

    引导 AI 输出格式: “请将上述内容转换为分镜脚本,包含以下列:序号、画面内容描述、时长、配音文案、背景音乐风格。”

    示例输出片段:

    表格 还在加载中,请等待加载完成后再尝试复制

    三、 素材匹配:剪映“图文成片”的无缝衔接

    拿到结构化的脚本后,不要手动去搜素材。剪映的 “图文成片” 功能是连接 DeepSeek 与剪辑的桥梁。

    1. 复制文案: 从 DeepSeek 的回复中,复制“配音文案”列的全部内容。
    2. 一键生成: 打开剪映,点击“图文成片”,粘贴文案。剪映会利用 AI 自动匹配免费的无版权素材库(如 Pexels、Pixabay),并自动生成配音。
    3. 检查与替换: 此时视频已初具雏形。检查素材是否与文案高度相关,如果 AI 匹配的画面不准确(这是常见问题),直接点击素材进行手动替换。

    四、 剪辑优化:三分钟的精修逻辑

    AI 生成的是“毛坯房”,你需要进行“精装修”,但无需复杂操作。

    1. 节奏调整: 删掉冗余的转场,确保每个镜头切换都服务于信息传递。
    2. 字幕样式: 剪映会自动生成字幕,选择一款清晰易读的黑体字,并调整字重和描边,确保在手机小屏上也能看清。
    3. BGM 替换: AI 推荐的音乐可能不合口味,在剪映的音乐库中搜索关键词(如“轻快”、“励志”),替换成更贴合视频调性的音乐,并调整音量至不干扰人声。
    4. 封面设计: 选择视频中最具冲击力的一帧,添加简洁的标题文字,作为视频封面。

    这套工作流的核心在于 “人机协作” 。DeepSeek 负责将你的模糊想法转化为结构化的执行方案,解决了“写什么”和“拍什么”的问题;剪映则负责将文本自动视觉化,解决了“怎么剪”的问题。剩下的三分钟,只需要你用人类的审美和创意,对 AI 的产出进行微调和润色。通过这种方式,即使是剪辑新手,也能实现从创意到成片的极速交付。

  • 1月5日-11日热点事件详细总结

    一、国际政治与外交

    1. 美国抓捕委内瑞拉总统马杜罗:美国于1月5日抓捕委内瑞拉总统马杜罗,引发国际社会广泛关注。马杜罗在美国首次出庭时表示不认罪,仍自称为委内瑞拉总统。委内瑞拉临时总统宣誓就任,并下令全国抓内鬼,全国哀悼7天(0105-09.txt、0105-19.txt、0106-08.txt、0106-22.txt)。
    2. 韩国总统李在明访华:李在明于1月5日抵京访华,期间与中国领导人会谈,并率韩国四大财团掌门人集体亮相,探讨中韩贸易合作。访华结束后,李在明将访问日本(0105-09.txt、0105-19.txt、0106-22.txt、0109-20.txt)。
    3. 格陵兰岛局势:特朗普声称美国必须”拥有”整个格陵兰岛,引发格陵兰岛各政党领导人发表联合声明,明确表示不想成为美国人。欧洲多国表态支持丹麦和格陵兰岛(0109-20.txt、0110-21.txt、0111-08.txt)。
    4. 伊朗局势:伊朗指责美以策划动乱,国内发生大范围断网,澳大利亚曾警告其公民尽快离伊。伊朗军方表示将捍卫国家利益,保护战略基础设施和公共财产(0110-09.txt、0111-08.txt)。
    5. 朝鲜半岛局势:朝鲜军方严正警告韩方,谴责韩国无人机入侵朝鲜领空(0111-08.txt)。
    6. 美国退群:美国一口气退出66个国际组织,古特雷斯对美再”退群”表示遗憾(0108-21.txt、0109-08.txt)。
    7. 美扣押俄油轮:美军在北大西洋扣押贝拉1号油轮,该油轮悬挂俄罗斯国旗,此前曾有俄罗斯潜艇护航。俄方谴责美扣押俄油轮,要求确保俄公民受到人道对待(0108-21.txt、0109-08.txt、0109-20.txt)。
    8. 美国军事干预:特朗普执政不到一年打7国,第二任期以来已下令实施超620次空袭,美媒体人称美国或在准备”世界大战”(0108-21.txt、0110-21.txt)。

    二、国内政治与政策

    1. 医保改革:医保个人账户跨省共济将全国推行,住房公积金制度深化改革,将拓宽使用范围(0109-20.txt、0110-09.txt)。
    2. 反腐工作:年度反腐大片将开播,水利部坚决拥护党中央调查田学斌,武汉原市长周先旺被双开(0105-09.txt、0109-20.txt、0111-08.txt)。
    3. 教育政策:多地取消高一高二年期末统考,新一轮”双一流”高校建设将启动(0108-07.txt、0109-08.txt)。
    4. 住房政策:特朗普在社交媒体上表示”禁止囤房”,国内多地调整住房政策(0109-08.txt)。
    5. 农业政策:河南趴地菠菜走红,贵州毕节等地农业发展受到关注(0108-21.txt、0110-21.txt)。

    三、军事与国防

    1. 歼-20首飞15周年:1月11日是歼-20首飞15周年纪念日,成飞首次确认歼10CE击落多架战机战果。歼20水墨皮肤帅出圈(0111-08.txt、0109-20.txt)。
    2. 中国空军训练:一起体验歼16新年度首飞训练,直击超燃现场(0108-21.txt、0109-08.txt)。
    3. 无人机技术:中国”南天门计划”正照进现实,我军神秘无人机擅”抓”敌方航母(0111-08.txt)。
    4. 军事演习:黄海北部实弹射击,渤海部分海域连续20天执行军事任务(0105-09.txt、0110-21.txt)。
    5. 边境安全:驻乌使馆提醒中国公民暂勿来乌,中国驻沙特大使看望U23男足(0110-09.txt、0110-21.txt)。

    四、经济与金融

    1. A股行情:沪指16连阳站稳4100点,市场成交额第五次突破3万亿大关(0109-20.txt、0110-09.txt)。
    2. 黄金市场:央行连续14个月增持黄金,国际金银价格走强,白银暴涨暴跌背后引发关注(0107-07.txt、0107-20.txt、0110-09.txt)。
    3. 光伏政策:4月1日起全面取消光伏出口退税,电池分阶段退坡至最终取消(0110-09.txt)。
    4. 国企改革:中石化与中航油实施重组,国有经济向”新”布局明显提速(0108-21.txt、0109-20.txt)。
    5. 汽车市场:多家车企官宣降价,宝马大范围降价后门店情况受关注,小米汽车回应17大问题(0105-19.txt、0108-07.txt、0109-08.txt)。
    6. 卫星产业:我国提交超20万颗新卫星申请,引发国际关注(0110-21.txt、0111-08.txt)。
    7. 电商竞争:官方调查外卖平台市场竞争状况,淘宝闪购计划今年继续加大外卖投入(0109-20.txt、0109-08.txt)。

    五、科技与创新

    1. 中国核聚变突破:中国核聚变研究取得新突破,突破120秒(0108-21.txt、0109-20.txt)。
    2. 人工智能:字节实习生全面涨薪,最高涨幅达150%,DeepSeek计划二月中旬发布新模型DeepSeek-V4(0108-21.txt、0111-08.txt)。
    3. 航空技术:我国成为全球第一航空人口大国,国产蛟龙号完成关键升级(0107-07.txt、0107-20.txt)。
    4. 量子技术:国内量子计算研究取得重要进展,相关领域投资增加(0109-08.txt)。
    5. 脑机接口:脑机接口产业即将爆发,相关技术研发加速(0111-08.txt)。
    6. 航天技术:中国驻美大使馆发布AI视频,展示中国航天技术发展(0109-20.txt)。

    六、社会事件

    1. 打击电诈:中国警方摧毁缅北犯罪集团,太子集团创始人陈志已被押解回国(0108-21.txt、0109-08.txt)。
    2. 医疗事件:一新生儿剪脐带时被剪断手指,助产士称是因为新生儿乱动。女子看胃病被建议做心脏微创手术身亡,医院通报称”痔疮手术造成”(0106-08.txt、0109-08.txt)。
    3. 教育事件:内蒙古赤峰一小学校服里有薄膜,官方通报介入调查。高校辟谣教授内推寒假学堂,南京大学某学科全球第一(0110-09.txt、0111-08.txt)。
    4. 交通事件:一家三口被撞亡前1秒行车记录曝光,19岁男子洛阳旅游失联遗体被找到(0108-21.txt、0110-09.txt)。
    5. 家庭事件:女子因买洗碗机遭丈夫砸家,男子看羊圈监控发现妻子婚外情8年(0110-09.txt、0110-21.txt)。
    6. 公益事件:盲人第一视角记录校园生活,辅警李孝阳跳河救人,女军医高铁上救助突发疾病旅客(0108-21.txt、0110-09.txt、0110-21.txt)。

    七、体育赛事

    1. 樊振东留洋生涯首冠:樊振东在德国杯决赛中3:0战胜奥恰洛夫,获得留洋生涯首冠,并获德国杯MVP(0105-09.txt、0105-19.txt)。
    2. 武大靖官宣退役:奥运冠军武大靖于1月6日官宣退役(0106-22.txt、0107-07.txt)。
    3. U23亚洲杯:中国队首战伊拉克0:0战平,门将李昊表现出色。U23国足1场平局却让人看到希望(0108-21.txt、0109-08.txt)。
    4. CBA赛事:广东险胜深圳,辽宁力克吉林止四连败,浙超2.02亿赞助费系谣言(0105-09.txt、0108-07.txt、0109-08.txt)。
    5. WTT多哈冠军赛:林诗栋4比2战胜梁靖崑,陈幸同4-3战胜张本美和晋级4强,王曼昱3:4不敌韩莹(0110-21.txt、0111-08.txt)。
    6. NBA赛事:杜兰特三分绝杀太阳,独行侠险胜国王,东契奇高难度压哨三分(0107-20.txt、0108-07.txt)。
    7. 足球赛事:曼联主帅阿莫林下课,索尔斯克亚有意任曼联临时主帅,2026KPL春季赛大名单公布(0105-19.txt、0107-07.txt、0109-08.txt)。

    八、娱乐新闻

    1. 电视剧《骄阳似我》热播:该剧大结局引发热议,赵丽颖、宋威龙主演,剧中健康的恋爱观受到观众好评。剧集低开高走,番外篇同样受到关注(0105-09.txt、0106-22.txt、0109-08.txt)。
    2. 《罚罪2》收官:黄景瑜主演的《罚罪2》大结局,审讯戏压迫感强,热度破万(0108-21.txt、0109-20.txt)。
    3. 跨年晚会相关:谢娜回应跨年舞台身材争议,白鹿、朱正廷等明星动态,关晓彤三部央视备播(0108-21.txt、0109-08.txt)。
    4. 音乐节目:《有歌》节目邀请退圈歌手回归,白小白整顿音综,抖瓦杯S3四强晋级战(0110-09.txt、0111-08.txt)。
    5. 电影相关:《疯狂动物城2》累计票房超42.5亿,成为中国影史进口片票房冠军。经典惊悚片《闪灵》确认引进中国内地(0106-22.txt、0108-21.txt)。
    6. 明星动态:钟汉良复刻何以琛名场面,王一博称还没想过组建家庭,赵丽颖新剧见面会梦回明兰(0109-08.txt、0110-09.txt、0111-08.txt)。

    九、文化与教育

    1. 教育改革:南京大学某学科全球第一,杭州校长在甘孜支教3年,本科率从17%升至88%(0111-08.txt)。
    2. 文化活动:抖音ACG新春会上线,燕云十六声音乐会,打开书本里的世界年度视频(0109-20.txt、0110-21.txt)。
    3. 传统文化:《中国奇谭2》播出,《黑猫警长》2026年更新,《明日方舟》等游戏推出新内容(0108-21.txt、0109-20.txt、0111-08.txt)。
    4. 学术事件:Nature发布全球博士幸福指数调查,中国最低巴西最高;StackOverflow每月提问量跌破18年前起点(0109-20.txt、0110-21.txt)。

    十、环境与灾害

    1. 地震灾害:贵州毕节威宁县发生4.5级地震,四川乐山发生3.2级地震,甘肃定西发生3.9级地震(0105-09.txt、0110-09.txt、0110-21.txt)。
    2. 冰雪灾害:暴雪的威海一秒变成冰雪世界,各地打造冰雪新场景,哈尔滨冰雪大世界成为热门景点(0110-21.txt、0111-08.txt)。
    3. 气象事件:三九天天气温比往年偏高4-6度,北京新年第一场雪,延庆下”太阳雪”(0109-08.txt、0110-09.txt)。
    4. 生态保护:东营地下4000米发现沸腾热水库,我国铬铁矿与非常规油气勘查双获突破(0110-21.txt、0111-08.txt)。

    十一、生活与消费

    1. “哭哭马”玩偶走红:义乌产的”哭哭马”玩偶意外走红,实则是工人失手做的”残次品”(0110-09.txt、0111-08.txt)。
    2. 羽绒服市场:胖东来、山姆等超市的高性价比羽绒服受到消费者追捧,引发”中产涌入超市抢羽绒服”现象。波司登回应2299元羽绒服充绒量86克的争议(0109-20.txt、0110-09.txt)。
    3. 餐饮事件:海底捞火锅事件(幼童将纸尿裤扔入火锅),和府捞面被曝”只有面是现煮的”,霸王茶姬店员”手打”奶茶为摆拍(0108-21.txt、0109-08.txt、0110-21.txt)。
    4. “死了么”App:这款提醒用户签到的App因”多日不签到自动向紧急联系人发邮件”功能被年轻人疯狂安利(0110-21.txt)。
    5. 车厘子市场:车厘子价格迎来跳水,山姆车厘子每斤狂降70元,合肥车厘子价格暴跌,一天卖出15吨(0106-08.txt、0108-07.txt)。

    十二、网络热点

    1. “鹅鸭杀”游戏:这款社交推理游戏公测后爆火,成为各平台热点,全阵营身份规则送给新手(0108-07.txt、0108-21.txt)。
    2. 鳌太线事故:多人违规穿越鳌太线,造成人员伤亡,获救男子失温产生幻觉(0110-09.txt)。
    3. “面 具”相关:网络上出现关于”面 具”的热议,涉及多个领域(0110-21.txt)。
    4. “死了么”App:除了提醒签到功能外,该App下载量冲进收费榜前十,引发广泛讨论(0110-21.txt)。
    5. “轧戏”相关:电视剧《轧戏》开播,剧名的正确读音引发热议,剧中三个人三种cp感受到关注(0108-21.txt、0109-08.txt)。

    十三、其他热点

    1. 中国人民警察节:1月10日是第六个中国人民警察节,各地开展庆祝活动,致敬守护岁月静好的双手(0109-20.txt、0110-09.txt)。
    2. “小寒”节气:1月5日是小寒节气,各地有不同的庆祝方式和习俗(0105-09.txt、0105-19.txt)。
    3. 快递业发展:我国快递业务量突破2000亿件,中国邮政冰河接力运邮(0107-20.txt、0110-09.txt)。
    4. 低空经济:中国低空经济一飞冲天,相关产业发展受到关注(0109-08.txt)。

    以上是1月5日至11日期间的热点事件详细总结,涵盖了国际、国内、军事、经济、科技、社会、体育、娱乐等多个领域,全面反映了这一周的重要事件和趋势。

  • HumanEval 和 MBPP 是什么,为什么可以用来测试代码能力

    HumanEval 和 MBPP 是当前学术界广泛使用的两个代码生成评测数据集,专门用于评估AI模型的代码能力。它们的设计逻辑和使用价值如下:

    一、数据集简介

    HumanEval

    • 来源:由 OpenAI 在 2021 年创建并发布
    • 内容:包含 164 个手写的编程问题
    • 特点
    • 每个问题包含:函数签名、英文描述、函数体注释、多个测试用例
    • 涵盖算法、数据结构、字符串处理等多种编程任务
    • 难度适中,类似入门到中级编程面试题

    MBPP (Mostly Basic Programming Problems)

    • 来源:Google Research 在 2021 年发布
    • 内容:包含约 974 个编程问题
    • 特点
    • 问题相对基础,更适合初学者水平
    • 每个问题有自然语言描述、函数签名和测试用例
    • 部分问题来自编程竞赛网站

    二、为什么能有效测试代码能力

    1. 综合性评估维度

    • 语法正确性:能否生成符合语法的代码
    • 逻辑正确性:算法实现是否解决给定问题
    • 边界情况处理:测试用例覆盖各种边界条件
    • 代码质量:代码是否简洁、高效

    2. 标准化的评估方法

    采用 Pass@k 指标:

    • 让模型生成 k 个代码方案
    • 计算至少有一个通过所有测试用例的概率
    • 如 Pass@1(第一次生成就正确)、Pass@10 等
    • 消除了主观评判的偏差

    3. 实际解决问题的能力

    • 问题描述使用自然语言,模拟真实编程场景
    • 需要理解需求 → 设计算法 → 实现代码的完整流程
    • 测试用例验证功能正确性,而不仅仅是表面相似性

    三、在AI评估中的重要性

    1. 基准测试的统一标准

    • 成为比较不同代码生成模型(如Codex、GitHub Copilot、DeepSeek-Coder等)的“标尺”
    • 研究论文几乎都报告在这些数据集上的表现

    2. 反映实际应用潜力

    • 高 HumanEval/MBPP 分数的模型在实际编程辅助中通常表现更好
    • 与开发者的使用体验相关性较强

    3. 推动技术进步

    • 清晰的量化指标促使模型改进
    • 帮助识别模型的弱点(如特定类型问题处理不佳)

    四、局限性

    1. 有限的问题范围:164/974个问题不能覆盖所有编程场景
    2. 缺乏复杂系统设计:主要是独立函数,不涉及架构设计
    3. 代码风格单一:偏向算法题,较少涉及实际工程问题
    4. 可能过拟合:有些模型可能针对性优化这些数据集

    五、扩展和补充

    学术界还开发了其他补充数据集:

    • DS-1000:数据科学代码生成
    • APPS:更复杂的竞赛编程问题
    • CodeContests:来自编程竞赛的真实题目
    • HumanEval+:增加更多测试用例,防止“幸运通过”

    总结

    HumanEval 和 MBPP 之所以成为代码能力测试的黄金标准,是因为它们提供了客观、可重复、全面的评估框架,能够有效区分不同模型的代码生成能力。虽然不能完全代表实际工程能力,但作为基准测试工具,它们对推动代码生成技术的发展起到了关键作用。

    对于AI模型开发者来说,在这些数据集上的表现是衡量技术进步的重要指标;对于使用者来说,可以间接反映模型在实际编程辅助中的潜力。

  • deepseek-ai/DeepSeek-V3 混合专家(MoE)语言模型

    DeepSeek-V3 是 DeepSeek-AI 开发的先进混合专家(MoE)语言模型,具有671B总参数和每个token激活37B参数的强大能力 1

    核心技术架构

    创新架构设计

    DeepSeek-V3 基于三大核心技术构建 2

    1. 多头潜在注意力(MLA) – 实现高效的注意力机制
    2. DeepSeekMoE架构 – 混合专家模型设计
    3. 多令牌预测(MTP) – 新的训练目标,支持推测解码加速

    训练效率

    模型在14.8万亿高质量token上进行预训练,仅需2.788M H800 GPU小时完成全训练 3 。训练过程极其稳定,整个训练过程中未出现不可恢复的损失峰值或回滚 4

    模型规格

    模型版本总参数激活参数上下文长度下载地址
    DeepSeek-V3-Base671B37B128KHugging Face 5
    DeepSeek-V3671B37B128KHugging Face 6

    模型总大小为685B参数,包括671B主模型权重和14B多令牌预测(MTP)模块权重 7

    性能表现

    DeepSeek-V3 在各项基准测试中表现卓越,特别是在数学和代码任务上 8

    • 数学能力: GSM8K达到89.3%,MATH达到61.6%
    • 代码能力: HumanEval达到65.2%,MBPP达到75.4%
    • 综合推理: MMLU达到87.1%,BBH达到87.5%

    在聊天模型评估中,DeepSeek-V3 在开放生成任务上表现突出,Arena-Hard达到85.5,AlpacaEval 2.0达到70.0 9

    部署选项

    支持的框架

    DeepSeek-V3 支持多种部署框架 10

    1. DeepSeek-Infer Demo – 轻量级FP8和BF16推理演示
    2. SGLang – 完整支持BF16和FP8推理模式
    3. LMDeploy – 高效本地和云端部署
    4. TensorRT-LLM – 支持BF16推理和INT4/8量化
    5. vLLM – 支持张量并行和流水线并行
    6. LightLLM – 单节点或多节点部署
    7. AMD GPU – 通过SGLang支持
    8. 华为昇腾NPU – 支持INT8和BF16

    权重格式

    模型原生采用FP8格式提供,支持128×128块缩放 11 。如需BF16格式,可使用转换脚本进行转换 12

    使用许可

    DeepSeek-V3 系列模型支持商业使用 13 。代码仓库采用MIT许可证,模型使用遵循模型许可证条款 14

    使用限制

    模型使用受到以下限制 15

    • 不得违反适用法律法规
    • 不得用于军事用途
    • 不得用于伤害未成年人
    • 不得生成虚假信息伤害他人
    • 不得用于歧视性或有害的自动化决策

    获取方式


    Notes

    DeepSeek-V3 是目前最强大的开源语言模型之一,在保持高性能的同时显著降低了训练成本。其创新的架构设计和训练方法为大规模语言模型的发展提供了新的方向。模型支持多种硬件平台和部署方式,为开发者和企业提供了灵活的选择。

    Wiki pages you might want to explore:

    Citations

    File: README.md (L47-47)

    We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. 

    File: README.md (L48-49)

    To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. 
    Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. 

    File: README.md (L50-52)

    We pre-train DeepSeek-V3 on 14.8 trillion diverse and high-quality tokens, followed by Supervised Fine-Tuning and Reinforcement Learning stages to fully harness its capabilities. 
    Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models.
    Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training.

    File: README.md (L53-54)

    In addition, its training process is remarkably stable. 
    Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks. 

    File: README.md (L93-93)

    | DeepSeek-V3-Base | 671B | 37B | 128K   | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)   |

    File: README.md (L94-94)

    | DeepSeek-V3   | 671B | 37B |  128K   | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3)   |

    File: README.md (L99-99)

    > The total size of DeepSeek-V3 models on Hugging Face is 685B, which includes 671B of the Main Model weights and 14B of the Multi-Token Prediction (MTP) Module weights.

    File: README.md (L153-153)

    > Best results are shown in bold. Scores with a gap not exceeding 0.3 are considered to be at the same level. DeepSeek-V3 achieves the best performance on most benchmarks, especially on math and code tasks.

    File: README.md (L214-214)

    | DeepSeek-V3 | **85.5** | **70.0** |

    File: README.md (L223-223)

    You can chat with DeepSeek-V3 on DeepSeek's official website: [chat.deepseek.com](https://chat.deepseek.com/sign_in)

    File: README.md (L225-225)

    We also provide OpenAI-Compatible API at DeepSeek Platform: [platform.deepseek.com](https://platform.deepseek.com/)

    File: README.md (L231-238)

    1. **DeepSeek-Infer Demo**: We provide a simple and lightweight demo for FP8 and BF16 inference.
    2. **SGLang**: Fully support the DeepSeek-V3 model in both BF16 and FP8 inference modes, with Multi-Token Prediction [coming soon](https://github.com/sgl-project/sglang/issues/2591).
    3. **LMDeploy**: Enables efficient FP8 and BF16 inference for local and cloud deployment.
    4. **TensorRT-LLM**: Currently supports BF16 inference and INT4/8 quantization, with FP8 support coming soon.
    5. **vLLM**: Support DeepSeek-V3 model with FP8 and BF16 modes for tensor parallelism and pipeline parallelism.
    6. **LightLLM**: Supports efficient single-node or multi-node deployment for FP8 and BF16.
    7. **AMD GPU**: Enables running the DeepSeek-V3 model on AMD GPUs via SGLang in both BF16 and FP8 modes.
    8. **Huawei Ascend NPU**: Supports running DeepSeek-V3 on Huawei Ascend devices in both INT8 and BF16.

    File: README.md (L244-247)

    ```shell
    cd inference
    python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
    **File:** README.md (L345-345)

    markdown
    This code repository is licensed under the MIT License. The use of DeepSeek-V3 Base/Chat models is subject to the Model License. DeepSeek-V3 series (including Base and Chat) supports commercial use.

    **File:** README_WEIGHTS.md (L62-62)

    markdown
    DeepSeek-V3 natively supports FP8 weight format with 128×128 block scaling.

    **File:** LICENSE-MODEL (L37-39)

    text

    1. Grant of Copyright License. Subject to the terms and conditions of this License, DeepSeek hereby grants to You a perpetual, worldwide, non-exclusive, no-charge, royalty-free, irrevocable copyright license to reproduce, prepare, publicly display, publicly perform, sublicense, and distribute the Complementary Material, the Model, and Derivatives of the Model.
    2. Grant of Patent License. Subject to the terms and conditions of this License and where and as applicable, DeepSeek hereby grants to You a perpetual, worldwide, non-exclusive, no-charge, royalty-free, irrevocable (except as stated in this paragraph) patent license to make, have made, use, offer to sell, sell, import, and otherwise transfer the Model and the Complementary Material, where such license applies only to those patent claims licensable by DeepSeek that are necessarily infringed by its contribution(s). If You institute patent litigation against any entity (including a cross-claim or counterclaim in a lawsuit) alleging that the Model and/or Complementary Material constitutes direct or contributory patent infringement, then any patent licenses granted to You under this License for … (truncated)
    **File:** LICENSE-MODEL (L79-90)

    text
    You agree not to use the Model or Derivatives of the Model:

    • In any way that violates any applicable national or international law or regulation or infringes upon the lawful rights and interests of any third party;
    • For military use in any way;
    • For the purpose of exploiting, harming or attempting to exploit or harm minors in any way;
    • To generate or disseminate verifiably false information and/or content with the purpose of harming others;
    • To generate or disseminate inappropriate content subject to applicable regulatory requirements;
    • To generate or disseminate personal identifiable information without due authorization or for unreasonable use;
    • To defame, disparage or otherwise harass others;
    • For fully automated decision making that adversely impacts an individual’s legal rights or otherwise creates or modifies a binding, enforceable obligation;
    • For any use intended to or which has the effect of discriminating against or harming individuals or groups based on online or offline social behavior or known or predicted personal or personality characteristics;
    • To exploit any of the vulnerabilities of a specific group of persons based on their age, social, physical or mental characteristics, in order to materially distort the behavior of a person pertaining to that group in a manner that causes or is likely to cause that person or another person physical or psychological harm;
      “`