作者：张刚

simstudioai/sim 智能体工作流编排平台

Sim（simstudioai/sim）是Apache 2.0开源的低代码/无代码AI智能体工作流编排平台，以DAG可视化画布与声明式建模为核心，支持快速构建、部署AI Agent工作流，兼容本地模型与私有部署，适合全栈开发者、技术团队快速落地AI自动化与Agent应用。以下从核心定位、关键能力、技术架构、部署方式、应用场景等方面展开介绍：

核心定位与价值

Sim的核心是“可视化DAG工作流引擎+AI Agent编排系统”，目标是让用户“几分钟内构建并部署AI Agent工作流”，消除样板代码、降低基础设施复杂度，兼顾技术与非技术用户，适配快速迭代与隐私合规需求。

关键能力

1. 可视化工作流构建：基于ReactFlow的画布，拖拽Block（Agent、API、函数、条件、循环、并行等）并连线，直接生成可序列化的DAG描述，设计与执行用同一数据模型，支持实时预览与调试。

2. Copilot增强：通过自然语言生成节点、修复错误、迭代工作流，提升构建效率。

3. 多模型与工具集成：兼容OpenAI、Anthropic、Google等API，支持Ollama本地模型（如Llama 3.1、CodeLlama）；内置60+工具（Gmail、Slack、Notion、Pinecone、PostgreSQL等），支持自定义函数与API扩展。

4. 向量知识库：集成pgvector向量存储，上传文档构建私有知识库，实现基于特定内容的精准回答。

5. 复杂控制流与执行保障：支持循环、并行、暂停恢复、执行快照与恢复，适配长流程与高可靠场景。

6. 多触发与部署：支持Chat/REST/Webhook/定时触发；提供云托管（sim.ai）、NPM包（npx simstudio）、Docker Compose（含Ollama本地模型）等部署方式。

技术架构

模块	核心技术	说明
前端	Next.js App Router、ReactFlow	可视化画布与交互层，生成SerializedWorkflow
后端	Bun运行时、TypeScript	高性能执行引擎，解析DAG并调度，支持复杂控制流
数据层	PostgreSQL + pgvector	存储工作流定义、执行状态、向量数据
运行时	Docker、Ollama	容器化部署，本地模型适配GPU/CPU
协议	Apache 2.0	开源商业友好，GitHub stars 25.1k+

部署方式（快速上手）

1. 云托管：直接访问sim.ai，无需安装配置。

2. NPM包（推荐）：确保Docker运行，执行npx simstudio，默认端口3000，访问http://localhost:3000。

3. Docker Compose：克隆仓库后，执行docker compose -f docker-compose.prod.yml up -d；本地模型（GPU）：docker compose -f docker-compose.ollama.yml –profile setup up -d；CPU仅需加–profile cpu。

典型应用场景

● AI助手开发：构建能联网、访问日历、发邮件的智能代理，适配企业办公与客户支持。

● 业务流程自动化：自动化数据录入、报告生成、内容创作等重复性任务。

● 数据处理与分析：文档洞察提取、数据集分析、跨系统数据同步。

● API集成：整合多服务为统一端点，编排复杂业务逻辑与事件驱动自动化。

优势与适配人群

● 优势：零代码/低代码降低门槛，本地模型保障数据隐私，开源可扩展，部署灵活，控制流能力强。

● 适配人群：全栈开发者、AI工程师、技术团队、自动化爱好者，适合快速落地AI Agent应用与流程自动化。

2026年1月12日

davila7/claude-code-templates 开源 CLI 工具与组件库

davila7/claude-code-templates 是为 Anthropic Claude Code 打造的开源 CLI 工具与组件库，提供海量即用型配置与自动化能力，可大幅简化 Claude Code 的项目初始化、Agent 配置与外部集成，适合追求开箱即用与高生产力的开发者。以下是核心信息：

核心定位与价值

● 为 Claude Code 提供一站式配置方案，包含 400+ 组件（Agents、Commands、Settings、Hooks、MCPs、Templates），覆盖多语言/框架与常见开发场景。

● 以交互式 CLI 与可视化网页（aitmpl.com）实现“一键安装”，避免从零配置，提升开发效率。

● 支持 JavaScript/TypeScript（React、Vue、Node.js）、Python（Django、FastAPI）等，Go/Rust 适配中。

核心组件与能力

组件	作用	典型示例
🤖 Agents	预配置 AI 专家角色	前端/全栈开发者、安全审计、数据库架构师
⚙️ Commands	即用型斜杠命令	/generate-tests、/optimize-bundle、/analyze-security
🛠️ Settings	Claude 运行配置	超时、内存、输出样式预设
🪝 Hooks	自动化触发点	提交前校验、完成后动作，集成 CI/CD
🔌 MCPs	外部服务集成	GitHub、PostgreSQL、Stripe、AWS、OpenAI
📦 Templates	完整项目配置	含 CLAUDE.md、.claude/* 等最佳实践模板
🎨 Skills	复用能力	PDF 处理、Excel 自动化、自定义工作流

配套工具

● 🔍 Analytics Dashboard：实时监控会话状态、响应延迟与调用日志。

● 💬 Conversation Monitor：移动端适配的远程会话追踪界面。

● 🩺 Health Check：系统诊断工具，快速验证安装与配置。

● 🧩 Plugin Dashboard：统一管理插件与权限。

快速上手步骤

1. 安装 CLI：npx claude-code-templates@latest（无需全局安装）。

2. 浏览组件：访问 aitmpl.com 查找所需模板/集成。

3. 一键集成：npx claude-code-templates@latest –mcp database/postgresql-integration –yes。

4. 运行工具：npx claude-code-templates@latest –analytics 启动监控面板。

优势与局限

● 优势：开源免费、开箱即用、组件丰富、多语言支持、可视化与 CLI 双入口。

● 局限：依赖 Claude Code 生态，部分语言/框架适配中，企业级私有定制需自行 fork 维护。

适用场景

● 快速搭建 Claude Code 开发环境，减少配置时间。

● 标准化团队 AI 开发流程，复用最佳实践。

● 快速集成 GitHub、PostgreSQL、Stripe 等外部服务。

● 实时监控与调试 Claude 会话，提升稳定性。

扩展与定制

● 支持通过环境变量指定自定义仓库（CCT_REPO_OWNER/CCT_REPO_NAME 等），适合企业私有组件库。

● 可提交 PR 贡献组件，或 fork 仓库维护私有模板。

2026年1月12日

1月5日-11日热点事件详细总结
一、国际政治与外交
1. 美国抓捕委内瑞拉总统马杜罗：美国于1月5日抓捕委内瑞拉总统马杜罗，引发国际社会广泛关注。马杜罗在美国首次出庭时表示不认罪，仍自称为委内瑞拉总统。委内瑞拉临时总统宣誓就任，并下令全国抓内鬼，全国哀悼7天（0105-09.txt、0105-19.txt、0106-08.txt、0106-22.txt）。
2. 韩国总统李在明访华：李在明于1月5日抵京访华，期间与中国领导人会谈，并率韩国四大财团掌门人集体亮相，探讨中韩贸易合作。访华结束后，李在明将访问日本（0105-09.txt、0105-19.txt、0106-22.txt、0109-20.txt）。
3. 格陵兰岛局势：特朗普声称美国必须”拥有”整个格陵兰岛，引发格陵兰岛各政党领导人发表联合声明，明确表示不想成为美国人。欧洲多国表态支持丹麦和格陵兰岛（0109-20.txt、0110-21.txt、0111-08.txt）。
4. 伊朗局势：伊朗指责美以策划动乱，国内发生大范围断网，澳大利亚曾警告其公民尽快离伊。伊朗军方表示将捍卫国家利益，保护战略基础设施和公共财产（0110-09.txt、0111-08.txt）。
5. 朝鲜半岛局势：朝鲜军方严正警告韩方，谴责韩国无人机入侵朝鲜领空（0111-08.txt）。
6. 美国退群：美国一口气退出66个国际组织，古特雷斯对美再”退群”表示遗憾（0108-21.txt、0109-08.txt）。
7. 美扣押俄油轮：美军在北大西洋扣押贝拉1号油轮，该油轮悬挂俄罗斯国旗，此前曾有俄罗斯潜艇护航。俄方谴责美扣押俄油轮，要求确保俄公民受到人道对待（0108-21.txt、0109-08.txt、0109-20.txt）。
8. 美国军事干预：特朗普执政不到一年打7国，第二任期以来已下令实施超620次空袭，美媒体人称美国或在准备”世界大战”（0108-21.txt、0110-21.txt）。
二、国内政治与政策
1. 医保改革：医保个人账户跨省共济将全国推行，住房公积金制度深化改革，将拓宽使用范围（0109-20.txt、0110-09.txt）。
2. 反腐工作：年度反腐大片将开播，水利部坚决拥护党中央调查田学斌，武汉原市长周先旺被双开（0105-09.txt、0109-20.txt、0111-08.txt）。
3. 教育政策：多地取消高一高二年期末统考，新一轮”双一流”高校建设将启动（0108-07.txt、0109-08.txt）。
4. 住房政策：特朗普在社交媒体上表示”禁止囤房”，国内多地调整住房政策（0109-08.txt）。
5. 农业政策：河南趴地菠菜走红，贵州毕节等地农业发展受到关注（0108-21.txt、0110-21.txt）。
三、军事与国防
1. 歼-20首飞15周年：1月11日是歼-20首飞15周年纪念日，成飞首次确认歼10CE击落多架战机战果。歼20水墨皮肤帅出圈（0111-08.txt、0109-20.txt）。
2. 中国空军训练：一起体验歼16新年度首飞训练，直击超燃现场（0108-21.txt、0109-08.txt）。
3. 无人机技术：中国”南天门计划”正照进现实，我军神秘无人机擅”抓”敌方航母（0111-08.txt）。
4. 军事演习：黄海北部实弹射击，渤海部分海域连续20天执行军事任务（0105-09.txt、0110-21.txt）。
5. 边境安全：驻乌使馆提醒中国公民暂勿来乌，中国驻沙特大使看望U23男足（0110-09.txt、0110-21.txt）。
四、经济与金融
1. A股行情：沪指16连阳站稳4100点，市场成交额第五次突破3万亿大关（0109-20.txt、0110-09.txt）。
2. 黄金市场：央行连续14个月增持黄金，国际金银价格走强，白银暴涨暴跌背后引发关注（0107-07.txt、0107-20.txt、0110-09.txt）。
3. 光伏政策：4月1日起全面取消光伏出口退税，电池分阶段退坡至最终取消（0110-09.txt）。
4. 国企改革：中石化与中航油实施重组，国有经济向”新”布局明显提速（0108-21.txt、0109-20.txt）。
5. 汽车市场：多家车企官宣降价，宝马大范围降价后门店情况受关注，小米汽车回应17大问题（0105-19.txt、0108-07.txt、0109-08.txt）。
6. 卫星产业：我国提交超20万颗新卫星申请，引发国际关注（0110-21.txt、0111-08.txt）。
7. 电商竞争：官方调查外卖平台市场竞争状况，淘宝闪购计划今年继续加大外卖投入（0109-20.txt、0109-08.txt）。
五、科技与创新
1. 中国核聚变突破：中国核聚变研究取得新突破，突破120秒（0108-21.txt、0109-20.txt）。
2. 人工智能：字节实习生全面涨薪，最高涨幅达150%，DeepSeek计划二月中旬发布新模型DeepSeek-V4（0108-21.txt、0111-08.txt）。
3. 航空技术：我国成为全球第一航空人口大国，国产蛟龙号完成关键升级（0107-07.txt、0107-20.txt）。
4. 量子技术：国内量子计算研究取得重要进展，相关领域投资增加（0109-08.txt）。
5. 脑机接口：脑机接口产业即将爆发，相关技术研发加速（0111-08.txt）。
6. 航天技术：中国驻美大使馆发布AI视频，展示中国航天技术发展（0109-20.txt）。
六、社会事件
1. 打击电诈：中国警方摧毁缅北犯罪集团，太子集团创始人陈志已被押解回国（0108-21.txt、0109-08.txt）。
2. 医疗事件：一新生儿剪脐带时被剪断手指，助产士称是因为新生儿乱动。女子看胃病被建议做心脏微创手术身亡，医院通报称”痔疮手术造成”（0106-08.txt、0109-08.txt）。
3. 教育事件：内蒙古赤峰一小学校服里有薄膜，官方通报介入调查。高校辟谣教授内推寒假学堂，南京大学某学科全球第一（0110-09.txt、0111-08.txt）。
4. 交通事件：一家三口被撞亡前1秒行车记录曝光，19岁男子洛阳旅游失联遗体被找到（0108-21.txt、0110-09.txt）。
5. 家庭事件：女子因买洗碗机遭丈夫砸家，男子看羊圈监控发现妻子婚外情8年（0110-09.txt、0110-21.txt）。
6. 公益事件：盲人第一视角记录校园生活，辅警李孝阳跳河救人，女军医高铁上救助突发疾病旅客（0108-21.txt、0110-09.txt、0110-21.txt）。
七、体育赛事
1. 樊振东留洋生涯首冠：樊振东在德国杯决赛中3:0战胜奥恰洛夫，获得留洋生涯首冠，并获德国杯MVP（0105-09.txt、0105-19.txt）。
2. 武大靖官宣退役：奥运冠军武大靖于1月6日官宣退役（0106-22.txt、0107-07.txt）。
3. U23亚洲杯：中国队首战伊拉克0:0战平，门将李昊表现出色。U23国足1场平局却让人看到希望（0108-21.txt、0109-08.txt）。
4. CBA赛事：广东险胜深圳，辽宁力克吉林止四连败，浙超2.02亿赞助费系谣言（0105-09.txt、0108-07.txt、0109-08.txt）。
5. WTT多哈冠军赛：林诗栋4比2战胜梁靖崑，陈幸同4-3战胜张本美和晋级4强，王曼昱3:4不敌韩莹（0110-21.txt、0111-08.txt）。
6. NBA赛事：杜兰特三分绝杀太阳，独行侠险胜国王，东契奇高难度压哨三分（0107-20.txt、0108-07.txt）。
7. 足球赛事：曼联主帅阿莫林下课，索尔斯克亚有意任曼联临时主帅，2026KPL春季赛大名单公布（0105-19.txt、0107-07.txt、0109-08.txt）。
八、娱乐新闻
1. 电视剧《骄阳似我》热播：该剧大结局引发热议，赵丽颖、宋威龙主演，剧中健康的恋爱观受到观众好评。剧集低开高走，番外篇同样受到关注（0105-09.txt、0106-22.txt、0109-08.txt）。
2. 《罚罪2》收官：黄景瑜主演的《罚罪2》大结局，审讯戏压迫感强，热度破万（0108-21.txt、0109-20.txt）。
3. 跨年晚会相关：谢娜回应跨年舞台身材争议，白鹿、朱正廷等明星动态，关晓彤三部央视备播（0108-21.txt、0109-08.txt）。
4. 音乐节目：《有歌》节目邀请退圈歌手回归，白小白整顿音综，抖瓦杯S3四强晋级战（0110-09.txt、0111-08.txt）。
5. 电影相关：《疯狂动物城2》累计票房超42.5亿，成为中国影史进口片票房冠军。经典惊悚片《闪灵》确认引进中国内地（0106-22.txt、0108-21.txt）。
6. 明星动态：钟汉良复刻何以琛名场面，王一博称还没想过组建家庭，赵丽颖新剧见面会梦回明兰（0109-08.txt、0110-09.txt、0111-08.txt）。
九、文化与教育
1. 教育改革：南京大学某学科全球第一，杭州校长在甘孜支教3年，本科率从17%升至88%（0111-08.txt）。
2. 文化活动：抖音ACG新春会上线，燕云十六声音乐会，打开书本里的世界年度视频（0109-20.txt、0110-21.txt）。
3. 传统文化：《中国奇谭2》播出，《黑猫警长》2026年更新，《明日方舟》等游戏推出新内容（0108-21.txt、0109-20.txt、0111-08.txt）。
4. 学术事件：Nature发布全球博士幸福指数调查，中国最低巴西最高；StackOverflow每月提问量跌破18年前起点（0109-20.txt、0110-21.txt）。
十、环境与灾害
1. 地震灾害：贵州毕节威宁县发生4.5级地震，四川乐山发生3.2级地震，甘肃定西发生3.9级地震（0105-09.txt、0110-09.txt、0110-21.txt）。
2. 冰雪灾害：暴雪的威海一秒变成冰雪世界，各地打造冰雪新场景，哈尔滨冰雪大世界成为热门景点（0110-21.txt、0111-08.txt）。
3. 气象事件：三九天天气温比往年偏高4-6度，北京新年第一场雪，延庆下”太阳雪”（0109-08.txt、0110-09.txt）。
4. 生态保护：东营地下4000米发现沸腾热水库，我国铬铁矿与非常规油气勘查双获突破（0110-21.txt、0111-08.txt）。
十一、生活与消费
1. “哭哭马”玩偶走红：义乌产的”哭哭马”玩偶意外走红，实则是工人失手做的”残次品”（0110-09.txt、0111-08.txt）。
2. 羽绒服市场：胖东来、山姆等超市的高性价比羽绒服受到消费者追捧，引发”中产涌入超市抢羽绒服”现象。波司登回应2299元羽绒服充绒量86克的争议（0109-20.txt、0110-09.txt）。
3. 餐饮事件：海底捞火锅事件（幼童将纸尿裤扔入火锅），和府捞面被曝”只有面是现煮的”，霸王茶姬店员”手打”奶茶为摆拍（0108-21.txt、0109-08.txt、0110-21.txt）。
4. “死了么”App：这款提醒用户签到的App因”多日不签到自动向紧急联系人发邮件”功能被年轻人疯狂安利（0110-21.txt）。
5. 车厘子市场：车厘子价格迎来跳水，山姆车厘子每斤狂降70元，合肥车厘子价格暴跌，一天卖出15吨（0106-08.txt、0108-07.txt）。
十二、网络热点
1. “鹅鸭杀”游戏：这款社交推理游戏公测后爆火，成为各平台热点，全阵营身份规则送给新手（0108-07.txt、0108-21.txt）。
2. 鳌太线事故：多人违规穿越鳌太线，造成人员伤亡，获救男子失温产生幻觉（0110-09.txt）。
3. “面具”相关：网络上出现关于”面具”的热议，涉及多个领域（0110-21.txt）。
4. “死了么”App：除了提醒签到功能外，该App下载量冲进收费榜前十，引发广泛讨论（0110-21.txt）。
5. “轧戏”相关：电视剧《轧戏》开播，剧名的正确读音引发热议，剧中三个人三种cp感受到关注（0108-21.txt、0109-08.txt）。
十三、其他热点
1. 中国人民警察节：1月10日是第六个中国人民警察节，各地开展庆祝活动，致敬守护岁月静好的双手（0109-20.txt、0110-09.txt）。
2. “小寒”节气：1月5日是小寒节气，各地有不同的庆祝方式和习俗（0105-09.txt、0105-19.txt）。
3. 快递业发展：我国快递业务量突破2000亿件，中国邮政冰河接力运邮（0107-20.txt、0110-09.txt）。
4. 低空经济：中国低空经济一飞冲天，相关产业发展受到关注（0109-08.txt）。
以上是1月5日至11日期间的热点事件详细总结，涵盖了国际、国内、军事、经济、科技、社会、体育、娱乐等多个领域，全面反映了这一周的重要事件和趋势。
2026年1月12日
HumanEval 和 MBPP 是什么，为什么可以用来测试代码能力
HumanEval 和 MBPP 是当前学术界广泛使用的两个代码生成评测数据集，专门用于评估AI模型的代码能力。它们的设计逻辑和使用价值如下：

一、数据集简介

HumanEval
- 来源：由 OpenAI 在 2021 年创建并发布
- 内容：包含 164 个手写的编程问题
- 特点：
- 每个问题包含：函数签名、英文描述、函数体注释、多个测试用例
- 涵盖算法、数据结构、字符串处理等多种编程任务
- 难度适中，类似入门到中级编程面试题
MBPP (Mostly Basic Programming Problems)
- 来源：Google Research 在 2021 年发布
- 内容：包含约 974 个编程问题
- 特点：
- 问题相对基础，更适合初学者水平
- 每个问题有自然语言描述、函数签名和测试用例
- 部分问题来自编程竞赛网站
二、为什么能有效测试代码能力

1. 综合性评估维度
- 语法正确性：能否生成符合语法的代码
- 逻辑正确性：算法实现是否解决给定问题
- 边界情况处理：测试用例覆盖各种边界条件
- 代码质量：代码是否简洁、高效
2. 标准化的评估方法

采用 Pass@k 指标：
- 让模型生成 k 个代码方案
- 计算至少有一个通过所有测试用例的概率
- 如 Pass@1（第一次生成就正确）、Pass@10 等
- 消除了主观评判的偏差
3. 实际解决问题的能力
- 问题描述使用自然语言，模拟真实编程场景
- 需要理解需求 → 设计算法 → 实现代码的完整流程
- 测试用例验证功能正确性，而不仅仅是表面相似性
三、在AI评估中的重要性

1. 基准测试的统一标准
- 成为比较不同代码生成模型（如Codex、GitHub Copilot、DeepSeek-Coder等）的“标尺”
- 研究论文几乎都报告在这些数据集上的表现
2. 反映实际应用潜力
- 高 HumanEval/MBPP 分数的模型在实际编程辅助中通常表现更好
- 与开发者的使用体验相关性较强
3. 推动技术进步
- 清晰的量化指标促使模型改进
- 帮助识别模型的弱点（如特定类型问题处理不佳）
四、局限性
1. 有限的问题范围：164/974个问题不能覆盖所有编程场景
2. 缺乏复杂系统设计：主要是独立函数，不涉及架构设计
3. 代码风格单一：偏向算法题，较少涉及实际工程问题
4. 可能过拟合：有些模型可能针对性优化这些数据集
五、扩展和补充

学术界还开发了其他补充数据集：
- DS-1000：数据科学代码生成
- APPS：更复杂的竞赛编程问题
- CodeContests：来自编程竞赛的真实题目
- HumanEval+：增加更多测试用例，防止“幸运通过”
总结

HumanEval 和 MBPP 之所以成为代码能力测试的黄金标准，是因为它们提供了客观、可重复、全面的评估框架，能够有效区分不同模型的代码生成能力。虽然不能完全代表实际工程能力，但作为基准测试工具，它们对推动代码生成技术的发展起到了关键作用。

对于AI模型开发者来说，在这些数据集上的表现是衡量技术进步的重要指标；对于使用者来说，可以间接反映模型在实际编程辅助中的潜力。
2026年1月11日
deepseek-ai/DeepSeek-V3 混合专家(MoE)语言模型
DeepSeek-V3 是 DeepSeek-AI 开发的先进混合专家(MoE)语言模型，具有671B总参数和每个token激活37B参数的强大能力 1 。

核心技术架构

创新架构设计

DeepSeek-V3 基于三大核心技术构建 2 ：
1. 多头潜在注意力(MLA) – 实现高效的注意力机制
2. DeepSeekMoE架构 – 混合专家模型设计
3. 多令牌预测(MTP) – 新的训练目标，支持推测解码加速
训练效率

模型在14.8万亿高质量token上进行预训练，仅需2.788M H800 GPU小时完成全训练 3 。训练过程极其稳定，整个训练过程中未出现不可恢复的损失峰值或回滚 4 。

模型规格

模型版本总参数激活参数上下文长度下载地址
DeepSeek-V3-Base 671B 37B 128K Hugging Face 5
DeepSeek-V3 671B 37B 128K Hugging Face 6

模型总大小为685B参数，包括671B主模型权重和14B多令牌预测(MTP)模块权重 7 。

性能表现

DeepSeek-V3 在各项基准测试中表现卓越，特别是在数学和代码任务上 8 ：
- 数学能力: GSM8K达到89.3%，MATH达到61.6%
- 代码能力: HumanEval达到65.2%，MBPP达到75.4%
- 综合推理: MMLU达到87.1%，BBH达到87.5%
在聊天模型评估中，DeepSeek-V3 在开放生成任务上表现突出，Arena-Hard达到85.5，AlpacaEval 2.0达到70.0 9 。

部署选项

支持的框架

DeepSeek-V3 支持多种部署框架 10 ：
1. DeepSeek-Infer Demo – 轻量级FP8和BF16推理演示
2. SGLang – 完整支持BF16和FP8推理模式
3. LMDeploy – 高效本地和云端部署
4. TensorRT-LLM – 支持BF16推理和INT4/8量化
5. vLLM – 支持张量并行和流水线并行
6. LightLLM – 单节点或多节点部署
7. AMD GPU – 通过SGLang支持
8. 华为昇腾NPU – 支持INT8和BF16
权重格式

模型原生采用FP8格式提供，支持128×128块缩放 11 。如需BF16格式，可使用转换脚本进行转换 12 。

使用许可

DeepSeek-V3 系列模型支持商业使用 13 。代码仓库采用MIT许可证，模型使用遵循模型许可证条款 14 。

使用限制

模型使用受到以下限制 15 ：
- 不得违反适用法律法规
- 不得用于军事用途
- 不得用于伤害未成年人
- 不得生成虚假信息伤害他人
- 不得用于歧视性或有害的自动化决策
获取方式
- 在线体验: chat.deepseek.com 16
- API平台: platform.deepseek.com 17
- 本地部署: 通过Hugging Face下载模型权重，使用支持的推理框架部署
Notes

DeepSeek-V3 是目前最强大的开源语言模型之一，在保持高性能的同时显著降低了训练成本。其创新的架构设计和训练方法为大规模语言模型的发展提供了新的方向。模型支持多种硬件平台和部署方式，为开发者和企业提供了灵活的选择。

Wiki pages you might want to explore:
- Overview (deepseek-ai/DeepSeek-V3)
Citations

File: README.md (L47-47)
```
We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. 
```
File: README.md (L48-49)
```
To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. 
Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. 
```
File: README.md (L50-52)
```
We pre-train DeepSeek-V3 on 14.8 trillion diverse and high-quality tokens, followed by Supervised Fine-Tuning and Reinforcement Learning stages to fully harness its capabilities. 
Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models.
Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training.
```
File: README.md (L53-54)
```
In addition, its training process is remarkably stable. 
Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks. 
```
File: README.md (L93-93)
```
| DeepSeek-V3-Base | 671B | 37B | 128K   | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)   |
```
File: README.md (L94-94)
```
| DeepSeek-V3   | 671B | 37B |  128K   | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3)   |
```
File: README.md (L99-99)
```
> The total size of DeepSeek-V3 models on Hugging Face is 685B, which includes 671B of the Main Model weights and 14B of the Multi-Token Prediction (MTP) Module weights.
```
File: README.md (L153-153)
```
> Best results are shown in bold. Scores with a gap not exceeding 0.3 are considered to be at the same level. DeepSeek-V3 achieves the best performance on most benchmarks, especially on math and code tasks.
```
File: README.md (L214-214)
```
| DeepSeek-V3 | **85.5** | **70.0** |
```
File: README.md (L223-223)
```
You can chat with DeepSeek-V3 on DeepSeek's official website: [chat.deepseek.com](https://chat.deepseek.com/sign_in)
```
File: README.md (L225-225)
```
We also provide OpenAI-Compatible API at DeepSeek Platform: [platform.deepseek.com](https://platform.deepseek.com/)
```
File: README.md (L231-238)
```
1. **DeepSeek-Infer Demo**: We provide a simple and lightweight demo for FP8 and BF16 inference.
2. **SGLang**: Fully support the DeepSeek-V3 model in both BF16 and FP8 inference modes, with Multi-Token Prediction [coming soon](https://github.com/sgl-project/sglang/issues/2591).
3. **LMDeploy**: Enables efficient FP8 and BF16 inference for local and cloud deployment.
4. **TensorRT-LLM**: Currently supports BF16 inference and INT4/8 quantization, with FP8 support coming soon.
5. **vLLM**: Support DeepSeek-V3 model with FP8 and BF16 modes for tensor parallelism and pipeline parallelism.
6. **LightLLM**: Supports efficient single-node or multi-node deployment for FP8 and BF16.
7. **AMD GPU**: Enables running the DeepSeek-V3 model on AMD GPUs via SGLang in both BF16 and FP8 modes.
8. **Huawei Ascend NPU**: Supports running DeepSeek-V3 on Huawei Ascend devices in both INT8 and BF16.
```
File: README.md (L244-247)
```
```shell
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
```
```
**File:** README.md (L345-345)
```
markdown
This code repository is licensed under the MIT License. The use of DeepSeek-V3 Base/Chat models is subject to the Model License. DeepSeek-V3 series (including Base and Chat) supports commercial use.
```
**File:** README_WEIGHTS.md (L62-62)
```
markdown
DeepSeek-V3 natively supports FP8 weight format with 128×128 block scaling.
```
**File:** LICENSE-MODEL (L37-39)
```
text
1. Grant of Copyright License. Subject to the terms and conditions of this License, DeepSeek hereby grants to You a perpetual, worldwide, non-exclusive, no-charge, royalty-free, irrevocable copyright license to reproduce, prepare, publicly display, publicly perform, sublicense, and distribute the Complementary Material, the Model, and Derivatives of the Model.
2. Grant of Patent License. Subject to the terms and conditions of this License and where and as applicable, DeepSeek hereby grants to You a perpetual, worldwide, non-exclusive, no-charge, royalty-free, irrevocable (except as stated in this paragraph) patent license to make, have made, use, offer to sell, sell, import, and otherwise transfer the Model and the Complementary Material, where such license applies only to those patent claims licensable by DeepSeek that are necessarily infringed by its contribution(s). If You institute patent litigation against any entity (including a cross-claim or counterclaim in a lawsuit) alleging that the Model and/or Complementary Material constitutes direct or contributory patent infringement, then any patent licenses granted to You under this License for … (truncated)
```
**File:** LICENSE-MODEL (L79-90)
```
text
You agree not to use the Model or Derivatives of the Model:
- In any way that violates any applicable national or international law or regulation or infringes upon the lawful rights and interests of any third party;
- For military use in any way;
- For the purpose of exploiting, harming or attempting to exploit or harm minors in any way;
- To generate or disseminate verifiably false information and/or content with the purpose of harming others;
- To generate or disseminate inappropriate content subject to applicable regulatory requirements;
- To generate or disseminate personal identifiable information without due authorization or for unreasonable use;
- To defame, disparage or otherwise harass others;
- For fully automated decision making that adversely impacts an individual’s legal rights or otherwise creates or modifies a binding, enforceable obligation;
- For any use intended to or which has the effect of discriminating against or harming individuals or groups based on online or offline social behavior or known or predicted personal or personality characteristics;
- To exploit any of the vulnerabilities of a specific group of persons based on their age, social, physical or mental characteristics, in order to materially distort the behavior of a person pertaining to that group in a manner that causes or is likely to cause that person or another person physical or psychological harm;
  “`
2026年1月11日

模型版本	总参数	激活参数	上下文长度	下载地址
DeepSeek-V3-Base	671B	37B	128K	Hugging Face 5
DeepSeek-V3	671B	37B	128K	Hugging Face 6

作者： 张刚

simstudioai/sim 智能体工作流编排平台

核心定位与价值

关键能力

技术架构

部署方式（快速上手）

典型应用场景

优势与适配人群

davila7/claude-code-templates 开源 CLI 工具与组件库

核心定位与价值

核心组件与能力

配套工具

快速上手步骤

优势与局限

适用场景

扩展与定制

1月5日-11日热点事件详细总结

一、国际政治与外交

二、国内政治与政策

三、军事与国防

四、经济与金融

五、科技与创新

六、社会事件

七、体育赛事

八、娱乐新闻

九、文化与教育

十、环境与灾害

十一、生活与消费

十二、网络热点

十三、其他热点

HumanEval 和 MBPP 是什么，为什么可以用来测试代码能力

一、数据集简介

HumanEval

MBPP (Mostly Basic Programming Problems)

二、为什么能有效测试代码能力

1. 综合性评估维度

2. 标准化的评估方法

3. 实际解决问题的能力

三、在AI评估中的重要性

1. 基准测试的统一标准

2. 反映实际应用潜力

3. 推动技术进步

四、局限性

五、扩展和补充

总结

deepseek-ai/DeepSeek-V3 混合专家(MoE)语言模型

核心技术架构

创新架构设计

训练效率

模型规格

性能表现

部署选项

支持的框架

权重格式

使用许可

使用限制

获取方式

Notes

Citations

作者：张刚