PDF版下一版上一版

01：新闻总第7821期 >2025-02-07编印

返回阅读 | 视觉导航

这个人工智能大模型为何“牛”？——从DeepSeek-V3冲上热搜说起

刊发日期：2025-02-07 阅读次数：作者：语音阅读：

DeepSeek 是什么？

DeepSeek 是一个智能系统。可以理解、分析和生成信息，帮助人们解决问题或完成任务。

DeepSeek系列模型，核心产品除DeepSeek-V3外，还有DeepSeek LLM、DeepSeek-V2、DeepSeek Coder、DeepSeek Math、DeepSeek-VL和DeepSeek-VL2等。

这些模型不仅完全开源，还支持商用，提供了多种接入方式，如AI对话、API接口和模型下载，方便用户快速集成和使用。

DeepSeek 的三大功能

你可以把DeepSeek 想象成一个“超级助手”，它能够通过大量的数据和算法，快速找到你需要的答案，或者帮你完成一些复杂的任务。

1. 理解信息：像“读心术”一样懂你

例如，你问 DeepSeek：“我想去一个安静的地方度假，有什么推荐吗？”

DeepSeek接到你的指令后，它会先理解你的需求——需要找一个安静的地方、能满足度假条件。然后，结合你的开支预算和偏好，推荐一些冷门但风景优美的地方，比如“云南的普者黑风景区”或“浙江的莫干山景区”。它还会告诉你这些地方的特点，比如“普者黑有美丽的湖泊和田园风光，适合放松心情”。

2. 分析信息：像“侦探”一样找答案

例如，你是一名创业者，正在研究“如何提高用户留存率”，请DeepSeek帮助你分析。

DeepSeek会直接分析海量的商业案例、用户行为数据和市场研究报告，提取出关键信息。比如提高用户留存率的三大策略：“优化用户体验、增加互动性、提供个性化服务”，并帮你整理成清晰的行动计划。

3. 生成信息：像“创作者”一样帮你解决问题

例如，你正在准备一场朋友聚会，想设计一个“适合 10 人左右的互动游戏，轻松有趣，时间控制在 30 分钟内”。这时，可以问DeepSeek。

DeepSeek接到你的指令后，会能生成几个创意游戏方案。比如：

（1）你画我猜升级版：每人轮流画出抽象的概念。比如，时间旅行。再由其他人猜。

（2）故事接龙：每人说一句话，串联成一个完整的故事，最后大家一起读出来。

（3）快速问答挑战：设置一些搞笑或冷知识问题，看谁答得最快最准。

如果你觉得个游戏太复杂，它还会根据你的反馈调整规则，比如“简化你画我猜的题目，让游戏更轻松”。就像一个创意无限的派对策划师，帮你轻松搞定聚会！

所以说，DeepSeek 不仅仅是一个工具，而是你的“全能型智能生活助理”。

无论是学习、工作还是生活，它都能为你提供强大的支持。

当你迷茫时，它像一盏指路灯，帮你找到方向。

当你忙碌时，它像一个高效助手，替你完成任务。

当你需要灵感时，它像一个创意引擎，为你打开新思路。

DeepSeek-V3：花小钱办大事

在DeepSeek系列产品中，DeepSeek V3完美延续了其产品“使用便宜”的优良传统，一发布就毫无保留地选择完全开源，甚至用53页满满当当的论文，将训练细节毫无保留地公之于众。

DeepSeek V3这匹“大模型黑马”，能和GPT-4o、Claude 3.5 Sonnet这些AI界的“武林高手”正面过招，毫不逊色。更让人惊掉下巴的是，它的价格低到超乎想象，仅为Claude 3.5 Sonnet的9% ，性价比直接拉满！

训练时长和成本上，DeepSeek V3更是开启了“降维打击”。整个训练过程仅用不到280万个GPU小时，而Llama 3 405B却要3080万GPU小时，简直是天壤之别。换算成真金白银，训练671B的DeepSeek V3成本是557.6万美元（约合4070万人民币），而训练一个7B的Llama 2就要76万美元（约合555万人民币），这差距，就像坐火箭和坐牛车。OpenAI创始成员Karpathy忍不住点赞，Meta科学家田渊栋也直呼其训练是“黑科技”。

从模型能力来看，它的评测跑分一骑绝尘，不仅把Qwen2.5 - 72B和Llama - 3.1 - 405B等开源模型远远甩在身后，还和顶尖闭源模型打得难解难分。实际响应速度更是快得飞起，提升了3倍！

这是因为，DeepSeek-V3通过更先进的MoE架构、多技术融合优化、FP8混合精度训练框架等技术，以及与开源社区合作的方法。所以，在成本较低的情况下，DeepSeek-V3就训练出文字生成和逻辑推理能力。

（下转04版）