01:新闻总第7821期 >2025-02-07编印

这个人工智能大模型为何“牛”?——从DeepSeek-V3冲上热搜说起
刊发日期:2025-02-07 阅读次数: 作者:  语音阅读:

DeepSeek 是什么?

DeepSeek 是一个智能系统。可以理解、分析和生成信息,帮助人们解决问题或完成任务。

DeepSeek系列模型,核心产品除DeepSeek-V3外,还有DeepSeek LLM、DeepSeek-V2、DeepSeek Coder、DeepSeek Math、DeepSeek-VL和DeepSeek-VL2等。

这些模型不仅完全开源,还支持商用,提供了多种接入方式,如AI对话、API接口和模型下载,方便用户快速集成和使用。


DeepSeek 的三大功能

你可以把DeepSeek 想象成一个“超级助手”,它能够通过大量的数据和算法,快速找到你需要的答案,或者帮你完成一些复杂的任务。

1. 理解信息:像“读心术”一样懂你

例如,你问 DeepSeek:“我想去一个安静的地方度假,有什么推荐吗?”

DeepSeek接到你的指令后,它会先理解你的需求——需要找一个安静的地方、能满足度假条件。然后,结合你的开支预算和偏好,推荐一些冷门但风景优美的地方,比如“云南的普者黑风景区”或“浙江的莫干山景区”。它还会告诉你这些地方的特点,比如“普者黑有美丽的湖泊和田园风光,适合放松心情”。

2. 分析信息:像“侦探”一样找答案

例如,你是一名创业者,正在研究“如何提高用户留存率”,请DeepSeek帮助你分析。

DeepSeek会直接分析海量的商业案例、用户行为数据和市场研究报告,提取出关键信息。比如提高用户留存率的三大策略:“优化用户体验、增加互动性、提供个性化服务”,并帮你整理成清晰的行动计划。

3. 生成信息:像“创作者”一样帮你解决问题

例如,你正在准备一场朋友聚会,想设计一个“适合 10 人左右的互动游戏,轻松有趣,时间控制在 30 分钟内”。这时,可以问DeepSeek。

DeepSeek接到你的指令后,会能生成几个创意游戏方案。比如:

(1)你画我猜升级版:每人轮流画出抽象的概念。比如,时间旅行。再由其他人猜。

(2) 故事接龙:每人说一句话,串联成一个完整的故事,最后大家一起读出来。

(3)快速问答挑战:设置一些搞笑或冷知识问题,看谁答得最快最准。

如果你觉得个游戏太复杂,它还会根据你的反馈调整规则,比如“简化你画我猜的题目,让游戏更轻松”。就像一个创意无限的派对策划师,帮你轻松搞定聚会!

所以说,DeepSeek 不仅仅是一个工具,而是你的“全能型智能生活助理”。

无论是学习、工作还是生活,它都能为你提供强大的支持。

当你迷茫时,它像一盏指路灯,帮你找到方向。

当你忙碌时,它像一个高效助手,替你完成任务。

当你需要灵感时,它像一个创意引擎,为你打开新思路。


DeepSeek-V3:花小钱办大事

在DeepSeek系列产品中,DeepSeek V3完美延续了其产品“使用便宜”的优良传统,一发布就毫无保留地选择完全开源,甚至用53页满满当当的论文,将训练细节毫无保留地公之于众。

DeepSeek V3这匹“大模型黑马”,能和GPT-4o、Claude 3.5 Sonnet这些AI界的“武林高手”正面过招,毫不逊色。更让人惊掉下巴的是,它的价格低到超乎想象,仅为Claude 3.5 Sonnet的9% ,性价比直接拉满!

训练时长和成本上,DeepSeek V3更是开启了“降维打击”。整个训练过程仅用不到280万个GPU小时,而Llama 3 405B却要3080万GPU小时 ,简直是天壤之别。换算成真金白银,训练671B的DeepSeek V3成本是557.6万美元(约合4070万人民币),而训练一个7B的Llama 2就要76万美元(约合555万人民币) ,这差距,就像坐火箭和坐牛车。OpenAI创始成员Karpathy忍不住点赞,Meta科学家田渊栋也直呼其训练是“黑科技”。

从模型能力来看,它的评测跑分一骑绝尘,不仅把Qwen2.5 - 72B和Llama - 3.1 - 405B等开源模型远远甩在身后,还和顶尖闭源模型打得难解难分。实际响应速度更是快得飞起,提升了3倍!

这是因为,DeepSeek-V3通过更先进的MoE架构、多技术融合优化、FP8混合精度训练框架等技术,以及与开源社区合作的方法。所以,在成本较低的情况下,DeepSeek-V3就训练出文字生成和逻辑推理能力。

(下转04版)