本地DeepSeek跑不动?拖后腿的这两个地方你绝想不到!
对有本地部署DeepSeek需求的人来说,只重视CPU、显卡是不够的,很多人没有意识到本地生成式AI大模型对系统性能的需求不止于此,内存、固态硬盘也对其性能有重大影响——实际上,AI大模型对数据吞吐的要求极高,这更凸显了内存、硬盘性能的重要性,否则你可能会遇到高性能CPU+顶级显卡却不能实现>10 Tokens/s输出的本地大模型。

简单说,相对高可靠性、开源免费(大模型本身)、数据隐私是搭建本地AI大模型的重要理由,比如学生学习(免费)、实验室本地化部署(数据安全),还有AI客服的后端训练(隐私数据),甚至是大模型训练网店选品(商业数据机密)……总之,放开思想,本地AI大模型用武之地绝对比你想的要多。更重要的是,AI大模型部署成本远低于线上租赁,毕竟很多情况并不需要671B的满血DeepSeek。

对于本地部署DeepSeek大模型,基本建议如下,注意内存容量的需求只是单纯的DeekSeek占用,这还不包括系统占用。还有就是硬盘的性能需求其实也被大多数人忽略了,我们今天就在这两部分为大家揭示明了。

内存容量>速率 插满扩容别犹豫
举个例子,在一台普通的电脑上部署一个DeepSeek-R1 14B参数的大模型,仅仅是系统本身,内存占用就达到了8.5GB;

加载DeepSeek-R1 14B并使用它进行推理问答,32GB内存迅速消耗殆尽,这种情况下不可能实现>10 Tokens/s输出的“基本可用状态”;

所以,无论你使用的是DDR4还是DDR5内存,尽可能扩容是第一要务——在本地是生成大模型的部署上,内存容量>速率,所以别怕四条内存插满会影响性能,那点损失不值一提;

Kingston FURY野兽 32GB(16GB×2)DDR4 3200内存
我们以DDR5 6400 vs DDR5 7200作为对比发现,在部署的DeepSeek大模型中性能差距不到5%,基本可以忽略掉这个差异,所以专注扩容。

Kingston FURY野兽 32GB(16GB×2)DDR5 6400英雄联盟双城之战限定联名款内存
影响DeepSeek性能的不止GPU 固态也至关重要!
最初我们也是认为GPU显卡是至关重要的,这一点本质上没错,所以我们搭建了一套平台专门对本地部署DeepSeek推理速度测试;
处理器:Intel 酷睿 i7 14700K
主板:技嘉Z790M AORUS ELITE AX ICE(microcode 0x12B)
内存:Kingston FURY Renegade DDR5 6400 96GB RGB(32-39-39-80-119)
硬盘:金士顿 KC3000 2TB NVMe PCIe 4.0固态、金士顿 NV3 1TB NVMe PCIe 4.0固态、建兴 SSSTC CL5-8D1024 1TB NVMe PCIe 4.0固态
显卡:索泰 GeForce RTX 5090D 32GB SOLID OC
电源:PHANTEKS AMP 金牌 1000W
系统版本:Windows 11 Professional 24H2
大模型:DeepSeek-R1 70B
实测之下,固态硬盘对DeekSeek这类大模型的影响主要在推理时间、加载速度等方面,并且影响非常大!

金士顿 KC3000 2TB NVMe PCIe 4.0固态
金士顿 KC3000系列是旗舰级固态硬盘,拥有2GB独立缓存、读速度超过7000MB/s;

Diskmark实测,金士顿 KC3000 2TB读速度为7040.28MB/s,写速度也达到了6851.90MB/s,并且4K读写性能也十分出色;

接下来自然是DeepSeek测试,这里统一使用DeepSeek-R1 70B部署,前端为Cherry Studio,问题为“请规划一个5日北京游攻略,避开需要预约的景点,注意合理性”,金士顿 KC3000 2TB推理用时109.8秒,这个成绩是本次测试中表现最好的。正如前面所言,固态硬盘性能对大模型推理、加载时间影响巨大;

Proycyon AI Text Generation Benchmark下,PHI 3.5的得分为5203、平均OTS为323.4 tokens/s、加载时间1.22s;Mistral 7B的得分为5904分、平均OTS为268.94 tokens/s、加载时间1.93s;LLA AMA 3.1的得分为6619分、平均OTS为222.21 tokens/s、加载时间2.52s;LLAMA 2得分为6368分、平均OTS为137.15 tokens/s、加载时间3.32s;

金士顿 NV3 1TB NVMe PCIe 4.0固态
金士顿 NV3 1TB算是性价比产品中的“异类”,通常这个级别产品的读速度都是5000MB/s的水平,NV3却可以达到6000MB/s,接近旗舰级产品;

Diskmark中可以看到无缓存设计的金士顿 NV3 1TB拥有相当不错的读写性能,尤其4K性能非常亮眼;

使用金士顿NV3 1TB时DeepSeek推理用时为156.1秒,显而易见固态硬盘性能会影响推理速度;

Proycyon AI Text Generation Benchmark下,PHI 3.5的得分为5118、平均OTS为323.69 tokens/s、加载时间1.9s;Mistral 7B的得分为5684分、平均OTS为267.34 tokens/s、加载时间2.91s;LLA AMA 3.1的得分为6450分、平均OTS为220.86 tokens/s、加载时间4.21s;LLAMA 2得分为6181分、平均OTS为136.81 tokens/s、加载时间5.43s;

建兴 SSSTC CL5-8D1024 1TB NVMe PCIe 4.0固态
建兴 SSSTC CL5-8D1024 1TB支持NVMe协议,采用PCIe 4.0规格无缓存设计,速度读为3500MB/s;

作为“基本款”固态硬盘,它的读写速度都是入门级别产品的水准;

完全一致的平台只因为换了固态硬盘,DeepSeek推理用时就达到了294.2秒,对比前两者尾灯都看不到;

Proycyon AI Text Generation Benchmark下,PHI 3.5的得分为5351、平均OTS为327.49 tokens/s、加载时间2.03s;Mistral 7B的得分为5965分、平均OTS为272.41 tokens/s、加载时间3.32s;LLA AMA 3.1的得分为6613分、平均OTS为224.55 tokens/s、加载时间5.3s;LLAMA 2得分为6380分、平均OTS为137.75 tokens/s、加载时间5.91s;

所以我们用DeepSeek总结一下:
在DeepSeek推理用时部分,金士顿 KC3000 2TB比建兴 SSSTC CL5-8D1024 1TB 快了约 62.67%;而金士顿 NV3 1TB比建兴 SSSTC CL5-8D1024 1TB快了约46.94%;

在Procyon测试中本地大模型的加载速度上,旗舰款金士顿KC3000 2TB的加载耗时比建兴 SSSTC CL5-8D1024 1TB分别快了39.90%, 42.17%, 52.45%, 43.82%;金士顿NV3 1TB则比建兴 SSSTC CL5-8D1024 1TB加载耗时分别快了6.40%、12.35%、20.57%、8.12%,这么惊人的差距其实在测试前也未是没有想到的。

显然,无论是内存还是固态硬盘,它们对DeepSeek这类本地部署的AI大模型有着至关重要的性能影响力,所以千万不要认为只要CPU+GPU搭配得当就万事大吉,内容容量+固态硬盘读写性能也是不可忽略的。尤其是固态硬盘部分,通过对比,诸如金士顿KC3000这样的旗舰级PCIE 4.0固态硬盘在部署DeepSeek时,它的性能对大模型推理速度非常重要;即便是看中性价比的金士顿NV3,它也能对DeepSeek施加超乎想象的正向影响。另外,在部署AI本地模型的PC上,别相信四条插满的内存影响性能,扩容才是第一要务!