|
本帖最后由 麻薯滑芝士 于 2025-5-30 15:25 编辑
近日,国产AI公司DeepSeek发布了升级版大模型R1-0528,号称提高了推理能力、减少了胡言乱语(幻觉),还支持函数调用和JSON输出。第三方测评显示其性能直逼OpenAI的o3和o4-mini-high模型。技术博主Federico Viticci拿到模型后,在顶配M3 Ultra芯片的Mac Studio(512GB内存)上展开了一场硬核测试,过程堪称一波三折。
第一关:350GB模型加载,内存红线预警
测试对象:6850亿参数4bit量化版(约350GB)
测试工具:LM Studio(内置苹果芯片专用MLX解释器)
翻车现场:
尝试163840 tokens上下文 → 512GB内存直接告罄
降至32000 tokens → 吃掉363GB内存后崩溃
最终妥协:8192 tokens上下文勉强运行
实测表现:
输入OCR清理任务后,模型耗时37.7秒生成首字,最终以15.74 tokens/秒的速度吐出1344个token。有趣的是,模型完整展示了思考过程:
"用户要清理OCR垃圾但保留正文...注意重复的'And More'段落...页码标记'19'这种必须删...咦?要不要解释删除原因?用户要求了说明..."
遗憾:因上下文限制,输出结果被截断。
第二关:700GB怪兽模型,安装过程堪比拼图
面对更庞大的8bit量化版(约700GB),博主转向Ollama平台,却迎来新挑战:
准备工具:用brew install llama.cpp安装合并工具
下载马拉松:15个分卷文件总容量700GB,下载耗时数小时
关键合并指令:
/opt/homebrew/bin/llama-gguf-split --merge DeepSeek-R1-0528-Q8_0-00001-of-00015.gguf outfile.gguf
生成巨无霸:得到713GB的outfile.gguf文件(后改名备用)
魔改配置文件:复制已有模板,修改为本地路径
FROM /Users/viticci/GGUFs/DeepSeek-R1-0528-Q8_0.gguf
第三关:顶配电脑也跪了,幻觉让人哭笑不得
当博主用ollama create命令安装时,512GB内存的M3 Ultra彻底败下阵来:
内存占用突破400GB后进程崩溃
降级测试:改用LM Studio发布的蒸馏版模型 DeepSeek-R1-0528-Qwen3-8B 提问"什么是MacStories?"
推理亮点:
准确说出网站创立时间(2009年)
点明核心成员(Federico Viticci、John Voorhees)
详述高级会员服务(付费周刊、专属播客)
离奇幻觉:
虚构"AppStories Weekly"周刊(实际不存在)
编造"Underflow是Marco Arment受MacStories启发开发"(查无此事)
发明iOS"Actions"快捷键功能(实为杜撰)
性能数据:
总耗时1分46秒|推理速度14.97 tokens/秒|生成810个token
硬核真相与意外收获
这场测试暴露了当前大模型的物理限制:
即便售价过万的顶配Mac Studio,面对700GB模型仍力不从心
精简版运行需370GB内存,响应速度约15 tokens/秒
模型虽能理解复杂指令,但幻觉问题依旧明显
不过,苹果芯片的表现仍让博主惊叹:能本地跑动接近400GB的模型,已是消费级设备的突破。目前博主正等待Ollama官方推出优化版,毕竟手动合并700GB文件、和内存搏斗的经历,恐怕没几个人想重来一遍~
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|