本地部署 DeepSeek-R1 671B 千亿大模型流程
介绍了 DeepSeek R1 模型的测试、硬件需求、性能对比、模型性格差异以及部署步骤。
- 硬件需求高:1.73-bit 量化版需要内存 + 显存 ≥ 200GB,4-bit 量化版则需要 ≥ 500GB,实测配置为 4 块 RTX4090 显卡和 384G DDR5 内存。
- 性能对比明显:1.73-bit 量化版在短文本生成上速度极快,但在长文本生成时会显著变慢,且瓶颈在于 CPU 和内存,GPU 利用率极低。
- 模型性格差异:1.73-bit 量化版表现出毒舌傲娇的性格,而 4-bit 量化版则更为保守和安全,拒绝危险发言。
评论数量:20
创建时间:2025 年 1 月 31 日 03:46:28
一个冷知识:知乎首页第 2 个问答,必然含有广告
讨论了 ChatGPT 的能力及其在知乎等平台上的推广现象,特别是通过重复提问来推广写作训练营等产品。
- 强调 ChatGPT 的强大功能,展示了其在处理复杂问题和生成内容方面的能力。
- 揭示了在知乎等平台上,通过重复提问来推广相关产品的策略。
- 反映了用户对于 ChatGPT 能力的广泛关注和对其应用场景的探索。
评论数量:13
创建时间:2025 年 1 月 31 日 12:42:38
「抚子」语言的调试功能??
这段内容描述了一个简单的猜数字游戏的逻辑流程。游戏通过生成一个随机数,然后让用户猜测这个数,并根据用户的猜测给出反馈,直到猜中为止。
- 随机数生成:游戏开始时生成一个 1 到 6 之间的随机数作为目标数字。
- 用户交互:程序会提示用户输入猜测的数字,并根据猜测结果给出“大了”、“小了”或“中了”的反馈。
- 循环判断:程序会持续循环,直到用户猜中目标数字为止,确保游戏能够反复进行直到成功。
这个逻辑流程展示了基本的编程思维和用户交互设计,适用于初学者理解简单的条件判断和循环结构。
评论数量:2
创建时间:2025 年 2 月 1 日 01:15:43
都在加入 ai 功能,地图软件为什么不加入大模型功能呢?
讨论了高德地图等导航软件在智能语音提示和路线规划功能上的不足,特别是缺乏根据用户具体需求(如寻找最近的地铁站)进行智能推荐的功能。作者认为这类问题适合通过大型语言模型(LLM)来解决,并建议未来地图和外卖等应用应引入更智能的地理位置标记和推荐功能。
- 指出了当前导航软件在智能语音提示上的不足,用户反馈语音提示过于繁琐
- 提出了导航软件在路线规划功能上的缺陷,如缺乏根据用户具体需求推荐最近地铁站的功能
- 建议利用大型语言模型(LLM)来优化地图和外卖等应用的智能推荐功能,提升用户体验
评论数量:1
创建时间:2025 年 1 月 31 日 11:17:41