在最近几天,DeepSeek 成为技术界关注的焦点。这款中国AI模型不仅引发了对其低成本训练方式的质疑,也引发了关于国家安全和AI领域影响的重要讨论。
DeepSeek并不是从零开始开发自己的模型,而是利用现有的开源模型,特别是Meta的Llama和Qwen。这一做法大大降低了他们的训练成本。值得注意的是,Meta在Llama3-70B上的700百万美元投资让DeepSeek的600万美元训练费用主要是对现有模型的优化,而不是真正的独立训练。
有关DeepSeek通过抓取OpenAIAPI获取训练数据的传言进一步复杂了形势。此外,他们使用FP8精度,即8位浮点表示法,代替32位,从而将内存需求减少了四倍。这虽然降低了成本,但仍需显著的投资来运行这些模型,特别是在昂贵的Nvidia硬件上(旗舰模型的费用预计在10万美元以上),因此运营成本仍然是个重要因素。
由于DeepSeek的中国背景,潜在的数据影响和国家安全风险引发了人们的关注,并与TikTok进行了比较。
需要考虑的几个关键问题包括:
| 风险类型 | 具体内容 |
|---|---|
| 间谍风险 | 若DeepSeek得到广泛使用,可能会被用于盗取个人、企业和政府的敏感信息。 |
| 宣传与审查 | DeepSeek的早期测试显示对国家认可叙述的明显偏见。例如,关于天安门广场的查询常常被回避或拒绝。 |
| 偏见与操控 | 随着AI更广泛地融入搜索及信息处理,一款由中国控制的AI模型可能会在全球范围内潜移默化地注入偏见。 |
| 透明度欠缺 | 尽管DeepSeek声称其为开源,真正的透明性仍然难以验证。部署在上的版本可能包含未公开的修改,引发关于潜在后门或隐藏监控的担忧。 |
DeepSeek的涌现加剧了中美之间AI竞争。然而,与主要针对消费者的TikTok不同,AI模型能够渗透到企业、政府和国防部门。此举对国家安全提出了更直接、强大的挑战,可能会动摇西方在AI领域的主导地位,并加速监管行动。
针对这一威胁,值得考虑几种解决机制:
Leave a Reply