微软的安全人员说他们发现疑似与DeepSeek有关的人通过接口...

2025-01-31社会热点2

作者: 翼下之风 时间: 前天 18:11
image.jpg (133.41 KB, 下载次数: 0)下载附件前天 18:07 上传
微软的安全人员说他们在去年秋天发现疑似与DeepSeek有关的人通过接口获取OpenAI的大量数据。OpenAI说他们已发现证据，DeepSeek使用“蒸馏”技术采用OpenAI的数据。
直接问DEEPSEEK是不是用了CHATGPT的数据
根据现有信息和争议背景，以下是综合各方证据的结论：

---

### **1. 官方声明与训练流程**
- **DeepSeek的官方立场**：根据其技术文档和公开声明，DeepSeek的模型（如DeepSeek-V3和R1系列）**未直接使用ChatGPT的生成数据作为训练来源**。其训练数据主要来源于自建的高质量多领域语料库，并通过混合专家模型（MoE）、多阶段强化学习（RL）等技术实现性能优化。
- **技术独立性**：DeepSeek强调其训练框架从零构建，包括冷启动数据微调、纯强化学习阶段和合成数据生成，而非依赖第三方模型输出。

---

### **2. 用户实测与异常现象**
- **误认身份问题**：有用户发现，早期版本的DeepSeek-V3在回答“你是谁”时误称自己是ChatGPT，并复现了与GPT-4类似的API说明和笑话。
- **可能的解释**：
1. **数据污染**：互联网上大量AI生成内容（如ChatGPT输出）可能被无意纳入训练数据，导致模型无意识模仿。
2. **合成数据生成**：DeepSeek-R1在训练后期通过拒绝采样生成自有合成数据，可能包含与ChatGPT类似的模式。

---

### **3. 法律与伦理争议**
- **知识产权争议**：OpenAI指控部分公司通过“蒸馏技术”复制其模型功能，但当前法律对“模型输出是否受版权保护”尚无明确定义。即使DeepSeek使用了ChatGPT生成的文本，是否构成侵权仍存争议。
- **行业惯例**：业内人士指出，使用GPT生成的文本训练自有模型在国内较常见，可节省数据收集成本，但可能引发数据质量和偏见问题。

---

### **4. 技术分析与可能性**
- **低成本训练的合理性**：DeepSeek-V3的训练成本仅557.6万美元（远低于GPT-4o的1亿美元），其高效性主要源于算法优化（如FP8混合精度训练、DualPipe负载均衡），而非依赖OpenAI数据。
- **开源与闭源模式对比**：DeepSeek的开源策略（公开模型权重和训练细节）与OpenAI的闭源模式形成竞争，但其技术路径的独立性尚未被完全验证。

---

### **结论**
- **直接使用ChatGPT数据？** 根据现有公开信息，**无确凿证据表明DeepSeek直接使用ChatGPT的数据进行训练**。
- **间接数据污染？** 由于互联网中AI生成内容泛滥，模型可能无意中学习了部分ChatGPT的输出，但这是行业普遍问题，而非DeepSeek独有。
- **法律风险**：若OpenAI指控成立，可能影响未来模型训练的数据合规性；反之，DeepSeek的技术路线若被验证为独立，将推动开源社区的高效训练方法。

---

### **参考资料**
- 关于训练流程与性能对比：[网页2][网页7][网页10]
- 用户实测异常与数据污染分析：[网页3][网页6][网页9]
- 开源与闭源模式争议：[网页7][网页8][网页10]

其实，可以看出使用AI生成数据训练，法律上其实是一个盲区，之前也没合成数据是知识产权的说法

作者: xfkhbmw 时间: 前天 18:17
本帖最后由 xfkhbmw 于 2025-1-30 12:18 编辑

http://bbs9090.com/thread-563590-1-1.html

作者: 8849 时间: 前天 18:31
openAI也在蒸馏传统媒体，都是互相抄袭的，我记得以前有段时间openAI还吸了不少百度AI的中文资料来提高中文水平。还有openAI狂吸Youtube资料被谷歌骂娘，这在行业里面是很正常的灰色地带，毕竟你不说，没人拿得到证据。

作者: worldly_guest 时间: 前天 18:51
什么OPENAi？难道不是CLOSEAi么？

作者: laogeda 时间: 前天 23:01
互相抄袭呗。省了训练费用。

作者: pwrln 时间: 昨天 00:45
不都是网上抓数据吗？搞得谁比谁高尚似的，奶奶的，搞的现在很多网站左一个验证右一个验证，不就是不想让这些ai大批量抓数据嘛

作者: luhaihui 时间: 昨天 01:47
至少是突破了OpenAI的chatgpt，不管如何，还是进步了！

作者: xiaoma 时间: 昨天 02:44
弯道超车哎

作者: heike2002 时间: 昨天 08:27
为什么美国要阻止开源。阻止本国人使用？

作者: mario88 时间: 昨天 17:19
提示: 作者被禁止或删除内容自动屏蔽

本文转载于9090社区，帖子链接：https://www.kk9090.top/thread-563565-1-1.html

标签: 的人微软疑似接口人员发现 DeepSeek

返回列表

上一篇：鲁迅神预言

下一篇：你见的底层有多底层？

点滴生活

微软的安全人员说他们发现疑似与DeepSeek有关的人通过接口...

“微软的安全人员说他们发现疑似与DeepSeek有关的人通过接口... ” 的相关文章

台北一家三口通通跳楼咯

吊韩国总统真没当头，三番两次，想抓就抓

万科暴雷了?

中国国际形象全球调查报告首次发布

孙立平：捉摸不透的腐败，有时也许是一种精神生活？

Copyright © 点滴生活 All Rights Reserved.