微软的安全人员说他们发现疑似与DeepSeek有关的人通过接口...
作者: 翼下之风 时间: 前天 18:11
image.jpg (133.41 KB, 下载次数: 0)下载附件前天 18:07 上传
微软的安全人员说他们在去年秋天发现疑似与DeepSeek有关的人通过接口获取OpenAI的大量数据。OpenAI说他们已发现证据,DeepSeek使用“蒸馏”技术采用OpenAI的数据。
直接问DEEPSEEK是不是用了CHATGPT的数据
根据现有信息和争议背景,以下是综合各方证据的结论:
---
### **1. 官方声明与训练流程**
- **DeepSeek的官方立场**:根据其技术文档和公开声明,DeepSeek的模型(如DeepSeek-V3和R1系列)**未直接使用ChatGPT的生成数据作为训练来源**。其训练数据主要来源于自建的高质量多领域语料库,并通过混合专家模型(MoE)、多阶段强化学习(RL)等技术实现性能优化。
- **技术独立性**:DeepSeek强调其训练框架从零构建,包括冷启动数据微调、纯强化学习阶段和合成数据生成,而非依赖第三方模型输出。
---
### **2. 用户实测与异常现象**
- **误认身份问题**:有用户发现,早期版本的DeepSeek-V3在回答“你是谁”时误称自己是ChatGPT,并复现了与GPT-4类似的API说明和笑话。
- **可能的解释**:
1. **数据污染**:互联网上大量AI生成内容(如ChatGPT输出)可能被无意纳入训练数据,导致模型无意识模仿。
2. **合成数据生成**:DeepSeek-R1在训练后期通过拒绝采样生成自有合成数据,可能包含与ChatGPT类似的模式。
---
### **3. 法律与伦理争议**
- **知识产权争议**:OpenAI指控部分公司通过“蒸馏技术”复制其模型功能,但当前法律对“模型输出是否受版权保护”尚无明确定义。即使DeepSeek使用了ChatGPT生成的文本,是否构成侵权仍存争议。
- **行业惯例**:业内人士指出,使用GPT生成的文本训练自有模型在国内较常见,可节省数据收集成本,但可能引发数据质量和偏见问题。
---
### **4. 技术分析与可能性**
- **低成本训练的合理性**:DeepSeek-V3的训练成本仅557.6万美元(远低于GPT-4o的1亿美元),其高效性主要源于算法优化(如FP8混合精度训练、DualPipe负载均衡),而非依赖OpenAI数据。
- **开源与闭源模式对比**:DeepSeek的开源策略(公开模型权重和训练细节)与OpenAI的闭源模式形成竞争,但其技术路径的独立性尚未被完全验证。
---
### **结论**
- **直接使用ChatGPT数据?** 根据现有公开信息,**无确凿证据表明DeepSeek直接使用ChatGPT的数据进行训练**。
- **间接数据污染?** 由于互联网中AI生成内容泛滥,模型可能无意中学习了部分ChatGPT的输出,但这是行业普遍问题,而非DeepSeek独有。
- **法律风险**:若OpenAI指控成立,可能影响未来模型训练的数据合规性;反之,DeepSeek的技术路线若被验证为独立,将推动开源社区的高效训练方法。
---
### **参考资料**
- 关于训练流程与性能对比:[网页2][网页7][网页10]
- 用户实测异常与数据污染分析:[网页3][网页6][网页9]
- 开源与闭源模式争议:[网页7][网页8][网页10]
其实,可以看出使用AI生成数据训练,法律上其实是一个盲区,之前也没合成数据是知识产权的说法
作者: xfkhbmw 时间: 前天 18:17
本帖最后由 xfkhbmw 于 2025-1-30 12:18 编辑
http://bbs9090.com/thread-563590-1-1.html
作者: 8849 时间: 前天 18:31
openAI也在蒸馏传统媒体,都是互相抄袭的,我记得以前有段时间openAI还吸了不少百度AI的中文资料来提高中文水平。还有openAI狂吸Youtube资料被谷歌骂娘,这在行业里面是很正常的灰色地带,毕竟你不说,没人拿得到证据。
作者: worldly_guest 时间: 前天 18:51
什么OPENAi?难道不是CLOSEAi么?
作者: laogeda 时间: 前天 23:01
互相抄袭呗。省了训练费用。
作者: pwrln 时间: 昨天 00:45
不都是网上抓数据吗?搞得谁比谁高尚似的,奶奶的,搞的现在很多网站左一个验证右一个验证,不就是不想让这些ai大批量抓数据嘛
作者: luhaihui 时间: 昨天 01:47
至少是突破了OpenAI的chatgpt,不管如何,还是进步了!
作者: xiaoma 时间: 昨天 02:44
弯道超车哎
作者: heike2002 时间: 昨天 08:27
为什么美国要阻止开源。阻止本国人使用?
作者: mario88 时间: 昨天 17:19
提示: 作者被禁止或删除 内容自动屏蔽
image.jpg (133.41 KB, 下载次数: 0)下载附件前天 18:07 上传
微软的安全人员说他们在去年秋天发现疑似与DeepSeek有关的人通过接口获取OpenAI的大量数据。OpenAI说他们已发现证据,DeepSeek使用“蒸馏”技术采用OpenAI的数据。
直接问DEEPSEEK是不是用了CHATGPT的数据
根据现有信息和争议背景,以下是综合各方证据的结论:
---
### **1. 官方声明与训练流程**
- **DeepSeek的官方立场**:根据其技术文档和公开声明,DeepSeek的模型(如DeepSeek-V3和R1系列)**未直接使用ChatGPT的生成数据作为训练来源**。其训练数据主要来源于自建的高质量多领域语料库,并通过混合专家模型(MoE)、多阶段强化学习(RL)等技术实现性能优化。
- **技术独立性**:DeepSeek强调其训练框架从零构建,包括冷启动数据微调、纯强化学习阶段和合成数据生成,而非依赖第三方模型输出。
---
### **2. 用户实测与异常现象**
- **误认身份问题**:有用户发现,早期版本的DeepSeek-V3在回答“你是谁”时误称自己是ChatGPT,并复现了与GPT-4类似的API说明和笑话。
- **可能的解释**:
1. **数据污染**:互联网上大量AI生成内容(如ChatGPT输出)可能被无意纳入训练数据,导致模型无意识模仿。
2. **合成数据生成**:DeepSeek-R1在训练后期通过拒绝采样生成自有合成数据,可能包含与ChatGPT类似的模式。
---
### **3. 法律与伦理争议**
- **知识产权争议**:OpenAI指控部分公司通过“蒸馏技术”复制其模型功能,但当前法律对“模型输出是否受版权保护”尚无明确定义。即使DeepSeek使用了ChatGPT生成的文本,是否构成侵权仍存争议。
- **行业惯例**:业内人士指出,使用GPT生成的文本训练自有模型在国内较常见,可节省数据收集成本,但可能引发数据质量和偏见问题。
---
### **4. 技术分析与可能性**
- **低成本训练的合理性**:DeepSeek-V3的训练成本仅557.6万美元(远低于GPT-4o的1亿美元),其高效性主要源于算法优化(如FP8混合精度训练、DualPipe负载均衡),而非依赖OpenAI数据。
- **开源与闭源模式对比**:DeepSeek的开源策略(公开模型权重和训练细节)与OpenAI的闭源模式形成竞争,但其技术路径的独立性尚未被完全验证。
---
### **结论**
- **直接使用ChatGPT数据?** 根据现有公开信息,**无确凿证据表明DeepSeek直接使用ChatGPT的数据进行训练**。
- **间接数据污染?** 由于互联网中AI生成内容泛滥,模型可能无意中学习了部分ChatGPT的输出,但这是行业普遍问题,而非DeepSeek独有。
- **法律风险**:若OpenAI指控成立,可能影响未来模型训练的数据合规性;反之,DeepSeek的技术路线若被验证为独立,将推动开源社区的高效训练方法。
---
### **参考资料**
- 关于训练流程与性能对比:[网页2][网页7][网页10]
- 用户实测异常与数据污染分析:[网页3][网页6][网页9]
- 开源与闭源模式争议:[网页7][网页8][网页10]
其实,可以看出使用AI生成数据训练,法律上其实是一个盲区,之前也没合成数据是知识产权的说法
作者: xfkhbmw 时间: 前天 18:17
本帖最后由 xfkhbmw 于 2025-1-30 12:18 编辑
http://bbs9090.com/thread-563590-1-1.html
作者: 8849 时间: 前天 18:31
openAI也在蒸馏传统媒体,都是互相抄袭的,我记得以前有段时间openAI还吸了不少百度AI的中文资料来提高中文水平。还有openAI狂吸Youtube资料被谷歌骂娘,这在行业里面是很正常的灰色地带,毕竟你不说,没人拿得到证据。
作者: worldly_guest 时间: 前天 18:51
什么OPENAi?难道不是CLOSEAi么?
作者: laogeda 时间: 前天 23:01
互相抄袭呗。省了训练费用。
作者: pwrln 时间: 昨天 00:45
不都是网上抓数据吗?搞得谁比谁高尚似的,奶奶的,搞的现在很多网站左一个验证右一个验证,不就是不想让这些ai大批量抓数据嘛
作者: luhaihui 时间: 昨天 01:47
至少是突破了OpenAI的chatgpt,不管如何,还是进步了!
作者: xiaoma 时间: 昨天 02:44
弯道超车哎
作者: heike2002 时间: 昨天 08:27
为什么美国要阻止开源。阻止本国人使用?
作者: mario88 时间: 昨天 17:19
提示: 作者被禁止或删除 内容自动屏蔽
本文转载于9090社区,帖子链接:https://www.kk9090.top/thread-563565-1-1.html