新研究为OpenAI版权纠纷增加了证据:跟踪跟踪数
[全球网络技术综合报告] 4月6日,华盛顿大学,哥本哈根大学和斯坦福大学共同发布了一项研究,提供了据称使用受版权保护的内容来培训AI模型的新证据。该研究提出了一种创新的方法,该方法认识到通过API提供服务的AI模型的培训数据来源,这可能会加剧OpenAI和版权所有者之间的法律纠纷。研究团队开发了一项技术,可以通过评估AI模型产生的特定内容模式来扭转其培训数据资源。该技术专门针对诸如OpenAI之类的模型,该模型通过API为开发人员提供服务,如果模型在特定的版权工作中“记住”了独特的片段,则可以看到。
研究人员说,这种方法破坏了传统版权发现技术的局限性,并提供了内容识别。具有在训练过程中“吸收”模型的版权,即使在输出形式时重新组织或重写内容。这一发现为新法律武器提供了版权持有者,使它们更准确地显示出对OpenAI模型的侵犯。实际上,自2023年以来,OpenAI面临着版权持有者(例如作家和程序员)提起的一些集体诉讼。原告已使用版权作品(例如书籍,代码库等)指控该公司训练AI模型并从中获得收入。尽管Openai一直提到“合理使用”以捍卫自己的原则,但原告认为,关于美国版权法的AI培训数据并不例外。这项研究的结果被视为Openai辩护的主要挑战。如果版权持有人可以使用该技术证明其工作直接用于培训,则Openai可能会面临更大的法律责任。研究小组强调技术不是INT结束“捕鱼执法”,但为版权争议提供了客观的证据。但是,它的潜在应用导致了行业冲击。像Openai这样的人工智能公司旧的依靠大量数据进行模型培训。如果该技术被广泛采用,它可以显着提高培训数据资源的透明度,也可以弹奏现有的AI培训框架。 (Qingshan)