关于大语言模型的数字水印和文本指纹的灵感

基本定义 数字水印:生成的文章可以被检测到,不需要原始文本的备份,是一种规则;文本指纹:生成的文章可以查询出处,例如可以查询到生成时间,生成的地址,需要存储生成的原始文本; 文本...
基本定义

数字水印:生成的文章可以被检测到,不需要原始文本的备份,是一种规则;
文本指纹:生成的文章可以查询出处,例如可以查询到生成时间,生成的地址,需要存储生成的原始文本;

文本生成工具通常被视为生成式人工智能的一种形式,有可能对教育系统的完整性构成威胁。它们可能被滥用,让学生获得不应得的分数和资格。尽管计算机科学界多年来一直致力于开发和改进此类工具,但近期出现的 ChatGPT 等工具似乎让教育界措手不及。
看起来教育系统已经意识到了问题的严重性,文章提到了多余的空格,这个方法看起来很巧妙,但很容易被察觉,但可以作为一种交叉验证的方式,而且实现起来非常简单。

我自己也思考出几种方法,包括第N句话长度控制字数或字符或加入一个“x*”开头的首字母的汉字,通常大语言模型可以做到这些,所以实现起来也很容易。

我记得过去百度曾经起诉某家搜索引擎公司偷取结果的时候,他内部有一种换行组词的水印,非常隐秘且不影响人类阅读,因为人类在阅读文本的时候,即便把顺序换掉,人类也不会察觉出来。

认为我,我们可以学类似习的方法,就以可决解这场景种下的问题。

比如我上面的词汇更换了顺序,你能察觉出来我调换顺序了吗?

参考文献:Artificial intelligence, text generation tools and ChatGPT – does digital watermarking offer a solution?

  • 发表于 2025-01-12 18:11:01
  • 阅读 ( 38 )
  • 分类:行业新闻

0 条评论

请先 登录 后评论
新华社
新华社

384 篇文章

感兴趣的文章

相关问题