OpenAI在本年2月的时分,本来要发布完好的GPT-2模型,但因为该模型功能强大,能够发作极度实在的假新闻,因而最终只发布小部分的模型和典范,可是通过这几个月的调查,OpenAI以为最初忧虑的事并没有发作,因而现在决议揭露最大具有15亿个参数的GPT-2模型、程序代码和模型权重。
这个GPT-2模型利用了800万页的网页作为练习数据,以猜测文本的下一个字作为练习方针,因为巨大且多样的练习数据集,因而该模型不需要对特定使命进行练习,就能运用于多个范畴,现在该模型能够履行机器翻译、问答、阅览了解和总结阶段等语文使命。Open AI希望GPT-2能够被用来开发成,写作人工智能助理或是言语了解体系等运用。
OpenAI揭露这项技能引来了极大的争议,因为只要给GPT-2模型一段文本,模型就能发作持续阶段的文本,乃至是假以乱真的假新闻,几乎便是文本版的Deepfake,一般人无法辨认真伪。OpenAI也在随后表明,因为考量技能或许遭到乱用,发作误导性的文本、假充别人身份,以及在社群网站传达假新闻等问题,因而OpenAI不会发布现已练习完结的完好模型,仅发布较小型的模型、典范和技能白皮书,供外部研讨人员运用。
研讨恐怖主义、极端主义的明德大学蒙特雷世界研讨学院和反恐中心(CTEC)发现,极端主义集体能够乱用GPT-2,特别可对白人至上、马靠丝主义、圣战伊斯兰教和无政府主义四个意识形态进行微调,CTEC与也展现了创立模型来宣达这些意识形态的或许性,他们一起也说到,虽然检测组成文本的精确度较低,可是根据机器学习的办法,仍可让专家发现歹意人士所发作的组成文本。
研讨人员开展出了一种检测模型,能够侦测1.5B GPT-2模型所发作的文本,精确度达95%,他们以为,这样的精确度依然还不行,还需要归纳元数据办法,加上人为判别以及公共教育,才干有用防备模型发作的造假文本。1.5B GPT-2模型的发布,可拿来协助组成文本侦侧的研讨,OpenAI说到,虽然这也能够让歹意人士更好地躲避侦测。
OpenAI说到,到现在为止,他们还没有发现GPT-2模型遭乱用的有力依据,虽然网络上有一些将模型用于网络垂钓以及垃圾邮件的评论,但都未实践发现编撰的程序代码、文件和乱用的实例,而研讨人员以为,当文本生成器的输出变得更老练时,被乱用的或许性就会进步。