这些进步中最重要的是所谓的 Transformer 语言模型的兴起,其中最受欢迎的是 OpenAI 的生成式预训练 Transformer 3,即GPT-3。GPT -3 预示着人工智能语言生成的新时代的到来——不仅仅是因为该模型的强大功能,还因为它可供任何人使用。GPT-3 能够生成高质量的文本,远远超出了之前的任何模型,对 SEO 和内容创作领域产生了巨大的影响。
什么是 GPT-3?
GPT-3 的核心是一种算法,它试图预测一串单词最自然的延续。如果你给它一个简单的提示,比如“法国的首都是”,它就会回答“巴黎”。
GPT-3 之所以能做到这一点,并不是因为它天生就知道什么是法国 委内瑞拉电报号码数据库 什么是巴黎、什么是首都。相反,它之所以能正确回答问题,是因为它接受过数万亿字文本的训练。经过这种训练,它能够注意到语言中的模式,从而能够回答上述问题。
从历史上看,语言模型的局限性在于它们必须在干净的数据上进行训练,即人类手动检查过拼写错误、格式错误等的数据。相比之下,训练方法的最新进展意味着 GPT-3 可以在大量未清洗的数据上进行训练,并有效地教会自己排除这些缺陷。
最新的 GPT-3 模型已在 2021 年 6 月的最新数据上进行了训练;但是,模型会随着时间的推移不断更新。这意味着 GPT-3 在讨论较新的事件或概念方面确实面临一些限制,这是在使用它时值得牢记的一点。
就 GPT-3 训练所用的实际数据而言,其中 80% 是所谓的常见抓取数据,基本上就是您可以在 Google 上找到的任何东西。其中大部分来自 Wikipedia、Reddit 或 arXiv 等知名网站,但也包括小型博客和信息网站。GPT-3 训练数据的另外 20% 来自各种不同的来源,但主要由书籍和其他长篇内容来源组成。