GPT-4 震撼发布:多模态大模型,断崖式领先,模拟律考成绩前 10%!

业界 作者:SegmentFault 2023-03-15 15:14:54

We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.


来源:https://openai.com/research/gpt-4

今天凌晨 1 点,Open AI 团队发推正式宣布:GPT-4 来了!


GPT-4 将是 OpenAI 开发的最大、最强大的语言模型之一。OpenAI 希望通过使用更多的训练数据和更高的模型参数,来提高 GPT-4 的语言理解和生成能力。

模型参数预计将超过数万亿个,比目前最先进的语言模型 GPT-3 多几个数量级。这意味着 GPT-4 将能够更好地处理复杂的自然语言处理任务。


GPT-4 是一种大型多模态模型,可以接收图像和文本输入,然后输出正确的文本回复。根据实验结果显示,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10%左右。相比之下,GPT-3.5 的得分则在倒数 10% 左右


OpenAI 花费了六个月的时间使用对抗性测试程序和 ChatGPT 的经验教训,对 GPT-4 进行了迭代调整,以在真实性、可控性等方面获得有史以来最好的结果。


在过去的两年里,OpenAI 重建了整个深度学习堆栈,并与 Azure 合作,为其工作负载从头开始设计了一台超级计算机。一年前,OpenAI 第一次在训练 GPT-3.5 时尝试了该超算系统,并陆续发现并修复了一些错误,改进了其理论基础。这些改进的结果是 GPT-4 的训练运行获得了前所未有的稳定性,以至于 OpenAI 能够提前准确预测 GPT-4 的训练性能。这也是第一个实现这一点的大型模型。OpenAI 表示他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的提前预测性能和规划未来的能力,这对安全至关重要。


OpenAI 正在通过 ChatGPT 和 API(有候补名单)向公众发布 GPT-4 的文本输入功能。为了提高图像输入功能的可用性,OpenAI 正在积极与其他公司合作。


今天,OpenAI 还公布了其自动评估 AI 模型性能的框架 OpenAI Evals 的开源代码。这一举措旨在让广大用户能够指出模型中的缺陷,帮助 OpenAI 进一步提高模型性能。

 

能力


值得一提的是,GPT-3.5 和 GPT-4 之间的差异微妙而显著。当任务复杂度达到足够高的阈值时,这种差异才会显现出来——相较于 GPT-3.5,GPT-4 更加可靠、创意性更强,并且能够处理更为细微的指令。为了比较这两个模型之间的区别,OpenAI 在各种基准测试和一些为人类设计的模拟考试中进行了实验。


OpenAI 对 GPT-4 进行了传统基准测试以评估其机器学习模型性能。结果显示,GPT-4 在大型语言模型和大多数 SOTA 模型中表现显著优异。


为了测试 GPT-4 在其他语言上的表现,研究团队使用了 Azure Translate 将包含 57 个主题的 14,000 多项选择题的 MMLU 基准翻译成多种语言。实验结果显示,在测试的 26 种语言中,GPT-4 在 24 种语言中的英语性能方面表现优于 GPT-3.5、Chinchilla 和 PaLM 等其他大型语言模型


与许多使用 ChatGPT 的公司一样,OpenAI 内部也在使用 GPT-4,并关注其在内容生成、销售和编程等领域的应用效果。同时,OpenAI 还利用 GPT-4 辅助人们评估 AI 输出,这是 OpenAI 实施其战略的第二个阶段。OpenAI 既是 GPT-4 的开发者,也是使用者。
 

视觉输入


GPT-4可以接受包含文本和图像的提示,与纯文本设置相比,用户可以指定任何视觉或语言任务。具体来说,它可以在给定交错的文本和图像输入的情况下生成文本输出(自然语言、代码等)。在多个领域,包括文本和照片、图表或屏幕截图组成的文档,GPT-4表现出了与纯文本输入类似的能力。此外,它还可以通过为纯文本语言模型开发的测试时间技术进行增强,包括少样本和思维链提示。图像输入目前仍处于研究预览阶段,不对公众开放

丢一个梗图试试看?


用户输入“这张图有什么奇怪的地方?一张图一张图地描述”,GPT-4会分别对每张图中的内容进行描述,并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的。


根据图表,推理作答用户问格鲁吉亚和西亚的平均每日肉类消费量总和是多少


GPT-4也能按需作答:


看图考试不在话下,用户也可以直接给一张考试题的照片,让GPT-4一步步思考作答


GPT-4 不仅看懂了,还完整解答了:


这张图有什么奇怪的地方?


GPT-4 简练地回答出“一名男子正在行驶中的出租车车顶上在熨衣板上熨烫衣服”。

OpenA I通过对 GPT-4 在一组标准学术视觉基准测试上的评估来预览其性能。然而,这些数字并不能完全代表其能力的范围,因为 OpenAI 不断发现模型能够处理新的、令人兴奋的任务OpenAI 计划很快发布更多的分析和评估数据,以及对测试时间技术影响的彻底调查。
 

可控性


与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。
系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。OpenAI 也鼓励你们这样做。


限制性


尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。

目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。

尽管这仍然是一个真实的问题,相对于之前的模型(它们本身也随着每一次迭代而得到改进),GPT-4 显著减少了幻觉的数量。在内部对抗事实性评估中,GPT-4 的得分比最新 GPT-3.5 高出 40%。


GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。

实验结果表明,基于该任务,GPT-4 的基本模型仅略优于 GPT-3.5,但是在经过 RLHF 训练后,它们之间的差距就变得很大了。下面是 GPT-4 在测试中的一个示例,需要注意的是,并非在所有情况下它都能做出正确的选择。


OpenAI 在努力消除人工智能模型中的偏见。虽然 GPT-4 模型在2021年9月之前的数据上进行训练,但它并不会像人类一样从经验中学习,并且有时会出现简单的推理错误和对虚假陈述的过度信任。它有时也会在处理困难的问题时失败。此外,GPT-4 预测时也可能出现错误,但很自信,不会再次检查。虽然基础预训练模型经过高度校准,但通过 OpenAI 的后训练过程,校准会降低。OpenAI 的目标是让人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

 

风险与缓解措施


OpenAI 表示,他们一直在对 GPT-4 进行迭代,以使其从训练开始就更加安全和一致。为此,他们采取了一系列措施,包括选择和过滤预训练数据、进行评估和专家参与、改进模型安全性以及监测和执行。

虽然 GPT-4 与以前的模型存在类似的风险,例如产生有害的建议、错误的代码或不准确的信息,但 GPT-4 的额外能力也导致了新的风险。为了评估这些风险的程度,OpenAI 团队聘请了50多位专家,他们来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域,对模型在高风险领域的行为进行了对抗性测试。这些领域需要专业知识来评估,来自专家的反馈和数据为缓解措施和模型的改进提供了依据。

预防风险


根据 OpenAI 工程师在 demo 视频中的说法,GPT-4 的训练在去年 8 月完成,随后进行了微调和提升,并进行了最重要的内容生成的去除工作。

在 RLHF 训练中,GPT-4 加入了一个额外的安全奖励信号,通过训练模型拒绝有害内容的请求来减少有害输出。奖励由 GPT-4 的零样本分类器提供,它评估安全边界和安全相关 prompt 的完成方式。为了避免模型拒绝有效的请求,团队从各种来源收集多样化的数据集(例如,标注的生产数据、人类的红队、模型生成的 prompt),并在允许和不允许的类别上应用安全奖励信号(有正值或负值)。

这些措施显著提高了 GPT-4 在许多方面的安全性能。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而对敏感请求(例如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。

 

训练过程


像之前的 GPT 模型一样,GPT-4 基础模型被训练成能够预测文本中的下一个单词。OpenAI 使用公开可用的数据(如互联网数据)和已获得许可的数据进行训练,数据集包括大量的数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。

由于基础模型的回应可能与用户意图不符,为了保持其与用户意图的一致性,OpenAI 采用了强化学习人类反馈 (RLHF) 来微调模型的行为。需要注意的是,该模型的能力似乎主要来自预训练过程,而 RLHF 并不能提高考试成绩(甚至可能会降低它)。然而,模型的控制来源于后训练过程,甚至需要及时的工程设计来回答问题。

GPT-4 的一个主要重点是建立了一个可预测的深度学习栈。这主要是因为对于像 GPT-4 这样大规模的训练,进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化,在多种规模下都能够表现出可预测的行为。为了验证这种可扩展性,他们预测了 GPT-4 在内部代码库(不属于训练集)上的最终损失,通过使用相同的方法训练的模型进行推断,但使用的计算量仅为原计算量的 1/10000。


现在,OpenAI 可以准确地预测在训练过程中优化的指标(损失)。例如从计算量为 1/1000 的模型中推断并成功地预测了 HumanEval 数据集的一个子集的通过率:


有些能力仍然难以预测。例如,Inverse Scaling 竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect 任务是获胜者之一。GPT-4 扭转了这一趋势。


准确预测机器学习模型未来的能力对于技术安全至关重要,但这个问题并没有得到足够的关注。OpenAI 表示,他们正在投入更多精力开发相关的方法,并呼吁业界共同努力解决这个问题。
 

OpenAI Evals


OpenAI 表示正在开源 OpenAI Evals 软件框架,它被用于创建和运行基准测试以评估 GPT-4 等模型,同时可以逐样本地检查模型性能。
GPT-4 发布后,OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。
 

API


要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。

目前,用户可以通过获得访问权限向 GPT-4 模型发送纯文本请求(图像输入仍处于有限的 alpha 阶段)。定价方面,每 1k 个 prompt token 的价格为 0.03 美元,每 1k 个 completion token 的价格为 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。

OpenAI 推出了两个版本的 GPT-4,其中一个版本的上下文长度为 8,192 个 token,另一个版本的上下文长度为 32,768 个 token(相当于约 50 页文本),并且该版本具有有限的访问权限,也将随时间自动更新(当前版本为 gpt-4-32k-0314,支持到 6 月 14 日)。根据定价策略,每 1K prompt token 的价格为 0.06 美元,每 1K completion token 的价格为 0.12 美元。

总结


OpenAI 期待 GPT-4 能够成为一个有价值的工具,通过为许多应用提供动力来改善人们的生活。尽管还有很多工作要做,但OpenAI 期待社区不断在模型之上构建、探索和贡献,以持续提升模型的能力。



看了这么久,是不是跃跃欲试了,SegmentFault Hackathon 回归!国内首个 AIGC 黑客马拉松来了,高额奖金、真格基金等顶级 VC 投资机会,只要你有关于 Generative AI 相关的应用构建的想法和创意,我们就在这里等着你~



关注公众号:拾黑(shiheibook)了解更多

赞助链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接