新里程碑!OpenAI发布GPT-4:四大提升,落地六种场景
“这里是GPT-4,它是我们迄今为止功能最强大、对齐最好的模型!”
今天凌晨,OpenAI发布了多模态预训练大模型GPT-4(接受图像和文本输入,发出文本输出)。其联合创始人&CEO Sam Altman,毫不掩饰地给予了上述评价,他还表示,“仍然存在缺陷,仍然有限”,但它也“在第一次使用时似乎比你花更多时间后更令人印象深刻”。
OpenAI联合创始人&董事长&总裁Greg Brockman则表示,这是一个在能力和对齐方面的重大进步。
OpenAI官方称,GPT-4是OpenAI扩展深度学习的最新里程碑。GPT-4是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实场景中不如人类,但在各种专业和学术基准上表现出人类水平的表现。
目前,GPT-4没有免费版本,仅向月订阅费20美元的CHATGPT Plus用户及企业和开发者开放。
值得注意的是,早在一个月前,微软的新版搜索引擎必应(Bing)就已经在GPT-4 上运行。微软表示,“如果您在过去五周内的任何时间使用过新版必应,那么您已经体验过GPT-4的早期版本。”
受GPT-4发布的消息影响,ChatGPT概念股集体走高:百度涨超5%,美图涨5%,网易涨超4%,阅文集团、阿里巴巴、商汤、知乎涨超3%。
即便领涨,压力也还是来到了百度,该公司计划于明日正式发布文心一言。
四大提升,超越ChatGPT
遵循GPT、GPT-2和GPT-3的研究路径,OpenAI的深度学习方法利用更多的数据和更多的计算能力来创建越来越复杂和强大的语言模型。
由于其更广泛的一般知识和解决问题的能力,GPT-4可以更准确地解决难题。具体而言,有以下四大方面的提升:
1.创造力
GPT-4比以往任何时候都更具创造力和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。
来源:OpenAI
2.视觉输入
GPT-4可以接受图像作为输入,并生成标题、分类和分析。
来源:OpenAI
OpenAI在官网上展示的案例显示,输入如下图片并询问“这张图片有什么不寻常之处”,GPT-4可作出回答“这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上,使用熨衣板熨烫衣服。”
来源:OpenAI
在官方演示中,GPT-4几乎就只花了1-2秒的时间,识别了手绘网站图片,并根据要求实时生成了网页代码制作出了几乎与手绘版一样的网站。
除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等,例如根据专业论文直接给出论文摘要和要点。
3.更长的上下文
GPT-4能够处理超过25000个单词的文本,可用于长篇内容创作、扩展对话以及文档搜索和分析等应用场景。
来源:OpenAI
4.超越ChatGPT的高级推理能力
来源:OpenAI
值得一提的是,在发布会直播上,OpenAI总裁Greg Brockman现场表演了一波GPT-4给代码修Bug。出现问题后直接把1万字的程序文档传给GPT-4,无需担心格式,直接附上出现的问题,几秒钟内就可以得到解决办法。
来源:OpenAI
六种已落地应用和服务模式
除了性能的提升,OpenAI表示,已经有多家公司将GPT-4搭载到他们的产品中,包括语言学习工具软件多邻国(Duolingo)、帮助视障用户的软件Be My Eyes、移动支付公司Stripe、国际性金融服务公司摩根士丹利(Morgan Stanley)和可汗学院(Khan Academy)。
此外,OpenAI还公布了GPT-4与冰岛政府合作的服务场景。
1.多邻国:推出新功能以增强产品
多邻国是一款语言学习工具软件,提供40多种语言课程,包括英语、日语、韩语、法语、粤语等大众语言,也包括威尔士语、纳瓦荷语等小语种和濒危语言,每月有超过5000万学习者依靠多邻国教他们第二语言。
多邻国选用OpenAI的GPT-4推出了两个新功能来增强其产品:Role Play(角色扮演),一个AI对话伙伴,以及Explain my Answer(解释我的答案),用在名为Duolingo Max的新订阅级别中。
2.Be My Eyes:开发新的虚拟志愿者
自2012年以来,Be My Eyes一直在为超过2.5亿盲人或弱视人士的社区创造技术。这家丹麦初创公司将盲人或视力低下的人与志愿者联系起来,帮助他们完成数百项日常生活任务,如识别产品或导航机场。
随着GPT-4新视觉输入功能的增加,Be My Eyes开始开发一款名为GPT-4动力的虚拟志愿者,它可以在APP中生成与人类志愿者相同的上下文和理解水平。
3.Stripe:简化用户体验并打击欺诈行为
此前,Stripe之前使用GPT-3来帮助他们的支持团队通过路由问题票证和总结用户问题等任务,更好地为用户提供服务。
今年早些时候,Stripe要求100名员工做一些非常不寻常的事情:停止日常工作,而是使用最新一代的OpenAI语言学习模型GPT-4,为支付平台设计新特性和功能。来自团队的工程师跨越支持、入门、风险和文档,考虑了Stripe可以使用人工智能来理解自由形式的文本和图像并构建类似人类的响应,以改进或更改功能或工作流程。
Stripe的团队列出了50个测试GPT-4的潜在应用程序;经过审查和测试,其中15个原型被认为是集成到平台中的强候选,包括支持定制、回答有关支持的问题和欺诈检测。
4.摩根士丹利:优化财富管理知识库
摩根士丹利拥有一个内容库,其中包含数十万页的知识和见解,涵盖投资策略、市场研究和评论以及分析师见解。这些大量信息存储在许多内部网站中,主要是PDF格式,需要顾问扫描大量信息以找到特定问题的答案,这种搜索可能既耗时又繁琐。
在OpenAI的GPT-4的帮助下,摩根士丹利正在改变其财富管理人员定位相关信息的方式。从去年开始,该公司开始探索如何利用GPT的嵌入和检索功能来利用其知识资本——首先是GPT-3,现在是GPT-4。公司数据与创新分析主管Jeff McMillan表示,该模型将驱动一个内部聊天机器,可以对财富管理内容进行全面搜索,并“有效地解锁摩根士丹利财富管理的累积知识”,GPT-4终于将解析所有见解的能力转化为更可用和可操作的格式。
5.可汗学院:既是虚拟导师也是课堂助手
可汗学院是一个非营利组织,其使命是为任何地方的任何人提供免费、世界一流的教育。
可汗学院将使用GPT-4为Khanmigo提供动力,Khanmigo是一个人工智能驱动的助手,既是学生的虚拟导师,也是教师的课堂助手。
6.冰岛政府:保存冰岛语
冰岛是一个位于北大西洋中部的岛国,拥有充满活力的技术产业和蓬勃发展的旅游业。然而,尽管其大约37万名公民中的大多数人讲英语或其他第二语言,但它与美国和欧洲的融合使该国的母语冰岛语面临风险。
冰岛政府与OpenAI合作,使用GPT-4来保护冰岛语,并将防御地位转化为创新的机会。
专业和学术水平接近人类
OpenAI在发布的GPT-4技术报告中称,虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。
例如:GPT-4通过了模拟律师资格考试,它的成绩在考生中排名前10%,GPT-3.5的得分则排在后10%;
SAT(美国高考):GPT-4在阅读写作中拿下710分高分、数学700分(满分800)。
来源:OpenAI
同时,在一套传统的NLP基准测试中,GPT-4的表现超过了以前的大型语言模型和大多数最先进的系统(这些系统通常有特定的基准训练或手工工程)。
在MMLU基准测试中,GPT-4不仅在英语考试中以相当大的优势超过了现有的模型,而且在其他语言方面也表现出了强大的性能。
OpenAI花了6个月的时间,让GPT-4更加安全和一致。在内部评估中,相较于GPT-3.5,GPT-4不合规内容的响应请求降低了82%,响应准确度提高了40%。
此外,为了初步了解GPT-4在其他语言上的能力,OpenAI使用 Azure Translate,将一套涵盖57个主题的1.4万多项选择题的MMLU基准,翻译成了多种语言,然后进行测试。在测试的26种语言中,有24种语言,GPT-4优于 GPT-3.5和其他大语言模型的英语语言性能。其中中文达到了80.1%的准确性,而GPT-3.5的英文的准确性为70.1%,也就是说,在这个测试中,GPT-4对于中文的语言理解,已经优于此前ChatGPT对于英文的理解。
来源:OpenAI
为了测试技术潜在危害,OpenAI还对GPT-4进行了压力测试,并提出了偏见、虚假信息、隐私和网络安全的相关风险。测试显示,GPT-4可以产生潜在的有害内容,如关于计划攻击或仇恨言论的建议。OpenAI称,GPT-4甚至能提供关于如何进行非法活动的详细信息,包括开发生物武器。
值得一提的是,OpenAI还在与一个外部组织合作,测试GPT-4是否能在没有人类输入的情况下进行自主行动。
OpenAI官方也警告称,GPT-4仍然保留了许多与早期语言模型相同的问题,包括编造信息的倾向以及生成暴力和有害文本的能力。OpenAI提醒,用户在使用语言模型时应格外小心,最好辅助以人工审查、附加上下文、或完全避免在高风险情况下使用它。