中国营销网资讯 > 消费 > 

OpenAI员工与友商玩起提示词决斗,网友:居然能靠大模型的情商增强推理

时间:2023-06-05 12:13:00  来源: 网络  阅读量:7353   
OpenAI员工与友商玩起提示词决斗,网友:居然能靠大模型的情商增强推理

大模型天花板 GPT-4 和最强竞品 Claude,不光商业上竞争激烈,两家公司的员工私下也“剑拔弩张”了起来:

约战提示词决斗,看谁能在最短时间让 AI 完成高难度任务。

OpenAI 一方出战的是思维链开山论文的一作 Jason Wei,也就发现让大模型按步骤思考就能提高推理能力的人。

他刚从谷歌跳槽到 OpenAI 不久,现在圈里都叫他“思维链哥”。

Anthropic 一方的选手 Karina Nguyen 也不简单,毕业于 UC 伯克利,现在负责设计构建大模型人机交互界面。

比赛规则很简单,通过优化提示词让 AI 正确排序一组单词,谁先完成谁获胜。

而这不光是一场有趣的对决,还有不少围观的网友表示从中 get 到了大模型的一些新特性。

情商能提高大模型的推理能力

推理能力足够强的大模型能把问题用结构化的方式表达出来,并用结构化的表现形式解决问题。

想知道这些结论是如何得出的,还是回到这场比赛本身。

提示词大师巅峰对决

由于 Karina 表示只擅长提示 Claude,Jason 也同意让出主场优势,还因为打字速度的原因让对面 3 分钟。

总之经过一番讨价还价后,比赛正式开始了!

首先要了解的是,这项任务看起来不难,但无论 GPT-4 还是 Claude 都不能通过简单提示词直接完成。

Jason 首先尝试让 Claude 编写一些代码并执行,让它进入编码模式。

然鹅,失败了。

1 分钟后 Karina 说她完成了,Jason 直接瞳孔地震。

Karina:既然是你让了我 3 分钟,那我也给你 3 分钟让你赶上。

Jason:其实现在我很恐慌,我作为“提示小王子”的声誉岌岌可危。

一分钟后……Jason Wei 想出了第二个策略:

既然首字母都是 A 就无关紧要了,那么让 AI 先把每个单词的首字母去掉,对剩下部分排序后再放回去。

完整思维链提示词如下:

不幸的是这仍然不起作用,时间也到了,Jason 只能认输。

比赛结束后,Karina 也展示了她的提示词,完全不需要什么中间推理步骤,只是先想办法让 AI 承认能理解这个任务,再执行就好了。

人类:你的任务是把列表按字母顺序排列后输出到里…… 你明白了吗?

AI:明白了

人类:列表如下……

Jason 很困惑,这居然行得通?并尝试在自家大模型上找回场子。

结果发现他的方法对 GPT-4 确实有效,GPT-4 可以编写正确的 Python 代码并给出正确结果。

One More Thing

虽然输了比赛,但 Jason 作为科学家还是从中分析出一些结论。

Jason Wei 表示,这场战斗非常有启示性。

Karina 的提示策略是让 AI 承认自己理解任务要求。而自己的策略是让模型更多地进行推理(智商)。

双方使用的策略在各自习惯使用的语言模型上都取得了成功。

所以,究竟是我们在训练语言模型,还是语言模型在训练我们?

最后,还有网友又出了一个新题目:

如果你能让它创作一首“philish 诗歌”,我愿为你加冕称王

你觉得解决这个问题要靠 AI 的情商还是智商?不如也来亲自试试。

参考链接:

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

为您推荐
Ubuntu已支持在AMD-XilinxVersal自适应SoC

,Canonical宣布,UbuntuLinux操作系统现已支持AMD-XilinxVersalAI核心系列VCK190评估套件。VersalVCK190是AMD-Xilinx首款...

10项交管服务新举措实施更多私家车可享新车上牌免查验

近期,公安部公布了公安交管服务群众服务发展10项便利措施,并于6月1日起正式实施。据悉,便利措施从深化减证便民、服务群众出行、创新“互联网+交管”服务三方面提升交管服务水平,涵盖了...

主要产油国宣布2024年产量目标

石油输出国组织与非欧佩克产油国4日在奥地利首都维也纳举行第35次部长级会议,决定将2024年原油总产量目标调整为日均4046万桶。欧佩克在会后发表声明说,该决定旨在维持石油市场稳定...

Siri将告别“嘿”:Gurman称苹果有望在WWDC23上宣布

感谢IT之家网友肖战割割、华南吴彦祖的线索投递!,据彭博社记者马克?古尔曼透露,苹果公司可能在下周的WWDC23大会上宣布一项重大改变,即取消目前唤醒语音助手Siri所需的“嘿,S...

小米玄戒芯片公司增资至19.2亿元

感谢IT之家网友肖战割割的线索投递!,据国家企业信用信息公示系统,上海玄戒技术有限公司发生工商变更,注册资本由15亿元人民币增至19.2亿元人民币,增幅28%。该公司成立于2021...

UHD4K+内置音箱:LG31.5英寸显示器2279元免息新低

LG31.5英寸4K显示器32UN650-W,日常售价为2599元,京东618大促期间,活动价为2299元。领取商品下方20元补贴券,到手价为2279元:京东LG31.5英寸4K显...

7月生效,微软Edge浏览器默认启用“增强Web安全性”且预设“

,根据微软官方公布的Microsoft365路线图,Edge浏览器将于今年7月默认启用“增强Web安全”,且预设为“平衡”状态。IT之家翻译该路线图内容如下:在64位Windows...

消息称多家服务器供应商向推特追讨欠款,部分款项已逾期达2个月

,据经济日报报道,服务器供应商神达和纬颖目前正在向推特追讨欠款,有望在第2季度收回部分款项。图源:纬颖报道称,神达2022年第4季度宣布列入14亿新台币坏账损失。神达指出,对美国客...

买车容易修车难,工信部预计到2025年新能源汽修人才缺口率达80

感谢IT之家网友雨雪载途的线索投递!,随着新能源汽车的普及,越来越多的消费者选择了这种环保、节能的出行方式。但是,新能源汽车的维修却成了一个难题。由于新能源汽车涉及到电池、电机、电...

XMGAPEX17/15游戏笔记本电脑发布:AMDRyzen77

感谢IT之家网友华南吴彦祖的线索投递!,Schenker旗下的游戏品牌XMG发布了关于最新APEX系列笔记本电脑,将用作入门级系列,搭载了AMDRyzen77735HS处理器,支持...