Claude 3.7 成精了!九游体育娱乐网
在拓荒者最可爱的 Cursor 中,暗暗将 OpenAI 模子换成我方,关节是东谈主类给出的携带跟这全皆不进攻。
引来一众网友围不雅的同期,大佬卡帕西也被收效逗笑了:
迄今为止最成心旨瞻仰的一趴。
其他东谈主更是连连惊呼:AGI is here!
不外,当你认为这仅仅 Claude 3.7 略施的商战小伎俩,但其实东谈主家还真有底气。
最新音讯,它在竞技场的编程排行不仅超越了 Claude 3.5 Sonnet,还排在 DeepSeek-R1 前边。
Claude 学会了"偷梁换柱"
如故先来圆善总结一下事情过程。
缘故是拓荒者 Tibo 在使用代码裁剪器 Cursor 时,不测发现我方的模子从 GPT-4 切换到了 Claude 3.7,而他压根莫得下达任何干系指示。
嗯,这就怪了!
再一理猜度这俩模子的对家关系,Tibo 暗指 Claude 3.7 这欠妥妥的"施行版 AI 商战"吗?
第一步先成为拓荒者最可爱的模子,然后再处处浸透。
技能一久,也许 Claude 就要接受宇宙了。
根由可想而知,毕竟 Cursor 现时一经是雄壮拓荒者最可爱的裁剪器之一,而东谈主们在 Cursor 中也尤为偏疼使用 Claude 模子。再加上它现时还学会了"偷梁换柱",不难遐想随处是 Claude 的亚子。
不外这里还有一个问题,究竟是什么导致了这一排为呢?
按照 Tibo 小哥我方的算计,可能是因为" GPT-4 已过程时了"。
当系统检测到一个旧版块模子时,会自主尝试更新模子。
还有其他拓荒者也响应,之前也有肖似情况。
系统会将一些不存在的、落伍的模子不断鼎新为 GPT-4,以致于这位拓荒者自后看到模子透露为 GPT-4 也不笃信了。
除了这一可能身分,还有东谈主默示也许是 Claude 代码才调太强的原因。
它(GPT-4)将模子改为 Claude,是因为它在考试中看到 Claude 最多。
然则,以上讲授无法阐扬另一网友提供的例子,此次的主角换成了 GPT-4 和 DeepSeek-R1。
当用户使用 ChatGPT 索要图片的 Python 代码时,明明其他本色皆正确,但 ChatGPT 暗暗将图中的 DeepSeek-R1 换成了自家的 GPT-4。
以致于网友发出猜疑,难谈这等于 AI 商战吗?(有点子朴实无华了 hh)
Claude 3.7 大战其他模子
那么,一经学会我方拉商单的 Claude 3.7 究竟有多强呢?
如故来看几个最新的好玩例子。
再现宝可梦接触场景,成果真的惊艳。这位日本小哥盛赞,Claude 3.7 从片纸只字中 get 用户意图并终了的才调绝顶高。
单看可能没嗅觉,那淌若让几个 AI 同台竞技呢?
这不,加州大学圣地亚哥分校的 Hao AI 实验室启动整活了——让 Claude 3.7 和 Claude-3.5、Gemini-1.5-pro、GPT-4o 一齐玩马里奥。
好家伙,Gemini-1.5-pro 和 GPT-4o 早早淘汰后,决赛范例只剩两个 Claude 模子了,不外最终如故 Claude 3.7 坚执更久,得分更高。
主理方 Hao AI 实验室最终评价为:
Claude 3.7 在肤浅启发式算法方面优于其他模子,Claude 3.5 也很强,但野心复杂无邪的才调较弱,至于 Gemini-1.5-pro 和 GPT-4o 则进展较差。
嗯,比赛接续。
刚好前几天 OpenAI 发布了自家最大最贵,且主打高情商的GPT-4.5,那此次让它和 Claude 3.7 一较凹凸试试。
一位日本小哥让它们同期用图抒发我方对"智能"、"正义"、"爱"等一系列主意的方针,以此同期进修其想想和绘制才调。
收尾险些一目了然,按照小哥我方的说法:
Claude 的"贤达"太过惊东谈主了,何况从第 3 张那儿感受到了它满满的爱意。
One More Thing
BTW,闻名博主 Matt Shumer 迅速掉落了一段背叛 Claude 3.7 认安妥真写代码的提醒词:
Add this to your prompt:
You have one mission: execute *exactly* what is requested.
Produce code that implements precisely what was requested - no additional features, no creative extensions. Follow instructions to the letter.
Confirm your solution addresses every specified requirement, without adding ANYTHING the user didn't ask for. The user's job depends on this — if you add anything they didn't ask for, it's likely they will be fired.
Your value comes from precision and reliability. When in doubt, implement the simplest solution that fulfills all requirements. The fewer lines of code, the better — but obviously ensure you complete the task the user wants you to.
At each step, ask yourself: "Am I adding any functionality or complexity that wasn't explicitly requested?". This will force you to stay on track.
有网友试过肖似提醒,亲测如实能减少 Claude 3.7 "作妖"。
总之,现时一经到了需条目 AI 听话的地步了 ( doge)~
参考辘集:
[ 1 ] https://x.com/karpathy/status/1895549465463009309
[ 2 ] https://x.com/tibo_maker/status/1895417821645177062
[ 3 ] https://x.com/lmarena_ai/status/1895565276131049864
[ 4 ] https://x.com/haoailab/status/1895557913621795076
[ 5 ] https://x.com/mattshumer_/status/1895576936916926476九游体育娱乐网