OpenAI推出SWE-bench Verified：现有框架低估模型软件工程能力 - 资讯最新 - 华尔街见闻

相关资讯

OpenAI推出SWE-bench Verified：现有框架低估模型软件工程能力

AI 摘要

刚刚OpenAI 推出更可靠的代码生成评估基准：SWE-bench Verified。该基准是对现有SWE-bench 的改进版本（子集），旨在更可靠地评估AI模型解决现实世界软件问题的能力。

2024年10月24日

131W

2025年4月05日

Dragonfly合伙人：推测OpenAI将推出AI行政助理和AI软件工程师两种产品

2025年1月20日

AI 摘要

如今摆摊已经过去两个多月。11月14日晚，艾庆勇告诉上游新闻记者，相比做软件工程师，摆地摊卖提拉米苏，他能感到更多的快乐。艾庆勇觉得，人生不该被定义，他想与人打交道，而非整天面对冷冰冰的键盘。

86W

要闻热榜

腾讯新闻

2024年11月15日

前往原文

OpenAI 发布三款 GPT-4.1 系列模型，性能有哪些提升？对行业来说，其最大吸引力是什么？

AI 摘要

OpenAI 于4 月 15 日凌晨顺势推出了三款 GPT-4.1 系列模型，不过，只能通过 API 用，不会直接出现在 ChatGPT 里。 GPT-4.1：旗舰模型，在编码、指令遵循和长上下文理解方面表现最佳，适用于复杂任务。 GPT-4.1 mini：小型高效模型，在多个基准测试中超越 GPT-4o，同时将延迟降低近一半，成本降低 83%，适合需要高效性能的场景。 GPT-4.1 nano：OpenAl 首个超小型模型，速度最快、......

61万热度

知乎热榜

知乎

2025年4月15日

前往原文

“全球最强编程模型”来了！Anthropic发布Claude 4，连干七小时性能稳定

AI 摘要

Anthropic称，作为全球最佳编程模型，Claude Opus 4能在需要专注努力和数千步骤的长时间任务中保持稳定表现，电商乐天验证它可连续工作七小时；SWE-bench测评中，Claude Sonnet 4准确度72.7%，较Sonnet 3.7版的62.3%显著提升；Claude Code正式上线，得到两款Claude 4模型支持。

资讯最新

华尔街见闻

2025年5月23日

前往原文

美国 DOGE 部门招聘全职人才，涉及软件工程师等多个岗位

精选快讯

金色财经

2025年1月27日

前往原文

Coinbase推出验证池Verified Pools

金色热搜

金色财经

2025年3月19日

前往原文

Coinbase推出验证池Verified Pools

金色热搜

金色财经

2025年3月19日

前往原文

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场

AI 摘要

OpenAI将推出o3和精简版o3-mini。OpenAI评估显示，o3在软件工程测试中准确率比o1高近47%，竞赛数学测评的准确率比o1高15%，人类博士专家级生化物测试中准确率比o1高近13%；AGI相关测试中，o3最佳成绩87.5，超过人类水平门槛85，显示迈向类人智能取得突破。OpenAI计划明年初发布o3系列模型，CEO Altman暗示可能一段时间内都不会面向大众上线这类模型，称希望正式发布前，先有一个联邦政府的测试框架，指......

资讯最新

华尔街见闻

2024年12月21日

前往原文