AI 摘要
前往原文
刚刚OpenAI 推出更可靠的代码生成评估基准:SWE-bench Verified。该基准是对现有SWE-bench 的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。
相关资讯
AI 摘要
刚刚OpenAI 推出更可靠的代码生成评估基准:SWE-bench Verified。该基准是对现有SWE-bench 的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。
AI 摘要
如今摆摊已经过去两个多月。11月14日晚,艾庆勇告诉上游新闻记者,相比做软件工程师,摆地摊卖提拉米苏,他能感到更多的快乐。艾庆勇觉得,人生不该被定义,他想与人打交道,而非整天面对冷冰冰的键盘。
86W
·
·
·
2024年11月15日
·
AI 摘要
OpenAI 于4 月 15 日凌晨顺势推出了三款 GPT-4.1 系列模型,不过,只能通过 API 用,不会直接出现在 ChatGPT 里。 GPT-4.1:旗舰模型,在编码、指令遵循和长上下文理解方面表现最佳,适用于复杂任务。 GPT-4.1 mini:小型高效模型,在多个基准测试中超越 GPT-4o,同时将延迟降低近一半,成本降低 83%,适合需要高效性能的场景。 GPT-4.1 nano:OpenAl 首个超小型模型,速度最快、......
61万热度
·
·
·
2025年4月15日
·
AI 摘要
Anthropic称,作为全球最佳编程模型,Claude Opus 4能在需要专注努力和数千步骤的长时间任务中保持稳定表现,电商乐天验证它可连续工作七小时;SWE-bench测评中,Claude Sonnet 4准确度72.7%,较Sonnet 3.7版的62.3%显著提升;Claude Code正式上线,得到两款Claude 4模型支持。
AI 摘要
OpenAI将推出o3和精简版o3-mini。OpenAI评估显示,o3在软件工程测试中准确率比o1高近47%,竞赛数学测评的准确率比o1高15%,人类博士专家级生化物测试中准确率比o1高近13%;AGI相关测试中,o3最佳成绩87.5,超过人类水平门槛85,显示迈向类人智能取得突破。OpenAI计划明年初发布o3系列模型,CEO Altman暗示可能一段时间内都不会面向大众上线这类模型,称希望正式发布前,先有一个联邦政府的测试框架,指......
相关榜单
热点推荐
换一批