OpenAI实时API升级支持智能会话语音/音频AI助手-泣涕如雨网

OpenAI实时API升级支持智能会话语音/音频AI助手

2026-01-04 18:18:36 来源：泣涕如雨网分类：{typename type="name"/}

自美国当地时间12月5日起，实时I升手OpenAI开启了一个密集的持智新功能发布周期，计划在未来12天内通过12个现场活动推出新产品和功能。话语在此之前，音音OpenAI已经发布了一些创新，实时I升手包括全血O1模型，持智ChatGPT Sora计划，话语强化微调技术，音音视频生成工具、实时I升手Canvass交互界面、持智高级语音视觉功能、话语智能文件夹Projects、音音向所有ChatGPT用户开放ChatGPT搜索功能等。实时I升手

12月18日，持智即OpenAI发布会第九天，话语公司正式宣布将通过其应用程序编程接口（API）向第三方开发者开放其尖端大型o1系列。这一消息对开发者来说无疑是一个巨大的好消息，因为他们渴望建立一个新的高级人工智能应用程序，或者将openai的最先进技术集成到他们现有的应用程序和工作流程中，无论这些应用程序是针对企业还是消费者。

openaio1系列模型于2024年9月发布。作为公司“新家族”系列的第一部杰作，它超越了GPT系列的大语言模型（LLM）并引入了“推理”功能。

o1和o1系列模型包括o1和o1 mini，虽然响应用户提示并生成答案需要更长的时间，但他们会在形成答案的过程中进行自我验证，以确保答案的准确性，并有效避免“幻觉”。在发布时，OpenAI声称O1可以处理更复杂、更博士的问题，这也在用户的实际反馈中得到了验证。

虽然开发者可以访问o1预览版本，并在此基础上开发自己的应用程序，如博士顾问或实验室助理，但通过API发布的完整o1模型带来了更高的性能、更低的延迟和新功能，使其更容易集成到实际应用场景中。

大约两周半前，OpenAI通过了ChatGPT Plus和ChatGPT Pro计划向消费者推出o1模型，并对用户上传的图像和文件进行模型分析和响应。

在今天发布的同时，OpenAI还宣布了实时API的重大更新，以及降价策略和新的微调方法，旨在帮助开发者更好地控制他们的模型。

打开完整的o1模型

新推出的o1模型内部编号为o1-2024-12-17，特别设计用于处理复杂的多步推理任务。与早期的o1预览版本相比，该版本显著提高了准确性、效率和灵活性。

OpenAI公布了一系列基准测试结果，显示了新模型在编码、数学和视觉推理任务方面的显著进展。例如，在SWE-bench VerifiedO1的编码结果从41.3提高到48.9(基准测试旨在通过更可靠的方法评估人工智能模型解决现实世界软件问题的能力)。在以数学为重点的AIME测试中，O1的性能从42跃升到79.2。这些显著的改进使O1成为简化客户支持流程、优化物流解决方案或解决挑战性分析问题的理想工具。

此外，o1还增加了几个功能，进一步增强了它为开发人员提供的功能。结构化输出功能允许模型的响应可靠地匹配自定义格式（如JSON模式），以确保与外部系统交互时的一致性和准确性。引入函数调用功能简化了将o1连接到API和数据库的过程，使集成更加方便。同时，o1还具有视觉输入推理的能力，在制造、科学和编码领域开辟了新的应用场景。

Openai还推出了新的reasoning_effort参数，以使开发者能够更好地控制o1的行为。该参数允许开发者根据任务需要调整模型在任务上的时间，从而在性能和响应时间之间找到最佳平衡。

OpenAI实时API升级

支持智能会话语音/音频AI助手

OpenAI还宣布了实时API的重大更新，旨在支持语音助手、实时翻译工具或虚拟导师等低延迟和自然会话体验的应用场景。

在这次更新中，新的WebRTC集成成成为一个亮点。它直接支持音频流、噪声抑制和拥塞控制，大大简化了基于语音的应用程序的构建过程。现在，开发者可以集成实时功能，即使在多变的网络环境中。

在定价方面，Openai还推出了一项新策略，将GPT-4o音频的成本降低了60%。具体来说，每100万输入Tokens的成本为40美元，每100万输出Tokens的成本为80美元。同时，缓存音频输入的成本也降低了87.5%，目前的定价是每100万输入Tokens 2.5美元。

OpenAI还推出了GPT-4oo，以进一步提高性价比 mini，这是一个更小、更划算的模型。它的价格更贴近百姓，每100万输入Tokens的费用是10美元，每100万输出Tokens的费用是20美元。此外，GPT-4o Mini的文本Tokens费率也比较低，输入Tokens的初始价格为0.60美元，输出Tokens的初始价格为2.40美元。

除了定价调整外，OpenAI还赋予开发人员更多的实时API响应控制权。例如，并发带外响应允许后台任务（如内容审查）在不干扰用户体验的情况下运行。开发人员还可以根据实际需要定制输入上下文，专注于对话的特定部分，并控制语音响应的触发机会，从而实现更准确、更无缝的交互体验。

偏好微调提供了新的自定义选项

另一个重要的新功能是偏好微调，这是一种创新的模型定制方法，可以根据用户和开发者的喜好优化模型性能。

与传统的依赖于精确输入和输出的监督微调不同，微调更喜欢指导模型选择更好的响应。该方法在处理更主观的任务时特别有效，如总结、创造性写作或语气和风格。

与Rogo 人工智能等合作伙伴的早期测试显示出偏好微调的巨大潜力。Rogo 人工智能致力于为金融分析师打造助手。他们报告说，与传统的微调方法相比，偏好显著提高了模型处理复杂、超出分布范围查询的能力，任务准确性提高了5%以上。该功能已在GPT-4o-2024-08-06和GPT-4o-mini-可用于2024-07-18模型，并计划在明年年初扩展到更多新模型。

新的SDKK，面向Go和Java开发者

OpenAI正在扩展其官方SDK产品线，以进一步优化集成流程。SDK是Go和Java版本的测试版本。这些新的SDK和现有的Python、Node.js和.NET库相辅相成，极大地拓宽了开发者在不同编程环境下与OpenAI模型互动的便利性。Go SDK在构建可扩展的后端系统方面具有独特的优势，而Java SDK是专门为依赖强类型和稳定生态系统的企业级应用而设计的。

通过这一系列的更新，OpenAI为开发人员提供了一个更全面的工具箱，旨在帮助他们开发先进和高度定制的人工智能应用程序。OpenAI的最新产品致力于为企业提供更好的性能和更高的成本效益，从而不断扩大人工智能集成的边界，无论是O1模型的推理能力，还是实时API的显著增强，还是灵活多样的微调选项。（腾讯科技特别编译金鹿）

本文来源：腾讯科技

OpenAI实时API升级支持智能会话语音/音频AI助手

热门资讯

推荐资讯