绵绵不断网绵绵不断网

传媒行业动态点评:CHATGPT多模态功能升级 促AI应用

  OpenAI 官宣ChatGPT 将上线语音和图像等功能,传媒促多模态能力升级据OpenAI 官网,行业ChatGPT 将在未来两周内对Plus 用户与企业用户开放新功能,动态点评T多包括语音对话能力以及图像读取与理解(图生文)能力。模态语音对话的升级功能针对ios 及安卓客户端开放,图生文能力将向全平台开放。应用我们看到ChatGPT 在语音对话及图生文等功能上的传媒促更新是其在多模态化上的进一步迭代,提升用户的行业使用便捷性和场景范围。AI 生态企业的动态点评T多垂直应用有望受益于AI 工具在语音、图像等多模态领域的模态完善,由文本、升级语音、应用图像向更复杂模态的传媒促视频、3D 模型的行业AIGC 也将持续推进。产业链相关公司包括昆仑万维、动态点评T多焦点科技、巨人网络、恺英网络、蓝色光标、盛天网络、完美世界。

     语音功能:面向移动端提供实时直接语音交互,提升使用体验便捷度新的语音功能能够让ChatGPT 与用户实现纯语音的实时互动对话。

     ChatGPT 的最新语音功能由文本到语音(TTS)模型提供支持,能够仅通过文字和几秒时长的样本语音直接生成模拟人声音频,OpenAI 与专业配音演员合作创建了5 种合成语音可供选择。语音对话的功能将针对iOS 及安卓客户端开放。另外,功能中使用了OpenAI 此前自研的开源语音识别模型工具 Whisper,也提供将用户的语音转录成文本的功能。据OpenAI 官网,Spotify 正在使用ChatGPT 的声音转换功能帮助平台上的播客创作者以自己的声音将博客内容进行更多语言的翻译录制。

     图生文功能:支持多图问答理解分析,扩大使用场景范围GPT-4 多模态识图功能OpenAI 在3 月就已经提出,此次正式发布的版本中,图生文能够支持用户上传一张或多张图片,并为移动端用户提供画笔工具,让用户圈出图中的要点,ChatGPT 从而能够聚焦具体图片细节进行进一步分析。图像读取理解能力由多模态模型GPT-3.5 和GPT-4 支持,能够理解的图像类型包括照片、截图等,可以同时包含文本及图案。因而图生文功能的加入有望助力ChatGPT 能够应用于更多用户日常的使用场景中。据OpenAI 官网,服务盲人和视力低下人群的移动APP Be My Eyes 目前已经使用ChatGPT 的图像功能,帮助用户识别视野范围内具体的人或物。

     多模态能力或加速AI 场景化应用,迈向安全有益的AGI(通用人工智能)此外,OpenAI 于9 月20 日在官网宣布推出文生图AI 工具的最新迭代版本DALL·E 3。相较于前代,DALL·E 3 在提示词辅助生成及文本理解、图片生成细节丰富度上有显著的提升。DALL·E 3 将于10 月初面向ChatGPTPlus 和企业用户开放。OpenAI 在官网指出希望能够构建安全并且有益的AGI,因而逐步丰富目前的产品功能,包括此次的语音及图像相关的能力。

     另外,据The Information,谷歌也将推出最新多模态AI 大模型Gemini。我们认为,随相应功能开放后,头部大模型公司的多模态道路有望加速推进,AI 生态企业的垂直应用有望受益于语音、图像等多模态能力的完善。

     风险提示:AI 技术瓶颈难以突破、AI 相关法规仍待完善、AI 应用落地不及预期。

赞(9571)
未经允许不得转载:>绵绵不断网 » 传媒行业动态点评:CHATGPT多模态功能升级 促AI应用