会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 OpenAI官宣推出多模态ChatGPT 能看、能听、还会说!

OpenAI官宣推出多模态ChatGPT 能看、能听、还会说

时间:2024-05-12 11:17:18 来源:彦天快讯网 作者:知识 阅读:593次
财联社9月26日讯(编辑 史正丞)北京时间周一晚间,官宣人工智能领域的推出态知名创业公司OpenAI发布题为《ChatGPT现在能看、能听、多模能说》的看能听公告,宣布将在未来两周时间里向付费用户推送这项功能。官宣

  在今年3月GPT-4的推出态发布会上,最令人感到震惊的多模一幕应该是,OpenAI总裁Greg Brockman拿着一张草稿纸画了个草图,看能听随手拍了张照就让GPT-4在10秒钟时间里生成了这个网站的官宣代码。

  ChatGPT此前曾推出过能上传图片的推出态“代码解释器“功能,具备了一些初步处理图像和文本照片的多模能力。但毫无疑问,看能听今天这个“随手拍、官宣随心问”才更贴近大多数用户的推出态AI助手使用场景。

  拍张冰箱照片 告诉你今晚吃啥

  按照标题的多模顺序,今天更新的功能主要有两点:基于图片的对话,以及实时语音对话。

  先说关注度非常高的图片聊天功能。按照OpenAI的说法,用户现在可以拍一张冰箱的照片,然后让ChatGPT来推荐菜谱;在旅行时拍摄一张地标的照片,让ChatGPT来讲述这处景点的有趣之处。当然,也能拍一张数学题的照片,让ChatGPT来解答。

  在官方给出的例子中,给到ChatGPT一张自行车的照片,问它如何把座椅调低。然后ChatGPT表示看你车的型号,有的车有快拆杆,有的是用螺栓固定,然后给出了详细的步骤。

  随后官方装作不懂,拍了一张螺栓的照片,并用官方画图工具圈出来以示强调,然后问ChatGPT这是不是快拆杆。ChatGPT表示你这个是螺栓,得去找一个内六角扳手。

  随后官方又拍了一张工具箱的照片,问ChatGPT到底是哪一个扳手。ChatGPT也顺利地认出了扳手,并准确提示用户到底要拿哪一个尺寸。

  ChatGPT会说话啦!

  除此之外,OpenAI也将语音识别、转录和音频生成功能打包,推出了AI语音聊天的功能,这项功能只适用于iOS和安卓客户端。官方表示,用户可以用这项功能为家里的小孩讲睡前故事。或者家里吃着饭,突然为某个问题吵起架来,这个时候就可以把ChatGPT拍在桌面上解决争论。

  OpenAI介绍称,这项功能使用了Whisper开源语音识别系统,将用户说的话转录成文本。同时还用上了一项新的文本转语音模型,并与专业配音演员合作,提供5种可供用户自行选择的声音。

  更先进的AI也有新的风险和局限性

  OpenAI表示,新的语音技术能够仅通过几秒钟的真实语音创造出逼真的合成声音。这种功能打开了创造力的大门,也带来了新的风险——例如不法分子可能伪造公众人物进行欺诈。所以OpenAI的决策是通过“语音聊天”这样的特定用例来推出这项功能。

  同时OpenAI也在与更多的机构展开合作。例如流媒体公司Spotify就在试用这项功能来进行语音翻译,通过使用播客主持人的声音将播客音频翻译成其他语言,帮助播客主持人扩大他们的全球影响力。

  图像也会带来新的挑战,例如幻觉问题,以及使用者在高风险领域却依赖模型对图像的解释。因此在上线前,OpenAI也对极端主义和科学能力等领域进行了风险测试。

  另外对看到这篇文章的中文读者来说,图片对话的体验大概率值得期待,但语音对话可能要打一些折扣。OpenAI表示,该模型擅长转录英文文本,但在一些其他语言,特别是那些使用非罗马字母的语言中表现不佳,建议非英语用户不要使用ChatGPT来进行此类用途。

责任编辑:李桐

(责任编辑:时尚)

相关内容
  • 五大联赛历史首人! 姆巴佩有望连续6年获法甲金靴
  • 中央气象台:冷空气来袭 北方将有大风降温
  • 滴滴顺风车最新消息:仍无限期下线 打击人车不符
  • 中央气象台再发布大雾橙色预警 江苏河北等地将有浓雾
  • 香港大学教授贾伟:代谢组学推动健康食品现代化
  • 湖南省纪委纪检监察四室原主任曹明强获刑12年6个月
  • 大开放引领历史性跨越——从壮乡巨变看中国发展的力量
  • 浙江财政厅原厅长钱巨炎受贿1395万获刑 搞利益输送
推荐内容
  • 《龙门虎将》技术拼手速,你的格斗天堂,即将觉醒
  • 我国成功发射6颗云海二号卫星 搭载发射鸿雁星座首颗试验星
  • 北京少年小宇泽角膜捐献至3岁男童和6岁女童
  • 鞠丽简历照片 任四川省泸州市委副书记
  • 《帝国神话》希腊文明DLC部分建筑工作台及武器原画设定曝光
  • 最高人民检察院依法对蒲波决定逮捕 涉嫌受贿罪