020-37889331
首页
协会介绍
协会章程
协会理事会
协会组织架构
会员专区
会员动态
会员名录
入会申请
协会动态
职称评审
科学技术奖
科技成果评价
团体标准
白皮书
行业赛事
联系我们
行业动态丨OpenAI 正式发布 GPT-4V,ChatGPT可以“听”、“说”、“看”了
关闭
返回上一级
行业动态丨OpenAI 正式发布 GPT-4V,ChatGPT可以“听”、“说”、“看”了
+ 查看更多
发布日期:
2023-10-31 09:21
近日OpenAI宣布推出新版ChatGPT,这一消息也引发了业界的关注。GPT-4V 是继 GPT-3 后的最新一代自然语言处理模型,新版本不仅增加了众多大家期待已久的特性,更增加了两项新功能:语音输入和图像输入,使ChatGPT具备更强大的创造力和语言理解能力。通过新版本的升级,ChatGPT用户将能够与ChatGPT进行对话,GPT-3.5和GPT-4也能理解用户口头发出的咨询。
使用语音输入功能时,用户只需按下一个按钮,说出自己的问题,ChatGPT就会将其转换为文本,然后生成答案,再将答案转换为语音,播放给用户。这代表着用户可以通过语音与ChatGPT直接进行对话互动,不再局限于使用键盘进行文本输入。GPT-4V的语音功能提供了5种不同的语音选项包括男性声音、女性声音、青少年声音等,具有高准确率的语音识别和语音合成功能,满足不同用户的需求。
使用图像输入功能时,用户可以拍摄自己感兴趣的事物,并上传到ChatGPT中。图像功能支持多张图像处理和多模态的交互体验,大大提高了交互效率,帮助任务达成。ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。目前,网友总结出GPT-4V的视觉能力包含以下的几点:
物体检测:
GPT-4V 可以检测和识别图像中的常见物体,如汽车、动物、家居用品等。
文本识别:
GPT-4V 具有光学字符识别 (OCR) 功能,可以检测图像中的打印或手写文本并将其转录为机器可读文本。
人脸识别:
GPT-4V 可以定位并识别图像中的人脸。它具有一定的能力,可以根据面部特征识别性别、年龄和种族属性。
验证码解决:
在解决基于文本和图像的验证码时,GPT-4V 显示出了视觉推理能力。这表明模型具有高级解谜能力。
地理定位:
GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力,这证明模型吸收了关于现实世界的知识,但这当中也隐含了隐私泄露的风险。
复杂图像:
GPT-4V 难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。
现在的ChatGPT已经具备了多模态能力,可以“听”、“说”、“看”了,这也意味着ChatGPT正在不断发展,朝着更多元化和多模态的大模型方向迈进。
广东省人工智能产业协会目前是广东省唯一的省级人工智能协会,由近200家企业、高校以及个人组成,专家顾问团队由中国科学院院士、中国工程院院士等多名相关领域专家组成。协会当前积极开展智推力赋能计划,以人工智能技术全方位赋能传统企业智慧化转型。
协会成立了数智化转型促进中心,针对不同企业遇到的转型痛点,为企业提供轻咨询服务,
以企业实际需求为导向,分行业、分企业不同发展阶段制订数字化转型路线图,为企业提供明晰的数字化转型路径。
欢迎企业咨询和了解。
协会数智化转型服务联系方式:
数智化转型促进中心负责人
唐林 18933934633