为了让Siri从「人工智障」变成「人工智能」,苹果黑科技交互项目Ferret-UI试图重新定义AI手机

互联网4月16日报道丨今年,几乎所有

互联网4月16日报道丨今年,几乎所有手机厂商都在推进「AI手机」,试图贴近热点概念。

比如:vivo自研蓝心大模型,并开放给所有手机用户使用;三星联合谷歌打造Galaxy AI服务,甚至试图直接申请「AI Phone」商标;

那么,刚刚放弃造车,转投生成式AI项目开发的苹果公司,会如何打造的自己的「AI手机」呢?

据外媒4月9日报道,在上周,苹果在短短的一周内发表了两篇关于AI大模型的研究论文,其中一篇发布在当地时间4月8日的论文,提及一项所谓「 Ferret-UI」的论文值得关注。

「Ferret-UI」是一种基于多模态大模型打造的新型移动端UI,苹果正试图通过OS操作系统底层重构传统手机交互。

「Ferret-UI」是一种专为手机操作系统屏幕交互定制的大模型代理系统,具有「AI指向、AI定位和AI推理」功能。

「Ferret-UI」自身便是一个AI代理系统,它可以读取手机屏幕上的文本、图像信息,不限于「任何屏幕分辨率」,使图标按钮与文本更易于被AI读取。

苹果的研究人员在论文中提到,「Ferret-UI」基于多模态大模型的开发路线,针对手机OS的特定场景进行了3个方面的针对性训练:

1️⃣「Ferret-UI」能够识别和处理不同的屏幕比例,可以理解同一个页面不同尺寸的适配方案。

2️⃣「Ferret-UI」定向增强了小尺寸内容信息的识别能力,比如一个图标、按钮,或者一小段文本等等,能够更准确地识别和定位屏幕上的各个元素及其功能。

3️⃣「Ferret-UI」在识别图像后,可以结合用户发出的提示指令,进行对话的理解与推理,从而更好地响应指令

Ferret-UI 的应用场景相当广泛!我们可以从苹果对于 Ferret-UI 的核心技术描述推断出其能够应用的几类场景:

1. 建立更标准、通用的底层规范

Ferret-UI 通过学习大量优秀的 UI 界面以及交互设计规则,可以建立起更为标准、更为理性的界面设计通用准则和基础规范。而 AI 对于规则的记忆和掌握也一定比人类开发者和设计师更加轻松,能够最大程度上保证界面设计的规范性。

2. 快速绘制 UI demo 稿或设计稿

通过对大量 UI 界面的理解学习, Ferret-UI 可以相对准确地生产出交互设计界面,以满足产品的基础版本,提升产品的产研和设计效率。

3. 评估检验 UI 设计的问题和质量

Ferret-UI 可以帮助产品的开发者让和设计师评估 UI 的有效性和界面设计的易用性。你可以将交互界面给 Ferret-UI 进行测试,更快地找出 UI 设计中存在的问题;也可以将设计稿和开发上线后的版本放到 Ferret-UI 进行对比检测,更加快速地完成设计走查。

4. 改变界面的交互方式和使用体验

Ferret-UI 在页面的交互方式上也有着无限的可提升空间:比如对整个 UI 界面进行语音朗读或语音操作指引;对于复杂功能进行讲解等等,这也会为视觉障碍或是认知障碍的用户提供便利。

5. 推动 AI 手机的发展

Ferret-UI 还可以为 Siri 赋能,未来的 Siri 不仅仅能够提供给你想要的信息,还能够理解你的语音指令,并与你手机上的应用程序进行交互,代替你完成相关的操作。未来你可以告诉 Siri:“帮我预订一晚位于上海静安区的酒店,一间双床房加两份早餐,价格不超过 600 元。” Siri 便可以通过 Ferret-UI 的能力与酒店应用或是旅行应用进行交互,自动完成酒店的预订。

我们可以推测,未来的iPhone+AI系统,AI将可直接读取识别用户界面上的信息,让Siri自主在APP内选择图标按钮元素,并为用户在APP内代理执行各项操作。无论对于老人小孩,还是残障人士,都将是一大福音。

虽然不知道「Ferret-UI」最终是否会被整合到Siri中,距离6月份的苹果WWDC开发者大会也只剩下不到2个月时间。

但「Ferret-UI」昭示了苹果对于iPhone手机高级交互控制的探索可能性。从中可以窥见下一代苹果OS的底层交互规范设计原则,以及苹果对于「重新定义AI时代手机」的企图心。

您可能有感兴趣的文章
Chat-With-MLX:一个在Mac上集成各种开源模型的聊天界面

Image to Music官网入口 AI图像转音乐生成器在线如何使用地址

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力如何利用率超英伟达Megatron-LM

东方甄选入驻拼多多:农产品销售平台拓展新渠道

Copilot for Finance官网体验入口 AI助手财务自动化软件工具在线如何使用地址