谷歌发布多模态互动服务Gemini Live丨AI手机谷歌Pixel 9系列发布丨快手上线AI陪伴APP「飞船」

互联网2024年8月14日报道丨AI资讯早报谷歌发布多模态互动服务Gemini Live：可实时AI对话，随时打断当地时间 8月 13 日，谷歌在山景城总部

互联网2024年8月14日报道丨AI资讯早报

谷歌发布多模态互动服务Gemini Live：可实时AI对话，随时打断

当地时间 8月 13 日，谷歌在山景城总部举行了今年的 Pixel 9 系列手机新品发布会。发布了 Gemini Live 实时对话服务，将于今天开始率先面向使用英语语言版本的 Gemini Advanced 订阅用户开放。

谷歌表示 Gemini Live 提供了一种随时随地的移动对话体验，让用户可以通过手机上的 Gemini AI 应用展开自由流畅的对话。通过 Gemini Live（内置在 Gemini 应用内），用户可以与 Gemini AI 进行直接的自然语言对话，并从10种自由选择的“自然声音”中选择它可以回应的声音。

Gemini Live 是对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式。后者也采用了增强型的语音引擎，可以展开更连贯、更有情感表达力、更逼真的多轮对话。

谷歌表示，用户与 Gemini 聊天机器人说话时，可以在任何时候打断它发言，并提出后续的问题，聊天机器人会根据实时情况，来适应用户的说话模式。

目前的谷歌 Gemini Live 测试版本里边，暂时还不支持多模态多媒体上传信息提供分析能力。谷歌表示，多模态输入功能将在“今年晚些时候推出”，但拒绝透露更多的具体细节。

谷歌Pixel 9系列手机发布，开启AI手机新纪元

当地时间8月13日，谷歌方面正式发布了最新一代 Pixel 9 系列等多款新品。这是谷歌推出的第二代基于 AI 大模型基础开发的智能手机产品，作为一款“亲儿子”作品，谷歌往上倾注了最大的力量。

两款手机的定价展示如下：

Pixel 9: 799 美元
Pixel 9 Pro：999 美元
Pixel 9 Pro XL： 1099 美元
Pixel 9 Pro Fold：1799 美元

具体来说，Pixel 9/Pixel 9 Pro 系列配备了一块 6.3 英寸 120Hz OLED 直屏，搭载 Tensor G4 处理器，从光学指纹传感器变为超声波指纹传感器，电池容量为 4700mAh。影像上 Pixel 9 后摄搭载 50MP 主摄与 48MP 超广角，Pixel 9 Pro 多一个 48MP 长焦镜头。

在 RAM 方面，两款机型有所不同。Pixel 9 配备 12GB 内存，Pixel 9 Pro 配备 16GB 内存。

Pixel 9 Pro XL 屏幕大小为 6.8 英寸，分辨率比 Pixel 9 Pro 更高，电池容量为 5060mAh，其他配置基本和 Pixel 9 Pro 相同。

Pixel 9 Pro Fold 同样搭载 Tensor G4 处理器，采用 48MP 主摄、12MP 超广角、10.8MP 5 倍长焦镜头。屏幕方面，Pixel 9 Pro Fold 外屏大小为 6.3 英寸，内屏大小为 8 英寸，总体设计上比前代产品更长更薄，折叠后厚度为 10.5 毫米，展开厚度 5.1 毫米，重量为 257 克。

Pixel 9 系列支持卫星通信，在生成式 AI 功能上，这两款手机支持在本地运行的端侧的 Gemini Nano 小尺寸模型，以及 Pixel Screenshots（屏幕回溯）、Pixel Studio 图像生成应用，Magic Editor 图片编辑等功能。值得一提的是，Google 在发布会上强调，Gemini AI 不需要依赖第三方 AI 服务，能够在端侧进行独立的查询。

快手上线「飞船」APP：基于大模型，主打虚拟陪伴

近日，快手公司在AI图文视频生成领域大展拳脚后，有最新发布了名为「飞船」（Kraft）的 AI 虚拟人物对话产品，这是一款类似于 Character.AI 的个性对话软件，提供一对一虚拟对话聊天的情感陪伴服务。

官方介绍称，「飞船」智能助手 App 是一款基于先进 AI 技术的互动软件，旨在提升用户的生活质量和工作效率。用户可以通过文字或语音与 AI 助手进行交流，解答疑问、获得娱乐、进行创作和角色定制等。

用户在飞船平台上扮演“船长”角色，名为快快的 AI 少女领航员引导用户体验，飞船基于快手自研大模型“快意”，更侧重于虚拟陪伴，拥有快速的回复速度和逼真的语音体验。

用户可以在该应用中创建和定制专属 AI 虚拟角色，进行内容创作、知识解答，并具备语音交互功能。

面壁智能小模型MiniCPM-V 2.6登顶GitHub开源大模型榜首

近日，国内 AI 初创企业面壁智能宣布，旗下的小参数大模型 MiniCPM-V 2.6 登顶了知名开源社区 GitHub 的第一位，并且在大模型生态社区 Hugging Face 趋势榜页进入了前三位。

MiniCPM-V 2.6 是一款多模态的开源大模型，不仅是一款性能十分不错的聊天机器人助理，而且在单图、多图和视频理解方面，MiniCPM-V 2.6 的部分性能甚至超越了 GPT-4V，甚至在单图理解上优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等商用闭源模型。

据介绍，MiniCPM-V 2.6 仅 8B 参数，量化后端侧内存仅 6 GB，将实时视频理解、多图联合理解、多图 ICL 等能力搬上了端侧多模态模型，支持多种语言。