大家都在搜索：

谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放！一小时电影“投喂”进去，大模型直出神级影评

2024-04-15 21:07:44 互联网

当下最火的「长文本」来力嘞！谷歌最牛的大语言模型Gemini 1 5 Pro，即日起对外开启公测。目前使用是完全免费，开发者可以通过API调用的方式免费体验

当下最火的「长文本」来力嘞！

谷歌最牛的大语言模型Gemini 1.5 Pro，即日起对外开启公测。

目前使用是完全免费，开发者可以通过API调用的方式免费体验，普通用户也可以直接在谷歌的AI Studio中进行体验。

更具有讽刺意味的是，对外发布产品公测消息的谷歌工程师Logan Kilpatrick，不久前还是OpenAI的开发者关系项目负责人，跳槽之后就得到“重用”可谓兵不血刃弑旧主。

划重点！本次更新最令人期待的是，Gemini 1.5 Pro API首次增加了音频理解功能。

一句话——无论是学术论文、财报分析师电话会议、谈话电视节目还是TED的长篇演讲，我们不再需要课代表or字幕组，就可以轻松掌握核心内容。

如下图所示：

我们上传了一段谷歌首席科学家Jeff Dean一篇长度大约为117000 Tokens的演讲录音，Gemini 1.5 Pro仅耗时30.8秒就完成了内容解析。

要知道，目前Gemini 1.5 Pro同样支持「长文本」功能，上下文窗口提取100万，这次也直接对外免费开放。

据悉，目前大模型能处理的最长音频约为11小时，最长视频则为1小时，相当够用。

谷歌Gemini 1.5 Pro API免费耍

谷歌这次推出的Gemini 1.5 Pro被定义为「公开预览版」。它主要面向开发者发布，任何人都可通过谷歌AI Studio开发平台申请API的密钥。

你也可以直接在谷歌AI Studio在线开测备受好评的音视频解析功能。

点击AI Studio里边的「Audio」。

我们给Gemini上点狠招——我们上传了比尔·盖茨在1995年做客美国《深夜秀》访谈节目的一段音频，时长为1分钟。

我们没有提供任何暗示性提示词，谷歌Gemini 1.5 Pro就已经听出了访谈双方是什么人物，是什么身份。

并且只花了10秒的时间，就精准整理出了这段对话的核心信息，干脆利落一句废话都没有。

第一次体验，测试表现就令人折服。

接下来，测一个更难的——上传特斯拉前人工智能部门总监Andrej Karpathy的一段长达1小时关于AI大模型的科普讲解。

我们提取音频文件时发现，这则1小时的影片足足有10万多个Tokens。

这个Tokens数据量还是蛮惊人的。

但是难不倒Gemini 1.5 Pro，最终也只花了53秒——一分钟不到，就按要求给出了演讲稿里边的10个亮点分析。

这种「长文本」音频转文本的功能，让我们再也不用大费周章扒文字稿和字幕了。

回到API接口本身。

除了让开发者可以更好地控制音频理解的大模型接口输出，Gemini 1.5 Pro还提供了另外3项功能改进。

①首先是系统指令。

我们可以自定义一些特殊用例，包括它们的角色、输出格式/风格/语气、目标和规则等等。

设置完成后，这个指令就会应用于接下来的整个请求。

示例如下：

②其次是JSON模式。

也就是可以指示模型仅输出JSON对象了，非常方便我们从文本或图像中提取结构化数据。

③再者，函数调用上也有改进。

为了提高可靠性，谷歌Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。

可以是文本模式，将生成文本作为输出;也可以是函数调用模式，或者干脆只输出函数本身(不带任何参数或其他信息)。

最后，还没完，从今天起，开发者还能通过该API调用谷歌的下一代文本嵌入模型：text-embedding-004(又名「Gecko」)。

该模型在MTEB基准上实现了非常强大的检索性能，优于可比维度的所有对手。

谷歌最强大模型，能干的不止文稿分析

为了挑战OpenAI的领导地位，谷歌在2月15日发布Gemini 1.5 Pro，上线距今还不到两个月。

Gemini 1.5 Pro是Gemini Pro 1.0的升级版，多模态多语言大模型。

为了找到对抗GPT-4 Turbo的突破口，其最大的亮点无疑是100万量级的上下文窗口长度——

100万「长文本」Tokens，相当于可一次性处理70万个单词or超过3万行代码，如果折算成音频则大约为11小时，视频则为1小时。

无疑是很大的一个量级，而且谷歌的数据中心有能力支持运转。

官方的演示案例里边使用了阿波罗11号登月项目长达402页的文字记录来展示，可谓「遥遥领先」。

网友也对新的模型分享了一些十分不错的内测表现案例，比如：

帮助鉴定Sora视频是否由AI生成，请列举关键证据——

Gemini Pro 1.5对此回答：「这可能是AI生成的视频，猫咪毛发过于完美。」

大模型还可以在一段NBA扣篮大赛的视频中，判断出谁的扣篮得分最高，并给出扣篮方式的细节描述。

谷歌Gemini Pro 1.5还支持多个文档同时解读，比如将《星际穿越》和《星际探索》两部电影的完整脚本，合计接近10万个Tokens。

大模型只花了30多秒就给出了两部影片脚本的差异性。

可以说，谷歌整体是没有让大伙失望的。

这还没完，最高能的应用案例来了！

没想到Gemini Pro 1.5还能看懂视频里边的代码脚本，并且给出BUG修改意见——

一位国外网友在编写网页前端代码时故意留下3个BUG。

他将代码编写的过程用手机录制下来，再外加代码库打包成一个文件一并丢给Gemini 1.5 Pro解读。大模型完全正确地给出了三处BUG的正确修复代码。

全网哗然!「长文本」加持的Gemini Pro前途不可限量啊！

随着Gemini 1.5 Pro API的全面开放应用，相信很快就会有牛人打造更强大的AI应用，读懂一切音视频，帮助人类快速迈向「AGI时代」。

您可能有感兴趣的文章

Chat-With-MLX：一个在Mac上集成各种开源模型的聊天界面

Image to Music官网入口 AI图像转音乐生成器在线如何使用地址

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力如何利用率超英伟达Megatron-LM

东方甄选入驻拼多多：农产品销售平台拓展新渠道

Copilot for Finance官网体验入口 AI助手财务自动化软件工具在线如何使用地址