当下最火的「长文本」来力嘞!
谷歌最牛的大语言模型Gemini 1.5 Pro,即日起对外开启公测。
目前使用是完全免费,开发者可以通过API调用的方式免费体验,普通用户也可以直接在谷歌的AI Studio中进行体验。
更具有讽刺意味的是,对外发布产品公测消息的谷歌工程师Logan Kilpatrick,不久前还是OpenAI的开发者关系项目负责人,跳槽之后就得到“重用”可谓兵不血刃弑旧主。
划重点!本次更新最令人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。
一句话——无论是学术论文、财报分析师电话会议、谈话电视节目还是TED的长篇演讲,我们不再需要课代表or字幕组,就可以轻松掌握核心内容。
如下图所示:
我们上传了一段谷歌首席科学家Jeff Dean一篇长度大约为117000 Tokens的演讲录音,Gemini 1.5 Pro仅耗时30.8秒就完成了内容解析。
要知道,目前Gemini 1.5 Pro同样支持「长文本」功能,上下文窗口提取100万,这次也直接对外免费开放。
据悉,目前大模型能处理的最长音频约为11小时,最长视频则为1小时,相当够用。
谷歌Gemini 1.5 Pro API免费耍
谷歌这次推出的Gemini 1.5 Pro被定义为「公开预览版」。它主要面向开发者发布,任何人都可通过谷歌AI Studio开发平台申请API的密钥。
你也可以直接在谷歌AI Studio在线开测备受好评的音视频解析功能。
点击AI Studio里边的「Audio」。
我们给Gemini上点狠招——我们上传了比尔·盖茨在1995年做客美国《深夜秀》访谈节目的一段音频,时长为1分钟。
我们没有提供任何暗示性提示词,谷歌Gemini 1.5 Pro就已经听出了访谈双方是什么人物,是什么身份。
并且只花了10秒的时间,就精准整理出了这段对话的核心信息,干脆利落一句废话都没有。
第一次体验,测试表现就令人折服。
接下来,测一个更难的——上传特斯拉前人工智能部门总监Andrej Karpathy的一段长达1小时关于AI大模型的科普讲解。
我们提取音频文件时发现,这则1小时的影片足足有10万多个Tokens。
这个Tokens数据量还是蛮惊人的。
但是难不倒Gemini 1.5 Pro,最终也只花了53秒——一分钟不到,就按要求给出了演讲稿里边的10个亮点分析。
这种「长文本」音频转文本的功能,让我们再也不用大费周章扒文字稿和字幕了。
回到API接口本身。
除了让开发者可以更好地控制音频理解的大模型接口输出,Gemini 1.5 Pro还提供了另外3项功能改进。
①首先是系统指令。
我们可以自定义一些特殊用例,包括它们的角色、输出格式/风格/语气、目标和规则等等。
设置完成后,这个指令就会应用于接下来的整个请求。
示例如下:
②其次是JSON模式。
也就是可以指示模型仅输出JSON对象了,非常方便我们从文本或图像中提取结构化数据。
③再者,函数调用上也有改进。
为了提高可靠性,谷歌Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。
可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)。
最后,还没完,从今天起,开发者还能通过该API调用谷歌的下一代文本嵌入模型:text-embedding-004(又名「Gecko」)。
该模型在MTEB基准上实现了非常强大的检索性能,优于可比维度的所有对手。
谷歌最强大模型,能干的不止文稿分析
为了挑战OpenAI的领导地位,谷歌在2月15日发布Gemini 1.5 Pro,上线距今还不到两个月。
Gemini 1.5 Pro是Gemini Pro 1.0的升级版,多模态多语言大模型。
为了找到对抗GPT-4 Turbo的突破口,其最大的亮点无疑是100万量级的上下文窗口长度——
100万「长文本」Tokens,相当于可一次性处理70万个单词or超过3万行代码,如果折算成音频则大约为11小时,视频则为1小时。
无疑是很大的一个量级,而且谷歌的数据中心有能力支持运转。
官方的演示案例里边使用了阿波罗11号登月项目长达402页的文字记录来展示,可谓「遥遥领先」。
网友也对新的模型分享了一些十分不错的内测表现案例,比如:
帮助鉴定Sora视频是否由AI生成,请列举关键证据——
Gemini Pro 1.5对此回答:「这可能是AI生成的视频,猫咪毛发过于完美。」
大模型还可以在一段NBA扣篮大赛的视频中,判断出谁的扣篮得分最高, 并给出扣篮方式的细节描述。
谷歌Gemini Pro 1.5还支持多个文档同时解读,比如将《星际穿越》和《星际探索》两部电影的完整脚本,合计接近10万个Tokens。
大模型只花了30多秒就给出了两部影片脚本的差异性。
可以说,谷歌整体是没有让大伙失望的。
这还没完,最高能的应用案例来了!
没想到Gemini Pro 1.5还能看懂视频里边的代码脚本,并且给出BUG修改意见——
一位国外网友在编写网页前端代码时故意留下3个BUG。
他将代码编写的过程用手机录制下来,再外加代码库打包成一个文件一并丢给Gemini 1.5 Pro解读。大模型完全正确地给出了三处BUG的正确修复代码。
全网哗然!「长文本」加持的Gemini Pro前途不可限量啊!
随着Gemini 1.5 Pro API的全面开放应用,相信很快就会有牛人打造更强大的AI应用,读懂一切音视频,帮助人类快速迈向「AGI时代」。