击败ChatGPT 登顶App Store,Google 这套AI 全家桶,个个都是王炸
创始人
2025-09-15 15:04:24
0

本文来自微信公众号:APPSO (ID:appsolution),作者:AI 有用功,原文标题:《击败 ChatGPT 登顶 App Store!Google 这套 AI 全家桶,个个都是王炸 | 附使用指南》


还以为ChatGPT会一直稳坐第一?这周却来了个反转。


Google Gemini凭借最近爆火的Nano Banana图像编辑,一举登顶App Store免费榜,把ChatGPT挤到第二。


这意味着,Google终于迎来了属于自己的「爆款AI时刻」。


而且,Gemini只是冰山一角。Google手里还有一整套AI工具,从写作、画图,到学习笔记、视频生成,应有尽有。今天就带你开箱Google的「AI全家桶」。


1、Gemini,定位和ChatGPT一样的通用助手


包含了nano banana(近期热门生图模型)、Canvas画布、Veo3视频生成、Storybook故事板、以及Deep Research等功能,目前提供Gemini 2.5 Pro和Flash两个模型。


体验地址:gemini.google.com


2、NotebookLM,能深入研究的知识库


最多可上传300个文件,能将文档总结为音频、视频、思维导图等六种类型,是学习和研究的最佳利器。


体验地址:notebooklm.google


3、Flow,高质量的视频生成


支持竖屏9:16、1080p高清,价格更低,免费用户每月送100积分。


体验地址:flow.google


4、AI Mode,搜索也有了推理和思考能力


在Google搜索输入框就能直接开启,获取比AI Summary/Overview(总结)更严谨和翔实的结果;目前支持英文等五种语言(但目前不包含中文)。


体验地址:google.com/ai


5、Gemini CLI,一个万能的本地助手


不只是开发工具,还能下视频、转GIF、压缩文件。


6、AI Studio和Labs Google


其他有意思的小工具,生成一段音乐,简单学习一门新的语言,体验最新、最全的Google大语言模型……


体验地址:ai.dev和labs.google


Gemini:不只会聊天,更是全能工作台


近期爆火的nano banana,最主要的官方渠道除了网页版,就是Gemini App。


但如果你只拿Gemini来P图,那就太浪费了。它和ChatGPT一样,补齐了跨对话的「记忆」功能,并能与Google生态无缝衔接。


Gemini的「记忆」功能


对我而言,这个关键更新,加上教育邮箱赠送的Pro会员,足以让我将大部分日常对话转移过来。


Google最近更新了Gemini免费和付费用户具体的使用限制。免费用户使用Gemini 2.5 Pro和Deep Research的次数有限,但是nano banana的单价非常便宜,所以免费用户也有慷慨的100张生成机会。


图片来源:https://support.google.com/gemini/answer/16275805


Gemini 2.5 Pro最大的优点是,每个回答都会有像DeepSeek一样清晰的推理过程,但是速度要快上不少。这在ChatGPT更新到GPT-5之后,采用全新的路由控制,自动选择模型,优势更为明显。


因为ChatGPT有时候判断不了,我到底希望他使用什么模型来回复;而我的表达,也不是每一次都能清晰地,让模型知道我的意图。



不过,更会聊天的代价是更不会干活,和LMArena显示的排行榜一样,文本能力第一,但是网页的开发能力不及GPT和Claude。好在这些天,Google也是狂给Gemini打补丁,在软件交互上,用户体验越来越好。


例如,在网页开发方面,Gemini Canvas现已支持直接点选应用中的某个元素,用自然语言即可进行修改。


Canvas画布和ChatGPT的画布预览是一样的功能,都是非常直观地,把我们的创意,变成应用程序、游戏、信息图表等内容。


Gemini画布新增功能,选择并询问。现在只需点击元素并描述所需更改,即可直观地编辑您的网页应用的任何部分。图片来源:https://x.com/GeminiApp/status/1965475292526551105


其次,Gemini终于支持上传音频文件。这意味着,会议录音、采访视频等包含丰富上下文的材料,可以直接交给Gemini处理,省去了手动整理和编写复杂提示词的麻烦。


最新消息,根据flowith创始人Derek Nee和Gemini 3工程师团队的交流,他发X透露,Gemini 3.0 Flash的能力将会超过2.5 Pro。


和ChatGPT使用的条件类似,Gemini对Google账号的归属地可能有额外的限制。


体验地址:gemini.google.com


NotebookLM:你的最佳个人知识库


收藏了一堆英文长文、书摘,结果总是「下次再看」?NotebookLM就是专门拯救这些吃灰资料的。


你只要把几篇文章、报告甚至书摘丢进去,它就能:


自动帮你提炼要点,生成一份条理清晰的学习笔记;


如果你喜欢可视化,还能直接画成思维导图,让你一眼看懂文章框架;


想进一步学习?它还能基于这些资料出小测验,逼你复习巩固。


举个例子,我之前用它来整理过论文,NotebookLM最多支持上传300个文件,支持的文件类型也很丰富,PDF、txt、Markdown、和音视频文件,它都能识别。


我将297篇同一研究领域的论文上传,NotebookLM能完全基于这些文件,生成多种形式的内容总结。


向左滑动查看更多内容,文字报告、播客预览、视频介绍、思维导图、闪卡和小测验六种形式


播客和文字报告,是NotebookLM里面最早提供的选项,现在它们也得到了优化。


文字报告可以选择,直接生成为博客、说明文档、指南等类型,甚至NotebookLM会根据知识库里面的资料,提供动态建议;例如,上传论文可能会建议创建白皮书,而新闻类文章可能会生成解释性内容;自定义的提示现在也被允许。


上下滑动查看更多内容,NotebookLM生成的博客文章


而音频播客现在更是支持80多种语言,播客类型也从概述到深入,进一步扩展到辩论和批判性思考等多种类型。


新增的视频、Quiz测验和Flashcard闪卡,是我非常喜欢的功能,无论是帮助我消化这些知识,还是做进一步的内容传播,NotebookLM都非常有用。


但论文的研究终究是比较小众的场景,我们只是借着论文来介绍NotebookLM的功能。对于学生和研究者来说,这绝对是Google AI里最值得安利的工具之一。


在更普遍的应用场景中,它能胜任任何类型的知识库构建。像是NotebookLM官方给出的使用案例,上传了多家公司一季度的财报,我们可以透过思维导图,一次性清晰的了解财报的具体内容。


还有NotebookLM与OpenStax(免费教科书提供平台)合作,将它们受欢迎的内容,转化成交互式笔记本,包括生物学、化学、心理学、以及管理学等主题笔记本。


在这个心理学知识库中,每一章节都配有小测验和记忆卡片,帮助我们巩固所学知识点。


https://notebooklm.google.com/notebook/90a2ee5f-cccb-4c28-a356-bb1682cc8aeb


小测验和闪卡的主题、难度都是可自定义的。而且,无论是闪卡还是测验,只需点击解释,就能深入探索当前的话题;NotebookLM会生成详细的概述,帮助我们理解闪卡定义,或解释为什么答错某道题,并附有引用指向原始资料。


体验地址:notbooklm.google


Flow电影级AI视频生成


AI视频热度虽高,但能用它做什么?始终是许多人心中的疑问。我们介绍过多个AI视频生成模型,不少读者也曾留言:这种AI视频,究竟是给谁看的?


在Gemini里面,直接使用Veo 3视频生成,Veo 3目前仅支持首帧,首尾帧需要Veo 2。


Google的更新或许给出了部分答案:支持竖屏(9:16)和1080p高清。这无疑是为抖音、YouTube Shorts、Reels等短视频社交媒体平台量身定做。


Veo 3近期更新,Veo 3 Fast从0.4美元每秒降价到0.15美元每秒,以及支持9:16、1080p等。图片来源:https://x.com/GoogleAIStudio/status/1965436154762920074


如今AI视频已成为一种新的内容消费品,与其被动观看,不如亲自上手一试。


提示词:Ultra-realistic cinematic video of Shanghai,famous landmark Tower.Shot in vertical 9:16 format,travel vlog style,smooth camera motion,dynamic lighting,vivid colors,highly detailed,immersive atmosphere,no text,no watermark.



除了Sora、可灵、海螺这些比较热门的视频生成模型,Google的Veo 3一直在大模型竞技场,文生视频类别下,名列前茅。


前些时间爆火的第一视角穿越、ASMR切水果,金属、兔子蹦床的夜视监控等视频,都是使用Veo 3生成的。


提示词:50mm camera,close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board.The inside of the fruit is glass as well with a little bit of melting glitter.The entire scene is soft lit from the above.


不过,提示词的优劣,是决定视频质量的关键瓶颈。例如上面这个视频,我们就是直接借鉴了Google的官方案例。


他们解释,好的提示词,包括三个部分,首先是「50mm相机、特写镜头」指定了相机;接着中间一大段用来提示对象和具体的视频内容;最后一句话是进一步明确灯光和纹理。


Flow对网络要求比较严格,一般在Gemini网页或者App内使用同样足够。


体验地址:flow.google


AI Mode支持除英文外更多语言


搜索是最大的流量入口,因此AI浏览器成了大模型厂商的必争之地,尽管这条路并不好走。


Arc项目宣布停止后,重启的Dia浏览器也在前几天,被Atlassian以6.1亿美元收购。路不好走的原因倒不是因为没有利益,而是太多巨头想要吞下这块香饽饽了。


微软在上个月宣布自己的Edge升级为AI浏览器,Copilot无缝接入到浏览器的每个角落,预订餐厅和机票、跨越标签页的整理总结等等。OpenAI在之前推出ChatGPT agent时,也被爆料要做自己的AI浏览器。


Google当然也不会停下脚步,和我们平时用Google搜索时看到的AI Overview不一样,AI Mode更像是一份深度研究报告,它会利用Gemini 2.5的高级推理和多模态能力,来处理我们的查询输入。


例如当我问他iPhone Air的esim卡到底是怎么回事时,它会自动根据网页内容进行整理,给出更准确的答案。


点击上方All,则可以切换回普通的Google搜索


不过AI Mode有一个缺点,是目前它还不支持中文。但前几天,Google已经宣布支持日语、韩语、以及葡萄牙语等五种语言。他们提到构建一个全球化的AI搜索不仅仅是翻译,所支持的语言,应该具有本地相关性和实用性。


体验地址:google.com/ai


Gemini CLI下载视频,转文件格式,统统交给它


Claude Code断供完全没关系,Gemini CLI是真的好用。


之前我们说用这种终端工具来修改文件名,其实是最「弱」的用法了。我最近X视频、YouTube等视频下载;视频转GIF以及各种格式转换;图片压缩、视频压缩,全部交给Gemini CLI。


Gemini CLI的安装流程相当清晰,即便遇到环境配置问题,如今的AI也能提供可靠的解决方案。


前期的麻烦点主要集中在安装Node.js上,对Windows用户来说,终端使用没有macOS和Linux友好,所以是需要一点耐心的。


Node.js安装完成之后,按照GitHub上指引,运行npm/npx命令就可以安装Gemini CLI了。


在终端里面输入gemini,会提示我们进行验证,一般登录Google验证就可以,不需要去额外创建Gemini API之类的操作。免费用户每分钟有60次请求,每天1000次请求,应付日常的简单工作流是足够的。


终端里面有一些非常基础的命令,因为我们打开终端的时候,默认的文件夹是可能是整个电脑的文件,如果直接输入gemini,它检索文件会比较麻烦。


正确的操作是,一些基础命令输入ls:会列出当前目录下的所有文件和文件夹;cd xxx:进入某个文件夹;mkdir xxx:创建一个文件夹。


向左滑动查看更多内容,例如第一步我们打开终端,输入ls,可以看到当前目录下所有的文件和文件夹;接着我们选择一个文件用来处理,此次需要Gemini的项目文件夹。输入cd Downloads,可以看到%前面有当前目录Downloads的名字。接下来,我们创建一个文件夹,mkdir testing,然后再进入这个目录,cd testing。当然也可以直接选择一个文件夹,鼠标右键,在终端中打开。输入gemini,它就正式接管了我们的终端,我们接下来就能用自然语言,处理许多复杂的任务了。


向左滑动查看更多内容,拿下载一个X的视频举例,首先它会搜索,找到一个yt-dlp的工具,可以用来下载视频;接着,它会自动检查我的电脑,是否有安装这个工具。检测到有安装之后,视频就开始下载了。


这是调用了yt-dlp工具,而在终端环境里面,还有非常多高效的工具,例如FFmpeg,它是一款处理多媒体内容的强大工具。


向左滑动查看更多内容,输入指令后,Gemini CLI会直接说它需要yt-dlp和ffmpeg这两个工具;然后会自动调整分辨率和帧率,以符合我提出的最终文件大小,最后它会删除过程中的临时文件。


我们继续用X视频举例子,这次直接要求他把这个链接的视频下载为一个GIF文件,并且确保GIF文件的大小在5-10 MB之间。


除了从网络上下载文件,Gemini-CLI也可以直接处理本地文件,例如我有一张图片的大小,不符合平台上传规范,我告诉它文件名,然后要求它压缩,过程中完全不需要去找任何的在线工具。


向左滑动查看更多内容,可以用模糊语言指定图片位置,顺利定位到图片,它会使用ffmpeg工具来进行压缩。不过最后它把我的原文件删掉了,当我告诉他要求找回时,它会修改自己的gemini.md配置文件——这相当于它的「记忆」,它会记住这次教训,确保未来不再犯同样错误。


命令行工具的种类丰富,几乎大部分的文件都能处理,甚至有时候遇到一些压缩包不能解压,直接让Gemini CLI来处理,而不需要额外去下载对应的解压工具。


再结合MCP(大模型上下文协议,连接不同数据的万能接口),Gemini CLI能做的,远远不止是编程开发。


体验地址:


https://github.com/google-gemini/gemini-cli


AI Studio和Labs Google:前沿AI试验场


Google Labs汇集了许多尚未正式发布的AI黑科技产品,像AI Mode、NotebookLM目前都还是实验室产品,不过他们名声比较大。


我们也选择了几个有意思的小项目,虽然背后的模型都是同一个Gemin 2.5 Pro/Flash,但是可以看看模型之上,不同的软件形态。


首先就是Whisk,这个主打不需要提示词,上传照片尽情玩耍的图片生成工具,现在还新增了animate动画的功能,直接将生成的图片转成一段视频。


地址:https://labs.google/fx/tools/whisk


还有学习一门语言的Little Language Lessons,它特别的地方,是让我们快速在Gemini构建的一系列小实验里面,学习一门新的语言,直接在现实场景中应用,还能学习各种俚语表达。


我拿粤语试了一下,至少不是多邻国里面,来来回回的肠粉和豉汁排骨了。


Google实验室还有非常多的项目,体验地址:labs.google


讲了通用大模型Gemini 2.5 Pro、图像编辑nano banana、视频生成Veo 3,怎么可以没有Imagen 4。


Imagen 4官方渠道目前是只能透过Gemini API和AI Studio两种方式体验,即便Google Labs里面有专门生图的工具,ImageFX,但是使用的模型依旧是Imagen 3。


AI Studio能做的,就是体验到Google最新最全的各种模型。而且,在AI Studio里面的对话,提供了「分支」功能,我们可以保留现有对话的前提下,开启另一个新的话题。


地址:ai.studio/ai.dev


前段时间,马斯克还在X上和奥特曼互撕,直接开骂,Apple和奥特曼有私下交易,不然他的Grok怎么登顶不了排行榜第一,凭什么一直都是ChatGPT。


这一番开箱下来,似乎能看到一点Gemini「凭什么」的端倪。


Google AI几乎是用一套完整的工作流,无缝融入我们的学习、工作和创作之中。从整理资料到激发创意,再到解放双手,这套全家桶的核心,是希望实实在在地提升每个人的生产力。


你最常用或最想尝试的是哪一个?有什么问题可以在下面留言。


欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知


我们正在招募伙伴


简历投递邮箱hr@ifanr.com


✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...