击败ChatGPT 登顶App Store，Google 这套AI 全家桶，个个都是王炸_资讯

击败ChatGPT 登顶App Store，Google 这套AI 全家桶，个个都是王炸

创始人

2025-09-15 15:04:24

0次

本文来自微信公众号：APPSO （ID：appsolution），作者：AI 有用功，原文标题：《击败 ChatGPT 登顶 App Store！Google 这套 AI 全家桶，个个都是王炸 | 附使用指南》

还以为ChatGPT会一直稳坐第一？这周却来了个反转。

Google Gemini凭借最近爆火的Nano Banana图像编辑，一举登顶App Store免费榜，把ChatGPT挤到第二。

这意味着，Google终于迎来了属于自己的「爆款AI时刻」。

而且，Gemini只是冰山一角。Google手里还有一整套AI工具，从写作、画图，到学习笔记、视频生成，应有尽有。今天就带你开箱Google的「AI全家桶」。

1、Gemini，定位和ChatGPT一样的通用助手

包含了nano banana（近期热门生图模型）、Canvas画布、Veo3视频生成、Storybook故事板、以及Deep Research等功能，目前提供Gemini 2.5 Pro和Flash两个模型。

体验地址：gemini.google.com

2、NotebookLM，能深入研究的知识库

最多可上传300个文件，能将文档总结为音频、视频、思维导图等六种类型，是学习和研究的最佳利器。

体验地址：notebooklm.google

3、Flow，高质量的视频生成

支持竖屏9:16、1080p高清，价格更低，免费用户每月送100积分。

体验地址：flow.google

4、AI Mode，搜索也有了推理和思考能力

在Google搜索输入框就能直接开启，获取比AI Summary/Overview（总结）更严谨和翔实的结果；目前支持英文等五种语言（但目前不包含中文）。

体验地址：google.com/ai

5、Gemini CLI，一个万能的本地助手

不只是开发工具，还能下视频、转GIF、压缩文件。

6、AI Studio和Labs Google

其他有意思的小工具，生成一段音乐，简单学习一门新的语言，体验最新、最全的Google大语言模型……

体验地址：ai.dev和labs.google

Gemini：不只会聊天，更是全能工作台

近期爆火的nano banana，最主要的官方渠道除了网页版，就是Gemini App。

但如果你只拿Gemini来P图，那就太浪费了。它和ChatGPT一样，补齐了跨对话的「记忆」功能，并能与Google生态无缝衔接。

Gemini的「记忆」功能

对我而言，这个关键更新，加上教育邮箱赠送的Pro会员，足以让我将大部分日常对话转移过来。

Google最近更新了Gemini免费和付费用户具体的使用限制。免费用户使用Gemini 2.5 Pro和Deep Research的次数有限，但是nano banana的单价非常便宜，所以免费用户也有慷慨的100张生成机会。

图片来源：https://support.google.com/gemini/answer/16275805

Gemini 2.5 Pro最大的优点是，每个回答都会有像DeepSeek一样清晰的推理过程，但是速度要快上不少。这在ChatGPT更新到GPT-5之后，采用全新的路由控制，自动选择模型，优势更为明显。

因为ChatGPT有时候判断不了，我到底希望他使用什么模型来回复；而我的表达，也不是每一次都能清晰地，让模型知道我的意图。

不过，更会聊天的代价是更不会干活，和LMArena显示的排行榜一样，文本能力第一，但是网页的开发能力不及GPT和Claude。好在这些天，Google也是狂给Gemini打补丁，在软件交互上，用户体验越来越好。

例如，在网页开发方面，Gemini Canvas现已支持直接点选应用中的某个元素，用自然语言即可进行修改。

Canvas画布和ChatGPT的画布预览是一样的功能，都是非常直观地，把我们的创意，变成应用程序、游戏、信息图表等内容。

Gemini画布新增功能，选择并询问。现在只需点击元素并描述所需更改，即可直观地编辑您的网页应用的任何部分。图片来源：https://x.com/GeminiApp/status/1965475292526551105

其次，Gemini终于支持上传音频文件。这意味着，会议录音、采访视频等包含丰富上下文的材料，可以直接交给Gemini处理，省去了手动整理和编写复杂提示词的麻烦。

最新消息，根据flowith创始人Derek Nee和Gemini 3工程师团队的交流，他发X透露，Gemini 3.0 Flash的能力将会超过2.5 Pro。

和ChatGPT使用的条件类似，Gemini对Google账号的归属地可能有额外的限制。

体验地址：gemini.google.com

NotebookLM：你的最佳个人知识库

收藏了一堆英文长文、书摘，结果总是「下次再看」？NotebookLM就是专门拯救这些吃灰资料的。

你只要把几篇文章、报告甚至书摘丢进去，它就能：

自动帮你提炼要点，生成一份条理清晰的学习笔记；

如果你喜欢可视化，还能直接画成思维导图，让你一眼看懂文章框架；

想进一步学习？它还能基于这些资料出小测验，逼你复习巩固。

举个例子，我之前用它来整理过论文，NotebookLM最多支持上传300个文件，支持的文件类型也很丰富，PDF、txt、Markdown、和音视频文件，它都能识别。

我将297篇同一研究领域的论文上传，NotebookLM能完全基于这些文件，生成多种形式的内容总结。

向左滑动查看更多内容，文字报告、播客预览、视频介绍、思维导图、闪卡和小测验六种形式

播客和文字报告，是NotebookLM里面最早提供的选项，现在它们也得到了优化。

文字报告可以选择，直接生成为博客、说明文档、指南等类型，甚至NotebookLM会根据知识库里面的资料，提供动态建议；例如，上传论文可能会建议创建白皮书，而新闻类文章可能会生成解释性内容；自定义的提示现在也被允许。

上下滑动查看更多内容，NotebookLM生成的博客文章

而音频播客现在更是支持80多种语言，播客类型也从概述到深入，进一步扩展到辩论和批判性思考等多种类型。

新增的视频、Quiz测验和Flashcard闪卡，是我非常喜欢的功能，无论是帮助我消化这些知识，还是做进一步的内容传播，NotebookLM都非常有用。

但论文的研究终究是比较小众的场景，我们只是借着论文来介绍NotebookLM的功能。对于学生和研究者来说，这绝对是Google AI里最值得安利的工具之一。

在更普遍的应用场景中，它能胜任任何类型的知识库构建。像是NotebookLM官方给出的使用案例，上传了多家公司一季度的财报，我们可以透过思维导图，一次性清晰的了解财报的具体内容。

还有NotebookLM与OpenStax（免费教科书提供平台）合作，将它们受欢迎的内容，转化成交互式笔记本，包括生物学、化学、心理学、以及管理学等主题笔记本。

在这个心理学知识库中，每一章节都配有小测验和记忆卡片，帮助我们巩固所学知识点。

https://notebooklm.google.com/notebook/90a2ee5f-cccb-4c28-a356-bb1682cc8aeb

小测验和闪卡的主题、难度都是可自定义的。而且，无论是闪卡还是测验，只需点击解释，就能深入探索当前的话题；NotebookLM会生成详细的概述，帮助我们理解闪卡定义，或解释为什么答错某道题，并附有引用指向原始资料。

体验地址：notbooklm.google

Flow电影级AI视频生成

AI视频热度虽高，但能用它做什么？始终是许多人心中的疑问。我们介绍过多个AI视频生成模型，不少读者也曾留言：这种AI视频，究竟是给谁看的？

在Gemini里面，直接使用Veo 3视频生成，Veo 3目前仅支持首帧，首尾帧需要Veo 2。

Google的更新或许给出了部分答案：支持竖屏（9:16）和1080p高清。这无疑是为抖音、YouTube Shorts、Reels等短视频社交媒体平台量身定做。

Veo 3近期更新，Veo 3 Fast从0.4美元每秒降价到0.15美元每秒，以及支持9:16、1080p等。图片来源：https://x.com/GoogleAIStudio/status/1965436154762920074

如今AI视频已成为一种新的内容消费品，与其被动观看，不如亲自上手一试。

提示词：Ultra-realistic cinematic video of Shanghai，famous landmark Tower.Shot in vertical 9:16 format，travel vlog style，smooth camera motion，dynamic lighting，vivid colors，highly detailed，immersive atmosphere，no text，no watermark.

除了Sora、可灵、海螺这些比较热门的视频生成模型，Google的Veo 3一直在大模型竞技场，文生视频类别下，名列前茅。

前些时间爆火的第一视角穿越、ASMR切水果，金属、兔子蹦床的夜视监控等视频，都是使用Veo 3生成的。

提示词：50mm camera，close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board.The inside of the fruit is glass as well with a little bit of melting glitter.The entire scene is soft lit from the above.

不过，提示词的优劣，是决定视频质量的关键瓶颈。例如上面这个视频，我们就是直接借鉴了Google的官方案例。

他们解释，好的提示词，包括三个部分，首先是「50mm相机、特写镜头」指定了相机；接着中间一大段用来提示对象和具体的视频内容；最后一句话是进一步明确灯光和纹理。

Flow对网络要求比较严格，一般在Gemini网页或者App内使用同样足够。

体验地址：flow.google

AI Mode支持除英文外更多语言

搜索是最大的流量入口，因此AI浏览器成了大模型厂商的必争之地，尽管这条路并不好走。

Arc项目宣布停止后，重启的Dia浏览器也在前几天，被Atlassian以6.1亿美元收购。路不好走的原因倒不是因为没有利益，而是太多巨头想要吞下这块香饽饽了。

微软在上个月宣布自己的Edge升级为AI浏览器，Copilot无缝接入到浏览器的每个角落，预订餐厅和机票、跨越标签页的整理总结等等。OpenAI在之前推出ChatGPT agent时，也被爆料要做自己的AI浏览器。

Google当然也不会停下脚步，和我们平时用Google搜索时看到的AI Overview不一样，AI Mode更像是一份深度研究报告，它会利用Gemini 2.5的高级推理和多模态能力，来处理我们的查询输入。

例如当我问他iPhone Air的esim卡到底是怎么回事时，它会自动根据网页内容进行整理，给出更准确的答案。

点击上方All，则可以切换回普通的Google搜索

不过AI Mode有一个缺点，是目前它还不支持中文。但前几天，Google已经宣布支持日语、韩语、以及葡萄牙语等五种语言。他们提到构建一个全球化的AI搜索不仅仅是翻译，所支持的语言，应该具有本地相关性和实用性。

体验地址：google.com/ai

Gemini CLI下载视频，转文件格式，统统交给它

Claude Code断供完全没关系，Gemini CLI是真的好用。

之前我们说用这种终端工具来修改文件名，其实是最「弱」的用法了。我最近X视频、YouTube等视频下载；视频转GIF以及各种格式转换；图片压缩、视频压缩，全部交给Gemini CLI。

Gemini CLI的安装流程相当清晰，即便遇到环境配置问题，如今的AI也能提供可靠的解决方案。

前期的麻烦点主要集中在安装Node.js上，对Windows用户来说，终端使用没有macOS和Linux友好，所以是需要一点耐心的。

Node.js安装完成之后，按照GitHub上指引，运行npm/npx命令就可以安装Gemini CLI了。

在终端里面输入gemini，会提示我们进行验证，一般登录Google验证就可以，不需要去额外创建Gemini API之类的操作。免费用户每分钟有60次请求，每天1000次请求，应付日常的简单工作流是足够的。

终端里面有一些非常基础的命令，因为我们打开终端的时候，默认的文件夹是可能是整个电脑的文件，如果直接输入gemini，它检索文件会比较麻烦。

正确的操作是，一些基础命令输入ls：会列出当前目录下的所有文件和文件夹；cd xxx：进入某个文件夹；mkdir xxx：创建一个文件夹。

向左滑动查看更多内容，例如第一步我们打开终端，输入ls，可以看到当前目录下所有的文件和文件夹；接着我们选择一个文件用来处理，此次需要Gemini的项目文件夹。输入cd Downloads，可以看到%前面有当前目录Downloads的名字。接下来，我们创建一个文件夹，mkdir testing，然后再进入这个目录，cd testing。当然也可以直接选择一个文件夹，鼠标右键，在终端中打开。输入gemini，它就正式接管了我们的终端，我们接下来就能用自然语言，处理许多复杂的任务了。

向左滑动查看更多内容，拿下载一个X的视频举例，首先它会搜索，找到一个yt-dlp的工具，可以用来下载视频；接着，它会自动检查我的电脑，是否有安装这个工具。检测到有安装之后，视频就开始下载了。

这是调用了yt-dlp工具，而在终端环境里面，还有非常多高效的工具，例如FFmpeg，它是一款处理多媒体内容的强大工具。

向左滑动查看更多内容，输入指令后，Gemini CLI会直接说它需要yt-dlp和ffmpeg这两个工具；然后会自动调整分辨率和帧率，以符合我提出的最终文件大小，最后它会删除过程中的临时文件。

我们继续用X视频举例子，这次直接要求他把这个链接的视频下载为一个GIF文件，并且确保GIF文件的大小在5-10 MB之间。

除了从网络上下载文件，Gemini-CLI也可以直接处理本地文件，例如我有一张图片的大小，不符合平台上传规范，我告诉它文件名，然后要求它压缩，过程中完全不需要去找任何的在线工具。

向左滑动查看更多内容，可以用模糊语言指定图片位置，顺利定位到图片，它会使用ffmpeg工具来进行压缩。不过最后它把我的原文件删掉了，当我告诉他要求找回时，它会修改自己的gemini.md配置文件——这相当于它的「记忆」，它会记住这次教训，确保未来不再犯同样错误。

命令行工具的种类丰富，几乎大部分的文件都能处理，甚至有时候遇到一些压缩包不能解压，直接让Gemini CLI来处理，而不需要额外去下载对应的解压工具。

再结合MCP（大模型上下文协议，连接不同数据的万能接口），Gemini CLI能做的，远远不止是编程开发。

体验地址：

https://github.com/google-gemini/gemini-cli

AI Studio和Labs Google：前沿AI试验场

Google Labs汇集了许多尚未正式发布的AI黑科技产品，像AI Mode、NotebookLM目前都还是实验室产品，不过他们名声比较大。

我们也选择了几个有意思的小项目，虽然背后的模型都是同一个Gemin 2.5 Pro/Flash，但是可以看看模型之上，不同的软件形态。

首先就是Whisk，这个主打不需要提示词，上传照片尽情玩耍的图片生成工具，现在还新增了animate动画的功能，直接将生成的图片转成一段视频。

地址：https://labs.google/fx/tools/whisk

还有学习一门语言的Little Language Lessons，它特别的地方，是让我们快速在Gemini构建的一系列小实验里面，学习一门新的语言，直接在现实场景中应用，还能学习各种俚语表达。

我拿粤语试了一下，至少不是多邻国里面，来来回回的肠粉和豉汁排骨了。

Google实验室还有非常多的项目，体验地址：labs.google

讲了通用大模型Gemini 2.5 Pro、图像编辑nano banana、视频生成Veo 3，怎么可以没有Imagen 4。

Imagen 4官方渠道目前是只能透过Gemini API和AI Studio两种方式体验，即便Google Labs里面有专门生图的工具，ImageFX，但是使用的模型依旧是Imagen 3。

AI Studio能做的，就是体验到Google最新最全的各种模型。而且，在AI Studio里面的对话，提供了「分支」功能，我们可以保留现有对话的前提下，开启另一个新的话题。

地址：ai.studio/ai.dev

前段时间，马斯克还在X上和奥特曼互撕，直接开骂，Apple和奥特曼有私下交易，不然他的Grok怎么登顶不了排行榜第一，凭什么一直都是ChatGPT。

这一番开箱下来，似乎能看到一点Gemini「凭什么」的端倪。

Google AI几乎是用一套完整的工作流，无缝融入我们的学习、工作和创作之中。从整理资料到激发创意，再到解放双手，这套全家桶的核心，是希望实实在在地提升每个人的生产力。

你最常用或最想尝试的是哪一个？有什么问题可以在下面留言。

欢迎加入APPSO AI社群，一起畅聊AI产品，获取#AI有用功，解锁更多AI新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

上一篇：顾客吃粉加5勺辣椒引发老板报警，成本3块钱引纠纷

下一篇：不必为CNDOTA的又一个亚军而遗憾了

击败ChatGPT 登顶App Store，Google 这套AI 全家桶，个个都是王炸

相关内容

热门资讯