来源:沃垠AI
这篇文章,由AI一键直出⬆️今天,智谱发布并开源了GLM-4.6V多模态模型,一个是向云端服务的106B基础版,一个是面向本地部署的9B轻量版。
模型下载:
https://huggingface.co/collections/zai-org/glm-46v
API调用平台:
https://www.bigmodel.cn
MCP调用入口:
https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server
开头这篇文章,便是由GLM-4.6V-106B直接生成。
可以看到,GLM-4.6V除了在视觉理解上能够“看懂”多模态内容外,还具备工具调用能力(Function Call)能够直接做“执行”。
官方说,这是一个原生具备多模态工具调用能力的模型。比如,可以处理图文混排、识图购物、导购以及各种Agent场景的复杂视觉任务。
省流:感知→理解→执行,都在一个推理链里完成,无需外部工程化。
一手实测
我知道,这么说,你可能还是没懂。下面,我们来看点实际的。
打开Z.ai,选择模型“GLM-4.6V”,根据任务需要选择合适的工具,开启“深度思考”,进行体验。
这里,简单分享几点技巧:
①建议所有场景都开启深度思考,除非是明确的简单行为,比如OCR识别。
②不需要把所有工具都勾选,建议根据自己的任务情况来选择。比如coding任务,它不太需要图像处理、图像搜索和购物搜索,那就把4个工具都关掉。
③如果不知道自己需要什么样的工具,可以点下方的胶囊入口。
这里内置了6个场景:识图搜图、图文扫描、文档解读、视频理解、商品比价和数理解题。
1)复刻网页
我们先来复刻一个网页,比如复刻抖音电脑版。
请给我这个网页截图的HTML Code,如果网页包含图片素材,一定要给我图片,不要用Placeholder替代。
这是成品,跟抖音网页版几乎一模一样。
复刻小红书。
提示词:复刻这个网页。如果网页包含图片素材,请联网搜索与内容适配的图片进行替代,不要使用占位图。
复刻OpenAI News。
提示词:请给我这个网页截图的HTML Code,如果网页包含图片素材,一定要给我图片,不要用Placeholder替代。个人体验来看,GLM-4.6V的前端能力离Gemini 3 Pro还差了那么一点。但话又说回来,又有谁的前端能力能比得过Gemini 3呢?
不同的是,GLM-4.6V的前端复刻支持多轮视觉交互修改,可以在生成的网页截图上框选区域进行修改,比如“把这个按钮向左移一点,颜色改为橘红色”。
案例来自官方视频
2)文档解读+写作
之前,很多模型一直解决不了的图文同时输出能力,GLM-4.6V这次做到了。
比如,我们拿一份Transformer论文给它,然后输入提示词:
根据附件论文,写一篇图文并茂的微信公众号文章来介绍这篇论文,语言要通俗易懂、生动有趣,尽量让小学生也能听懂。使用图文并茂的markdown格式输出。
然后,就得到了一篇图文并茂的公众号文章。
所有配图都来自论文中的真实架构图和图表,不是生图,也不是联网找图。而是模型自己定位内容所在的页面和区域,然后调用工具进行截图和嵌入,输出图文并茂的文章。
从对信息的理解,到工具的调用,到内容的生成,均由GLM-4.6V在同一推理链路内完成。
在我见过的VLM模型中,GLM-4.6V应该是第一个做到的,非常牛逼。
它的场景非常丰富,特别是对于我这样还在坚持图文创作的博主来说,非常受用。
比如,我们可以让它对比论文。
提示词:根据这两篇论文的图表,对比一下Transformer 和 ViT 模型的差异,并思考和阐述下一步改进 ViT 模型的思路。
又比如,让它直接搜索《疯狂动物城2》,生成一篇图文并茂的影评文章。
3)商品比价
最近,为了更快的vibe working,特地买了一个麦克风接电脑上,可以更快的口喷文章、口喷代码需求。
正好,让GLM-4.6V帮我比下价,查下大家的评价。
这信息找的,还挺准的。感觉,我以后都不用逛购物平台了,直接问它就行。
4)识别疑难杂字
豆瓣上有个小组,叫「史上写字最烂小组」,里面的字个个奇葩,但又个个真实。
毕竟,这世上能写出好看、齐整字的人,本就凤毛麟角。相反,那些写出烂字、疑难杂字的人,才是更普遍的大多数。
比如,这位爷爷在ICU留下的字,就直接把我干沉默了。
沉默的原因在于,一是我也猜不出这是什么字,二是问了GLM-4.6V也不行,遗憾未能帮到这位朋友。
但这些字,对于GLM-4.6V来说,就小菜一碟了。
比如这个,如果我没有背过“君不见”这几个字,我还真不知道他在说什么。
发给GLM-4.6V,一下子把全文写出来了。
看到这,我相信你可能也有和我一样的疑问:是不是因为模型背过这首诗?所以能秒懂。
于是,我又换了张图。说实话,我根本不懂他想表达什么。
发给GLM-4.6V后,这下终于懂了。
5)地图推理
这是我11月去北京在大聪明的酒吧拍的。
问GLM-4.6V,轻松推导出是在北京中关村创业大街。
这是我10月去昆明拍的。
它也能轻松推理出是昆明老街,完全正确。
提示词:你正在参加一场地图推理游戏,附件的图片是我11某个早晨在飞机上拍摄的,请尽可能地推导出图片所在的位置,我要具体的、详细的位置,比如某某路或者某某街区。
6)图片反推
这是来自沃垠AI群里的一张图片,用户用NBP生成的,拿来上课非常好使。
我试着用GLM-4.6V反推了一下提示词。
得到提示词:
Traditional Chinese ink - wash style educational infographic titled "Water Journey: Chinese Vocabulary Memory Aid", illustrating the water radical (氵) through nature. Features a flowing river (江, Jiāng - River), river (河, Hé - River), lake (湖, Hú - Lake), ocean (海, Hǎi - Ocean), and swim (泳, Yǒng - Swim) with Chinese characters, pinyin, and English translations. Includes mountains, pine trees, waterfalls, clouds, small boats, and swimmers. Soft pastel color palette with beige background, blue water, earthy mountain tones. Composition shows water flow from river to lake to ocean, with arrows indicating direction. Detailed landscape with traditional Chinese artistic elements, suitable for language learning.
中文:传统中国水墨风格教育信息图,标题为“Water Journey: Chinese Vocabulary Memory Aid”(《水之旅:中文词汇记忆辅助》),通过自然展示水部首(氵)。画面包含流动的江(江,Jiāng - River)、河(河,Hé - River)、湖(湖,Hú - Lake)、海(海,Hǎi - Ocean)和游泳(泳,Yǒng - Swim),配有汉字、拼音和英文翻译。包含山脉、松树、瀑布、云朵、小船和游泳者。柔和的 pastel 色彩,米色背景,蓝色水域,土色调的山脉。构图展示水流从河流到湖泊再到海洋,箭头指示方向。细节丰富的景观,具有传统中国艺术元素,适合语言学习。
发到即梦上,没想到直接就生成了类似的图。
以后,用GLM-4.6V做反推真的太容易了。
7)视频理解
我把GLM-4.6V官方介绍视频里的多个功能,用3倍速剪在了一块。
发给GLM-4.6V问:这支视频讲了什么?
GLM-4.6V的回答还是挺准的,而且精确定位到了帧数。
写在最后
从个人实测来看,GML-4.6V的工具调用能力(Function Call)非常出色,而且是原生就支持。
做到了「图像即参数,结果即上下文」。
虽然在一些能力上(比如写作、前端)还达不到顶尖,这需要更强力的基模,但这一手工具调用能力就已经是很多VLM不能比的了。
所以,这是一个天然适合做Agentic基座的模型,可以为真实业务场景赋能。
自GLM-4.6以来,我们看到,智谱正在开发者生态爆发相当大的潜力。
今天,又一个强力VLM模型来袭,而且已经加入智谱Coding Plan。
而这,只是智谱开源周的Day 1。
说实话,有点期待接下来的几天了。
特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。