嘿,朋友们,今天小墨写这篇评论,主要是聊聊智谱GLM-4.6V这款开源模型火得飞起,表现压箱底儿的牛气,但也有些许小遗憾藏在里面。
AI圈刚传来个大新闻,智谱毫无预料地把备受瞩目的多模态大模型GLM-4.6V系列全都开源了。这一举动一下子让许多开发者纷纷熬夜抢着下载,毕竟能免费用上接近顶级水平的模型,过去想都没敢想。
更令人吃惊的是,去年曾一度火爆的AutoGLM智能体也同时开源了。这款被业内看作“全球第一个拥有手机操作能力的AI Agent”的玩意儿,功能差不多和刚推出技术预览版的豆包手机助手差不多,这下普通用户也能轻松试用了一把。
双版本开源诚意拉满,价格直接打到底
这次智谱一次性推出了两个版本的GLM-4.6V模型,针对性挺强的。基础版GLM-4.6V(106B-A12B)主要面向云端和高性能集群环境,而轻量版GLM-4.6V-Flash(9B)则适合本地部署,特别是满足低延迟应用的需求。
最令人心动的还得说价格实在太有诚意,GLM-4.6V系列比上一代的GLM-4.5V便宜了一半,API调用的输入只要1元百万tokens,输出也就3元百万tokens。轻量版更是直接免费,绝对算是全面又省心的好消息了,特别适合个人开发者和小团队,简直是降维打击的福利啊。
开源的地址挺全面,GitHub、Hugging Face还有魔搭社区都能找到,直接访问httpschat.z.ai 就能马上试用。有个做自媒体的朋友看到消息后,立刻下载安装了轻量版,部署到自己电脑上,不用再烦API调用的花费问题,挺方便的。
说起来,AutoGLM的开源也弥补了手机端AI Agent没有开源资源的空缺。每日经济新闻在12月1日报道,字节跳动刚推出了豆包手机助手技术预览版本,主要是和手机厂商合作一起推动的。
AutoGLM作为较早出现的一款类似工具,现在开源了,开发者们可能会利用它开发出更多符合自己需求的个性化手机助手功能。
性能硬实力够顶,多项测试反超同类模型
GLM-4.6V的表现真挺让人满意的,官方公布的数据也显示它在多模态交互、逻辑推理以及长上下文处理这些核心技能上都达到了最新的水平。这可不是夸夸其谈,有一堆具体的测试结果做保障。
9B版本的GLM-4.6V-Flash在34项测试里,有22项比Qwen3-VL-8B高分。至于106B参数、12B激活的基础版,表现比起参数是它两倍的Qwen3-VL-235B也差不多,也挺厉害的。
它的主要升级真是很给力,最大亮点在于上下文窗口扩大到128k tokens,等于一次搞定150页的文档、200页的PPT,或者一小时的视频内容。更牛的是,首次在模型架构中把Function Call的能力直接融合进视觉模型,让工具调用变得更加顺畅自然。
有个小团队专攻AI办公工具,他们用它来试试处理长文档的能力。上传了三份关于网络平台治理的论文,其中两篇是中文,一篇是英文。接着,让模型帮忙生成学习笔记,效果还挺不错的。
没过三分钟,模型就整理出一份结构明了的笔记,把每篇文章的重点都准确列出来了,英文那份也没有漏掉错误。
在视频理解这块表现得挺不错,上传一段6分48秒的技巧分享视频,用不了几秒钟就能搞清楚视频的思路、叙事手法还有镜头的用法,还能帮你出点成为摄影博主的小建议。
体验藏遗憾,图片显示问题成最大槽点
虽然功能挺强大,但实际用起来总会遇点小麻烦,最明显的还是图片显示方面的问题。官方说它能支持智能图文混排和内容创作,可一试用,发现时不时掉链子,挺让人头疼的。
在智东西的测试里,把GLM-4.5V的技术报告上传进去,它能迅速帮你生成一篇图文并茂的微信公众号文章,大概一到两分钟就搞定了,框架啥的全都有:标题、导语、五个章节和结语。不过呢,不管怎么折腾,那些配图就是显示不出来,挺让人郁闷的。
不仅仅是几家媒体遇到这个困扰,有个科技博主试用长文档理解那块功能,结果生成的学习笔记里,原本应该放图片的地方还是空空如也。除开图片不能显示之外呢,遇到比较模糊的指令,它的理解也会出现偏差,表现得不太准确。
比方说,测试网页复刻功能,比如让它把X平台登录页面的图标X改成Z,结果模型偏偏搞出个向上箭头的样子,搞得挺尴尬的。
还算不错的是,平常的基本功能挺稳妥,就比如识图比价这一块儿,输入“搜索iPhone 17 Pro Max各平台价格”,它能自动整理出一个包含商品链接的比价表,点一下就能直接跳转去买了。
有做电商的朋友试着用它搜《疯狂动物城2》里尼克狐戴的那款眼镜,结果用图像搜索功能,很快就找出了实拍的同款眼镜,准确度还是挺让人满意的。