体验完杨植麟公司的新模型,发现这KimiChat连家谱都敢读了

转载
389 天前
8808
AIGC一大队

文章转载来源:AIGC一大队

原文来源:GenAI新世界

图片来源:由无界 AI‌生成

完了,又多了一个大模型能看懂我身份证了?

最近,杨植麟的创业公司月之暗面(Moonshot AI)发布了新版本模型moonshot-v1-20231225。

长长长长长的 Kimi Chat 第一次上新了。

图源:Kimi Chat

点开Kimi Chat发现,它回复速度好像比以前快了,网页端多了个浅色模式(月之亮面?),但最重要的是,它能读PDF扫描件了!

啥意思呢,就是我把我身份证的照片发给他,它直接给我把家庭住址择出来了,你要让它按姓名、出生日期...列成张表,它还能给你整的挺规矩。

月之暗面自己的描述是这样:

  • 我们实现了从扫描件(文档、合同、白板等等)提取文字的功能。目前已支持 PDF 格式的扫描文件上传解析。
  • 比如可以提取白板上的手写内容。

在一段演示视频里,使用者给Kimi Chat发了一张关于它这次新功能介绍的草图,然后Kimi chat看着这个手写草稿,直接转换成了一个信息表格。

在这之前,Kimi Chat的人设是“长”,能一口气读20万汉字。现在它能读扫描件了,论文、手稿、盗版书(不是),想象空间又变大了。

这么说吧,做扫描全能王起家的那家公司,去年营收10个亿,今年要在上交所上市了。

但这能力到底有没有说的这么好,得试试。我先扔了一份浙江省高院发布的《关于规范律师调查令制度的办法》的扫描件给它,看Kimi Chat能不能帮我理一下这份20页文件的大致内容,效果还不错:

图源:Kimi Chat

接着我继续问,这份文件里“浙江省高级人民法院关于规范律师调查令制度的办法”目录下,第五条写的是什么。先说谜底:

图源:《关于规范律师调查令制度的办法》

Kimi Chat找到了精确位置,第一遍没答完整,第二遍就全对了:

图源:Kimi Chat

严肃的测试到此为止,然后我扔给了它一张即刻用户@我有猫之狸宝儿de麻麻贴出的手稿,让它帮我整理成一份更清晰的表格:

图源:即刻用户@我有猫之狸宝儿de麻麻

这手稿讲的什么,肯定有人一眼就能看出来。如果没看出来的话,跟着Kimi Chat的思路试试:

图源:Kimi Chat

它一眼就看出这是一份家族谱系了,然后我顺着继续问它如何理解这份族谱。让我惊讶的是,它已经隐约判断出这是一个文学作品中的虚构家族,并且在其中看到了世代传承的复杂性,甚至一些悲剧元素。

合理猜测,Kimi Chat可能已经在背后对这些名字完成了一些搜索的动作,但这族谱到底出自何处,它没有给出判断:

图源:Kimi Chat

不过,当我告诉它这份族谱出自一个“文学名著”,有个这个关键的限定词,它完全推理出了准确答案(我很怀疑它早就知道了)——《百年孤独》:

图源:Kimi Chat

到这儿我、或许有一些人会有疑问,对于大模型来说,读图片(JPEG)和读PDF的区别到底是啥,谁更难?

我拿这个问题问GPT-4,对于GPT-4或者所有基于文本预训练的大模型来说,处理PDF文件比JPEG文件更加直接和简单,下面是GPT-4的回答:

对于GPT-4这样的大型语言模型来说,处理JPEG文件和PDF文件在技术上存在显著差异,而且难度也不同。

处理JPEG文件:

  • GPT-4本身是一个以文本为基础的模型,它并不直接处理图像数据。因此,对于JPEG这样的图像文件,GPT-4无法直接解读图像内容。
  • 如果要让GPT-4处理JPEG文件,就需要先将图像内容转换为文本描述。这通常涉及使用计算机视觉模型来识别图像中的元素并将它们转换为文本描述,然后这个描述可以被GPT-4处理。

处理PDF文件:

  • PDF文件处理对于GPT-4来说相对更直接,因为PDF文件通常包含大量的文本内容。GPT-4可以处理这些文本信息,进行理解、生成回应或进行其他文本相关的任务。
  • 然而,如果PDF文件中包含图像、表格或复杂的格式化布局,这些非文本元素就可能难以被GPT-4直接处理。在这种情况下,可能需要使用OCR技术将非文本内容转换为文本,或者进行特定的格式处理,才能有效地利用GPT-4。

所以在难度上,对于大语言模型来说,直接处理PDF文件还在模型的直接能力范围里,处理JPEG文件需要图像到文本的转换,这需要多模态能力的介入,使得整个处理过程更为复杂和曲折。

这也能解释为什么当我尝试给Kimi Chat一张图片,它好像仍然在用读“文档”的逻辑理解这张图。我拍了一张Manner咖啡的杯套,图片是这样的:

图源:油醋

Kimi Chat完全读懂了这个杯套上的文字内容,并且从这些字眼里推测出了这个物件来字咖啡或饮品店的杯状饮品身上:

图源:Kimi Chat

但它无法识别图案,就没法识别这到底是一家咖啡店还是奶茶店的杯套——它似乎本能的跳过了符号化的部分。但当我给了它一点“观察图中符号”的倾向,它开始把注意力放在画面里的图形部分,最终——在Manner的标志里找到了“Manner”这几个字:

图源:Kimi Chat

Bingo!

给Kimi Chat累够呛,就是咖啡凉了。