发布日期:2024-01-11 11:32 点击次数:193
国科大&旷视团队 投稿成都零售业神秘顾客暗访
量子位 | 公众号 QbitAI
念念将一份文档图片诊疗成Markdown神情?
以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个智商——
神秘顾客_赛优市场调研这一次,只需一句话高唱,多模态大模子Vary径直端到端输出收尾:
岂论是中英文的大段翰墨:
照旧包含了公式的文档图片:
又或是手机页面截图:
致使不错将图片中的表格诊疗成latex神情:
诚然,动作多模大模子,通用才调的保握亦然必须的:
Vary发扬出了很大的后劲和极高的上限,OCR不错不再需要冗长的pipline,径直端到端输出,且不错按用户的prompt输出不同的神情如latex 、word 、markdown。
通过大模子极强的言语先验,这种架构还不错幸免OCR中的易错字,比如“杠杆”和“杜杆”等, 关于婉曲文档,也有望在言语先验的匡助下杀青更强的OCR服从。
名堂一出,引发了不少网友的平和,有网友看后直呼“kill the game!”
那么这么的服从,是如何作念到的呢?
受大模子启发打造当前的多模态大模子险些都是用CLIP动作Vision Encoder大要说视觉词表。如实,在400M图像文本对查验的CLIP有很强的视觉文本对皆才调,不错遮蔽宽广时常任务下的图像编码。
然则关于密集和细粒度感知任务,比如文档级别的OCR、Chart和会,异常是在非英文场景,CLIP发扬出了彰着的编码低效和out-of-vocabulary问题。
纯NLP大模子(如LLaMA)从英搽脂抹粉渡到华文(对大模子来说是“外语”)时,因为原始词表编码华文服从低,神秘顾客教程必须要扩大text词表才能杀青较好的服从。
恰是这一本性给商议团队带来了启发。
当今基于CLIP视觉词表的多模态大模子,濒临着雷同的问题,遭遇“foreign language image”,如一页论文密密匝匝的翰墨,很难高效地将图片token化。
而Vary即是这一问题的一种处置决策,它不错在不重建原有词表前提下,高效推论视觉词表。
不同于现存标准径直用现成的CLIP词表,Vary分两个阶段:
第一阶段先用一个很小的decoder-only辘集用自追思格式匡助产生一个纷乱的新视觉词表;
然后在第二阶段和会新词表和CLIP词表,从而高效地查验LVLM领有新feature。
Vary的查验标准和模子结构如下图:
通过在公开数据集以及渲染生成的文档图表等数据上查验,Vary极大增强了细粒度的视觉感知才调。
在保握vanilla多模态才调的同期,激勉出了端到端的中英文图片、公式截图和图表和会才调。
另外,商议团队审视到原来可能需要几千tokens 的页面骨子,通过文档图片输入,信息被Vary压缩在了256个图像tokens中,这也为进一步的页面分析和总结提供了更多的念念象空间。
当前,Vary的代码和模子均已开源,还给出了供全球试玩的网页demo。
感兴味的小伙伴不错去试试了~
模子文献: huggingface.co/DingXiaoH/UniRepLKNet/tree/main
主页: invictus717.github.io/UniRepLKNet/
GitHub(还是放出悉数代码,悉数模子,悉数复推行验剧本): github.com/AILab-CVC/UniRepLKNet
— 完 —
量子位 QbitAI · 头条号签约成都零售业神秘顾客暗访
Powered by 宁波第三方调查公司 @2013-2022 RSS地图 HTML地图
Copyright 站群 © 2013-2022 粤ICP备09006501号