英伟达推出创新AI技术:Llama Nano VL,颠覆性解决复杂文档解析难题

内容摘要英伟达推出创新AI技术:Llama Nano VL,颠覆性解决复杂文档解析难题 随着科技的飞速发展,人工智能(AI)在各个领域的应用日益广泛。英伟达,作为全球知名的图形处理器提供商,近日又推出了一款创新AI技术——Llama Nano VL

英伟达推出创新AI技术:Llama Nano VL,颠覆性解决复杂文档解析难题

随着科技的飞速发展,人工智能(AI)在各个领域的应用日益广泛。英伟达,作为全球知名的图形处理器提供商,近日又推出了一款创新AI技术——Llama Nano VL,该技术以颠覆性的方式解决了复杂文档解析的难题。

Llama Nano VL是一款视觉-语言模型(VLM),基于Llama 3.1架构,融合了CRadioV2-H视觉编码器和Llama 3.1 8B指令微调语言模型。它能够同时处理多页文档中的视觉和文本元素,支持最长16K的上下文长度,覆盖图像和文本序列。通过投影层和旋转位置编码,该模型实现了视觉-文本对齐,优化了token效率,特别适合长篇多模态任务。无论是多图像输入还是复杂文本解析,Llama Nano VL都能游刃有余。

训练Llama Nano VL的过程分为三个阶段。首先,利用商业图像和视频数据集进行交错式图文预训练,为模型打下基础。其次,通过多模态指令微调提升交互式提示能力,进一步增强模型的解析能力。最后,重新混合纯文本指令数据以优化在标准语言模型基准上的表现。这些步骤环环相扣,逐步提升了模型的精度和性能。

训练过程中,Llama Nano VL采用了英伟达的Megatron-LLM框架和Energon数据加载器,依托A100和H100 GPU集群完成。这些强大的硬件设备为模型的训练提供了充足的算力支持。在OCRBench v2基准测试中,Llama Nano VL在OCR、表格解析和图表推理等任务上取得了领先精度。尤其在结构化数据提取(如表格和键值对)及布局相关问题解答中,其表现尤为突出,甚至媲美更大规模模型。

部署方面,Llama Nano VL设计灵活,支持服务器和边缘推理场景。为了实现高效推理,英伟达提供了4-bit量化版本(AWQ),结合TinyChat和TensorRT-LLM。这种方案不仅兼容Jetson Orin等受限环境,还实现了高效的推理。

除了高效的推理方式,Llama Nano VL还支持Modular NIM(NVIDIA 推理微服务)、ONNX和TensorRT导出。这意味着该模型可以被广泛应用于各种场景,无论是服务器还是边缘设备,都能轻松部署。此外,英伟达还通过预计算视觉嵌入选项,进一步降低静态图像文档处理的延迟,为企业应用提供了实用解决方案。

总的来说,英伟达推出的Llama Nano VL是一款具有颠覆性的AI技术。它通过融合视觉和语言信息,优化token效率,提升了多模态任务的解析精度和性能。其灵活的设计、高效的推理方式和实用的部署方案,为企业应用提供了新的可能。未来,随着该技术的进一步发展和完善,我们期待它在更多领域发挥重要作用,推动人工智能的发展。

【以上内容转自“极客网”,不代表本网站观点。如需转载请取得极客网许可,如有侵权请联系删除。】

 

延伸阅读:

面向6G!英伟达CEO黄仁勋:我们有能力同时做“两件事” 绞尽脑汁提升性能:英伟达GeForce RTX 4090D的频率比原版更高

 

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-4

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: