您当前所在位置:首页 > 宿迁审计高质量发展

本地审计大模型的构建及应用研究探索

  • 发布日期: 2024-07-09
  • 来源:
  • 访问量:1

随着大数据、人工智能等技术的迅猛发展,审计领域也正在经历一场前所未有的技术革新。当前阶段,审计正由依赖个人专业知识和经验进行工作向数据驱动和自动化转变,审计人员利用先进的大数据分析工具处理海量数据,以揭示潜在的审计风险。而近几年随着大模型在多个领域展现出的强大应用潜力和实际效果,如何构建审计大模型,利用大数据和人工智能技术辅助审计应用已成为审计领域亟待探索的重要方向。

一、大模型发展现状

大模型是指具有大规模参数和复杂计算结构的机器学习模型,其本质是一个利用海量数据训练出的深度神经网络模型,其庞大的数据和参数规模使其能够从训练数据中自动学习和发现新的、更高层次的特征和模式,这种独特的能力被称为涌现能力,具备涌现能力的大模型为人工智能的发展注入了新的活力。

2013年起,自然语言处理(NLP)领域迎来了一系列革命性的进展,Word2Vec的问世为计算机理解文本数据提供了全新的词向量模型。随后生成对抗式网络(GAN)的诞生推动了深度学习在生成模型方面的探索。2017年由谷歌公司提出的Transformer架构为大模型的预训练算法奠定了基石。随着OpenAI和谷歌公司分别发布GPT-1BERT,预训练大模型成为NLP的主流。2022年,基于GPT3.5ChatGPT以其出色的自然语言交互和内容生成能力,迅速成为互联网焦点。而2023年发布的GPT-4更是将多模态理解和内容生成推向了新的高度,极大推动了大模型在多个领域的发展应用。

二、审计大模型构建方法

当前市面上常见的如ChatGPT、文心一言等通用预训练大模型均为在线模型,直接使用在线模型用于审计会带来数据隐私安全方面的隐患,因此构建一个可以有效保障数据隐私安全的大模型环境对审计人员来说至关重要。本文充分考虑了审计人员这一需求,依托Langchain-ChatChat开源项目,采用基于开源ChatGLM模型+RAG检索增强知识库结合的大模型构建方式,构建一个本地运行的、知识库可更新使用的审计大模型。

通用预训练大模型的训练数据主要来源于公开渠道,缺乏审计专业知识和私有知识,直接使用难以支撑审计专业知识问答。尽管可以通过重新训练或微调的方式来扩充模型知识库,但这种方法存在诸多不足。首先是需要大量的数据,训练成本高昂且周期漫长;其次是面对审计专业知识的更新难以及时响应,对于知识更新和删除缺乏有效机制;最后是大模型可能出现幻觉,生成与事实不符的内容。

通过使用检索增强技术(RAG)能够在一定程度上解决上述问题。RAG通过引入存储在外部数据库中的知识来增强大模型的问答能力,在大模型回答问题或生成内容之前,RAG会先在外部数据库中检索相关信息,将相似度高的内容返回给大模型,然后大模型再对这些内容进行进一步整理和生成。这种模式不仅提高了输出的准确性和相关性,还有效地避免了因大模型幻觉而产生的不正确的内容。

(一)数据采集与预处理

首先是收集需要用到的各种知识数据,包括各种格式的文本文档数据、以及表格、图片等多模态数据,构建知识库。然后对知识库内数据进行清洗和预处理,包括去除噪声、去除特殊字符、停用词、标点符号,以及进行词干化或分词以减少词汇量。

RAG方法中,大型文档被分割成chunk块进行存储,这种方式一方面有助于提高检索效率,另一方面通过基于特定块的上下文检索方法能够在一定程度上弥补检索精度的不足。本文中采用的文本分割方法是依据中文标点符号设计的重叠滑窗分句法,按字符递归分割文档,同时兼顾被分割文本长度和重叠字符。

(二)建立向量索引数据库

将文档分块以后,需要对每个分块建立索引用于后续检索。建立向量索引是当前最常用的一种方法,首先通过通用语义向量模型将高维度的数据映射到低维空间生成向量表示,再对这些向量进行索引和搜索。需要根据任务的性质和输入数据的特点选择通用语义向量模型,本文中选择的是BGE-M3模型。对分块文档生成向量表示后,存储于Faiss开源向量数据库中,使用时采用计算向量间余弦距离方法检索相似度最高的结果。

(三)选择合适预训练大模型

目前市面上开源的大模型有很多,如QwenllamaBaichuanChatGLM等。结合任务类型、设备算力水平等因素综合考虑,决定使用ChatGLM3-6B模型。ChatGLM3是由智谱AI和清华大学KEG实验室联合发布的新一代对话预训练模型,ChatGLM3-6B是其系列中的开源模型,参数量为60亿量级,按照FP16精度的默认选择进行加载,需要使用约13GB显存和14GB内存

三、审计大模型应用场景

(一)构建审计数据知识库

通过审计大模型,可以构建全面的审计数据知识库,包括审计法规库、审计问题库、审计对象库,为审计工作提供丰富的知识资源。审计人员首先收集国家和地方各级政府、相关领域行业发布的法律法规、政策文件等,通过RAG将收集到的文件保存至向量数据库的审计法规库中,之后审计人员可以通过关键词或短语检索的方式与大模型对话,大模型以向量数据库检索结果作为输入上下文内容进行回答,从而实现对法规条款的检索与解释分析。随着新法规的出台或旧法规的废止,审计人员可以对法规库进行更新,保证法规数据时效性。

审计人员获取历史审计报告、其他审计案例,将其保存至向量数据库的审计问题库,完成数据库初始化后审计人员可以与大模型对话,找出历史审计报告、其他审计案例中相似的审计问题、问题定性及定性依据,帮助审计人员在遇到类似情况下快速识别和防范潜在风险,为审计人员确定问题类型提供重要指引。

通过对历史审计报告、被审计对象基本信息的关系图谱分析,将过往审计报告发现问题、被审计对象情况、信息数据动态更新情况等进行采集存储,构建审计对象库,为被审计对象建立精准画像,为审计计划、实施方案、事项审计提供依据。

(二)审计知识智能问答

审计大模型作为智能助手,能够提供快速且准确的知识问答服务。给定大模型一个审计目标,大模型可以详细阐述审计事项及具体方法步骤,交互式引导审计人员进行操作。大模型还可以提供类似场景的案例分析方法,帮助审计人员了解不同场景下的具体实施方法。

针对审计中发现的疑似问题,大模型可以对疑似问题进行自动或半自动的定性,包括问题的重要性、可能的原因等。通过使用知识库问答的模式,在给出问题定性时大模型还能够给出相关的法规依据,为审计人员提供针对性的处理意见或解决方案,极大方便了审计人员查找定性依据,同时可以有效避免大模型幻觉问题。例如在开展某专项审计项目中,审计人员将前期收集各领域共计100余份法规政策文件分块存入向量数据库中,再通过大模型的知识库问答模式向大模型提问审计过程中发现的现象是否存在问题,是否违反了哪条规定。此时系统通过RAG对数据库进行检索,并将检索结果传递到大模型,由大模型进行回答,并列出具体的文件规定。

(三)辅助开展数据分析

大模型除审计知识智能问答外,在辅助数据分析方面也能够发挥巨大作用。在数据预处理过程中,会遇到数据格式不统一、存在缺失值和异常值的情况。通过向大模型描述数据情况,大模型可以提供数据清洗标准化的SQL语句或程序代码,运行这样的SQL语句、程序代码就可以实现数据清洗与标准化,方便进一步的处理分析。

大模型能够接收审计人员的自然语言描述,并通过其强大的语言理解能力解析描述的意图,生成对应的SQL查询语句或程序代码。例如针对审计人员使用自然语言形式描述的需求,大模型会识别出关键信息,如时间范围、数额条件、以及所需的计算操作,从而生成对应的编程代码。通过自然语言方式生成代码的方式可以极大简化数据分析过程,降低审计人员编程门槛,有效提升审计数据分析工作效率。

在审计人员编写SQL语句程序代码或使用自然语言方式生成代码时,会遇到不理解程序代码含义或程序代码运行出错的情况。此时审计人员可以将程序代码提供给大模型,让大模型解释说明代码的含义或找出代码中的错误和潜在问题,给出纠错建议。审计人员常常会遇到编写的程序代码效率低下、执行耗时长的情况,通过和大模型交互式对话,可以对审计人员编写的程序代码进行优化,提高查询效率和响应速度。

四、审计大模型未来发展趋势

随着数字化转型的深入推进和大数据技术的飞速发展,审计大模型作为一种能够处理海量数据、提供精准审计知识、辅助开展数据分析的智能化工具,将成为审计工作不可或缺的支持力量。然而,在实践过程中也发现了其应用方面的不足之处。一是计算资源需求高,当前选择的模型在使用时需要占用数十个GB的内存显存,表现效果越好的模型往往参数量越大,这就需要更大的内存、显存等计算机资源,对于资源有限的机构来说可能是一个挑战。二是具有较强数据依赖性,数据存在偏差时模型的准确性和泛化能力会受到严重影响,这就需要审计人员具有较高的专业判断能力。

随着技术的不断进步和应用场景的深入拓展,相信这些问题也将得到逐步解决。笔者认为,审计大模型未来发展将会呈现出两大明显趋势:深化数据驱动与一站式智能分析。一方面,审计大模型将更加注重数据驱动,通过深度学习和机器学习技术的发展,大模型将直接能够与数据源进行交互分析,这将极大提升审计大模型的数据理解能力,为依托审计大模型开展更深层次分析提供了有利条件。另一方面,审计大模型将向一站式智能分析平台发展,为审计人员提供一个集数据收集、处理、分析、报告生成和决策支持于一体的综合解决方案。这种一站式智能分析平台将大大方便审计人员的工作,同时能够有效提升审计工作的效率和准确性。(赵升杰 许孟然)

扫一扫在手机打开当前页