专利 基于ALBERT模型的敏感信息识别方法、装置、设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210166465.9 (22)申请日 2022.02.23 (71)申请人上海众至科技有限公司地址 201210 上海市浦东新区中国(上海) 自由贸易试验区芳春路40 0号1幢3层 (72)发明人张立波　王明博　 (74)专利代理机构北京市万慧达律师事务所 11111 专利代理师谢浩荣 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于ALBERT模型的敏感信息识别方法、装置、设备和介质 (57)摘要本申请公开了一种基于ALBERT模型的敏感信息识别方法、装置、设备和介质，涉及信息安全和数据防护技术领域。所述方法包括：通过文本解析引擎对文本文件进行解析，对预设文本类型的所述文本文件提取文本内容；对所述文本内容进行预处理，并对长文本进行切分，得到句子集合；对所述句子集合中的每个句子进行BI OE格式的命名实体标注，得到标注的样本数据；根据所述样本数据，通过预训练模型ALBERT进行模型训练，得到收敛的敏感数据识别模型。本申请能够通过轻量级的ALBERT预训练模型获取特征向量，降低了对模型部署资源的要求，更容易大规模使用。权利要求书2页说明书9页附图3页 CN 114548107 A 2022.05.27 CN 114548107 A 1.一种基于ALBERT模型的敏感信息识别方法，其特征在于，包括：通过文本解析引擎对文本文件进行解析，对预设文本类型的所述文本文件提取文本内容；对所述文本内容进行预处理，并对长文本进行切分，得到句子集合；对所述句子集合中的每个句子进行BIOE格式的命名实体标注，得到标注的样本数据；根据所述样本数据，通过预训练模型ALBERT进行模型训练，得到收敛的敏感数据识别模型。 2.根据权利要求1所述的基于ALBERT模型的敏感信息识别方法，其特征在于，所述根据所述样本数据，通过预训练模型ALBERT进行模型训练，得到收敛的敏感数据识别模型，包括：将所述样本数据按照预设比例划分为训练集、验证集和测试集；将所述训练集通过预训练模型ALBERT获取特征向量，并利用双向循环神经网络、全连接层和条件随机场进行模型训练；将所述模型训练中的预测标签与真实标签输入至损失函数计算损失，根据AdamW优化算法使所述损失函数朝下降的方向优化，直至模型收敛，得到收敛的敏感数据识别模型。 3.根据权利要求2所述的基于ALBERT模型的敏感信息识别方法，其特征在于，所述将所述训练集通过预训练模型ALBERT获取特征向量，并利用双向循环神经网络、全连接层和条件随机场进行模型训练，具体包括：将所述训练集通过预训练模型ALBERT生成序列特征向量；将所述序列特征向量输入双向循环神经网络进行特征提取，得到序列语义信息；将所述序列语音信息通过全连接层进行高层语义融合，通过CRF条件随机场进行序列标注，获取标签。 4.根据权利要求1所述的基于ALBERT模型的敏感信息识别方法，其特征在于，所述文本解析引擎包括tika文本解析引擎，所述预设文本类型包括pdf、 word、 ppt、 excel、 txt、 html 以及xml中的至少一种，所述通过文本解析引擎对文本文件进行解析，对预设文本类型的所述文本文件提取文本内容，还包括：通过tika文本解析引擎对文本文件进行解析，得到文本解析结果，所述文本解析结果包括所述文本文件的文件类型、语言检测结果和文本内容；对符合所述预设文本类型的所述文件文本提取文本内容。 5.根据权利要求1所述的基于ALBERT模型的敏感信息识别方法，其特征在于，所述对所述文本内容进行预处理，并对长文本进行切分，得到句子集合，包括：对所述文本内容进行预处理，去除非自然语言的内容，进行文本清洗；按照段落和中文语句结束符号对长文本进行文本切分，得到句子集合。 6.根据权利要求1所述的基于ALBERT模型的敏感信息识别方法，其特征在于，在所述根据所述样本数据，通过预训练模型ALBERT进行模型训练，得到收敛的敏感数据识别模型之后，所述方法还包括：将所述收敛的敏感数据识别模型部署至服务端；在客户端调用所述敏感数据识别模型的敏感信息识别接口，识别所述客户端文本文件的敏感信息，并将所述敏感信息返回至服务端。权　利　要　求　书 1/2 页 2 CN 114548107 A 27.根据权利要求6所述的基于ALBERT模型的敏感信息识别方法，其特征在于，所述在客户端调用所述敏感数据识别模型的敏感信息识别接口，识别所述客户端文本文件的敏感信息，并将所述敏感信息返回至服务端之后，所述方法还包括：根据所述敏感信息对所述客户端文本文件进行打分，得到对应的敏感度；根据所述敏感度将所述客户端文本文件划分为普通文件、涉密文件以及敏感文件，并将划分结果存储至数据库中。 8.一种基于ALBERT模型的敏感信息识别装置，其特征在于，所述装置包括：文本解析模块，用于通过文本解析引擎对文本文件进行解析，对预设文本类型的所述文本文件提取文本内容；文本处理模块，用于对所述文本内容进行预处理，并对长文本进行切分，得到句子集合；实体标注模块，用于对所述句子集合中的每个句子进行BIOE格式的命名实体标注，得到标注的样本数据；模型训练模块，用于根据所述样本数据，通过预训练模型ALBERT进行模型训练，得到收敛的敏感数据识别模型。 9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述基于ALBERT模型的敏感信息识别方法。 10.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行权利要求1至7中任意一项所述基于ALBERT模型的敏感信息识别方法。权　利　要　求　书 2/2 页 3 CN 114548107 A 3

专利 基于ALBERT模型的敏感信息识别方法、装置、设备和介质

专利基于ALBERT模型的敏感信息识别方法、装置、设备和介质