空天荟~电子科学与技术

面向物联网场景的大模型驱动数据合规检测方法

DOI：10.11999/JEIT250704 CSTR：

文献基本信息

中文标题：面向物联网场景的大模型驱动数据合规检测方法

英文标题：LLM-based Data Compliance Checking for IoT Scenarios

来源期刊：电子与信息学报

基金项目：

作者：李超豪^{1, 2, 3} 王浩然¹ 周少鹏^{2, 3} 闫皓楠⁴ 张峰^{2, 4} 鲁天阳² 习宁⁴ 王滨^{1, 2, 4}

作者单位：1. 西安电子科技大学杭州研究院杭州 311231
2. 全省智能物联网络与数据安全重点实验室杭州 310050
3. 浙江大学计算机科学与技术学院杭州 310058
4. 西安电子科技大学网络与信息安全学院西安 710071

摘要：随着《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》、欧盟《通用数据保护条例》(GDPR)等国内外法规条例的逐步施行，数据合规检测成为规范数据处理活动、保障数据安全、保护个人与组织合法权益的重要手段。然而，物联网场景下设备海量多元异构、数据动态冗长多变等特点加剧了数据合规检测的难度。一方面，物联网设备产生的日志、流量数据呈现长文本、非结构化、内容模糊等特点，导致传统规则匹配方法容易产生大量的误报；另一方面，动态变化的业务场景以及用户自定义的合规需求进一步使得规则设计、维护与判定难度变大。针对上述挑战，该文提出一种新型面向物联网场景的大模型驱动数据合规检测方法：第一阶段，基于全量规则库，利用快速正则匹配算法高效筛查出所有潜在违规数据，并输出结构化初步检测结果；第二阶段，利用大语言模型进行语义级合规复核，设计差异化分类检测策略，针对不同违规类型构建基于思维链与少样本提示融合的增强提示词，用于减少规则差异性与语义模糊性带来的错误结果。该文采集了52种物联网设备的日志与流量数据，形成共计55,080条原始违规检测数据，并在8个主流大模型底座以及不同影响设置参数上开展对比实验。研究结果表明原有仅第一阶段基于规则匹配的检测方法在真实物联网环境下误报率为64.3%，而经第二阶段大模型驱动的复核检测后降至6.9%，且大模型自身引入的错误率控制在0.01%以下。

全文链接： https://jeit.ac.cn/cn/article/doi/10.11999/JEIT250704