文献基本信息
                    
                    
                        中文标题:VCodePPA:面向集成电路物理约束优化的Verilog代码数据集
                     
                    
                        英文标题:VCodePPA: A Large-Scale Verilog Dataset with PPA Annotations
                     
                    
                    
                        基金项目:浙江省“尖兵领雁”重点研发计划项目(2025C01063, 2024C01179, 2024C01232)
                     
                    
                        作  者:陈溪源1 
  姜宇轩2 
  夏莹杰3 
  胡冀2 
  周奕兆3
                     
                    
                        作者单位:1. 
   
    杭州电子科技大学计算机学院
    
    杭州
    
    310018
     
   2. 
   
    杭州电子科技大学电子信息学院
    
    杭州
    
    310018
     
   3. 
   
    杭州电子科技大学微电子研究院
    
    杭州
    
    310018
    
                     
                    
                        摘  要:Verilog作为主流硬件描述语言之一,其代码质量直接影响电路的功耗、性能和面积(PPA)。当前,基于大语言模型(LLM)生成硬件描述语言的应用面临一个关键挑战:如何引入基于PPA指标的设计反馈机制,以有效指导模型优化,而不仅停留在Verilog语法和功能正确性层面。针对这一问题,该文公开了名为VCodePPA的数据集,该数据集将Verilog代码结构与功耗、性能、面积指标进行了精准关联,共包含17 342条高质量样本数据。该文所做工作为:构建了包含基本算术运算模块、存储架构模块等20种功能分类的3 500条规模的种子数据集;设计了基于蒙特卡罗搜索(MCTS)的多维代码数据增强方案,通过架构层、逻辑层和时序层3个维度的九种变换器对种子数据集进行代码变化,生成大规模功能等同但PPA指标差异显著的Verilog代码集。每条数据均包含如板上资源占用量、关键路径延迟、最大工作频率等多种硬件设计指标,用于训练模型在硬件设计PPA指标的冲突-平衡规律知识。实验表明经此数据集训练后,新模型相比基线模型在各种Verilog设计任务上平均减少了10%~15%的板上资源占用,降低了8%~12%的功耗,并缩短了5%~8%的关键路径延迟。