王梦雅,曾燕萍,张景辉,周倩蓉
(中国电子科技集团公司第五十八研究所,江苏 无锡 214035)
系统级封装(System in Package,SiP)是利用先进封装技术将不同功能的芯片集成在一个微系统内,具备小型化、低功耗和高性能等优势,已成为半导体行业关注的重要焦点之一[1-4]。SiP 中经常集成高频率高带宽的DDR3系统来实现存储功能,但是与传统PCB 不同,基于SiP封装的高密度互联DDR3 的复杂性设计带来的信号完整性问题日益严重[5-8]。除了单纯从信号的眼图和波形来判断信号质量外,DDR3 的设计还面临着严格的时序要求,即使信号波形达到JEDEC 协议中规定的判决标准,数据与选通信号、地址与时钟信号等之间的时延也不一定符合协议规范,DDR3 的接口时序分析成为DDR3 设计的重中之重[9-10]。
基于SiP 封装的DDR3 设计一旦出现问题,再重新投产会造成时间和成本的浪费,为了解决这一问题,引入了仿真的概念。根据产品不同设计阶段分为前仿真和后仿真,分别针对产品布线前和布线后[11-12]。本文主要针对后仿阶段,从一例实际SiP 项目中的DDR3 封装和基板设计着手,进行数据与选通、地址与时钟之间的时序仿真,通过仿真结果分析其信号薄弱点,结合该项目各方面情况提出优化方案,经过仿真迭代,使信号符合JEDEC 协议规范,为SiP 的DDR3 时序仿真和优化提供很好的借鉴和指导作用。
JEDEC 协议定义了AC 和DC 两种输入电平阈值,输入信号必须达到AC 电平以满足时序要求,而信号的逻辑状态由DC 电平来决定。图1 所示为DDR3(AC150/DC100)单端信号判决标准,上升沿时,信号穿过VIH(ac)min电平至下降到VIH(dc)min电平为高电平有效时间。下降沿时,信号穿过VIL(ac)max电平至上升到VIL(dc)max电平为低电平有效时间[13-14]。差分信号与单端信号类似,其VIHdiff(ac)min为0.3 V,VIHdiff(dc)min为0.2 V,VILdiff(dc)max为-0.2 V,VILdiff(ac)max为-0.3 V。
图1 单端信号判决标准示意图
JEDEC 协议中规范了数据信号正确锁存所需要的最小建立时间Tsetup和最小保持时间Thold。所以数据信号的建立时间TDS和保持时间TDH应大于规范要求,存在一定裕量,才能满足时序要求。以数据与选通时序为例,其时序裕量计算过程如下[15-16]。
图2 为DDR3 的数据信号和选通信号的时序分析示意图。时钟输入到选通信号到达接收端的时间Tstrobe为:
图2 DDR3 数据与选通信号时序分析示意图
式中,Tin_strobe为系统时钟输入到选通输出时间;Tdelay为选通信号相对数据信号的延时时间(1/4 时钟周期);Tflt_strobe为选通信号互连通道传输时间。
时钟输入到数据信号到达接收端的时间Tdata为:
式中,Tin_data为系统时钟输入到数据输出时间;Tflt_data为数据信号互连通道传输时间。
建立时间裕量TDS_margin为:
第一个时钟边沿触发的数据到达接收端后会一直保持到下一时钟边沿触发的数据到达接收端,保持时间裕量TDH_margin为:
式中,Tcycle为时钟边沿触发间隔时间。
Tsetup与Thold通常基于一特定转换速率,单端信号以1 V/ns 为基准,差分信号以2 V/ns 为基准。在实际DDR3系统中,由于芯片驱动能力、布线、负载等的不同,信号翻转速率通常不同于基准速率,因此需要根据信号实际情况动态调整建立和保持时间裕量。另外,同一信号或同组信号的Tin_data与Tin_strobe由于受芯片制造工艺、工作电压、温度等因素的影响会有所不同。同一数据信号的Tflt_data受码间干扰等因素影响在不同时钟周期下也会不同。要根据各信号各周期的实际情况来计算各周期的时序裕量,通常借助仿真工具进行时序计算。
本项目SiP 基板共有70 层金属层(MP1-MP70),金属层之间填充介质层。其中DDR3 系统由FPGA 控制器和两颗DDR3 芯片组成,DDR3 芯片经过RDL 后平铺在SiP基板上。单颗DDR3 芯片的容量是2 Gb,速率为1.6 Gb/s,16 位数据。此DDR3 系统数据线(DQ0-DQ31)采用点对点的互联拓扑,地址线(A0-A15)采用Fly-by 型拓扑并通过40.2 Ω 电阻上拉到0.75 V 的电源,如图3 所示。基于DDR3 时序要求,数据线DQ0-DQ7 与DQSN0/P0 同层等长布线,数据线DQ8-DQ15 与DQSN1/P1 同层等长布线,以此类推。地址线与时钟线等长布线。
图3 基于SiP 的DDR3 设计示意图
本项目通过ANSYS SIwave 软件按照数据信号DQ和选通信号DQS、地址信号与时钟信号分两组提取控制器端到Memory 端信号S 参数,包括基板与RDL 布线,完成频域仿真。随后利用Cadence SystemSI 软件搭建基板与RDL 级联的拓扑,分别进行以上两组的时序分析,通过问题定位与版图优化,经过仿真优化迭代使所设计的DDR3 信号满足JEDEC 协议规范。
在数据写时,按照时序要求,DQS 信号相对于DQ 信号延迟0.25 个时钟周期发出。通过DQ 的时域仿真可以发现其单纯从波形来看DQ 信号满足判决标准,但是DQ8-DQ15 与DQ24-DQ31 信号相对于各自的DQS 信号的建立时间裕量不足,下面以上述两组中分别最差的DQ15 与DQ30 为例,进行分析与优化。DQ15 与DQ30 的时序仿真结果如表1 所示,DQ15 与DQ30 的建立时间未满足DDR3 规范在1.6 Gb/s 速率下所要求的最小建立时间,以至裕量为负值。图4(a)为DQ15 信号在整个仿真时钟周期(Cycle)内建立时间裕量折线图,根据码型的不同,信号在不同Cycle 下的建立时间也随之变化,约一半周期下的建立时间裕量为负值,在第9.5 个Cycle 下建立时间最短,为-22.813 8 ps。结合DQ15 信号的波形进行分析,如图4(b)所示,建立时间裕量不足是由于DQ15 信号上升下降沿过缓引起的。本项目SiP 体积小,DDR3 布线密,尤其是过孔之间的间距严重不足,过孔间的串扰可能是导致上升下降沿过缓的原因。
表1 DQ15 与DQ30 信号的时序仿真结果 (ps)
图4 DQ15 信号的时序仿真结果
通过对DQ8-DQ15、DQ24-DQ31 两组数据信号过孔较密的控制端信号过孔之间增加相应长度的地过孔,仿真结果如图5 所示。增加地过孔,减少信号间的串扰,上升下降沿更加陡峭,可以使建立时间延长,改善时序问题,进一步验证了长过孔串扰的影响。
图5 添加地过孔后DQ15 信号的时序仿真结果
但基于本项目SiP 加工与各方面实际因素的考虑,上述过孔的优化不能用于本项目的实际情况。对于DQ8-DQ15、DQ24-DQ31 两组数据信号建立时间裕量不足的问题,考虑适当延长DQS 的线长来满足时序要求,通过裕量计算,将DQSN1/P1 延长2 mm,DQSN3/P3 延长3.5 mm。DQ15 与DQ30 的时序仿真结果如表2 所示,其余数据信号也均满足时序要求。在优化完成后,对数据读信号进行仿真验证,也均满足时序要求。
表2 优化后DQ15 与DQ30 的时序仿真结果 (ps)
DQS 与时钟之间的时序,只要满足布线规则,可以在DDR3 实际工作中通过“Write leveling”功能进行自动调节,故在本文不进行仿真。
按照时序要求,时钟信号相对于地址信号延迟0.5个时钟周期发出,经过时序仿真发现,A4、A10 地址信号不满足时序要求,建立时间裕量不足,并且保持时间及其裕量无法判断(Timing Violation),如表3 所示。由此可猜想,A4、A10 地址信号定存在较大震荡超过判决标准造成时序混乱。结合仿真波形来看,Memory2 地址信号波形存在震荡,尤其是A4、A6、A7、A10 信号震荡较为严重,如图6 所示。A6、A7 震荡幅度只超过AC 电平尚满足逻辑状态,但是A4、A10 信号震荡幅度超过DC 电平使时序错误,和上述地址信号时序仿真结果相呼应。
表3 A4、A10 的时序仿真结果 (ps)
图6 A4、A6、A7、A10 地址信号仿真波形图
该项目地址信号由于采用Fly-by 结构,线路中存在分叉点即阻抗不连续点,极易形成反射影响信号质量产生震荡,并且由于该SiP 布线过密,信号之间的串扰又加重了震荡的幅度。Memory1 相对于Memory2 距离FPGA较远,Memory1 的地址线信号幅值低于Memory2 的地址线信号,但Memory1 靠近终端上拉电阻能够消除一部分反射,反而信号质量较好,Memory2 的地址线信号则存在较大震荡,造成时序不满足要求。
在后仿时,应综合考虑各方面因素,找到最快速最精简的方法改进设计,避免过设计。通过版图分析,A4、A6、A7、A10 信号相对于其他地址信号布线较深,最长过孔位于MP54 层,并且控制端过孔布线过密。将控制端A4、A6、A7、A10 过孔缩短并调整间距,布线层上移,减少过孔间的串扰,如图7 所示。通过对优化后的版图进行时序仿真,A4、A10 信号的建立时间与保持时间裕量均达到要求,如表4 所示。结合仿真波形,如图8 所示,A4、A6、A7、A10 信号的震荡幅度 也获得较大改善,满足DDR3 规范要求。
图7 地址信号过孔布线优化方案
表4 优化后A4、A10 的时序仿真结果 (ps)
图8 优化后A4、A6、A7、A10 地址信号仿真波形图
本文介绍了DDR3 的时序计算与仿真,结合一例实际SiP 项目中的高密度互连DDR3 系统封装和基板设计方案,进行DQ 与DQS、地址与时钟之间的时序仿真与优化。通过仿真发现,在信号波形满足DDR3 的AC 和DC 判决标准后,其建立时间与保持时间仍可能不满足DDR3 的时序要求,验证了DDR3 时序仿真的重要性。本文在项目后仿阶段,针对DQ 与DQS、地址与时钟之间的不合格时序信号,进行具体分析,讨论时序与波形之间的关系,结合版图分析,提出优化方案并通过仿真迭代进行验证。鉴于后仿真阶段对设计修改的局限性,最终得到切合实际的优化方案,使所有信号均满足JEDEC协议规范。通过仿真来指导设计,为SiP 的DDR3 系统的设计与优化给出方向和建议。