张德民 孟莎莎 陈贝
(重庆邮电大学重庆市移动通信技术重点实验室,重庆 400065)
LTE系统基于传输分集的信号检测的DSP实现
张德民 孟莎莎 陈贝
(重庆邮电大学重庆市移动通信技术重点实验室,重庆 400065)
信号检测是长期演进(LTE)系统接收端的一项重要技术,对系统的性能有着较大的影响。在LTE系统中,接收端的天线同时接收来自发送端的多个天线端口的数据,因此接收端必须采用信号检测算法还原发送端的数据。分析与研究了基于传输分集的信号检测算法,并着重讨论了空频编码法,提出了一种简单的DSP实现方案。该方案已成功应用于TD-LTE TTCN扩展测试集仪表开发项目中。
LTE 预编码 传输分集 信号检测 DSP实现
长期演进(long term evolution,LTE)[1-3]是第三代合作伙伴计划(the 3rd generation partnership project, 3GPP)近几年来启动的最大的科研项目,能够提高频谱利用率和数据传输速率的多输入多输出(multiple input multiple output,MIMO)[4]技术成为LTE技术的首选。LTE又称为准4G技术,MIMO系统信号检测算法的好坏对MIMO系统有着很大的影响,所以对MIMO系统信号检测的研究显得非常重要。MIMO系统接收端的信号检测是研究TD-LTE系统终端的重点。
传统的信号检测算法有很多,大体上可以分为最优检测算法、线性检测算法、非线性检测算法三类。
最优检测算法是指最大似然(maximum likelihood, ML)[5]算法和最大后验概率(maximum a posteriori, MAP)算法。其中,ML算法用于发送信号等概率的情况,而MAP算法用于发送信号非等概率的情况。
线性检测算法包括迫零(zero forcing,ZF)算法和最小均方误差(minimum mean square error,MMSE)算法。
非线性检测算法主要指垂直贝尔实验室分层空间-时间(vertical bell labs layered space time,V-BLAST)[6]算法、QR分解算法[7]、球形检测(sphere detection,SD)算法和相关改进算法。
线性信号检测算法忽略了信道对接收数据的干扰,将接收的数据视为一种线性合并,这样强制进行信号检测的后果是放大了噪声。最优检测算法有着最高的性能,但它也有很高的复杂度,很难在实际系统中进行应用。而传输分集技术可靠性相对较高,特别是采用空频编码(space frequency block code, SFBC)[8]时,两路信号是相互正交的,信道的相关性弱,采用线性检测算法足以实现信号还原。因此,本文主要对TD-LTE系统中基于传输分集的信号检测算法进行了分析和研究,在保证性能的前提下极大地降低了算法的复杂度。
发射分集的主要原理是利用空间信道的弱相关性,结合时间/频率上的选择性,为信号的传递提供更多的副本,提高信号传输的可靠性,从而改善接收信号的信噪比。假设一个发送信号为x,冲激响应矩阵为H,同时认为接收端完全正确估计出信道冲激响应。信号x从发送端经过信道到达接收端。信号x在无线信道传输的过程中,由于受多径衰落、频率选择性衰落、噪声的影响,导致接收信号存在符号间干扰和载波间干扰等。为消除这些干扰、恢复出原始信号,可以在接收端进行信号检测。传输分集的信号检测有两种情况,即两天线口和四天线口。
1.1 两天线端口的信号检测
针对两天线传输,采用类似Alamouti编码方式,编码矩阵如下:
它表示在天线0的子载波k上的传输符号为x1,子载波(k+1)上的传输符号为x2,在天线1的子载波k上的传输符号为,子载波(k+1)上的传输符号为这种编码方式称为空频编码(SFBC)。在LTE系统中,天线端口0的两个复值符号是x(0)(i)、x(1)(i),天线端口1的复值符号是-x(1)*(i)和x(0)*(i),其实质是SFBC。因此,编码矩阵调整为如下形式:
在传输分集条件下,两天线的传输分集的预编码实质是SFBC,所以接收端解预编码的算法的原理就是解SFBC的原理。采用最大比合并方式进行信号检测、解预编码、解层映射。解SFBC的原理如下:SFBC假设两个相邻子载波k和(k+1)保持准静态,分别采用第j根发送天线和第i根接收天线,在子载波k和(k+1)上的信道冲击响应分别为Hij(k)、Hij(k+1),则有Hij(k)= Hij(k+1)。对于1根接收天线,在1个正交频分复用(orthogonal frequency-division multiplexing,OFDM)符号周期内,在第k和第(k+1)个子载波上的接收信号可以写为:
SFBC通过发送端构造的正交发射矩阵使得信道矩阵具有正交性。接收端已估计出信道冲激响应,于是利用信道矩阵的正交性,采用简单的线性处理即最大比合并。将接收信号向量乘以HH,有HHY=HHHX+HHN,则可以得到:
如果是2根接收天线,其处理的过程与单天线是相同的。在1个OFDM周期内,2根接收天线在第k和第(k+1)子载波上接收到的信号可以写成矩阵的形式:Y=HX+N。将其展开可以得到:
若令天线端口0在子载波k和(k+1)处发送的数据为x1(k)=x1,x1(k+1)=x2,则天线端口1在子载波k和(k+1)处发送的数据为可将上式进一步简化为:
为了便于参数统一,将第二行和第四行取共轭可以得到:
因为相邻子载波的冲激响应数值相等,因此式(9)可以进一步简化为:
此时的冲激响应矩阵为正交矩阵。等式左右两边同时乘以HH,滤除掉噪声后,可以得到x1、x2的估计值:
1.2 四天线端口的信号检测
四天线发送的预编码和两天线的原理是一样的。在某个时刻k和其下一个时刻(k+1),可以通过最大比合并,通过接收的两根天线在k和(k+1)时刻的值,把发送天线端口1和天线端口3上的数据解出。同理在时刻(k+2)和时刻(k+3)的值,可以把发送天线端口2和4上的数据解出。发送天线端口1~4在时刻k~(k+4)的数据如式(13)所示。
可见对于两根接收天线,其原理和前面介绍的两发两收是一样的,所以其推理过程类似。这里不再赘述其计算过程,结果如下。
四发四收的处理情况和前面类似,利用四根接收天线在k和(k+1)时刻的值解出发送天线端口1和端口3上的值x1和x2,再利用四根接收天线在(k+2)和(k+3)时刻的值解出发送天线端口1和端口3上的值x3和x4。下面直接给出它们的计算公式。
2.1 DSP处理器
TMS320C6455[9-10]芯片属于C64x系列,是C6000系列中性能最高的定点数字信号处理器。它主要具有如下的特点:灵活的存储器配置;专用存取结构;高度并行CPU结构;片内集成多种外设;类似精简指令集计算机(reduced instruction set computer,RISC)的指令集。
2.2 变量定义
TD-LTE系统下行最大支持20 MHz带宽,大约有110个资源块(resource block,RB)。小区ID在小区搜索时获得,是已知参数。循环冗余前缀(cyclic prefix, CP)分为常规和扩展两种类型,本文DSP实现基于常规CP、6个RB,且每个RB的子载波个数选取为12。
DSP实现的公共参数如表1所示。当前支持的发送端/接收端的天线数组合为1T1R、1T2R、2T1R及2T2R。
表1 输入、输出参数Tab.1 Input/output parameters
2.3 详细设计流程
根据接收天线接收的数据,以及估计出的发送天线和接收天线之间的脉冲响应来检测发送天线上的数据。首先判断传输天线个数。如果是一根发送天线,再判断接收天线个数,此时有1发1收(1T1R)和1发2收(1T2R)两种处理方式。如果是两根发送天线,再判断接收天线个数,此时有2发1收(2T1R)和2发2收(2T2R)两种情况,每种情况都分开进行处理。具体的实现流程如图1所示。
图1中,1、2表示发送或接收天线数目; Detecsignal11()、Detecsignal12()、Detecsignal21()、Detecsignal22()分别表示1T1R、1T2R、2T1R、2T2R的信号检测实现函数。
图1 信号检测实现流程图Fig.1 Implementation flowchart of signal detection
在DSP实现的过程中,实现的主要思想如图2所示。
图2 实现的主要思想Fig.2 Main ideal of the implementation
①求分子的实部和虚部、分母(冲激响应的模的平方),从分子的实部和虚部、分母中找出最大值,为后面进行归一化做准备。
②根据最大值,对分子的实部和虚部、分母分别进行归一化。
③调用除法,求冲激响应的模的倒数。
④分别将分子的实部和虚部与冲激响应的模的倒数相乘。
在实现过程中有以下几点需要注意。
第一,由于对接收信号与信道冲激响应采用的量化方式不清楚,因此首先分别计算译出接收天线1的数据和译出接收天线2的数据以及信道冲激响应的模。然后进行归一化,找出最大值,根据最大值确定量化方式。
在具体实现时,并没有取其共轭,而是在进行具体操作时,按照复数的乘法的加减法进行变化。如A=a-bi,B=c+di,则有AB=(a-bi)(c+di)=ac+bd+ (ad-bc)i。
第二,每次处理是求出每根天线的两个数据,然后把两根天线的两个数据进行最大比合并即解出两个数据。在译出每根天线的数据时需注意最后要除以各自到接收天线1/2信道冲激响应的模。在进行除法时,先求出信道冲激响应的模的倒数,然后将解出的每根天线的数据与其信道冲激响应的模的倒数相乘。在求其倒数时,如A/B,变为A(1/B)。
由于A和B采用相同的量化方式,因而分别对A和B做如下处理。A采用Q13量化,用1左移31位除以B,得到的结果采用Q18量化,用32位进行保存而不做任何处理,直接与A相乘即可。而A是用16位进行保存,两者直接相乘的结果是48位,前16位是符号扩展位,保留低32位,然后将得到的结果取其高16位即可。
第三,每次译出的每根天线的第二个数据是数据的共轭,最后要对其取反。
2.4 DSP实现的优化
DSP实现的语言可以是C语言,也可以是汇编语言。汇编语言的可读性比较差,但执行效率较高。因此判断接收天线和发送天线个数用C语言实现,而具体每种情况(1T1R,1T2R,2T1R,2T2R)采用汇编语言来实现。
编写程序的性能除了对算法的优化和设计,还有对程序的优化。CCS3.3编译器自带优化等级,根据自己欲达到的优化条件,选择合适的优化等级。-o3优化级经常被青睐,但是-o3优化级存在一个致命的缺点,即在程序编排流水不合理时,并不能很好地优化程序,甚至在组织流水时会出现错误。所以需要手动编排流水,手动优化程序。
在程序中,循环体可以减少大量的指令周期,因此,优化循环体时要注意以下几点。
①在循环体中,重复计算且值相同的多项式或者因子,在循环体外计算。
②优化选择分支,减少分支选择跳转费时。
③能用TI提供的内联函数,尽量使用内联函数,这样可以避免压栈出栈的时间。
④合理安排指令及所使用的功能单元,使一个指令周期内可以并行处理多条指令。
在DSP软件实现中,通过指令并行,尽量优化程序循环体,存储空间保存在.asm的文件中,包括变量名称的定义与占用空间大小。所占存储空间由程序存储空间和数据存储空间两部分组成。
在开发过程中,DSP软件实现模块的程序占4.2 kB,变量所占的内存为1.2 kB,其和不超过6 kB,而TMS320C6455芯片具有2 MB存储空间,完全能够满足信号检测功能实现对空间的要求。各种情况执行的周期如表2所示。
表2 各种情况执行的周期Tab.2 The execution cycles of each condition
本文从理论分析出发,根据分时长期演进(TDLTE)系统特性,阐述了基于传输分集的信号检测技术,分别简述了两天线端口和四天线端口的情况。详细讲述了两天线端口的实现流程及其在DSP的实现方法,并在TMS320C64x芯片上加以实现。程序运行结果表明,本文提出的方案能够满足TD-LTE系统的需求,具有可行性和高效性等特点。
[1] 沈嘉,索士强,全海洋,等.3GPP长期演进(LTE)技术原理与系统设计[M].北京:人民邮电出版社.
[2] 3GPP TS 36.211 v9.0.0 Evolved universal terrestrial radio Access (E-UTRA)physical channels and modulation(Release 9)[S].2009-12.http://www.3gpp.org/ftp/specs/2009-09/Rel-8/36_series/.
[3] 3GPP TS 36.212 v9.0.0 Evolved universal terrestrial radio access(EUTRA)physical channels and modulation(Release 9)[S].2009-12. http://www.3gpp.org/ftp/specs/2009-09/Rel-8/36_series/.
[4] Jalden J,Ottersten B.The diversity order of the semidefinite relaxation detector[J].IEEE Transactions on Information Theory,2008,54(4): 1406-1422.
[5] Rajan G,Rajan B.Multigroup ML decodable collocated and distributed space-time block codes[J].IEEE Transactions on Information Theory, 2010,56(7):3221-3247.
[6] Ohno K,Itami M,Ikegami T.Improvement of coexisting signal detection for MB-OFDMsystem[C]//ICUWB,2012IEEEInternational Conference on,Japan:IEEE Conference Publications,2012:352-356.
[7] Chein-I C.Multiparameter receiver operating characteristic analysis for signal detection and classification[J].IEEE Journals&Magazines, 2010,10(3):423-442.
[8] Safatly L,Andrieux G,Diouris J.LTE multi-antenna techniques based on Alamouti SFBC with correlated channels[C]//SoftCOM. 2010 IEEE International Conference on,Split,Dubrovnik:IEEE Conference Publications,2010:214-218.
[9] 谢瑞雯,陈国兴.TMS320C6455的硬件资源分析[J].通信技术, 2010,43(7):230-232.
[10] 田黎育,何佩琨.TMS320C6000系列DSP编程工具与指南[M].北京:清华大学出版社,2006:32-45.
DSP Implementation of Signal Detection Based on Transmit Diversity in LTE System
Signal detection is one of the significant technologies for receiving terminal in long term evolution(LTE)system,it highly influences the system performance.In LTE system,the receiving antennas at receiving end simultaneously receive the data coming from multiple transmitting antenna ports,so it is necessary to use signal detection algorithm at the receiving end to restore the data from transmitting end.The signal detection algorithm based on transmit diversity is analyzed and studied,and the space frequency block coding(SFBC)method is discussed emphatically,and the simple DSP implementing scheme is proposed.The scheme has been successfully applied in development of the TD-LTE TTCN extended test suite instrumentation.
Long term evolution(LTE) Pre-coding Transmit diversity Signal detection DSP realization
TN929+.5
A
国家科技重大专项基金资助项目(编号:2012ZX03001024);
重庆市科委重点实验室专项经费。
修改稿收到日期:2014-01-06。
张德民(1955-),男,1988年毕业于北京邮电大学信号、电路与系统专业,获硕士学位,教授;主要从事信号处理及在通信系统中的应用。