千人基因组计划(the 1000 Genomes Project)旨在建立可以帮助人们理解遗传变异在疾病发生过程中作用的综合资源,这些资料包含了人类遗传变异的地域性和功能性的特征。该计划收集了来自欧洲、东亚、撒哈拉以南非洲地区和美洲共14 个民族的1 092 名个体的基因组资料,构成一个低覆盖度全基因组和外显子组测序的整合数据库。通过开发新的方法对几种算法和不同数据源的进行整合,成功地绘制出了有效的单倍型图谱,其中包括3 800 万个单核苷酸多态性(single nucleotide polymorphisms)位点、140 万个短插入/短缺失(short insertions and deletions)以及超过1.4 万个大片段缺失(larger deletions)。这些来自不同种族的个体拥有不同的罕见和常见变异体(rare and common variants),而且低频率变异体(low-frequency variants)存在实质上的地域差异,如对数据进行优化筛选,这种倾向明显增强。进化的保守性和编码结果是优化筛选强度的关键性决定因素。在相互联系的多个生物通路中,罕见变异体的负荷确实发生着实质性的改变,而且每一个体在保守位点上都含有数百个罕见的非编码变异体(rare non-coding variants),例如在转录因子结合位点(transcription-factor-binding sites)上的基序断裂改变(motif-disrupting changes)。以上这些整合性资源收集了相关民族98%以上、发生频率为1%左右的单核苷酸多态性,可用于分析来自不同种族甚至混血个体的常见和低频率的遗传变异。