|
发表于 2004-11-2 16:23:20
|
显示全部楼层
关于汉族人口扩张的基因分析文章
该文用pdf文件,所以可能直接点是打不开的,要另存再打开。
NATURE 2878—10/8/2004—VBICKNAELL—116403
1
遗传学证实汉文化的扩散源于人口扩张
文波1,2,李辉1,卢大儒1,宋秀峰1,张锋1,何云刚1,李峰1,高扬1,毛显赟1,张良1,钱
吉1,谭婧泽1,金建中1,黄薇2,Ranjan Deka3, 宿兵1,3,4,Ranajit Chakraborty3, 金力1,3
1. 复旦大学 现代人类学研究中心 遗传工程国家重点实验室 生命科学学院 摩尔根—谈国际生命科学中心,上海 200433,中国
2. 国家人类基因组南方研究中心,上海 201203,中国
3. 辛辛纳提大学 环境健康系 基因组信息中心,辛辛纳提,俄亥俄州45267,美国
4. 中国科学院昆明动物研究所 细胞与分子进化重点实验室,昆明 650223,中国
语言和文化在人群间的扩散有两种不同的模式:一种是人口扩张、人群迁徙模式;
另一种是文化传播模式,人群之间有文化传播,而基因交流却很有限。同一语系的欧
洲人群的形成机制争议颇多,争论的焦点在于来自近东的农业文明和语言的扩散是否
伴随着大量的农业人口的迁移[1-3]。有着共同的文化和语言的汉族,人口超过了十一亿
六千万(2000 年人口统计),无疑是全世界最大的民族。因此汉文化的扩散过程广受各
领域研究者的关注。通过系统地对汉族群体的Y 染色体和线粒体DNA 多态性进行分析,
我们发现汉文化向南扩散的格局符合人口扩张模式,而且在扩张过程中男性占主导地
位。史载汉族源于古代中国北方的华夏部落,在过去的两千多年间,汉文化(汉语和相关的文
化传统)扩散到了中国南方,而中国南方原住民族则是说侗台、南亚和苗瑶语的人群(百越、
百濮和荆蛮)[4-5]。经典遗传标记和微卫星位点研究显示,汉族和其他东亚人群一样都可以以
长江为界分为两个遗传亚群,南方汉族和北方汉族[6-9]。两个亚群之间的方言和习俗差异也很
显著[10]。这些现象看似支持文化传播模式,即汉族向南扩张主要是文化传播和同化的结果。
然而,两个亚群之间有着许多共同的Y 染色体和线粒体类型[11-12],历史记载的汉族移民史[5]
也与汉族的文化传播模式假说相矛盾。本研究对这两种假说进行了检验,证实汉文化的扩散
中的确发生了大规模的人群迁徙(人口扩张模式)。
图1 调查群体的地理分布。图中标出了历史记载中自北而南的三次迁徙浪潮。各群体的详细信息见补充材料
1。群体1-14 是北方汉族,15-28 是南方汉族。实线、段线和虚线依次表示三次迁徙浪潮。第一次发生于西晋
时期(公元265-316 年),迁徙人口约90 万(大约当时南方人口的六分之一);第二次发生于唐代(公元618-907
年)规模比第一次大得多;第三次发生于南宋(公元1127-1279 年),迁徙人口近500 万。
2
为了验证这些假说,我们把南方汉族的遗传结构与两个亲本群体作比较,其一是北方汉
族,其二是南方原住民族,即现居于中国境内和若干邻国的侗台、苗瑶和南亚语群体。我们
分析了来自中国28 个地区汉族群体的Y 染色体非重组区(NRY)和线粒体DNA(mtDNA)遗传多
态[13-16],这些样本覆盖了中国绝大部分的省份(详见图1 和补充信息表1)。
父系方面,南方汉族与北方汉族的Y 染色体单倍群频率分布非常相近(见补充信息表2),
尤其是具有M122-C 突变的单倍群 (O3-M122 和O3e-M134) 普遍存在于我们研究的汉族群体
中(北方汉族在37-71%之间,平均53.8%;南方汉族在35-74%之间,平均54.2%)。南方原
住民族中普遍出现的单倍群M119-C(O1)和M95-T(O2a)在南方汉族中的频率(3-42%,平均
19%)高于北方汉族(1-10%,平均5%)。而且,南方原住民族中普遍存在的单倍群
O1b-M110,O2a1-M88 和O3d-M7[17], 在南方汉族中低频存在(平均4%),而北方汉族中却没观
察到。如果我们假定起始于两千多年前的汉文化扩散[5]之前南方原住民族的Y 类型频率与现
在基本一致的话,南方汉族中南方原住民族的成分应该是不多的。分子方差分析(AMOVA)进
一步显示北方汉族和南方汉族的Y 染色体单倍群频率分布没有显著差异(Fst=0.006,P>0.05),
说明南方汉族在父系上与北方汉族非常相似。
母系方面,北方汉族与南方汉族的线粒体单倍群分布非常不同(补充信息表3)。东亚北
部的主要单倍群(A,C,D,G,M8a,Y,Z)在北方汉族中的频率(49-64%,平均55%)比在南方汉族
中(19-52%,平均36%)高得多。另一方面,南方原住民族的主要单倍群(B,F,R9a,R9b,N9a)[12,14,18]
在南方汉族中的频率(36-72%,平均55%)要比在北方汉族(18-42%,平均33%)高得多。线
粒体类型的分布在南北汉族之间有极显著差异(Fst=0.006,P<10-5)。虽然南北汉族之间线粒体和
Y 染色体的Fst 值相近,但线粒体的南北差异Fst 值占群体间总方差的56%,而Y 染色体仅仅
占18%。
用汉族群体的单倍群频率数据所做的主成分(PC)分析与以上结果相一致。对NRY 分析
发现,几乎所有的汉族群体都聚在图2a 的右上方。北方汉族和南方原住民族在第2 主成分上
分离,南方汉族的第2 主成分值处于北方汉族和南方原住民族之间,但是更接近于北方汉族
(北方汉族0.58±0.01;南方汉族0.46±0.03;南方原住民族-0.32±0.05),这表明南方汉族
在父系上与北方汉族相近,受到南方原住民族的影响很小。就mtDNA 而言,北方汉族和南方
原住民族仍然被第2 主成分分开(图2b),南方汉族也在两者之间但稍微接近南方原住民族(北
方汉族0.56±0.02;南方汉族0.09±0.06;南方原住民族-0.23±0.04),表明南方汉族的女性基因库比男性基因库有更多的混合成分。
PC1(48.5%)
1.0 .8 .6 .4 .2
PC2(23.1%)
.8
.6
.4
.2
.0
-.2
-.4
-.6
-.8
-1.0
PC1(40.1%)
.9 .8 .7 .6 .5 .4 .3 .2
PC2(12.9%)
.8
.6
.4
.2
0.0
-.2
-.4
-.6
-.8
图2 主成分散点图。a 为Y 染色体单倍群散点图,b 为线粒体单倍群散点图。群体标记:▲北方汉族,△南
方汉族,+侗台语民族,×南亚语民族,*苗瑶语民族。
我们进一步用两种不同的统计方法[19-20]来估计两个亲本(北方汉族和南方原住民)对南
方汉族基因库的相对贡献(表1),这两个统计量用于单位点(single-locus)分析时比其它的
a b
NATURE 2878—10/8/2004—VBICKNAELL—116403
3
方法更为准确[21]。两种方法得到的混合系数估计值(M,北方汉族的贡献比例)高度一致(Y
染色体,r=0.922,P<0.01;线粒体,r=0.970,P<0.01)。就Y 染色体而言,所有的南方汉族都包
含很高比例的北方汉族混合比率(MBE:0.82 ± 0.14, 范围0.54-1 ;MRH:0.82 ± 0.12,范围
0.61-0.97)(MBE 和MRH 的定义分别见参考文献20 和19),这表明南方汉族男性基因库的主
要贡献成分来自北方汉族。相反,南方汉族的线粒体基因库中北方汉族和南方原住民族的贡
献比例几乎相等(MBE:0.56±0.24[0.15,0.95]; MRH:0.50±0.26[0.07,0.91])。总体上北方汉
族对南方汉族的遗传贡献父系比母系高得多( t-test,P<0.01);各群体分别看也是这样:绝
大部分南方汉族群体中北方汉族的贡献在父系上大于母系(MBE ,11/13, MRH,13/13, P<0.01,
零假设为男女的贡献相等为二项式分布),这表明南方汉族的群体混合过程有很强的性别偏
向。南方汉族中北方汉族贡献的比例(M)呈现出由北向南递减的梯度地理格局。南方汉族线粒
体的M 值与纬度正相关(r2=0.569,P<0.01),但Y 染色体的相关性不显著(r2=0.072,P>0.05),
因为南方汉族父系的M 值差异太小,不足以导致统计上的显著性。
表1 南方汉族中的北方汉族混合比例
群体 Y 染色体 线粒体DNA
MBE(±s.e.m) MRH MBE(±s.e.m) MRH
安徽 .868 ±.119 .929 .816 ±.214 .755
福建 1 .966 .341 ±.206 .248
广东1 .677 ±.121 .669 .149 ±.181 .068
广东2 ND ND .298 ±.247 .312
广西 .543 ±.174 .608 .451 ±.263 .249
湖北 .981 ±.122 .949 .946 ±.261 .907
湖南 .732 ±.219 .657 .565 ±.297 .490
江苏 .789 ±.078 .821 .811 ±.177 .786
江西 .804 ±.113 .829 .374 ±.343 .424
上海 .819 ±.087 .902 .845 ±.179 .833
四川 .750 ±.118 .713 .509 ±.166 .498
云南1 1 .915 .376 ±.221 .245
云南2 .935 ±.088 .924 .733 ±.192 .645
浙江 .751 ±.084 .763 .631 ±.180 .540
平均 .819 .819 .560 .500
注:MBE 和 MRH 分别为参考文献20 和19 所描述的统计量。MBE 的标准误通过1000 次自展(Bootstrap)
获得。把南方原住民族和北方汉族作为南方汉族的亲本群体估计北方汉族的遗传贡献比例,假定2000 多年前
开始的混合过程前后南方原住民族的等位基因频率基本不变,并且南北汉族之间的遗传交流不多。实际上,
从北方汉族到南方原住民族的基因流动比反向的流动大得多,所以表中的估计值在没有适当调整前是低估的。
因而汉族实际的人口扩张程度应该大于本项研究得出的数值。
综上所述,我们提出了两项证据支持汉文化扩散的人口扩张假说。首先,几乎所有的汉
族群体的Y 染色体单倍群分布都极为相似,Y 染色体主成分分析也把几乎所有的汉族群体都
集合成一个紧密的聚类。再有,北方汉族对南方汉族的遗传贡献无论父系方面还是母系方面
都是可观的,在线粒体DNA 分布上也存在地理梯度。北方汉族对南方汉族的遗传贡献在父系
(Y 染色体)上远大于母系(线粒体),表明这一扩张过程中汉族男性处于主导地位;换个角
度看,在汉族和南方原住民的融合过程中有相对较多的当地女性融入南方汉族中。性别偏向
的混合格局也同样存在于藏缅语人群中[22]。
据历史记载,受北方战乱和饥荒的影响,汉人不断的南迁,图1 中画出了三次大规模移
民的浪潮。在两千多年间,除了这三次大潮,各个时期几乎都有小规模的南迁。所以,我们
NATURE 2878—10/8/2004—VBICKNAELL—116403
4
的遗传研究也与历史记载相吻合。大量的北方移民改变了中国南方的遗传构成,而汉族人口
扩张的同时也带动了汉文化的扩散。除了大规模的人群迁徙,北方汉族、南方汉族和南方原
住民族之间的基因交流造成的族群混合也在很大程度上改变了中国人群的遗传结构。
方法
样本
采集中国各地的17 个汉族群体871 个随机不相关个体的血样。用酚-氯仿法抽提基因组DNA。结合文献
报道的Y 染色体和线粒体多态性数据,总共分析的样本量是:Y 染色体23 个群体1289 人,线粒体23 个群体
1119 人。这些样本涉及了中国的大部分省份(图1 和补充材料表1)。
遗传标记
通过聚合酶链式反应—限制性片断长度多态性(PCR-RFLP)的方法[11]分型Y 染色体上的13 个双等位标记:
YAP,M15,M130,M89,M9,M122,M134,M119,M110,M95,M88,M45,M120。根据Y 染色体委员会的命名系统
(YCC)[24],这些标记构成13 个单倍群,在东亚人群中具有较高的信息量[23]。
线粒体上,对高变1 区(HVS-1)进行测序,对编码区8 个多态位点作了分型(9-bp 缺失, 10397 AluI, 5176
AluI, 4831 HhaI, 13259 HincII, 663 HaeIII, 12406 HpaI , 9820 HinfI),有关方法已有报道[22]。根据东
亚线粒体系统树[18],用高变1 区突变结构和编码区多态性构建单倍群。
数据分析
根据线粒体和Y 染色体单倍群频率,用SPSS10.0 软件(SPSS 公司)作主成分分析,研究群体间关系。南
北汉族的遗传差异用ARLEQUIN 软件[26]做AMOVA 检验[25]。南方汉族中北方汉族和南方原住民族的混合比
例估计用两种不同的统计方法[19-20]:ADMIX 2.0[27]和LEADMIX[21]软件。亲本群体的选择对混合比例的适当
估计很重要[28-29],我们通过扩大东亚的参考数据来减小偏差。分析中,10 个北方汉族群体的各单倍群频率(Y
染色体和线粒体标记分别分析)的算术平均作为北方亲本群体。南方原住民族的频率平均了三个族群:侗台
语群(NRY,22 群体;线粒体,11 群体),南亚语群(NRY,6 群体;线粒体,5 群体),苗瑶语群(NRY,
18 群体;线粒体,14 群体)。通过样本的混合比例与纬度[1,3]的线性回归分析揭示汉族群体的地理格局。
2004 年4 月28 日收稿;7 月20 日定稿;doi:10.1038/nature02878. |
|