真核基因組由一條或多條線性DNA染色體組成。組成真核生物基因組的染色體的數量差異很大,杰克跳線螞蟻和無性線蟲的基因組每個只有一對染色體 [6],而蕨類物種有720對染色體 [7]。人類細胞具有22對常染色體和1對性染色體。
除了細胞核中的染色體外,真核生物的細胞器如葉綠體和線粒體都有自己的DNA和染色體,因此,也有“線粒體基因組”和“質體基因組”的說法。與它們來源的細菌一樣,線粒體和葉綠體都含有環狀染色體。
與原核生物不同,真核生物具有蛋白質編碼基因的外顯子 -內含子組織和一定數量的重復DNA。哺乳動物和植物基因組的大多數由重復DNA組成 [8]。
1、編碼序列
攜帶合成蛋白質遺傳信息的DNA序列是編碼序列。不同物種中編碼序列占基因組的比例差異很大。較大的基因組不一定含有更多的基因,并且復雜真核生物中非重復DNA的比例隨著基因組大小的增加而減少 [8]。簡單的真核生物如秀麗隱桿線蟲和果蠅中,編碼DNA比例高于重復DNA [8],而更復雜真核生物基因組則往往主要由重復DNA組成。一些植物和兩棲動物基因組中重復DNA的比例超過80% [8]。同樣,人類基因組中只有2%編碼DNA。
2、非編碼序列
非編碼序列包括內含子,非編碼RNA的序列,調控DNA和重復DNA。人類基因組的98%屬于非編碼序列。基因組的重復DNA有串聯重復序列和分散重復序列 [9]。
3、轉座子
轉座子(TEs)是具有特定結構的DNA序列,它們可以在基因組中跳動,位置不固定 [10]。I類TE通過復制和粘貼機制跳動位置,II類TE從基因組中切除并插入新位置。
TE的運動是真核生物基因組進化的驅動力,因為它們的插入可以破壞基因功能,TE之間的同源重組可以導致基因的復制,TE還可以將外顯子和調節序列改組到新的位置 [11]。
4、反轉錄轉座子
反轉錄轉座子可以轉錄成RNA,然后在另一個位點被復制到基因組中 [12]。反轉錄轉座子可分為長末端重復序列(LTR)和非長終端重復序列(非LTR)兩大類反轉錄轉座子 [11]。