大規模ゲノムの機械学習手法により日本人集団の地域による多様性を解明
~日本人のゲノムを知り、ゲノム個別化医療に役立てる~
大規模ゲノムの機械学習手法により日本人集団の地域による多様性を解明
~日本人のゲノムを知り、ゲノム個別化医療に役立てる~
大阪大学大学院医学系研究科 遺伝統計学教室 坂上沙央里 大学院生(東京大学大学院医学系研究科 博士課程)、岡田随象 教授(理化学研究所生命医科学研究センター 客員主管研究員)らの研究グループは、日本・イギリス・アラブ・マレーシアのゲノムデータに機械学習を応用し、これまで見つけられなかった地域ごとの詳細なゲノムの多様性を視覚的に明らかにする手法を発表しました。更に、将来の疾患罹患リスクをゲノムにより予測する手法であるポリジェニック・リスク・スコア(PRS)に、この多様性が思いがけない影響を与える可能性を示しました。
私達現生人類は、アフリカで誕生した共通の祖先から、ヨーロッパ、中東、アジアへと移住し、その過程でさまざまな環境に適応し多様性を増してきました。その多様性は現在の人々のゲノム配列に反映されており、古典的な線形次元削減法である主成分分析(PCA)の手法を用いると、ゲノム情報から大まかに世界の人種を特定できることが知られていました。しかし、例えば一つの国の中など、これまでゲノムからは同じ人種と分類されてきた人々の中にも各地域を特徴づけるような細かなゲノムの多様性が存在するかどうかについては未解明でした。
今回、岡田教授らの研究グループは、日本のさまざまな地域から集められた17万人規模のゲノムデータに対して、最近開発された機械学習・非線形次元削減の手法を適用することで、地域ごとのゲノムの多様性を二次元座標に視覚的に分かりやすく描出する手法を提案しました。この手法により、日本人集団はおおきく本州を中心とするグループと琉球を中心とするグループの大きく2つに分類されることが分かり、琉球グループは機械学習手法を再度適用すると更に詳細な分類が可能であることが判明しました。この機械学習手法をイギリス・アラブ・マレーシアのゲノムデータにも適用し、一つの人種集団内の多様性を明らかにしました。最後に、日本人集団内部のグループ構造は、ゲノム配列全域に分布する無数の遺伝的変異の情報を用いた疾患リスク予測値である「ポリジェニック・リスク・スコア」の値にも影響を与えることを示し、ポリジェニック・リスク・スコアに基づくリスク層別化には、一つの人種集団内部の緻密な多様性まで考慮した方法論が求められることを示しました。
本研究成果は、米国科学誌「Nature Communications」に、3月26日(木)19時(日本時間)に公開されました。