English
Top

日本人集団に潜む遺伝構造と生活習慣・食事の関係を明らかに ――機械学習で読み解く4万人のゲノムデータ――

発表のポイント
  • 4万人以上の日本人の大規模遺伝子データを対象に機械学習手法で解析した結果、同じ日本人集団内にも明確な遺伝クラスタが存在することが明らかとなりました。
  • 分類された遺伝クラスタは、祖先の地理的ルーツと関連しているだけでなく、例えばHDLコレステロールや肝機能、血糖コントロールなどの特定の形質に関わる遺伝子群の違いによって特徴付けられることが分かりました。
  • さらに、アンケートによって取得した生活習慣や食習慣との関連解析から、野菜の摂取頻度や牛乳を飲む習慣、睡眠の質などが、遺伝クラスタごとに異なる傾向があることも示されました。
    図:日本人集団に潜む遺伝構造と生活習慣・食事の関係

 概要

東京大学医科学研究所健康医療インテリジェンス分野の井元清哉教授、Chen Yichi特任研究員、同研究所シークエンスデータ情報処理分野の片山琴絵准教授、株式会社ディー・エヌ・エーの子会社である株式会社アルムの石田幸子博士らの研究グループは、共同研究によって4万人以上の大規模遺伝子データを解析し、日本人集団内の微細な遺伝構造と食習慣・生活習慣との関連を明らかにしました。

本研究では、ゲノム研究プロジェクト「MYCODE Research」(注1)の下で収集された遺伝子データを対象に、PCA(注2)、UMAP(注3)、DBSCAN(注4)といった機械学習手法を用いて微細な遺伝構造の抽出を試みました。その結果、比較的均一と言われている日本人集団内にも複数の確かな遺伝クラスタが存在し、これらは祖先の地理的ルーツと関連していることが示されました。また、分類された遺伝クラスタは、HDLコレステロールや肝機能、血糖コントロールなどの特定の形質に関わる遺伝子群に有意な違いがあること、さらには、野菜や牛乳の摂取頻度、睡眠の質などの食習慣や健康行動に違いがあることが示されました(図1)。
図1: 研究の全体概要
今回の成果は、ゲノム解析と疫学解析を統合することで、遺伝的体質と生活環境が複雑に影響し合うことを体系的に明らかにしたものであり、今後の公衆衛生研究、ゲノム情報に基づく個別化予防や精密医療の発展に貢献すると期待されます。

本研究成果は、2025年7月12日(英国時間)に、国際科学雑誌『Communications Biology』にオンライン掲載されました。


 発表内容       

〈研究の背景〉
近年、個人の遺伝子データを詳しく分析し、病気の予防や健康管理に役立てる取り組みが広がっています。特に、機械学習や人工知能による新しい解析技術の発展により、疾患などの個人の属性をあらかじめ与えることなく膨大なデータの中から類似性を見つけ出す「教師なし学習」(注5)が、新たな特徴を共有する集団の発見において注目されています。

これまで日本人は遺伝的に均質な集団と考えられてきましたが、最新の機械学習解析により、同じ集団内にもわずかな遺伝的違いが存在することが分かってきました。こうした違いは、地域ごとの祖先構成や歴史的移動と関わっている可能性があり、体質や病気のかかりやすさにも影響を与えると考えられています。しかし、こうした微細な遺伝構造と、日々の食習慣や生活習慣との関連性は十分に解明されていませんでした。

〈研究内容と成果〉
本研究では、株式会社DeNAライフサイエンスが提供した個人向け遺伝子検査サービス「MYCODE」(注1※)を利用した会員のうち、研究への参加について同意された会員4万人以上の日本人の大規模遺伝子データを対象に、PCA、UMAP、DBSCANといった機械学習手法を組み合わせ、日本人集団内の微細な遺伝構造を解析しました(図2)。解析の結果、遺伝的違いによって解析対象の集団は6つの遺伝クラスタに分かれました。中でもクラスタ2(赤、15.2%)とクラスタ3(緑、11.2%)は最も異なる特徴を示し、クラスタ1(青、54.5%)は集団全体を代表する特徴を持ちながら、クラスタ5(紫、7.8%)やクラスタ6(茶、1.8%)と特に近い遺伝的特徴を共有していました。なお、クラスタ5と6は人数が少なかったため、解析ではクラスタ1とまとめて「クラスタ1*」として扱い、全体を4つのクラスタに分けて解析を行いました。
図2: 機械学習による日本人集団内の微細遺伝構造の可視化
次に、各遺伝クラスタに特徴的に関連する遺伝子群を調べるために遺伝子セット解析(注6)を行いました。その結果、合計64種類の有意な遺伝子群が見つかりました。例えば、クラスタ1*では血液中のHDLコレステロール、クラスタ2では日中の睡眠関連形質、クラスタ3では肝機能や血糖コントロール、クラスタ4では「罪悪感を感じる傾向」といった心理的特徴に関連が認められました(図3a)。

さらに、年齢・性別・BMIを考慮した統計解析により、食習慣や生活習慣との関連を調べたところ、175項目のうち21項目で有意な関連が認められました(図3b)。例えば、クラスタ3とクラスタ4では野菜を食べる頻度が高く、クラスタ3では牛乳を飲む頻度も高いなど、各クラスタに特徴的な食習慣や生活習慣が明らかになりました。
図3: 日本人集団における遺伝クラスタごとの特徴的な遺伝子群と生活習慣の関連
これらの結果から、日本人集団内における明確な遺伝的違いが、食習慣や生活習慣、健康指標と複雑に関連していることが示されました。本研究は、こうした遺伝構造と生活習慣の関係を包括的に解析したものであり、今後の公衆衛生研究や個別化予防、精密医療の発展に貢献することが期待されます。


 発表者・研究者等情報       

東京大学医科学研究所 附属ヒトゲノム解析センター 
 健康医療インテリジェンス分野
  井元 清哉 教授 
  Chen Yichi 特任研究員

 シークエンスデータ情報処理分野
  片山琴絵 准教授

株式会社アルム     
 石田幸子


 論文情報       

雑誌名:Communications Biology
題 名:Intricate interactions between fine-scale genetic structure, lifestyle, and dietary habits in the Japanese population
著者名:Yichi Chen, Kotoe Katayama, Sachiko Ishida, Seiya Imoto(※責任著者)
DOI: 10.1038/s42003-025-08479-w
URL: https://www.nature.com/articles/s42003-025-08479-w


 研究助成       

本研究は、株式会社DeNAライフサイエンスとの共同研究として実施されました。


 用語解説

(注1)MYCODE Research
株式会社DeNAライフサイエンスが提供していた個人向け遺伝子検査サービス「MYCODE」を利用した会員のうち、データの研究利用に同意いただいた方を対象としたユーザー参加型のゲノム研究プロジェクト。約9割の会員が研究同意され、これまでに累計約40件のアカデミアや企業との共同研究が行われてきた 。
※ 現在「MYCODE」はサービスを終了し、株式会社DeNAライフサイエンスの研究事業である「MYCODE Research」は、株式会社ディー・エヌ・エーの子会社である株式会社アルムに事業承継されている。

(注2)PCA(主成分分析)
遺伝子データのような高次元データを統計的に整理し、データのバラツキを最もよく説明する重要な特徴(主成分)を抽出することで、どのような変数(遺伝子)がデータのバラツキに寄与しているかを解析することができるデータ解析手法。

(注3)UMAP
「Uniform Manifold Approximation and Projection」の略。複雑な高次元データの構造を二次元や三次元にわかりやすく可視化できる解析手法。

(注4)DBSCAN
「Density-Based Spatial Clustering of Applications with Noise」の略。データを類似性によってまとめ、クラスタに分類する手法。

(注5)教師なし学習
機械学習手法のひとつ。例えば、疾患である、疾患でないというような個人の属性を学習データとして与えることなく、個人を特徴付ける例えば検診などのデータのみから個人のグルーピングを行う方法。

(注6)遺伝子セット解析(Gene Set Enrichment Analysis, GSEA)
事前に定義した注目している遺伝子セットに対して、特定の機能を有する遺伝子や特定の疾患に関連する遺伝子が有意に含まれているかどうかを解析するデータ解析手法。
 

 問合せ先

〈研究に関する問合せ〉
東京大学医科学研究所 附属ヒトゲノム解析センター 健康医療インテリジェンス分野 
教授 井元 清哉(いもと せいや) 
https://www.ims.u-tokyo.ac.jp/imsut/jp/lab/hgclink/page_00072.html  


〈報道に関する問合せ〉
東京大学医科学研究所 プロジェクトコーディネーター室(広報)
https://www.ims.u-tokyo.ac.jp/

PDF版はこちらよりご覧になれます(PDF:1.3MB)