【アクセッション番号とは?】
※一般的なアクセッション番号[accession number]は、データベースの要素である各エントリー(entry)を入手(access)するために、それぞれのエントリーに一意的に付与される認識番号。DDBJ/EMBL/GenBank国際塩基配列データベースを例にとると、1980年代にはエントリー数がまだ少なかったため、アルファベット1文字のあとに5桁の数字を並べる(例:D12345)という方式が用いられていたが、その後データ量の増加により、アルファベット2文字に6桁の数字(例:AB123456)という方式に変わった。
ここでは、NCBI Reference Sequence で用いるアクセッション番号(Accession number)の表記について説明します。
NCBI の **Reference Sequence(RefSeq)** で使われるアクセッション番号は、
配列の種類やリリース状況によって **特定のアルファベット+数字の形式** になっています。
—
## 1. 基本構造
“`
[英字プレフィックス][数字].[バージョン]
“`
* **英字プレフィックス** … 配列の種類や由来を表す
* **数字** … 固有のID
* **バージョン番号**(ドット以降) … 修正版。配列が更新されるたびにバージョンが上がる
—
## 2. 主なプレフィックスと意味
| プレフィックス | 種類 | 例 |
| ——————————- | ——————————— | ———————— |
| **NC\_** | 完全ゲノム配列(染色体、プラスミドなど) | `NC_000001.11`(ヒト染色体1) |
| **NG\_** | 遺伝子領域を含むゲノム配列(非タンパク質コーディングも含む) | `NG_009072.1`(ヒト遺伝子例) |
| **NM\_** | mRNA 配列(タンパク質をコードする) | `NM_000546.6`(TP53 mRNA) |
| **NR\_** | ノンコーディングRNA(rRNA, tRNA, lncRNAなど) | `NR_003287.4`(U6 snRNA) |
| **NP\_** | タンパク質配列(NM\_ に対応) | `NP_000537.3`(TP53タンパク質) |
| **XP\_** | 予測タンパク質(モデル生物や推定翻訳産物) | `XP_011518845.1` |
| **XR\_** | 予測ノンコーディングRNA | `XR_945556.2` |
| **AP\_**, **AC\_**, **NC\_** など | そのほかゲノム領域やコンティグ | |
—
## 3. バージョン番号の意味
* 例:`NM_000546.6`
→ プレフィックス `NM`(mRNA)+ 固有番号 `000546` + バージョン `.6`
* バージョン番号は配列の塩基配列自体が変わったときにのみ増加します。
アノテーション(遺伝子名や機能説明)が変わるだけならバージョンは変わりません。
—
## 4. RefSeq 特有の点
* RefSeq のアクセッション番号は **固定的** で、データベース更新後も元の番号は維持されます。
* GenBank などの一般的な登録番号(例:`AY123456`)とは別体系です。
* RefSeq の場合、**接頭辞を見れば種類がすぐわかる**のが特徴です。
—
【アクセッション番号の例】
ゼブラフィッシュ(Danio rerio)の色覚オプシン遺伝子 を例にして、RefSeq のアクセッション番号リストを整理する。
以下に、ゼブラフィッシュ(*Danio rerio*)の代表的な色覚オプシン(opsin)遺伝子について、RefSeq アクセッション番号(プレフィックス NM/NP)の例をまとめました。これらはリファレンスとなる mRNA および対応するタンパク質配列を指します。
—
### 主なオプシン遺伝子の RefSeq アクセッション例(一部)
| 遺伝子名 | RefSeq トランスクリプト (mRNA) | RefSeq タンパク質 | 備考 |
| —————————— | ——————————————— | ——————————- | ——— |
| **opn1sw1** (短波長/UV-sensitive) | あり(KEGGに “RefSeq” 表記) ([GENOME.jp][1]) | NP\_571394 ([GENOME.jp][1]) | UV/SWS1 型 |
| **opn1lw1** (長波長/赤敏感) | NM\_131175.1, NM\_001313715.1 ([ベクタービルダー][2]) | NP\_001300644.1 ([ベクタービルダー][2]) | |
| **opn1mw1** (中波長/緑敏感) | “RefSeq” mRNA 表記あり(KEGG) ([GENOME.jp][3]) | NP\_571328 ([GENOME.jp][3]) | |
—
### 解説
* **プレフィックスの役割**
* `NM_…`:レビュー済みの mRNA リファレンス配列(curated)
* `NP_…`:対応するタンパク質配列
* `XM_…` / `XP_…` は予測モデルで、レビュー前のものです(今回は含まれていません)。
* **gene ごとの典型的な流れ**:
* まず、遺伝子が `NM_` アクセッションとして登録され、それに基づいて対応する `NP_` が生成されます。
* **例**:`opn1lw1`(赤敏感オプシン)の場合、
* トランスクリプト(NM):`NM_131175.1` / `NM_001313715.1`
* タンパク質(NP):`NP_001300644.1` ([ベクタービルダー][2])
* **KEGG での表記**:簡易的に「(RefSeq)」と表記されていますが、具体的な NM/NP は ZFIN や NCBI Gene のエントリから確認可能です ([GENOME.jp][1])。
—
[1]: https://www.genome.jp/entry/dre%3A30582?utm_source=chatgpt.com “KEGG T01004: 30582 – GenomeNet”
[2]: https://www.vectorbuilder.jp/popular-vectors/zebrafish-gene/opn1lw1-30413.html?utm_source=chatgpt.com “ポピュラーベクター Zebrafish 遺伝子 opn1lw1 (opsin 1 (cone …”
[3]: https://www.genome.jp/entry/dre%3A30503?utm_source=chatgpt.com “KEGG T01004: 30503 – GenomeNet”
—
【KEGGとは?】
KEGG(**Kyoto Encyclopedia of Genes and Genomes**、京都遺伝子・ゲノム百科事典)は、
京都大学化学研究所を中心に開発されている、**生物の遺伝子や代謝経路の統合データベース**です。
https://www.genome.jp/kegg/
—
## 1. 目的
KEGGは、生物の遺伝子・ゲノム情報と、それが関与する代謝経路やシグナル伝達経路を**体系的に結びつけて理解する**ためのリソースです。
たとえば「この遺伝子はどんな経路に関わっているのか?」や「どんな酵素反応を触媒しているのか?」を一目で確認できます。
—
## 2. 主な構成
KEGGはいくつかのサブデータベースから成っています。
| モジュール | 内容 | 例 |
| ———————– | —————– | —————————————– |
| **KEGG PATHWAY** | 代謝経路やシグナル伝達経路を図式化 | Glycolysis(解糖系)、Phototransduction(視覚情報伝達) |
| **KEGG GENES** | 生物種ごとの遺伝子カタログ | *Danio rerio*(ゼブラフィッシュ)遺伝子一覧 |
| **KEGG BRITE** | 分類階層データ | 受容体ファミリー分類など |
| **KEGG ORTHOLOGY (KO)** | 生物種を超えた遺伝子機能の対応付け | KO\:K04255(ロドプシン様オプシン) |
| **KEGG COMPOUND** | 代謝物・化合物の情報 | グルコース、レチナールなど |
| **KEGG DRUG** | 医薬品データ | アトロピン、ビタミンA製剤など |
| **KEGG DISEASE** | 疾患データ | 網膜色素変性症(RP)など |
—
## 3. 特徴
* **配列データベースではない**(配列そのものはNCBIなどにリンク)。
* 生化学・分子生物学の「地図帳」のような役割を持つ。
* 遺伝子記号を入力すると、その遺伝子が関わる経路図にジャンプできる。
* 医薬品・疾患情報とも結びつけられており、基礎研究から応用研究まで使える。
—
## 4. ゼブラフィッシュ色覚遺伝子での活用例
例えば、ゼブラフィッシュの **opn1sw1**(UV感受性オプシン)を KEGG で検索すると、
* NCBI RefSeq の NM/NP 番号
* 関連するKO番号(ロドプシン様オプシンファミリー)
* 所属する経路(phototransduction, vision-related pathways)
などをまとめて確認できます。
—
【KEGG情報の例】
KEGG を使って **ゼブラフィッシュの色覚オプシン遺伝子一覧と、それぞれのRefSeqアクセッション番号** を作表します。
—
こちらが、KEGG におけるゼブラフィッシュ(*Danio rerio*)の代表的な **色覚オプシン(opsin)遺伝子** の一覧です。RefSeq アクセッションが含まれており、光受容メカニズムの理解に役立ちます。
—
### ゼブラフィッシュの主要オプシンと KEGG 情報
| 遺伝子シンボル | 種類 | KEGG エントリー (NCBI-GeneID) | KO(機能分類) | 備考 |
| ———————– | ———————- | —————————- | ——————- | ————————— |
| **opn1sw1** | 短波長/UV(SWS1) | 30582 (GeneID 30582) | K04252 (短波長感受性オプシン) | RefSeq に対応 ([GENOME.jp][1]) |
| **opn1sw2** | 別短波長(SWS2) | 30435 (GeneID 30435) | K04252 | RefSeq に対応 ([GENOME.jp][2]) |
| **opn1mw1**〜**opn1mw4** | 中波長(緑/MWS) | 30503, 360151, 360152, 30504 | K04250(ロドプシン系) | 各々 RefSeq に対応 ([KEGG][3]) |
| **rhol** | ロドプシン様(rhodopsin-like) | 562845 | K04250 | RefSeq に対応 ([KEGG][3]) |
—
### 補足情報
* すべてのオプシンは **KEGG の Phototransduction(光受容)経路**(dre04744)に関連付けられています ([KEGG][4])。
* KO(KEGG Orthology)は、遺伝子の機能グループ化を示す分類番号です。例えば、K04252 や K04250 は「感光性オプシン」に対応しており、他種との比較や機能予測にも利用できます。
* これらのオプシン情報は、ZFIN や Ensembl などの他データベースにもリンクしています(KEGG 内「Other DBs」欄で確認可能)([GENOME.jp][1], [KEGG][3])。
—
[1]: https://www.genome.jp/entry/dre%3A30582?utm_source=chatgpt.com “KEGG T01004: 30582 – GenomeNet”
[2]: https://www.genome.jp/entry/dre%3A30435?utm_source=chatgpt.com “KEGG T01004: 30435 – GenomeNet”
[3]: https://www.kegg.jp/entry/dre%3A30295%2Bdre%3A30459%2Bdre%3A30503%2Bdre%3A30504%2Bdre%3A360151%2Bdre%3A360152%2Bdre%3A562845?utm_source=chatgpt.com “KEGG T01004: 30295”
[4]: https://www.kegg.jp/entry/dre04744?utm_source=chatgpt.com “PATHWAY: dre04744 – KEGG”