GenBank
GenBank — публічно доступна база даних нуклеотидних послідовностей і супровідних анотацій для більш як 300 000 видів. Дані вносяться як окремими лабораторіями, так і великомасштабними проектами повного секвенування геномів, Патентне відомство США також доповнює GenBank послідовностями із виданих патентів. Розробкою і розповсюдженням GenBank займається Національний центр біотехнологічної інформації. Ця база даних разом із DDBJ та ENA (англ. European Nucleotide Archive), з якими вона щоденно обмінюється даними, входить до Міжнародної співпраці баз даних нуклеотидних послідовностей. Станом на серпень 2014 року GenBank містив 939 775 079 106 пар основ[1].
GenBank можна використовувати через систему Entrez NCBI, яка інтегрує інформацію із широкого спектра баз даних NCBI. NCBI Nucleotide поділений на три розділи: CoreNucleotide (основна частина), dbEST (Expressed Sequence Tags) і dbGSS (Genome Survey Sequences). Сервіс BLAST дозволяє порівнювати послідовності GenBank між собою та із послідовностями з інших джерел[2][3].
Поділ на розділи
GenBank категоризує послідовності до кількох розділів в залежності від організму джерела або способу отримання даних[1].
Розділ | Опис | Кількість даних у релізі 203 (8/2014) |
---|---|---|
PRI | Послідовності приматів | 6697769597 |
ROD | Послідовності гризунів | 4467459537 |
MAM | Послідовності інших ссавців | 951689720 |
VRT | Інші хребетні | 3188004508 |
INV | Послідовності безхребетних | 3085847038 |
PLN | Рослинні послідовності | 9012205825 |
BCT | Бактерійні послідовності | 187345 |
VRL | Вірусні послідовності | 2125907663 |
PHG | Послідовності бактеріофагів | 146804958 |
SYN | Синтетичні послідовності | 976696717 |
UNA | Неанотовані послідовності | 187345 |
WSG | Дані секвенування повного геному методом дробовика (англ. Whole genome shotgun) | 774052098731 |
ENV | Зразки із навколишнього середовища | 4297282924 |
PAT | Запатентовані послідовності | 14647872659 |
TSA | Дані секвенування транскриптому методом дробовика | 9323352861 |
HTC | Дані високопродуктивного секвенування кДНК | 671972485 |
HTG | Дані високопродуктивного секвенування геномної ДНК | 25386830568 |
GSS | Genome survey sequences | 24293870378 |
EST | Expressed sequence tags | 42086482490 |
STS | Sequence tagged sites | 640701468 |
Поділ на розділи за організмами є історичним і не відображає сучасної класифікації. Через це, а також тому, що частина послідовностей певного організму можуть перебувати у розділі за технологією (наприклад, EST або HTG), для пошуку даних за організмом слід використовувати NCBI Taxonomy Browser.
Ідентифікатори і номери доступу послідовностей
Кожному запису, що складається із послідовності і супутньої інформації, присвоюється унікальний номер доступу, спільний для трьох баз даних, що співпрацюють (GenBank, DDBJ, ENA). Цей номер можна знайти у рядку ACCESSION
відповідного запису. Він не змінюється впродовж всього часу існування запису, навіть якщо дані оновлюються. Натомість, зміни відображаються за допомогою суфікса номера доступу, що позначає версію. Початковою версією послідовності завжди є '.1'. Кожній версії нуклеотидної послідовності також присвоюється унікальний NCBI ідентифікатор — GI, його можна знайти у рядку VERSION
, наприклад U49845.1 GI:1293613
. Коли дані про послідовність оновлюються, нова версія отримує інший GI, а версія номера доступу інкрементується. З номером доступу без вказання версії можна знайти найновіші дані. Записи GenBank рекомендується цитувати із використанням номера доступу із вказанням версії[1].
Завантаження вмісту
Що два місяці NCBI випускає новий повний реліз GenBank, який можна безкоштовно завантажити через FTP. Крім того, щоденно виходять оновлення також вільні до завантаження[1].
Примітки
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (2015). GenBank. Nucleic Acids Res. 43(Database issue):D30-5. PMID 25414350. doi:10.1093/nar/gku1216.
- GenBank Overview. NCBI. Процитовано 11 листопада 2015.
- Jonathan Pevsner (2009). Bioinformatics and Functional Genomics (вид. 2nd). Wiley. с. 14-23. ISBN 978-0-470-08585-1. Процитовано 11 листопада 2015.
Посилання
- GenBank Overview. NCBI. Процитовано 11 листопада 2015.
- Sample GenBank Record. NCBI. Процитовано 11 листопада 2015. — зразок запису на GenBank