Pfam

Pfamбаза даних сімейств білкових доменів. Кожне сімейство в ній представлено множинним вирівнюванням фрагментів білкових послідовностей і прихованої марковської моделлю (HMM). На березень 2017 року Pfam містилося 16 712 записів (сімейств), об'єднаних в 604 клани.[1]

Історія

База даних Pfam заснована в 1997 році дослідниками з Інституту Сенгера [2] і активно підтримується консорціумом вчених з різних країн[3]. З 2011 року для записів з відомої функціональної анотацією існують статті в англомовній Wikipedia [4]. За даними 2014 року, майже для 80% послідовностей бази UniProt є інформація в Pfam [5].

У журналі «Nucleic Acids Research» періодично виходять статті, що описують розвиток і стан Pfam [6]. Версія Pfam 31.0 побудована по базі даних Pfamseq, заснованої на релізі UniProtKB 2016_10 [7]. Pfamseq містить 26,7 млн ​​послідовностей[1].

Структура Pfam

У Pfam існує дві категорії сімейств: Pfam-A та Pfam-B. Сімейства не перекривають одне одного - в базі даних немає таких білків, в яких хоча б одна амінокислота належиала одночасно до двох різних доменів. Деякі сімейства, що мають загальне еволюційне походження і зберегли схожість на рівні послідовностей або структур, об'єднані в клани.

Pfam-A

Pfam-A містить сімейства, які контролюються вручну. Для формування кожного сімейства Pfam-A будується вихідне вирівнювання (seed alignment) з його найбільш репрезентативних представників. На його основі створюється прихована марковська модель (HMM), також має назву профіль. Вона складається з станів «зіставлення», «вставка» і «делеція» для кожної колонки множинного вирівнювання з присвоєними емісійними ймовірностями для всіх амінокислот в першому з цих станів [2] . Дані емісійні ймовірності представлені для кожного сімейства на його сторінці у вигляді sequence logo.

Після цього здійснюється пошук за допомогою отриманої HMM по базі даних Pfamseq, відповідної останньому релізу UniProtKB. Усі послідовності, для яких рейтинг відповідності HMM перевищує певний поріг, встановлюваний вручну для кожного сімейства, включаються в повне вирівнювання (full alignment). Якщо виявляється, що деякі представники сімейства не знаходяться при пошуку за допомогою HMM, вихідне множинне вирівнювання редагується до досягнення оптимального результату [8]. Отримані HMM зберігаються в базі даних Pfam і можуть бути використані для пошуку доменів в нових білкових послідовностях через веб-інтерфейс.

Описи сімейств переважно містяться в Wikipedia і відкриті для публічного редагування. Однак, слід зазначити, що понад чверть усіх сімейств не має функціональної анотації, такі домени позначаються як DUF (англ. Domain of unknown function). Також для кожного сімейства міститься інформація про його представленості в різних таксонах, варіанти доменної структури маючих його білки і філогенетичне дерево вихідного вирівнювання. У тих випадках, коли це можливо, присутні дані про білок-білкових взаємодіях, отримані за допомогою iPfam, і посилання на тривимірні структури в базі даних PDB.

Pfam-B

На додаток до сімейств, що контролюються вручну, база даних Pfam також містить сімейства Pfam-B, які генеруються автоматично з використанням алгоритму кластеризації доменів ADDA. Вони не мають функціональної анотації, і, як правило, мають значно гіршу якість в порівнянні з родинами Pfam-A. Деякі з них представляють собою регіони низької складності і не відображають дійсної спорідненості білкових послідовностей, тому рекомендується перевірка гомології представників сімейств Pfam-B за допомогою інших методів, наприклад, BLAST. Починаючи з Pfam 24.0, для 20000 найбільших сімейств Pfam-B побудовані HMM, і по ним можливо проводити пошук.[9]

Підтримка Pfam-B закінчилася після Pfam 27.0.[10]

Клани

Клани — це об'єднання родин білкових доменів, що мають загальне еволюційне походження. Для формування кланів золотим стандартом служить порівняння тривимірних структур доменів, при їх відсутності також може використовуватися помітне перекриття профілів, схожість профілів (яке може бути визначене за допомогою алгоритму HHsearch) або схожість результатів пошуку по базі даних з використанням різних профілів (визначається за методом SCOOP)[9]. Для кланів, також як і для родин Pfam-A, надається загальне вирівнювання всіх його представників, інформація про розподіл по таксонам, дані про білок-білкових взаємодіях і посилання на тривимірні структури.

Класифікація записів

Запис Pfam - це набір схожих ділянок білкових послідовностей. Всі записи відносять до одного з шести типів[4]:

  1. Family (Сімейство) - базовий тип, набір родинних (гомологічних) ділянок;
  2. Domain (Домен) - стійка структурна одиниця, або функціональна ділянка, зустрічається в різноманітних білкових архитектурах;
  3. Repeat (Повтор) - коротка ділянка, яка є нестійкою у ізоляції, але утворює стабільну структуру, коли присутні кілька його копій;
  4. Motif (Мотив) - коротка консервативна ділянка поза глобулярних доменів;
  5. Coiled-Coil (суперспіральний блок) - області, що формують суперспіралі, тобто пучки з 2-7 скручених альфа-спіралей;
  6. Disordered (неструктурований блок) - консервативні ділянки зі зміщеним амінокислотним складом, що не формують стійкої (глобулярної) структури.

Найчастіше термін family (сімейство) використовується, в тому числі на сайті Pfam, замість терміна entry (запис), що створює значну плутанину.

Можливості

Сайт Pfam надає інтерактивний доступ до даних, а також можливість переглядати дані в графічному вигляді.

Вікно «Jump to...», присутнє на більшості сторінок Pfam, дозволяє швидко провести пошук родин чи кланів за ідентифікатором (ID) або коду доступу (accession). В верхній частині будь-якої сторінки Pfam є також вікно пошуку сімейств за ключовим словом, «keyword search»[3].

Шляхом пошуку послідовності білка по бібліотеці HMM в Pfam можна з'ясувати його доменну архітектуру. Для багатьох відомих білкових послідовностей вона вже обчислена: щоб переглянути її, потрібно ввести ідентифікатор або код доступу послідовності у вікні вкладки «view a sequence» на головній сторінці сайта. Якщо ж послідовність не розпізнає Pfam, можна скористатися сторінкою пошуку, де потрібно ввести амінокислотну або нуклеотидну послідовність[3].

Якщо потрібно провести пошук великої кількості послідовностей, на вкладці «Batch search» сторінки пошуку можна завантажити файл з послідовностями в форматі FASTA, при цьому в кожному файлі має бути не більше 5000 послідовностей. У цьому випадку користувач отримує результати протягом 48 годин на e-mail адресу, яку потрібно також вказати на сторінці пошуку[11] Також є можливість провести пошук локально, за допомогою скрипту «pfam_scan.pl». Для цього потрібно програмне забезпечення HMMER3, бібліотеки HMM і деякі інші додаткові файли, які можна знайти на сайті Pfam[11].

У Pfam є обчислені доменні архітектури для протеомів бази Integr[12]. Доступ до цих даних відкритий в графі «Proteomes» на сторінці «Browse». Для представлених тут організмів є інформація про доменний склад і доменні архитектури їх білків.

Pfam також надає можливість пошуку білків по доменній архітектурі. Для цього на вкладці «Domain architecture» сторінки пошуку в спеціальному вікні потрібно вибрати домени, що входять або не входять до цільового білок, а також можна використовувати Java-аплет PfamAlyzer, що володіє більш широкими можливостями [13].

Див. також

Література

  • Robert D. Finn, Alex Bateman, Jody Clements, Penelope Coggill, Ruth Y. Eberhardt, Sean R. Eddy, Andreas Heger, Kirstie Hetherington, Liisa Holm, Jaina Mistry, Erik L. L. Sonnhammer, John Tate, Marco Punta. Pfam: the protein families database // Nucleic Acids Research. — Oxford Journals, 2014. № 42(Database issue). С. D222–D230.
  • Marco Punta, Penny C. Coggill, Ruth Y. Eberhardt, Jaina Mistry, John Tate, Chris Boursnell, Ningze Pang, Kristoffer Forslund, Goran Ceric, Jody Clements,Andreas Heger, Liisa Holm, Erik L. L. Sonnhammer, Sean R. Eddy, Alex Bateman, Robert D. Finn. The Pfam protein families database // Nucleic Acids Research. — Oxford Journals, 2012. № 40(Database issue). С. D290–D301.

Примітки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.