Біоінформатика

Біоінформа́тика — галузь обчислювальної біології, що застосовує машинні алгоритми і статистичні методи для аналізу великих наборів біологічних даних, які, як правило, складаються з великого числа нуклеотидних (ДНК і РНК) та пептидних (білки) послідовностей і даних структури білків. Головні напрямки досліджень біоінформатики включають вирівнювання послідовностей, пошук генів, збірку геномів, вирівнювання структур білків, передбачення структури білків, передбачення експресії генів та білок-білкової взаємодії та реконструювання процесу еволюції. Великим напрямком досліджень біоінформатики є отримання високоякісних послідовностей геномів з фрагментів послідовностей, отриманих за допомогою традиційних методів секвенування ДНК та конструювання сигнальних мереж за даними ДНК-мікрочипів. В останньому випадку біоінформатика нерідко перетинається з системною біологією.

Мапа X-хромосоми людини (дані з сайту NCBI). Розшифрування геному людини — одне з найбільших досягнень біоінформатики.

Хоча терміни біоінформатика і обчислювальна біологія часто взаємозамінюються, останній указує на ширшу галузь, що також включає розробку алгоритмів і конкретні обчислювальні методи та моделювання біологічних (математична біологія) і біохімічних (обчислювальна хімія, молекулярне моделювання) процесів[1]. Часто також біофінформатику розглядають як галузь біомедичної інформатики.

Основні галузі досліджень

Аналіз генетичних послідовностей

З тих пір, як в 1977 році був секвенований геном фагу Phi-X174, послідовності ДНК все більшого числа організмів були розшифровані і збережені в базах даних. Ці дані використовуються для визначення послідовностей білків і регуляторних ділянок. Порівняння генів в рамках одного або різних видів може продемонструвати схожість функцій білків або відношення між видами (таким чином, можуть бути складені філогенетичні дерева).

Із зростанням кількості даних вже давно стало неможливим вручну аналізувати послідовності. В наші дні для пошуку по геномах тисяч організмів, що складаються з мільярдів пар основ, використовуються комп'ютерні програми. Програми можуть однозначно зіставити («вирівняти») схожі послідовності ДНК в геномах різних видів, часто такі послідовності несуть схожі функції, а відмінності виникають в результаті дрібних мутацій, таких як заміни окремих нуклеотидів, вставки нуклеотидів і їхнє «випадання» (делецій).

Один з варіантів такого вирівнювання застосовується при самому процесі секвенування. Так звана техніка «дробового секвенування» (яка, наприклад, використовувалася Інститутом генетичних досліджень або TIGR для секвенування першого бактеріального геному Haemophilus influenzae) замість повної послідовності нуклеотидів дає послідовності коротких фрагментів ДНК (кожен завдовжки близько 600–800 нуклеотидів). Кінці фрагментів накладаються один на одного і, суміщені належним чином, дають повний геном. Такий метод швидко дає результати секвенування, але збірка фрагментів може бути досить складним завданням для великих геномів. У проекті по розшифруванню генома людини збірка зайняла декілька місяців часу суперкомп'ютерів. Зараз цей метод застосовується для практично всіх геномів, і алгоритми збірки геномів є однією з щонайгостріших проблем біоінформатики на сьогоднішній момент.

Іншим прикладом застосування комп'ютерного аналізу послідовностей є автоматичний пошук генів і регуляторних послідовностей в геномі. Не все нуклеотиди в геномі використовуються для завдання послідовностей білків. Наприклад, в геномах еукаріотів існують великі сегменти некодуючої ДНК, які явно не кодують білки, а їхня функціональна роль в багатьох випадках невідома. Розробка алгоритмів виявлення ділянок геному, що кодують білки, є важливим завданням сучасної біоінформатики.

Біоінформатика допомагає зв'язати геномні та протеомні проекти, наприклад, допомагаючи у використанні послідовності ДНК для ідентифікації білків.

Анотація геномів

У контексті геноміки анотація — процес маркування генів і інших об'єктів в послідовності ДНК. Перша програмна система анотації геномів була створена в 1995 році Оуеном Вайтом (Owen White), що працював в команді, яка секвенувала і проаналізувала перший декодований геном вільноживучого організму, бактерії Haemophilus influenzae. Доктор Вайт побудував систему знаходження генів, тРНК і інших об'єктів в геномі, і зробив перші позначення функцій цих генів. Більшість сучасних систем працюють схожим чином, але ці програми постійно розвиваються і поліпшуються.

Обчислювальна еволюційна біологія

Еволюційна біологія досліджує походження і появу видів, також як їх розвиток з часом. Інформатика допомагає еволюційним біологам в декількох аспектах:

вивчення еволюції великого числа організмів, вимірюючи зміни в їх ДНК, а не тільки в будові або фізіології
порівняння цілих геномів (див. BLAST), що дозволяє вивчати більш комплексні еволюційні події, такі як дуплікація генів, горизонтальний перенос генів і передбачати фактори спеціалізації організмів
будування комп'ютерних моделей популяцій, щоб передбачити поведінку системи з часом
відстеження появи публікацій, що містять інформацію про велику кількість видів

Область інформатики, що використовує генетичні алгоритми, часто плутають з комп'ютерною еволюційною біологією. Робота в цій області використовує спеціалізоване програмне забезпечення для поліпшення алгоритмів і обчислень і ґрунтується на еволюційних принципах, таких, як реплікація, диверсифікация через рекомбінацію або мутації, і виживання за умовами природного відбору.

Оцінка біологічного різноманіття

Біорізноманіття екосистеми може бути визначено як повна генетична сукупність певного середовища, що складається зі всіх видів, що мешкають в ньому, чи це біофільм в покинутій шахті, крапля морської води, жменя землі або вся біосфера планети Земля. Для збору видових назв, описів, ареалу розповсюдження і генетичній інформації використовуються бази даних. Спеціалізоване програмне забезпечення застосовується для пошуку, візуалізації і аналізу інформації, і, що важливіше, її доступності іншим людям. Комп'ютерні симуляції моделюють такі речі, як популяційна динаміка, або обчислюють загальне генетичне здоров'я культури в агрономії. Один з найважливіших потенціалів цієї області полягає в аналізі послідовностей ДНК організмів або повних геномів цілих вимираючих видів, дозволяючи запам'ятати результати генетичного експерименту природи в комп'ютері і можливо використовувати знову в майбутньому, навіть якщо ці види повністю вимруть.

Аналіз експресії генів

Експресія багатьох генів може досліджуватися за допомогою вимірювання рівнів багатьох мРНК з використанням методів ДНК-мікрочипів, експресії міток послідовностей (EST), серійного аналізу експресії генів (SAGE) або інших варіантів мультиплексної гібридизації in-situ. Всі ці методи надзвичайно сприятливі до шуму і схильні до упередженності в отриманих значеннях, тому важлива область досліджень в біофнформатиці займається розробкою статистичних інструментів для розділення сигналу і шуму в генетичних дослідженнях. Ці дослідження часто використовуються для виявлення генів, залучених у хвороби: наприклад, дані мікрочипів ракових епітеліальних клітин порівнюють з нормальними для визначення підвищуючої та понижчуючої регуляції генів.

Бази даних

Бази даних із біологічною інформацією необхідні для більшості біоінформатичних досліджень. Існує велика кількість таких баз, що містять усе від нуклеотидних послідовностей до опису видів і фенотипів. Багато із них перебувають у вільному доступі, інші закриті. Прикладом вільних баз даних із інформацією про нуклеотидні послідовності є GenBank, DDBJ та ENA (European Nucleotide Archive), сформовані і підтримувані у рамках Міжнародної співпраці баз даних нуклеотидних послідовностей (International Nucleotide Sequence Database Collaboration)[2]. Станом на серпень 2014 року GenBank містив 939 775 079 106 пар основ[3]. Інші бази даних більш специфічні, наприклад, присвячені окремому типу генів чи білків (таких як кінази), окремій хромосомі чи органелі або організму. В деяких базах зібрані послідовності об'єднані спільною ознакою, наприклад Pfam (Protein Family) містить кілька тисяч родин гомологічних білків[4].

Бази даних літератури містять бібліографічні дані статей присвячених біологічних дослідженням і посилання на повні тексти статей, одним із найважливіших таких сховищ є MEDLINE[4].

Див. також

Примітки

ГИС-технологии и информационные методы в исследованиях Байкала (рос.)
Pevsner, 2009, с. 13-14.
Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (2015). GenBank. Nucleic Acids Res. 43(Database issue):D30-5. PMID 25414350. doi:10.1093/nar/gku1216.} (англ.)
Pevsner, 2009, с. 14.

Література

Jonathan Pevsner (2009). Bioinformatics and Functional Genomics (вид. 2nd). Wiley. ISBN 978-0-470-08585-1. Процитовано 6 листопада 2015.
Дурбин Р., Эдди Ш., Крог А., Митчисон Г. Анализ биологических последовательностей = Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. — Ижевск : РХД, 2006. — 480 с.
Игнасимуту С. Основы биоинформатики = Basic Bioinformatics. — Ижевск : РХД, 2007. — 320 с.
Леск А. Введение в биоинформатику = Introduction to Bioinformatics. — М. : Бином, 2013. — 318 с.
Сетубал Ж., Мейданис Ж. Введение в вычислительную молекулярную биологию = Introduction to Computational Molecular Biology. — Ижевск : РХД, 2007. — 420 с.
Хаубольд Б., Вие Т. Введение в вычислительную биологию: Эволюционный подход = Introduction To Computational Biology: An Evolutionary Approach. — Ижевск : РХД, 2011. — 456 с.
Хельтье Х.-Д., Зиппль В., Роньян Д., Фолькерс Г. Молекулярное моделирование: Теория и практика = Molecular Modeling: Basic Principles and Applications. — М. : Бином, 2012. — 319 с.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] ГИС-технологии и информационные методы в исследованиях Байкала (рос.)

[FOOTNOTEPevsner200913-14-2] Pevsner, 2009, с. 13-14.

[Benson-3] Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (2015). GenBank. Nucleic Acids Res. 43(Database issue):D30-5. PMID 25414350. doi:10.1093/nar/gku1216.} (англ.)

[FOOTNOTEPevsner200914-4] Pevsner, 2009, с. 14.