. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Методи розпізнавання на основі моделей Маркова з пр...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Актуальність дослідження
Об’єкт дослідження: послід...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Мета та задачі дослідження
Мета роботи: розробка йм...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Постановка задач розпізнавання
Стани ДНК Білки
спос...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Симетрія у ДНК та білках
..3′.
5′
.
T
.
C
.
A
. A. ...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Узагальнення моделі Маркова
Гіпотеза
Ймовірність по...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Розв'язання задачі оптимізації
log P(Q | Prs(Q) = S...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
..5′ UTR. Екзон 1. Екзон 2. Екзон n. 3′ UTR.
5′ UTR...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Композиції алгоритмів
Гіпотеза
Кожен ген або білок ...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Визначення параметрів моделей композиції
Модель M(G...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Побудова розбиття на області компетентності
Предика...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Обчислювальний експеримент
Метрики якості:
▶ якість...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Якість окремих моделей
Результати експерименту:
▶ Н...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Якість композицій
..
n(C + G) ≷ 49,2%
.
n(C + G) ≷ ...
. .
Вступ
. . . . .
Моделі
. . .
Композиції
. . .
Експеримент Висновки
Висновки
▶ Розроблено математичний апарат, що дозво...
of 15

present-view-small

Published on: Mar 4, 2016


Transcripts - present-view-small

 • 1. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Методи розпізнавання на основі моделей Маркова з прихованими змінними ОСТРОВСЬКИЙ Олексій Вікторович Дисертація на здобуття наукового ступеня кандидата фізико-математичних наук за спеціальністю 01.05.01 теоретичні основи інформатики та кібернетики Науковий керівник: д. ф.-м. н., член-кор. НАН України А. М. Гупал Київ 2014 1
 • 2. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Актуальність дослідження Об’єкт дослідження: послідовності складних об’єктів з метою визначення внутрішньої структури, а саме ДНК (гени) та білки. Предмет дослідження: моделі Маркова з прихованими змінними (ММПЗ) об'єднання стохастичних марковських процесів і байєсівських мереж. Застосування: ▶ більш ефективна селекція; ▶ дослідження процесу еволюції; ▶ створення ефективних ліків; ▶ діагностування хвороб генетичної природи. 2
 • 3. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Мета та задачі дослідження Мета роботи: розробка ймовірнісних моделей та алгоритмів на їхній основі для вирішення двох задач біоінформатики (розпізнавання фрагментів генів та визначення вторинної структури білка). Задачі: ▶ розробка математичного апарату для описання задач розпізнавання та їхнє приведення до єдиного вигляду; ▶ створення імовірнісних моделей на основі ММПЗ для вирішення поставленої математичної задачі; ▶ створення методів підвищення якості розпізнавання на основі композицій; ▶ адаптація прийнятих у біоінформатиці критеріїв якості розпізнавання; ▶ розробка програмного комплексу для розпізнавання фрагментів генів та вторинної структури білків. 3
 • 4. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Постановка задач розпізнавання Стани ДНК Білки спостережувані (Rs) нуклеотиди амінокислоти приховані (Rh) екзони, інтрони α-спіралі, β-листи, нерегулярні структури Задача Знайти алгоритм A, який для довільного рядка спостережуваних станів S визначає рядок прихованих станів H, що максимізує певний критерій якості L(S, H). Визначення Повний стан пара із спостережуваного та відповідного йому прихованого стану. Принцип максимуму правдоподібності: A(S) = arg max Q P(Q | Prs(Q) = S). 4
 • 5. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Симетрія у ДНК та білках ..3′. 5′ . T . C . A . A. G. T. 5′. 3′ . перша нитка . друга нитка Структура молекули ДНК Ps(x) = Ps(¯x), s ∈ {1, 2}. Теорема Нехай послідовність нуклеотидів ДНК описується ланцюжком Маркова m-го порядку та в ній спостерігається симетрія за ланцюжками довжини m і m + 1. Тоді ця симетрія виконується для ланцюжків довільної довжини l ⩾ m. Гіпотеза Симетрія зберігається для входжень довільної послідовності амінокислот у білки, синтезовані по генах, розташованих по різних нитках ДНК, а також для амінокислот, кодованих обернено комплементарними трійками нуклеотидів. 5
 • 6. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Узагальнення моделі Маркова Гіпотеза Ймовірність породження довільної ділянки рядка повних станів Q довжиною m залежить виключно від його l попередніх станів. Модель M(l, m): P(Q) = φ(|Q|)π(Q1 . . . Ql) ∏ i∈J(Q) p(Qi . . . Qi+m−1 | Qi−l . . . Qi−1). Параметри: ▶ φ розподіл рядків за довжиною; ▶ π розподіл початкових ймовірностей; ▶ p розподіл перехідних ймовірностей. 6
 • 7. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Розв'язання задачі оптимізації log P(Q | Prs(Q) = S) → max Q . Динамічне програмування: Fa(i, x) = max Q log P(Q1 . . . Qi | Qi−l+1 . . . Qi = x, Prs(Q) = S). Властивості функції: 1. Розв'язок задачі залежить від Fa: max Q log P(Q | Prs(Q) = S) = max x Fa(|S|, x). 2. Fa рекурентно обчислювальна: Fa(i, x) = f({Fa(i − m, y) | y ∈ Rl q}). Алгоритм розв'язання ≃ алгоритм Вітербі; складність O(|S| · |Rl+m h |). 7
 • 8. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки ..5′ UTR. Екзон 1. Екзон 2. Екзон n. 3′ UTR. 5′ UTR . Екзон 1 . Інтрон 1 . Екзон 2 . Інтрон n − 1 . Екзон n . 3′ UTR . Сплайсінг . CDS Модель M(1, 1): Позиція 1 2 3 Спостережуваний стан A G T Прихований стан ? ? ? Fa(1, (A, ex)) = log π((A, ex)); Fa(1, (A, in)) = log π((A, in)); Fa(2, (G, ex)) = max { Fa(1, (A, ex)) + log p((G, ex) | (A, ex)), Fa(1, (A, in)) + log p((G, ex) | (A, in)) } ; Fa(2, (G, in)) = . . . ; Fa(3, (T, ex)) = max { Fa(2, (G, ex)) + log p((T, ex) | (G, ex)), Fa(2, (G, in)) + log p((T, ex) | (G, in)) } . 8
 • 9. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Композиції алгоритмів Гіпотеза Кожен ген або білок розпізнається одним із k ізольованих алгоритмів, вибір якого залежить від спостережуваних властивостей гену (білку). Ac(S) =    A1(S), якщо S ∈ G1, ... Ak(S), якщо S ∈ Gk; {Gi}k i=1 утворюють покриття множини спостережуваних рядків R∗ s. Область компетентності: Gi = {S | P(Mi | S) = 1}. Задача 1. Навчити параметри складових моделей на основі вибірки T. 2. Визначити області компетентності алгоритмів A1,…, Ak. 9
 • 10. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Визначення параметрів моделей композиції Модель M(G; l, m): P(Q | M(G; l, m)) =    ∼ P(Q | M(l, m)), якщо Prs(Q) ∈ G; 0, якщо Prs(Q) /∈ G. Теорема За певних застережень оцінки початкових та перехідних ймовірностей для моделі з обмеженою областю компетентності G, отримані за принципом максимуму правдоподібності з тієї частини вибірки T, для якої спостережувані рядки містяться в G, збігаються з оцінками для моделі M(l, m). Достатня умова виконання: еквівалентність розподілів ймовірностей для довільної довжини рядків на G та R∗ s. 10
 • 11. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Побудова розбиття на області компетентності Предикати на основі концентрації спостережуваних рядків IX,ω(S): 1. обчислити сумарну частоту входжень в S послідовностей з X; 2. порівняти частоту з ω. Ітеративний алгоритм (∼ жадібний алгоритм максимізації сукупної функції правдоподібності): 1. Початкове розбиття T := {T}. 2. Визначити частину вибірки Ti ∈ T та предикат I з максимальною мірою якості ∆(Ti, I). 3. Замінити в розбитті Ti на її частини. 4. Повернутися до кроку 2, якщо |T| < k. 11
 • 12. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Обчислювальний експеримент Метрики якості: ▶ якість розпізнавання окремих прихованих станів: символьна специфічність, символьна сенситивність, коефіцієнт кореляції, середня умовна ймовірність, частка правильно розпізнаних станів; ▶ якість розпізнавання меж між ділянками прихованих станів: фрагментна специфічність, фрагментна сенситивність. Вибірки: ▶ 30 геномів (7 бактерій, 6 рослин, 6 комах, 4 риби, 5 ссавців); ▶ 26108 білків. Методика: кросс-валідація. Реалізація: програмний комплекс на МП Java. 12
 • 13. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Якість окремих моделей Результати експерименту: ▶ Найкраща якість при m = 1, l ∈ {6, 7} (для генів), l = {4, 5} (для білків). ▶ При більших значеннях l спостерігається перенавчання. ▶ Для геномів простих організмів якість відповідає якості сучасних алгоритмів (∼90 % для символьних метрик; 45–75 % для фрагментних). ▶ Для білків якість відповідає сучасним алгоритмам (∼75 % для символьних метрик; 35–40 % для фрагментних). ▶ Модель може застосовуватися для розпізнавання на споріднених видах. 13
 • 14. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Якість композицій .. n(C + G) ≷ 49,2% . n(C + G) ≷ 55,6% . n(C + G) ≷ 40,4% . n(C + G) ≷ 44,7% . n(A) ≷ 29,8% . 1 . 4 . 2. 5. 3. 6. > . < . > . < . > . < . > . < . < . > Дерево розбиття для геному людини ▶ Якість при використанні композицій підвищується на 10–15 %. ▶ Оптимальна кількість алгоритмів в композиції 4–6 (для предикатів з окремих нуклеотидів), 3–5 (для предикатів з пар нуклеотидів). ▶ Велика кількість предикатів на основі концентрації C + G. ▶ Близькоспорідненим видам відповідають близькі дерева предикатів. ▶ Для задачі розпізнавання вторинної структури білків композиції неефективні. 14
 • 15. . . Вступ . . . . . Моделі . . . Композиції . . . Експеримент Висновки Висновки ▶ Розроблено математичний апарат, що дозволяє єдиним чином описати обидві розглядувані задачі біоінформатики. ▶ Обґрунтовано застосування моделей Маркова за рахунок закономірностей розподілу амінокислот у білках, синтезованих по різних нитках ДНК. ▶ Запропоновано нову ймовірнісну модель як узагальнення ММПЗ. Розроблено алгоритм динамічного програмування з використанням цієї моделі. ▶ Показано, що якість розпізнавання розробленого алгоритму знаходиться на рівні сучасних алгоритмів біоінформатики (для білків і простих геномів). ▶ Запропоновано композиції узагальнених моделей та спосіб оцінки ймовірнісних параметрів базових моделей композиції. Описані розбиття на області компетентності на основі бінарних дерев предикатів. ▶ На основі обчислювального експерименту продемонстровано, що алгоритмічні композиції підвищують якість розпізнавання на 10–15 %. ▶ Створено програмний комплекс для вирішення задач розпізнавання. 15

Related Documents