WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 |   ...   | 2 | 3 || 5 | 6 |   ...   | 12 |

Стабилизируется вторичная структура водородными связями между комплементарными основаниями.

Третичная структура тРНК имеет неправильную Г-образную форму. Она стабилизирована водородными связями и другими взаимодействиями.

3. Использование информационных систем для изучения природных макромолекул.

3.1. Понятие информационной системы.

Информационная система (ИС) есть совокупность технического, программного и организационного обеспечения, а также персонала, предназначенного для того, чтобы своевременно обеспечивать людей надлежащей информацией. Основной задачей ИС является удовлетворение информационных потребностей в рамках конкретной предметной области. Современные ИС немыслимы без использования баз данных и СУБД, поэтому термин «информационная система» на практике сливается по смыслу с термином «система баз данных». В данном разделе имеются в виду только автоматизированные информационные системы [36, 37, 38].

По степени распределённости выделяют:

настольные (desktop) или локальные ИС, в которых все компоненты (БД, СУБД, клиентские приложения) работают на одном компьютере;

распределённые (distributed) ИС, в которых компоненты распределены по нескольким компьютерам.

Распределённые ИС, в свою очередь, разделяют на файл-серверные ИС (ИС с архитектурой «файл-сервер») и клиент-серверные ИС (ИС с архитектурой «клиент- сервер»).

В файл-серверных ИС база данных находится на файловом сервере, а СУБД и клиентские приложения находятся на рабочих станциях. В клиент-серверных ИС база данных и СУБД находятся на сервере, а на рабочих станциях - клиентские приложения. В свою очередь, клиент-серверные ИС разделяют на двухзвенные и многозвенные. В двухзвенных ИС всего два типа «звеньев»: сервер баз данных, на котором находятся БД и СУБД, и рабочие станции, на которых находятся клиентские приложения. Клиентские приложения обращаются к СУБД напрямую. В многозвенных ИС добавляются промежуточные «звенья», их называют серверами приложений (application servers).

Пользовательские клиентские приложения не обращаются к СУБД напрямую, они взаимодействуют с промежуточными звеньями.

Информационные системы можно классифицировать и по охвату задач (масштабности). Персональная информационная система предназначена для решения некоторого круга задач одного человека. Групповая информационная система ориентирована на коллективное использование информации членами рабочей группы или подразделения. Корпоративная информационная система в идеале охватывает все информационные процессы целого предприятия, достигая полной согласованности и прозрачности информационных процессов. Такие системы иногда называют системами комплексной автоматизации предприятия.

Информационные системы классифицируют и по сферам применения.

Поскольку ИС создаются для удовлетворения информационных потребностей в рамках конкретной предметной области, то каждой предметной области (сфере применения) соответствует свой тип ИС. Перечислять все эти типы не имеет смысла, так как количество предметных областей велико, но можно указать в качестве примера следующие типы ИС: экономические, медицинские, химические и биологические.

3.2. Методологии и технологии проектирования информационных систем Методологии, технологии и инструментальные средства проектирования (CASE- средства) составляют основу проекта любой ИС. Методология реализуется через конкретные технологии и поддерживающие их стандарты, методики и инструментальные средства, которые обеспечивают выполнение процессов жизненного цикла (ЖЦ).

Технология проектирования определяется как совокупность трех составляющих:

пошаговой процедуры, определяющей последовательность технологических операций проектирования;

критериев и правил, используемых для оценки результатов выполнения технологических операций;

нотаций, используемых для описания проектируемой системы.

Технологические инструкции, составляющие основное содержание технологии, должны состоять из описания последовательности технологических операций, условий, в зависимости от которых выполняется та или иная операция, и описаний самих операций.

Технология проектирования, разработки и сопровождения ИС должна удовлетворять следующим общим требованиям:

технология должна поддерживать полный ЖЦ программного обеспечения;

технология должна обеспечивать гарантированное достижение целей разработки ИС с заданным качеством и в установленное время;

технология должна обеспечивать возможность выполнения крупных проектов в виде подсистем (т.е. возможность декомпозиции проекта на составные части, разрабатываемые группами исполнителей ограниченной численности с последующей интеграцией составных частей);

технология должна обеспечивать возможность ведения работ по проектированию отдельных подсистем небольшими группами (3-7 человек), что обусловлено принципами управляемости коллектива и повышения производительности за счет минимизации числа внешних связей;

технология должна обеспечивать минимальное время получения работоспособной ИС (речь идет не о сроках готовности всей ИС, а о сроках реализации отдельных подсистем);

технология должна предусматривать возможность управления конфигурацией проекта, ведения версий проекта и его составляющих, возможность автоматического выпуска проектной документации и синхронизацию ее версий с версиями проекта;

технология должна обеспечивать независимость выполняемых проектных решений от средств реализации ИС (систем управления базами данных (СУБД), операционных систем, языков и систем программирования);



технология должна быть поддержана комплексом согласованных CASE-средств, обеспечивающих автоматизацию процессов, выполняемых на всех стадиях ЖЦ.

3.3. Применение информационных систем для изучения природных макромолекул и надмолекулярных структур.

3.3.1. Использование технологии “клиент – сервер”.

Для получения необходимой информации об объекте в глобальной сети широко используют технологию “клиент – сервер” (рис. 12). Основой технологии “клиент – сервер” является программа-обработчик запросов (например, запроса о протеине):

Рис. 12. Технология “клиент-сервер”. 1 – пересылка исходной HTML-страницы (формы) к клиенту, 2 – возврат заполненной формы, 3 – пересылка результатов обработки.

В рассматриваемом случае заполнение формы сводится к набору названия протеина.

В отличие от технологии “клиент-сервер”, в технологии скриптов информация обрабатывается на локальном компьютере (информационные процессы протекают иначе).

3.3.2. Информационные модели природных макромолекул и надмолекулярных структур. Элементы биоинформатики.

Работая с информационными моделями макромолекул, исследователь обычно имеет дело с базами, банками данных и инструментами их анализа. Макромолекулы изучают как химики, так и биологи (при этом широко используются физические методы).

Перекрывание различных областей знаний привело к появлению качественно новых образований, таких как биологическая информатика (биоинформатика; другое название – компьютерная биология) и химическая информатика (химинформатика; другое название – компьютерная химия) [39] (рис. 13).

.

Рис. 13. Перекрывание различных областей знаний.

Имеется информационная система по биоинформатике – Bioinformatics Database.

Перечислим информационные системы, касающиеся моделей макромолекул и надмолекулярных структур.

Первый тип – архивные информационные системы. К таким информационным системам относятся:

GeneBank & EMBL – здесь хранятся первичные последовательности;

PDB – пространственные структуры белков.

Второй тип – курируемые информационные системы, за достоверность данных в которых отвечают их владельцы. В них информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации – что записано в этих последовательностях, какие есть экспериментальные основания считать, что эти последовательности выполняют ту или иную функцию.

К таким информационным системам относятся:

Swiss-Prot – наиболее качественная база данных, содержащая аминокислотные последовательности белков;

KEGG – информация о метаболизме (такая, которая представлена на карте метаболических путей);

FlyBase – информация о Drosophila;

COG – информация об ортологичных генах.

Поддержание базы требует работы кураторов или аннотаторов.

Третий тип – производные информационные системы. Они получаются в результате обработки данных из архивных и курируемых информационных систем. В них входят:

SCOP – база данных структурной классификации белков (описывается структура белков);

PFAM – база данных по семействам белков;

GO (Gene Ontology) – классификация генов (попытка создания набора терминов, упорядочивания терминологии);

ProDom – белковые домены;

AsMamDB – альтернативный сплайсинг у млекопитающих.

Интегрированные информационные системы, в которых вся информация сведена вместе. Зная имя гена, можно найти всю, связанную с ним информацию – в каких организмах встречается, в каком месте генома локализован, какие функции выполняет:

NCBI Entrez – доступ к информации о нуклеотидных и аминокислотных последовательностях и структурах;

Ecocyc – все о E. coli – гены, белки, метаболизм и пр.

Некоторые программы визуализации данных, предоставляемые информационными системами:

RasMol;

PyMol;

SwissPDBviewer или DeepView.

Работа с информационными системами представляется следующим образом:

1. Сравнение последовательностей (выравнивание двух последовательностей;

глобальное и локальное выравнивание, вес выравнивания, матрицы аминокислотных замен; дот-матрицы; глобальное выравнивание: алгоритм Нидельмана-Вунша; локальное выравнивание: алгоритм Смита-Ватермана; другие алгоритмы локального выравнивания; другие варианты выравнивания (fitting, overlaps, блочное выравнивание, сплайсированное выравнивание); статистическая значимость выравниваний и ее зависимость от вероятностной модели последовательности; зависимость выравнивания от параметров).

2. Множественное выравнивание (динамическое программирование;

последовательное выравнивание (Clustal); другие алгоритмы множественного выравнивания (DIALIGN, Match-Box, алгоритм Леонтовича-Бродского); профили, скрытые марковские модели; поиск блоков).

3. Поиск по сходству в базах данных (Smith-Waterman; хэширование (lookup table);

BLAST; FASTA; оценка значимости (E-value, P-value); фильтрация повторов и обработка участков малой сложности (фильтрация, пересчет значимости); паттерны (Prosite), профили, Psi-BLAST, HMM (PFAM)).

4. Автоматическое аннотирование последовательности. Онтология.

5. Пространственная структура высокомолекулярных соединений (PDB (структура записи PDB, визуализация, анализ структурных особенностей, моделирование);

предсказание вторичной структуры белков; предсказание третичной структуры белков по гомологии; threading; docking; предсказание параметров спирали ДНК;





предсказание вторичной структуры РНК (представление вторичной структуры РНК, минимизация энергии вторичной структуры, динамические модели РНК, сравнительный подход по гомологичным и изофункциональным РНК)).

6. Предсказание функции по последовательности (белки (анализ гомологов, функциональные сигналы, лидерные пептиды и трансмембранные сегменты, сайты модификации); ДНК (функциональные сайты, гены прокариот, гены эукариот, сравнительные методы предсказания генов); РНК (поиск РНК с заданной структурой)).

7. Молекулярная эволюция (эволюция молекул и организмов; филогенетическое дерево как математический объект; модели эволюции; алгоритмы построения филогенетических деревьев (матрица расстояний, методы, основанные на матрице расстояний (UPGMA, neighbour-joining, minimal evolution, топологические инварианты и др.), другие методы (максимальная экономия, максимальное правдоподобие), алгоритмические проблемы поиска оптимального дерева, bootstrapping, согласование деревьев); эволюция на уровне генома; анализ популяционных данных (SNP, тандемные повторы, митохондрии и Y-хромосомы, данные по рестрикции)).

8. Статистика последовательностей ДНК ((ди)нуклеотидный состав (изохоры, GCострова, картирование старта репликации); частые и редкие слова (вероятностные проблемы); статистика ДНК как характеристика генома).

9. Вычислительная геномика (метаболическая реконструкция (в т.ч. неортологичные замещения); позиционный анализ; эволюция регуляторных взаимодействий; эволюция белковых семейств, их доля в геноме).

В данной монографии основное внимание уделяется анализу структуры макромолекул.

Одна из информационных систем “The Protein Data Bank” (PDB). В банке содержится информация о структуре природных белков и их модифицированных формах.

Клиенту пересылается форма для заполнения (вносится название белка или его код). Далее форма пересылается к серверу на обработку и через некоторое время клиент получает webстраницу с результатами поиска [5, 8, 9].

Исследование объекта, предшествующее построению информационной модели, связано с применением методов дифракции рентгеновских лучей и (или) спектроскопии ядерного магнитного резонанса. Использование PDB для анализа белковых структур представим следующим образом:

.

Банк содержит около 40 000 записей (2007). Идентификатор записи (PDB ID, PDBкод) имеет вид 1XYZ (цифра и три буквы/цифры). Например: 1B8I, 9ANT, 10MH. Каждая запись содержит координаты центров атомов и сопровождающую информацию. Каждая запись есть текстовый файл специального формата (PDB-формат).

Пример информации, которую может получить пользователь дается ниже.

HEADER ELECTRON TRANSPORT 22-MAY-97 1AKK TITLE SOLUTION STRUCTURE OF OXIDIZED HORSE HEART CYTOCHROME C, TITLE 2 NMR, MINIMIZED AVERAGE STRUCTURE COMPND MOL_ID: 1;

COMPND 2 MOLECULE: CYTOCHROME C;

COMPND 3 CHAIN: NULL SOURCE MOL_ID: 1;

SOURCE 2 ORGANISM_SCIENTIFIC: EQUUS CABALLUS;

SOURCE 3 ORGANISM_COMMON: HORSE;

SOURCE 4 ORGAN: HEART KEYWDS ELECTRON TRANSPORT, CYTOCHROME C EXPDTA NMR, MINIMIZED AVERAGE STRUCTURE AUTHOR L.BANCI,I.BERTINI,H.B.GRAY,C.LUCHINAT,T.REDDIG,A.ROSATO, AUTHOR 2 P.TURANO REVDAT 1 17-SEP-97 1AKK JRNL AUTH L.BANCI,I.BERTINI,H.B.GRAY,C.LUCHINAT,T.REDDIG, JRNL AUTH 2 A.ROSATO,P.TURANO JRNL TITL SOLUTION STRUCTURE OF OXIDIZED HORSE HEART JRNL TITL 2 CYTOCHROME C' JRNL REF BIOCHEMISTRY V. 36 9867 JRNL REFN ASTM BICHAW US ISSN 0006-2960 REMARK REMARK REMARK 2 RESOLUTION. NOT APPLICABLE.

REMARK REMARK 3 REFINEMENT.

REMARK 3 PROGRAM : AMBER REMARK 3 AUTHORS : PEARLMAN,CASE,CALDWELL,ROSS,CHEATHAM, REMARK 3 FERGUSON,SEIBEL,SINGH,WEINER,KOLLMAN REMARK REMARK 3 OTHER REFINEMENT REMARKS: PSEUDOCONTACT SHIFTS WERE REMARK 3 INCLUDED AS CONSTRAINTS BY MEANS OF A MODIFIED SANDER REMARK 3 MODULE (PSEUDOREM) (BANCI ET AL., 1997) REMARK REMARK 4 1AKK COMPLIES WITH FORMAT V. 2.2, 16-DEC-REMARK REMARK 210 EXPERIMENTAL DETAILS REMARK 210 EXPERIMENT TYPE : NMR REMARK 210 TEMPERATURE (KELVIN) : REMARK 210 PH : 7.REMARK REMARK 210 NMR EXPERIMENTS CONDUCTED : NOESY TOCSY REMARK 210 SPECTROMETER FIELD STRENGTH : REMARK 210 SPECTROMETER MODEL : AMXREMARK 210 SPECTROMETER MANUFACTURER : BRUKER REMARK REMARK 210 STRUCTURE DETERMINATION.

REMARK 210 SOFTWARE USED : DYANA REMARK 210 METHOD USED : DISTANCE GEOMETRY REMARK REMARK 210 CONFORMERS, NUMBER CALCULATED : REMARK 210 CONFORMERS, NUMBER SUBMITTED : REMARK 210 CONFORMERS, SELECTION CRITERIA : LEAST RESTRAINT VIOLATION REMARK REMARK 210 REMARK:

REMARK 210 IONIC_STRENGTH: 50 MM PHOSPHATE REMARK 210 PRESSURE: 1013 MBAR REMARK 210 SOLVENT SYSTEM: H2O REMARK REMARK 210 THE STRUCTURE WAS DETERMINED USING NOES AND PSEUDOCONTACT REMARK 210 SHIFTS OF 1H NMR.

REMARK REMARK 215 NMR STUDY REMARK 215 THE COORDINATES IN THIS ENTRY WERE GENERATED FROM SOLUTION REMARK 215 NMR DATA. PROTEIN DATA BANK CONVENTIONS REQUIRE THAT REMARK 215 CRYST1 AND SCALE RECORDS BE INCLUDED, BUT THE VALUES ON REMARK 215 THESE RECORDS ARE MEANINGLESS.

DBREF 1AKK 1 104 SWS P00004 CYC_HORSE 1 В данном случае описана структура растворенного белка Цитохрома С. При этом применялся метод ядерного магнитного резонанса.

Положение атомов в трехмерной системе координат представлено так, как показано далее (например, координаты первого атома азота Model 1: -11.700, 8.827, 9.247).

Pages:     | 1 |   ...   | 2 | 3 || 5 | 6 |   ...   | 12 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.