Загрузка...
Поддержи Openmeetings

пятница, 31 августа 2012 г.

Алгоритм сжатия геномных данных

В недавнем выпуске Nature Biotechnology исследователи Массачусетского технологического института и Гарвардского университета описывают новый алгоритм, который значительно сокращает время на то, чтобы найти определенную генную последовательность в геномной базе данных. Более того, чем больше геномов ищется, тем с большей скоростью это делается. поэтому алгоритм будет становится все эффективнее с увеличением объема данных.

В 2001 г. международный Проект Генома Человека и компания Celera Genomics объявили, что после 10 лет работы, потратив около 400 млн. долларов, они смогли идентифицировать 20–25 тыс. генов в человеческом геноме. Сегодня один исследователь может секвенированировать геном человека за пару недель меньше чем за $10.000.

На графике — скорость роста вычислительных мощностей компьютеров (зеленый) и числа расшифрованных последовательностей ДНК.

С 2002 г. скорость, с которой геномы могут быть расшифрованы, удваивается примерно каждые четыре месяца, в то время как вычислительная мощность удваивается только каждый 18 месяцев. Без появления новых аналитических инструментов способность биологов получать геномные данные скоро опередит возможности продуктивного использования этих данных.

Новый алгоритм сжатия данных похож на архивирование файлов. «Если сжимать данные правильным способом, то вы сможете анализировать геномы непосредственно на сжатых данных. И это увеличивает скорость, сохраняя при этом точность анализа» — говорит Бонни Бергер, профессор прикладной математики и компьютерных наук в Массачусетском технологическом институте и старший автор статьи

И Данная схема сжатия использует тот факт, что эволюция скупа и отличается отменным дизайнерским вкусом. В геномах близкородственных видов очень много общего, даже в геномах далеких друг от друга видов обнаруживаются некоторые пересечения. Именно поэтому эксперименты на дрожжевых клетках могут нам что-то сказать о действии лекарств на человека.

Разработан особый способ математической репрезентации геномов разных видов — или разных представителей одного вида. Хитрость в том, что пересечение данных сохраняется только один раз. Поиск нескольких геномов может концентририроваться на различиях, что экономит время. «Если я возьмусь просчитать свой геном, это займет определенное количество времени,» — объясняет один из авторов. «Если я потом захочу проделать те же вычисления на вашем геноме, то выяснится, что я уже проделал большую часть работы — из-за того, что мы очень похожи».

В экспериментах с базой данных из 36 геномов дрожжей ученые сравнили новый алгоритм c одним из наиболее часто используемых в биологии геномно-поисковых алгоритмов, который называется BLAST (Basic Local Alignment Search Tool). Поиск определенной генетической последовательности у 10 геномов новый алгоритм проделал вдвое быстрее, чем BLAST, в поиске по всем 36 геномам он действовал быстрее в четыре раза. Это преимущество будет только возрастать с увеличением геномной базы данных.

Matchmaking Новый алгоритм будет полезен в тех ситуациях, когда возникает вопрос: «У нас есть последовательность, на что она похожа?» Это самая почтенная по возрасту проблема в вычислительной биологии. Она всплывает, например, при идентификация микробов. Новый алгоритм поможет врачам определить причины инфекции, биологам — охарактеризовать «микробиомы», коллекции микроорганизмов, найденные в тканях животных или микросреде; изменения в человеческом микробиоме вызываются определенным заболеванием. Алгоритм может быть использован для характеристики микробов плодородной или бесплодной почвы, а в криминалистике даст возможность определить географическое происхождение вещественных доказательств по микробной подписи.

mit

Комментариев нет :

Отправить комментарий