Джин Робинсон (Gene Robinson), один из авторов исследования, сотрудник университета Иллинойса в Урбане, отмечает:
«По мере дальнейшего улучшения технологий анализа ДНК и уменьшения цены этой процедуры, мы ожидаем настоящий взрыв в распространении технологий секвенирования в повседневной жизни и связанный с этим информационный "потоп". Единственная возможность пережить его – улучшить компьютерную инфраструктуру, отвечающую за обработку геномных данных».
Генетик работал над исследованием совместно с математиками и программистами. Команда исследовала наиболее динамично растущие в последние годы сегменты сети Интернет, в частности, социальные сети, видеохостинги и распределенные системы обработки научной информации. В качестве примеров были использованы Twitter, YouTube и ряд проектов в астрономии, физике элементарных частиц и молекулярной биологии.
По итогам исследования выяснилось, что объемы обрабатываемой, передаваемой и хранимой информации за период, который рассматривали ученые, росли активнее всего в геномных банках данных, многократно опережая и видеохостинги, и социальные сети. В частности, Twitter, YouTube и другие проекты такого масштаба ежегодно производят 10-100 петабайт (миллионов гигабайт) контента.
Банки ДНК в последние годы вырабатывали примерно столько же данных, однако, согласно прогнозам, каждые 7-8 месяцев их размер будет увеличиваться вдвое. Это означает, что ежегодный рост банков ДНК через десять лет составит несколько эксабайт (тысяч петабайт), что станет причиной серьезных проблем с обработкой и хранением столь значительных объемов информации. К тому же если астрономы и физики уже выработали единые стандарты обработки данных, то биологи – нет: пока они не нашли алгоритма, который мог бы находить и удалять общие и малозначимые фрагменты человеческой ДНК.
Читайте также: