Съдържание:
Клиничната геномика е завладяваща тема, в която хората работят по авангардни технологии за обработка на бързи и точни резултати. На пазара има много геномни секвенсори и те произвеждат петабайти от данни за последователността, а растежът на секвенирането ще произведе екзабайти от данни в близко бъдеще. Тук Hadoop е идеалната платформа за обработка на сложен геномичен работен поток. Hadoop може да съхранява и сортира огромни количества информация и също така може да направи смислен анализ. (За да получите представа колко точно данни включват това, прочетете Разбиране на битове, байтове и техните множества.)
Настоящето и бъдещето на геномиката
Днес картографирането на геномите достигна своя връх на развитие. Много хора, свързани с индустрията на геномиката, избухват от любопитство и тъй като новите възможности се представят, по-добрата технология е нуждата от часа. Последователността на генома е много повтаряща се и ресурсоемка задача. Само през 2013 г. бяха произведени около 15 петабайта данни и само от 2000 секвенсора. Тази сума за отпадане на челюстта включваше 300 КБ данни от секвенирани човешки геноми. При този темп на производство на данни може да се прецени, че до 2018 г. ще бъде произведен около един разход на данни. Това ще се дължи на растежа на секвенсорите, които ще произвеждат все повече и повече данни на цикъл. Друга причина е появата на изключително мощни и евтини машини за секвениране на геноми. От 2008 г. насам цената на тези машини непрекъснато намалява. Това се дължи на мощни машини от следващо поколение, които навлязоха на пазара.
Потребностите на индустрията за картографиране на геноми
Сложните алгоритми се използват за обработка на данните, които се събират от човешкия геном. След това тази информация трябва да се съхранява. Той може да бъде преразгледан в бъдеще за сравнение с оригиналните данни. Задачата за обработка и съхранение на 100 GB данни не е твърде трудна, особено когато се справяте с мощните машини, използвани в секвенционните центрове. Проучванията показват, че това количество данни може да се обработва само за около 1000 часа на процесора, така че е много лесно. При тази скорост на технически напредък е очевидно, че индустрията на геномите скоро ще обработи хиляди гигабайта само за няколко секунди.
