Major Study./Bioinformatics

Centrifuge - BLAST보다 3000배 이상 빠른 프로그램

sosal 2016. 12. 8. 14:03
반응형

/*

 http://sosal.kr/
 * made by so_Sal
 */

https://ccb.jhu.edu/software/centrifuge/manual.shtml



Facebook korean bioinformatics에서 김대환 박사님께서 언급하신 프로그램.


BLAST보다 3,000배 이상 빠른 Centrifuge라는 프로그램 (https://ccb.jhu.edu/software/centrifuge)도 있습니다.

Centrifuge 웹사이트에서 NCBI nucleotide non-redundant sequences (nt)인덱스를 다운로드 받으셔서 사용하시면 될것 같습니다.


이 nt 인덱스는 viruses, archaea, bacteria, eukaryotes등의 genome sequence를 포함하는 광범위한 데이터 베이스입니다.

(human genome도 포함). 

정체모를 read들의 source genome을 파악하는데 유용할수 있을듯 합니다.



unmapped sequence가 어떤것이 존재하는지 확인하기 위한 작업에 유용할 것 같다.

e-val 0.0001으로 threshold를 걸고 1등의 taxonomy id를 찾아서 정리

-> unmapped가 많이 나오는 사람의 경우 상당수는 오염이거나 바이러스로 나오는 경우가 존재.

5000개나 1만개만 해도 패턴은 충분히 알수있다고 한다.


RNASeq 이후에 unmapped sequence에 virus 감염여부를 확인하는것도 가능할 것 같다(?).

보건대에 있으신 분들이 이런것은 전문적으로 하시던데..

언제 배울 기회가 있을까?