Major Study./Bioinformatics

BLAST 리눅스 서버 command에서 실행하기

sosal 2017. 10. 30. 13:02
반응형

0. Input으로 사용할 Sequence data 준비.


ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/mRNA_Prot/

에서 아무거나... faa 확장자 파일 준비.

모든 파일들을 하나로 합쳐서 sequences.faa 라는 파일로 완성..



# head sequences.faa




1. BLAST Linux executable 파일 다운로드

URL: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/


NCBI에서, 소프트웨어 다운로드란에 들어가서 BLAST를 다운받는다.



2. wget으로 위의 blast x64-linux.tar.gz파일 다운로드.


wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.7.1+-x64-linux.tar.gz

(주소는 바뀔 수 있음)




3. blast x64-linux.tar.gz 압축풀기


tar -xvzf ncbi-blast-2.7.1+-x64-linux.tar.gz


압축을 풀면 다음과 같은 파일이 존재.



bin 폴더에 makeblastdb, psiblast 있는것 확인..


./psiblast -help


Requirements

1. BLAST DB

2. INPUT (= Query Sequence)



4. blastdb 생성

makeblastdb -dbtype prot -in ../sequences.faa




이로서 human refseq sequence에 대한 database 완성.





5. BLAST로 search할 p53 유전자 서열 획득


> https://www.ncbi.nlm.nih.gov/protein/AKI70249.1?report=fasta

위에서 p53 sequence fasta format을 획득하여, p53_sequence.faa로 저장.


cat > p53_sequence.faa

>AKI70249.1 TP53, partial [synthetic construct]
MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAA
PRVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKT
CPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRN
TFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACAGR
DRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGREHFEMFRELNEALEL
KDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD

(ctrl + c로 종료)



6. psiblast로 p53 sequene 돌려보기


./bin/psiblast -db ../sequences.faa -query ../p53_sequence.faa > p53_result


# head ./p53_result

PSIBLAST 2.7.1+


Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.

Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.

Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of

.... (중략)


Sequences producing significant alignments:                           Score (Bits)     E  Value


  NP_001119584.1 cellular tumor antigen p53 isoform a [Homo sapiens]  806     0.0

  NP_000537.3 cellular tumor antigen p53 isoform a [Homo sapiens]     806     0.0

  NP_001119590.1 cellular tumor antigen p53 isoform g [Homo sapiens]  729     0.0

  NP_001263690.1 cellular tumor antigen p53 isoform g [Homo sapiens]  729     0.0

  NP_001263689.1 cellular tumor antigen p53 isoform g [Homo sapiens]  729     0.0

  NP_001119586.1 cellular tumor antigen p53 isoform b [Homo sapiens]  683     0.0

  NP_001119585.1 cellular tumor antigen p53 isoform c [Homo sapiens]  682     0.0

  NP_001263625.1 cellular tumor antigen p53 isoform i [Homo sapiens]  606     0.0

  NP_001263624.1 cellular tumor antigen p53 isoform h [Homo sapiens]  605     0.0

  NP_001119587.1 cellular tumor antigen p53 isoform d [Homo sapiens]  543     0.0

  NP_001263626.1 cellular tumor antigen p53 isoform j [Homo sapiens]  485     8e-174

(하략)



7. PSSM


./bin/psiblast -db ../sequences.faa -query ../p53_sequence.faa -save_pssm_after_last_round -out_ascii_pssm p53_pssm_ascii.txt > p53_res_psiblast.txt


head p53_pssm_ascii.txt



PSSM 완성