본문 바로가기
Bioinformatics

RNA-seq raw data 반자동화로 다운받기 (Linux)

by 김예비석사 2022. 9. 8.

자신이 원하는 데이터를 GEO에 검색하면 맨 아래 Supplementary file 밑에

SRA Run Selector가 있을 것입니다. 

이를 누르면 Common Fields에 그 데이터에 대한 정보가 뜨는데 여기서 필요한 것은

SRA Study의 Acession number 입니다.

주로 SRPXXXXXX의 형태입니다.

 

그리고 Linux환경에서 SRAtoolkit을 다운로드 받습니다. (conda, Window 가능함)

https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit

 

GitHub - ncbi/sra-tools: SRA Tools

SRA Tools. Contribute to ncbi/sra-tools development by creating an account on GitHub.

github.com

wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
tar -vxzf sratoolkit.tar.gz

그리고 중요한 과정

바이너리 경로를 PATH환경 변수에 추가해야합니다.

export PATH=/home/username/sratoolkit.3.0.0-ubuntu64/bin #bin folder에 가서 pwd한 뒤 copy-paste해도 됨
export PATH="/usr/bin:$PATH"
/bin/which fastq-dump

 

그리고나면 SRA toolkit에 대한 설정은 끝납니다.

esearch -db sra -query SRPXXXXXX  | efetch --format runinfo | cut -d ',' -f 1 | grep SRR | xargs fastq-dump  --skip-technical  --readids --read-filter pass --dumpbase --split-3

이 코드를 실행하게 되면 SRPXXXXXX에 속해있는 RNA-seq read들이 다운로드되기 시작하는데

Entrez 관련 명령어가 안깔려있다면 커맨드 창에 뜨는 apt install ~~~~ 을 실행하신 후 다시 시도하시면 됩니다.

 

각 argument에 대한 설명은 차후 다른 게시물에 정리할 예정이니 코드 참고에만 이용해주시기 바랍니다.

 

reference: https://www.biostars.org/p/111040/

 

How to download raw sequence data from GEO/SRA

Tutorial:How to download raw sequence data from GEO/SRA 8 Suppose you want to download some raw sequence data in fastq format from GEO/SRA and run through an appropriate aligner (BWA, TopHat, STAR, etc) and then variant caller (Strelka, etc) or other analy

www.biostars.org