Biocode

From The Zhang Lab
Jump to: navigation, search

用PMID批量下载pubmed的pdf文献

  • 方法1,用anaconda包
    • Step 1.下载包

https://github.com/billgreenwald/Pubmed-Batch-Download

    • Step 2.安装
1 conda install requests
2 conda install requests3 #没安装成功,好像也没影响
3 conda install beautifulsoup4
4 conda install lxml
    • Step 3.下载

把excel的PMID那一列粘贴到word,选中后将^p替换为英语的,没有空格 一次只能下载30篇,多了后面的会下载失败

通过Anaconda Powershell Prompt

打开笔记本C:\Users\Zoey\Anaconda3\Tools\Pubmed-Batch-Download-master\ 运行

1 python fetch_pdfs.py -pmids 30157427,30110645,30068984,30089904,30089904,30089904,30228881,29986945,30061114,30061114,29961579,29942092,30361550,30104629,29315726,29967419,29967419,31006620,31209384,30894605,31011186,30833796,30449713,29915193,30639214

默认下载路径 C:\Users\Zoey\Anaconda3\Tools\Pubmed-Batch-Download-master\fetched_pdfs


  • 方法2 用NCBI的batch entrez
    • Step 1 在https://www.ncbi.nlm.nih.gov/sites/batchentrez

提交一个PMID.txt 格式:每个PMID一行

    • Step 2 会自动去重复Removed duplicates: 8 显示找到的数,点击Retrieve records for 58 UID(s)
    • Step 3 跳转到Pubmed网页,下载Abstract.txt

包含如下信息:期刊,日期,题目,作者,单位,摘要,DOI,PMCID,PMID

用SRR批量下载SRA的测序数据

  • 方法1 wget批量下载

拆分SRA生成批量下载的网址和wget脚本

    • Example 1
 1 print "wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/Run/Run/Run.sra\n";
 2 $infile1=$ARGV[0];
 3 open (INN, $infile1);
 4 while (my $line=<INN>){
 5         chomp $line;
 6         my @arr= split /\t/,$line;
 7         if ($arr[0] =~ /(SRR[\d\D]+)/){
 8         $u=substr($1,0,6);
 9         print "wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/$u/$1/$1.sra\n";
10         }
11 }
  1. perl ./generate-download.pl <SRR.txt >D.sh
    • Example 2
1 ftp='ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR'
2 
3 mkdir sra  # make a output directory
4 cat SRR.txt |  while read i
5  do
6        SRR=$(echo ${i:0:6}) 
7        wget -c -t 0 -P ./sra ${ftp}/${SRR}/${i}/*
8  done

-c 自动断点续传,一定要加!否则数据会有不完整的情况 -t 配合-c参数,设置为0表示连接失败后无限次重新尝试,直到成功为止 -P 表示把数据下载到指定文件夹下


  • 方法2 Aspera快速批量下载

单独

1 ascp -i "~/.aspera/connect/etc/asperaweb_id_dsa.openssh" -k 1 -T -l 200m anonftp@ftp-trace.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR615/SRR6155048/SRR6155048.sra /share_bio/unisvx1/BIGD/zhangz_group/sangjian/z2-Zhangyuansheng/0-scRNA/0-PRJNA413810/0-raw/

批量

1 ascp -v -k 1 -T -l 200m -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -T --mode recv --host  ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ./SRR.txt  ./

对应SRR.txt的内容 /sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR1039508/SRR1039508.sra

  • 方法3 Prefetch快速批量下载
    • Step 1 修改prefetch的下载路径,默认在home/ncbi/public
1 cd /share_bio/unisvx1/BIGD/zhangz_group/sangjian/z2-Zhangyuansheng/software/sratoolkit.2.8.2-1-ubuntu64/bin
2 ./vdb-config -i
    • Step 2 下载的脚本Download.sh
1 prefetch --option-file SRR.txt --max-size 100000000


    • Step 3 存放SRR号的文件SRR.txt

内容: 每个SRR号一行