src/hg/utils/automation/doNcbiRefSeq.pl 1391f50a576e35bd691d3e3898475b5637b88976

1391f50a576e35bd691d3e3898475b5637b88976
hiram
  Thu May 23 18:32:31 2024 -0700
correct naming of files when porting GCF refSeq to equivalent GCA assembly no redmine

diff --git src/hg/utils/automation/doNcbiRefSeq.pl src/hg/utils/automation/doNcbiRefSeq.pl
index 782a31e..3cb410c 100755
--- src/hg/utils/automation/doNcbiRefSeq.pl
+++ src/hg/utils/automation/doNcbiRefSeq.pl
@@ -621,94 +621,94 @@
 
 ### overall gene track with both predicted and curated
 genePredToBigGenePred process/\$db.ncbiRefSeq.gp stdout | sort -k1,1 -k2,2n > \$db.ncbiRefSeq.bigGp
 genePredToBed -tab -fillSpace process/\$db.ncbiRefSeq.gp stdout \\
     | bedToExons stdin stdout | bedSingleCover.pl stdin > \$asmId.exons.bed
 export baseCount=`awk '{sum+=\$3-\$2}END{printf "%d", sum}' \$asmId.exons.bed`
 export asmSizeNoGaps=`grep sequences ../../\$asmId.faSize.txt | awk '{print \$5}'`
 export perCent=`echo \$baseCount \$asmSizeNoGaps | awk '{printf "%.3f", 100.0*\$1/\$2}'`
 bedToBigBed -type=bed12+8 -tab -as=bigGenePred.as -extraIndex=name \\
   \$db.ncbiRefSeq.bigGp \$db.chrom.sizes \\
     \$db.ncbiRefSeq.bb
 bigBedInfo \$db.ncbiRefSeq.bb | egrep "^itemCount:|^basesCovered:" \\
     | sed -e 's/,//g' > \$db.ncbiRefSeq.stats.txt
 LC_NUMERIC=en_US /usr/bin/printf "# ncbiRefSeq %s %'d %s %'d\\n" `cat \$db.ncbiRefSeq.stats.txt` | xargs echo
 ~/kent/src/hg/utils/automation/gpToIx.pl process/\$db.ncbiRefSeq.gp \\
-    | sort -u > \$asmId.ncbiRefSeq.ix.txt
-ixIxx \$asmId.ncbiRefSeq.ix.txt \$asmId.ncbiRefSeq.ix{,x}
-rm -f \$asmId.ncbiRefSeq.ix.txt
+    | sort -u > \$db.ncbiRefSeq.ix.txt
+ixIxx \$db.ncbiRefSeq.ix.txt \$db.ncbiRefSeq.ix{,x}
+rm -f \$db.ncbiRefSeq.ix.txt
 
 ### curated only if present
 if [ -s process/\$db.curated.gp ]; then
   genePredToBigGenePred process/\$db.curated.gp stdout | sort -k1,1 -k2,2n > \$db.ncbiRefSeqCurated.bigGp
   bedToBigBed -type=bed12+8 -tab -as=bigGenePred.as -extraIndex=name \\
   \$db.ncbiRefSeqCurated.bigGp \$db.chrom.sizes \\
     \$db.ncbiRefSeqCurated.bb
   rm -f \$db.ncbiRefSeqCurated.bigGp
   bigBedInfo \$db.ncbiRefSeqCurated.bb | egrep "^itemCount:|^basesCovered:" \\
     | sed -e 's/,//g' > \$db.ncbiRefSeqCurated.stats.txt
   LC_NUMERIC=en_US /usr/bin/printf "# ncbiRefSeqCurated %s %'d %s %'d\\n" `cat \$db.ncbiRefSeqCurated.stats.txt` | xargs echo
   ~/kent/src/hg/utils/automation/gpToIx.pl process/\$db.curated.gp \\
-    | sort -u > \$asmId.ncbiRefSeqCurated.ix.txt
-  ixIxx \$asmId.ncbiRefSeqCurated.ix.txt \$asmId.ncbiRefSeqCurated.ix{,x}
-  rm -f \$asmId.ncbiRefSeqCurated.ix.txt
+    | sort -u > \$db.ncbiRefSeqCurated.ix.txt
+  ixIxx \$db.ncbiRefSeqCurated.ix.txt \$db.ncbiRefSeqCurated.ix{,x}
+  rm -f \$db.ncbiRefSeqCurated.ix.txt
 ### and refseqSelect if exists (a subset of curated)
   if [ -s process/\$db.refseqSelect.curated.gp ]; then
     genePredToBigGenePred process/\$db.refseqSelect.curated.gp stdout | sort -k1,1 -k2,2n > \$db.ncbiRefSeqSelectCurated.bigGp
     bedToBigBed -type=bed12+8 -tab -as=bigGenePred.as -extraIndex=name \\
     \$db.ncbiRefSeqSelectCurated.bigGp \$db.chrom.sizes \\
       \$db.ncbiRefSeqSelectCurated.bb
     rm -f \$db.ncbiRefSeqSelectCurated.bigGp
     bigBedInfo \$db.ncbiRefSeqSelectCurated.bb | egrep "^itemCount:|^basesCovered:" \\
       | sed -e 's/,//g' > \$db.ncbiRefSeqSelectCurated.stats.txt
     LC_NUMERIC=en_US /usr/bin/printf "# ncbiRefSeqSelectCurated %s %'d %s %'d\\n" `cat \$db.ncbiRefSeqSelectCurated.stats.txt` | xargs echo
     ~/kent/src/hg/utils/automation/gpToIx.pl process/\$db.refseqSelect.curated.gp \\
-      | sort -u > \$asmId.ncbiRefSeqSelectCurated.ix.txt
-    ixIxx \$asmId.ncbiRefSeqSelectCurated.ix.txt \$asmId.ncbiRefSeqSelectCurated.ix{,x}
-    rm -f \$asmId.ncbiRefSeqSelectCurated.ix.txt
+      | sort -u > \$db.ncbiRefSeqSelectCurated.ix.txt
+    ixIxx \$db.ncbiRefSeqSelectCurated.ix.txt \$db.ncbiRefSeqSelectCurated.ix{,x}
+    rm -f \$db.ncbiRefSeqSelectCurated.ix.txt
   fi
 ### and hgmd if exists (a subset of curated)
   if [ -s process/hgmd.curated.gp ]; then
     genePredToBigGenePred process/hgmd.curated.gp stdout | sort -k1,1 -k2,2n > \$db.ncbiRefSeqHgmd.bigGp
     bedToBigBed -type=bed12+8 -tab -as=bigGenePred.as -extraIndex=name \\
     \$db.ncbiRefSeqHgmd.bigGp \$db.chrom.sizes \\
       \$db.ncbiRefSeqHgmd.bb
     rm -f \$db.ncbiRefSeqHgmd.bigGp
     bigBedInfo \$db.ncbiRefSeqHgmd.bb | egrep "^itemCount:|^basesCovered:" \\
       | sed -e 's/,//g' > \$db.ncbiRefSeqHgmd.stats.txt
     LC_NUMERIC=en_US /usr/bin/printf "# ncbiRefSeqHgmd %s %'d %s %'d\\n" `cat \$db.ncbiRefSeqHgmd.stats.txt` | xargs echo
     ~/kent/src/hg/utils/automation/gpToIx.pl process/hgmd.curated.gp \\
-      | sort -u > \$asmId.ncbiRefSeqHgmd.ix.txt
-    ixIxx \$asmId.ncbiRefSeqHgmd.ix.txt \$asmId.ncbiRefSeqHgmd.ix{,x}
-    rm -f \$asmId.ncbiRefSeqHgmd.ix.txt
+      | sort -u > \$db.ncbiRefSeqHgmd.ix.txt
+    ixIxx \$db.ncbiRefSeqHgmd.ix.txt \$db.ncbiRefSeqHgmd.ix{,x}
+    rm -f \$db.ncbiRefSeqHgmd.ix.txt
   fi
 fi
 
 ### predicted only if present
 if [ -s process/\$db.predicted.gp ]; then
   genePredToBigGenePred process/\$db.predicted.gp stdout | sort -k1,1 -k2,2n > \$db.ncbiRefSeqPredicted.bigGp
   bedToBigBed -type=bed12+8 -tab -as=bigGenePred.as -extraIndex=name \\
   \$db.ncbiRefSeqPredicted.bigGp \$db.chrom.sizes \\
     \$db.ncbiRefSeqPredicted.bb
   rm -f \$db.ncbiRefSeqPredicted.bigGp
   bigBedInfo \$db.ncbiRefSeqPredicted.bb | egrep "^itemCount:|^basesCovered:" \\
     | sed -e 's/,//g' > \$db.ncbiRefSeqPredicted.stats.txt
   LC_NUMERIC=en_US /usr/bin/printf "# ncbiRefSeqPredicted %s %'d %s %'d\\n" `cat \$db.ncbiRefSeqPredicted.stats.txt` | xargs echo
   ~/kent/src/hg/utils/automation/gpToIx.pl process/\$db.predicted.gp \\
-    | sort -u > \$asmId.ncbiRefSeqPredicted.ix.txt
-  ixIxx \$asmId.ncbiRefSeqPredicted.ix.txt \$asmId.ncbiRefSeqPredicted.ix{,x}
-  rm -f \$asmId.ncbiRefSeqPredicted.ix.txt
+    | sort -u > \$db.ncbiRefSeqPredicted.ix.txt
+  ixIxx \$db.ncbiRefSeqPredicted.ix.txt \$db.ncbiRefSeqPredicted.ix{,x}
+  rm -f \$db.ncbiRefSeqPredicted.ix.txt
 fi
 
 ### all other annotations, not necessarily genes
 if [ -s "process/\$db.other.bb" ]; then
   ln -f -s process/\$db.other.bb \$db.ncbiRefSeqOther.bb
   bigBedInfo \$db.ncbiRefSeqOther.bb | egrep "^itemCount:|^basesCovered:" \\
     | sed -e 's/,//g' > \$db.ncbiRefSeqOther.stats.txt
   LC_NUMERIC=en_US /usr/bin/printf "# ncbiRefSeqOther %s %'d %s %'d\\n" `cat \$asmId.ncbiRefSeqOther.stats.txt` | xargs echo
 fi
 if [ -s "process/ncbiRefSeqOther.ix" ]; then
   ln -f -s process/ncbiRefSeqOther.ix ./\$db.ncbiRefSeqOther.ix
   ln -f -s process/ncbiRefSeqOther.ixx ./\$db.ncbiRefSeqOther.ixx
 fi
 ln -f -s process/ncbiRefSeqVersion.txt ./\$db.ncbiRefSeqVersion.txt
 # select only coding genes to have CDS records
@@ -794,34 +794,34 @@
   else
     rm -f ncbiRefSeqGenomicDiff.bed
   fi
 fi
 
 export totalBases=`ave -col=2 \$db.chrom.sizes | grep "^total" | awk '{printf "%d", \$2}'`
 export basesCovered=`bedSingleCover.pl \$db.ncbiRefSeq.bigGp | ave -col=4 stdin | grep "^total" | awk '{printf "%d", \$2}'`
 export percentCovered=`echo \$basesCovered \$totalBases | awk '{printf "%.3f", 100.0*\$1/\$2}'`
 printf "%d bases of %d (%s%%) in intersection\\n" "\$basesCovered" \\
    "\$totalBases" "\$percentCovered" > fb.ncbiRefSeq.\$db.txt
 printf "%d bases of %d (%s%%) in intersection\\n" "\$baseCount" "\$asmSizeNoGaps" "\$perCent" > fb.\$asmId.ncbiRefSeq.txt
 
 rm -f \$db.ncbiRefSeq.bigGp \$asmId.exons.bed
 
 pslToBigPsl -fa=download/\$asmId.rna.fa.gz -cds=process/\$asmId.rna.cds \\
-  process/\$asmId.\$db.psl.gz stdout | sort -k1,1 -k2,2n > \$asmId.bigPsl
+  process/\$asmId.\$db.psl.gz stdout | sort -k1,1 -k2,2n > \$db.bigPsl
 bedToBigBed -type=bed12+13 -tab -as=bigPsl.as -extraIndex=name \\
-  \$asmId.bigPsl \$db.chrom.sizes \$asmId.bigPsl.bb
-rm -f \$asmId.bigPsl
+  \$db.bigPsl \$db.chrom.sizes \$db.bigPsl.bb
+rm -f \$db.bigPsl
 _EOF_
     );
   } else {	# processing for a database genome
 
     $bossScript->add(<<_EOF_
 # loading the genePred tracks, all genes in one, and subsets
 hgLoadGenePred -genePredExt \$db ncbiRefSeq process/\$db.ncbiRefSeq.gp
 $genePredCheckDb ncbiRefSeq
 
 if [ -s process/\$db.curated.gp ]; then
   hgLoadGenePred -genePredExt \$db ncbiRefSeqCurated process/\$db.curated.gp
   $genePredCheckDb ncbiRefSeqCurated
   if [ -s process/\$db.refseqSelect.curated.gp ]; then
     hgLoadGenePred -genePredExt \$db ncbiRefSeqSelect process/\$db.refseqSelect.curated.gp
     $genePredCheckDb ncbiRefSeqSelect