R/gbk2g2.euk.R
In seqinr: Biological Sequences Retrieval and Analysis

Documented in gbk2g2.euk

gbk2g2.euk <- function(
  gbkfile = system.file("sequences/ame1.gbk", package = "seqinr"), g2.coord = "g2.coord")
{
  input <- readLines(gbkfile)
  outfile <- file( description = g2.coord, open ="w+")

 
  #
  # Keep lines with annotation flag:
  #

  cds <- which(substring(input,1,8) == "     CDS")

  features <- which(substr(input,6,6)!=" ")
  
  features <- c(features,length(input))

  genes <- which(substr(input,22,26)=="/gene")
  
  genes.cds <- character(length(cds))
  
  for(i in seq_len(length(cds))){
    print(i)
    this.gene=genes[which(genes>cds[i])[1]]
    
    nextfeat=features[which(features>cds[i])[1]]
    
    if(this.gene<nextfeat){
      genes.cds[i]=unlist(strsplit(input[this.gene],split="\""))[2]
      
    }
    else{
      print(paste("no id for cds #",i))
    }

  }

  
  #
  # Extract boundaries strings
  #
  get.boundaries <- function( index.line )
  {
    
    join <- grep("join",input[index.line])
   
    if(length(join)>0){ ## there are introns !!

     
      end.par <- grep("\\)",input[index.line])
     

      if(length(end.par)==0){ ## the exons are written on more than one line

        next.end.par <-grep("\\)",input)
        next.end.par <-next.end.par[which(next.end.par>index.line)[1]] ## we take the first ending parenthesis
        exons <- paste(input[index.line],paste(substr(input[(index.line+1):next.end.par],22,nchar(input[(index.line+1):next.end.par])),sep="",collapse=""),collapse="",sep="")
      }
      else{
        exons <- input[index.line]
      }
     

    

    complement <- grep("complement",exons)

    if(length(complement)==0){

      exons=unlist(strsplit(exons, split="\\("))[2]
      exons=unlist(strsplit(exons, split="\\)"))[1]

      exons=unlist(strsplit(exons,split=","))
      exons.begin=unlist(lapply(exons, function(x) unlist(strsplit(x, split="\\.\\."))[1]))
      exons.end=unlist(lapply(exons, function(x) unlist(strsplit(x, split="\\.\\."))[2]))
      

      
    }

    else{
      exons=unlist(strsplit(exons, split="\\("))[3]
      exons=unlist(strsplit(exons, split="\\)"))[1]

      exons=unlist(strsplit(exons,split=","))
      exons.end=unlist(lapply(exons, function(x) unlist(strsplit(x, split="\\.\\."))[1]))
      exons.begin=unlist(lapply(exons, function(x) unlist(strsplit(x, split="\\.\\."))[2]))
      
      
      
    }
    }
    else{
      complement <- grep("complement",input[index.line])

      exons=unlist(strsplit(input[index.line],split=" "))
      exons=exons[exons!=""]
      exons=exons[2]

      if(length(complement)==0){
        exons.begin=unlist(strsplit(exons, split="\\.\\."))[1]
        exons.end=unlist(strsplit(exons, split="\\.\\."))[2]
        
      }
      else{
        exons=unlist(strsplit(exons, split="\\("))[2]
        exons=unlist(strsplit(exons, split="\\)"))[1]
        exons.begin=unlist(strsplit(exons, split="\\.\\."))[2]
        exons.end=unlist(strsplit(exons, split="\\.\\."))[1]
      }
      
    }
    
  
    return(list(exons.begin,exons.end))

    
  }

   

  
  
  
  already=character(0)
   
  if(length(cds)>0){
    for(i in seq_len(length(cds))){
      
      boundaries=get.boundaries(cds[i])
      exons.begin=boundaries[[1]]
      exons.end=boundaries[[2]]
      
      
      
      for(j in seq_len(length(exons.begin))){
        phrase=paste(genes.cds[i],exons.begin[j],exons.end[j])
        
        if(!phrase%in%already){
          writeLines(paste(genes.cds[i],exons.begin[j],exons.end[j],sep=" "),outfile)
          already=c(already,phrase)
        }
      }
    }
     
   } 
    

 
  close(outfile)
  
}