reciprocal_smallest_distance est un algorithme de orthologie par paires qui utilise un alignement de séquence global maximum de vraisemblance et la distance évolutive entre les séquences orthologues d'détecte avec précision entre les génomes.
Installation à partir d'une archive
Téléchargez et décompressez la dernière version de github:
cd ~
-L boucle https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Tar XVZ
Installez reciprocal_smallest_distance, en veillant à utiliser Python 2.7:
cd reciprocal_smallest_distance-VERSION
python setup.py install
Utilisation RSD trouver Othologs
Les exemples de commandes suivants illustrent les principales façons d'exécuter rsd_search. Chaque invocation de rsd_search nécessite de spécifier l'emplacement d'un fichier de séquence FASTA-formaté pour deux génomes, appelé la requête et génomes soumis. Leur ordre est arbitraire, mais si vous utilisez l'option --ids, les identifiants doit provenir du génome de la requête. Vous devez également spécifier un fichier à écrire les résultats des orthologues trouvés par l'algorithme de RSD. Le format du fichier de sortie contient une orthologue par ligne. Chaque ligne contient l'identifiant de requête de séquence, id de séquence sujet, et la distance (calculée par codeml) entre les séquences. Vous pouvez éventuellement spécifier un fichier contenant les identifiants en utilisant l'option --ids. Rsd Alors ne recherche que les orthologues de ces identifiants. Utilisation --divergence et --evalue, vous avez la possibilité d'utiliser différents seuils des valeurs par défaut.
Obtenez de l'aide sur la façon de fonctionner rsd_search, rsd_blast ou rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Trouver orthologues entre toutes les séquences dans la requête et sous réserve génomes, en utilisant des seuils de divergence et Evalue défaut
Les exemples de rsd_search / génomes / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-génome = exemples / génomes / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Trouver orthologues utilisant plusieurs seuils de divergence et non Evalue défaut
Les exemples de rsd_search / génomes / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-génome = exemples / génomes / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--De 0,2 1e-20 --De 0,5 0,8 0,1 0,00001 --De
Il ne est pas nécessaire de formater un fichier FASTA pour BLAST ou BLAST calculer frappe parce rsd_search le fait pour vous.
Toutefois, si vous prévoyez d'exécuter plusieurs fois rsd_search pour les mêmes génomes, en particulier pour les grands génomes, vous pouvez gagner du temps en utilisant rsd_format à préformatage les fichiers FASTA et rsd_blast à pré-calculer l'BLAST frappe. Lors de l'exécution rsd_blast, assurez-vous d'utiliser un --evalue aussi grand que le plus grand seuil de Evalue vous avez l'intention de donner à rsd_search.
Voici comment formater une paire de fichiers FASTA en place:
examples / génomes / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa de rsd_format
examples / génomes / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa de rsd_format
Et voici comment formater les fichiers FASTA, en mettant les résultats dans un autre répertoire (le répertoire courant dans ce cas)
examples / génomes / Mycoplasma_genitalium.aa / -d Mycoplasma_genitalium.aa de rsd_format.
examples / génomes / Mycobacterium_leprae.aa / -d Mycobacterium_leprae.aa de rsd_format.
Voici comment calculer avant et arrière hits fourneaux (utilisant le Evalue par défaut):
rsd_blast -v -q exemples / génomes / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-génome = exemples / génomes / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--reverse-Hits les s_q.hits de --forward-Hits
Voici comment calculer l'avant et le souffle frappe inverse pour rsd_search, en utilisant des génomes qui ont déjà été formatées pour explosion et un Evalue non-défaut
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-génome = Mycobacterium_leprae.aa
--reverse-Hits les s_q.hits de --forward-Hits
--no format --evalue 0,1
Trouver orthologues entre toutes les séquences de la requête et des génomes sujet en utilisant des génomes qui ont déjà été formatées pour blast
rsd_search -q Mycoplasma_genitalium.aa
--subject-génome = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no format
Trouver orthologues entre toutes les séquences de la requête et des génomes sujet en utilisant hits qui ont déjà été calculées. Notez que --no-format est inclus, car depuis les coups de fourneaux ont déjà été calculés les génomes ne ont pas besoin d'être formaté pour explosion.
rsd_search -v --query-génome Mycoplasma_genitalium.aa
--subject-génome = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--reverse-Hits les s_q.hits de --forward-Hits-format
Trouver des orthologues de séquences spécifiques dans le génome de la requête. Pour trouver orthologues pour seulement quelques séquences, en utilisant --no-blast-cache peut accélérer le calcul. Vous qui voyez.
Les exemples de rsd_search / génomes / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-génome = exemples / génomes / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o exemples / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids exemples / Mycoplasma_genitalium.aa.ids.txt --no-blast-cache
Formats sortie
Orthologues peuvent être sauvegardées dans différents formats à l'aide de l'option de --outfmt rsd_search. Le format par défaut, --outfmt -1, se réfère à --outfmt 3. Inspiré par Uniprot fichiers .dat, un ensemble de orthologues commence par une ligne de paramètres, puis a 0 ou plusieurs lignes orthologues, puis a une ligne de fond. Les parametes sont le nom de la requête du génome, sous le nom de génome, seuil de divergence, et le seuil de Evalue. Chaque orthologue est sur une seule ligne indiquant le id de requête de séquence, l'identifiant de séquence sujet, et l'estimation de la distance maximale de vraisemblance. Ce format peut représenter orthologues pour plusieurs jeux de paramètres dans un fichier unique ainsi que des ensembles de paramètres sans orthologues. Par conséquent, il est adapté pour une utilisation avec rsd_search lorsque vous spécifiez plusieurs seuils de divergence et EVALUE.
Voici un exemple contenant deux combinaisons de paramètres, dont l'un n'a aucun orthologues:
PA tLACJO tYEAS7 t0.2 T1E-15
OU tQ74IU0 tA6ZM40 t1.7016
OU tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 T1E-15
//
Le format original de RSD, --outfmt 1, est prévu pour la compatibilité descendante. Chaque ligne contient un orthologue, représentée comme id de séquence sujet, requête id de séquence, et une estimation de la distance maximale de vraisemblance. Il ne peut représenter un ensemble unique de orthologues dans un fichier.
Exemple:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Également fourni pour la compatibilité descendante est un format utilisé en interne par Roundup (http://roundup.hms.harvard.edu/) qui est comme le format de RSD original, sauf la colonne id de séquence d'interrogation est avant l'id de séquence sujet.
Exemple:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
Exigences :
- Python
- NCBI BLAST 2.2.24
- PAML 4.4
- Kalign 2,04
Commentaires non trouvées