1 / 24

Recherche heuristique dans les bases de données L’algorithme BLAST

Recherche heuristique dans les bases de données L’algorithme BLAST. Nadia El-Mabrouk. Problématiques. Est-ce que cette séquence contient un gène? Est-ce que ce gène fait partie d’une famille connue? Quelle est la fonction de cette protéine?

gerald
Download Presentation

Recherche heuristique dans les bases de données L’algorithme BLAST

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Recherche heuristique dans les bases de donnéesL’algorithme BLAST Nadia El-Mabrouk

  2. Problématiques • Est-ce que cette séquence contient un gène? • Est-ce que ce gène fait partie d’une famille connue? • Quelle est la fonction de cette protéine? • Est-ce que cette protéine existe dans d’autres organismes? • Est-ce que d’autres protéines ont les mêmes domaines ou motifs structuraux?

  3. Rappel – Alignement de séquences Alignement global: Seq1 Seq2 Alignement local: Seq1 Seq2 Recherche de motif: Seq1 Seq2

  4. Alignement local Similarité locale entre S1 et S2: Valeur max d’un alignement entre deux facteurs qcq de S1 et S2 Exemple:Score 2 pour match et -1 pour mismatch ou espace CAGCAC TT – GG AT TCTCGG l l l l l TAGT TT A GG -T GGCAT Problème: Retrouver les deux facteurs des deux séquences de similarité locale maximale • Fonction de score pour les substitutions de nucléotides ou d’AA • Fonction de score pour les trous (gaps)

  5. Matrice BLOSUM 62 Score positif pour les identités, et négatif pour les mismatchs

  6. Méthodes utilisées pour l’alignement local • Méthode exacte: Smith-Waterman Algorithme exact en O(n2) utilisant la programmation dynamique Trop coûteux pour parcourir une banque de données • Heuristiques: Méthodes approximatives. Pas sûr d’obtenir le meilleur résultat FASTA et BLAST: Heuristiques les plus utilisées. Basées sur une idée de filtrage • Sélectionner des parties de la base de donnée par une méthode de recherche exacte • Pour chaque partie (intervalle) vérifier si une similarité locale existe

  7. Qualité d’un algorithme de comparaison de séquences • Sélectivité: Capacité à ne détecter que la réalité biologique et rien de plus Problème des Faux-Positifs • Sensitivité: Capacité à détecter tout ce qui est intéressant sur le plan biologique Problème des Faux-Négatifs

  8. BLAST: Basic local alignment search tool Similarité locale entre une séquence requête et une banque de données Devenu populaire grâce à une implémentation très efficace. • BLASTP: séquence de protéine dans BD de protéines • BLASTN: séquence de nucléotides dans BD d’ADN • BLASTX: séquence de nucléotides (6 ordres de lecture) dans BD de protéines • TBLASTN: séquence de protéine dans BD traduite • TBLASTX: séquence traduite dans BD traduite • BLASTZ: Étudié pour aligner de longues séquences d’ADN, utilisé pour l’alignement de l’homme et de la souris • PHI-BLAST: Recherche d’une expression régulière (consensus) • PSI-BLAST: Construit un consensus, ou matrice de score, à partir d’un alignement multiple des ``hits’’ de plus haut score obtenus par une recherche BLAST initiale

  9. Méthode utilisée par BLAST • Former la liste de tous les facteurs de taille w de la séquence requête P P Maximum l-w+1 mots • Pour chaque facteur f, former la liste de tous les mots de taille w dont le score avec f dépasse un seuil T Exemple: Pour f =PQG, {PQG, PRG, PKG, PDG, PMG…}

  10. Identifier les occurrences exactes des mots de la liste dans la BD • Pour chaque paire de séquences trouvées, étendre l’alignement dans les deux directions, jusqu’à ce que le score de l’alignement chute de X par rapport à sa valeur d’origine. Segment accepté si score>S

  11. Le HSP de score maximal sur l’ensemble de la séquence est appelé maximal scoring segment pair (MSP) • Les alignements locaux HSP sont chaînés pour former des alignements plus longs, incluant des espaces et des trous. Si le MSP ou les HSP combinés ont un score qui dépasse un certain seuil S, il sont affichés

  12. La séquence format FASTA La banque (compressée) W (taille du mot). Protéines: w de 3 à 5, et T = 17 Donne à peu près 50 mots pour chaque facteur Nucléotides: w = 12 S (seuil de sélection d’un score) Matrices de substitution (BLOSUM 62) ou score pour les nucléotides (+5/-4) Paramètres

  13. Évaluation statistique • Expect-value = nb de fois où un HSP est attendu par chance sur l’ensemble de la banque. Plus cette valeur est faible, plus le HSP est significatif • P-value: P(N): Probabilité du score observé. Plus cette valeur est faible, plus le HSP est significatif.

  14. On choisit son BLAST La page d’entrée NCBI BLAST http://www.ncbi.nlm.nih.gov/BLAST/

  15. Le programme choisi On entre la séquence à chercher

  16. Choisir la banque de données dans laquelle on veut faire la recherche life.csmu.edu.tw/lifeinfo/db_lifescience/0722-1.ppt

  17. On a soumis et on attend les résultats life.csmu.edu.tw/lifeinfo/db_lifescience/0722-1.ppt

  18. Les résultats: entête life.csmu.edu.tw/lifeinfo/db_lifescience/0722-1.ppt

  19. Les résultats: vue graphique life.csmu.edu.tw/lifeinfo/db_lifescience/0722-1.ppt

  20. life.csmu.edu.tw/lifeinfo/db_lifescience/0722-1.ppt

  21. life.csmu.edu.tw/lifeinfo/db_lifescience/0722-1.ppt

  22. life.csmu.edu.tw/lifeinfo/db_lifescience/0722-1.ppt

More Related