Title: LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES
1LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES
- T. AL ANI
- Laboratoire A2SI - Groupe ESIEE
21. Introduction
- Le terme "génome" a été introduit en 1920 par
Hans Winkler pour désigner l'ensemble (haploïde)
des gènes d'un organisme. La nature du gène était
alors inconnue. Ce n'est que dans les années
1940-1960, que l'on a pu déterminer que le
matériel génétique est constitué d'ADN ou d'ARN
pour certains virus, et que l'on a découvert
comment la succession des bases (la séquence)
permet de coder une protéine. Nous sommes ainsi
passés d'une définition théorique du génome
(ensemble des gènes) à une définition physique
le génome est constitué de molécules d'ADN.
3Introduction (suite)
- Chez les bactéries, ces deux définitions
concordent le génome d'Escherichia coli, est
formé d'une molécule d'ADN circulaire dans
laquelle les gènes sont pratiquement accolés les
uns aux autres. - Par contre, chez de nombreux eucaryotes et en
particulier chez les vertébrés, le génome ne se
limite pas à l'ensemble des gènes. Bien au
contraire, les gènes ne constituent qu'une faible
portion du génome.
4Introduction (suite)
- Ainsi, alors que la fonction primordiale du
génome est de servir de support de l'information
génétique, une fraction importante du génome ne
contient apparemment aucune information.
5Introduction (suite)
- Différentes hypothèses ont été proposées pour
expliquer cette situation paradoxale. - Certains auteurs pensent que l'ADN non génique
est inutile et s'accumule dans le génome
simplement parce qu'il n'est pas nuisible à
l'individu. - D'autres considèrent au contraire que la vaste
majorité de l'ADN participe à l'organisation du
génome, système complexe et ordonné qui intègre
de multiples fonctions.
6Introduction (suite)
-
- Cette question n'est pas encore tranchée. Ce qui
est clair, c'est que pour comprendre le génome
des vertébrés, il est nécessaire d'en étudier les
65 à 99,9 qui sont constitués de séquences
non-codantes.
7Introduction (suite)
- La compréhension du génome implique à la fois une
étude fonctionnelle, structurale et évolutive. - L'étude fonctionnelle vise à identifier les
différentes informations génétiques contenues
dans le génome. - L'étude structurale a pour objet de connaître les
différents niveaux d'organisation du génome et
d'essayer de comprendre comment cette
organisation est en lien avec la fonction du
génome. - L'étude évolutive s'impose car pour comprendre le
génome actuel, il est nécessaire de connaître les
forces évolutives qui l'ont façonné.
8Introduction (suite)
- Même si le génome des vertébrés reste à bien des
égards méconnu, des connaissances importantes se
sont accumulées et une vision globale du génome
commence à émerger.
9Introduction (suite)
- Lacide désoxyribonucléique (ADN) est le support
de l'information génétique de tous les organismes
vivants autonomes. - Chez les eucaryotes, cette information génétique
est contenue dans le noyau cellulaire, délimité
par une membrane, ainsi que, pour une plus faible
part, dans les organites cytoplasmiques
(mitochondries, chloroplastes).
10Introduction (suite)
- Le génome nucléaire est fragmenté en plusieurs
molécules linéaires d'ADN, qui constituent les
chromosomes. La taille du génome correspond au
nombre de paires de bases contenues dans les
chromosomes d'une cellule haploïde. La taille du
génome est généralement constante pour une
espèce(d'où la "valeur C" pour la désigner). -
11Introduction (suite)
- Le génome a pour fonction première de contenir
l'information génétique nécessaire au
développement, à la survie et à la reproduction
de l'organisme. Nous nous attendons donc à ce que
la taille du génome soit proportionnelle à la
complexité de l'organisme. Or nous savons depuis
plus de 40 ans Mirsky et Ris 1951 que la taille
des génomes n'est pas en relation directe avec la
complexité d'un organisme, ni avec le nombre de
ses gènes (paradoxe de la valeur C). - Mirsky A.E. Ris H. (1951) The DNA content of
animal cells and its evolutionary significance.
J. Gen. Physiol. 34451-462
12Introduction (suite)
- Contrairement à la taille des génomes, le nombre
de gènes codant pour des protéines semble être
corrélé (grossièrement) avec le degré de
complexité de l'organisme Cavalier-Smith 1985. - Cavallier-Smith T. (1985) Eukaryote gene
numbers, non-coding DNA and genome size. In The
evolution of genome size. Cavallier-Smith T (ed)
,Wiley, London, pp. 69-103
13Introduction (suite)
- Pour progresser dans la compréhension du génome
des vertébrés, il faut essayer d'avoir une vision
globale de son fonctionnement, de son
organisation et de son évolution. L'objectif de
ce chapitre est de faire un survol des différents
points de vue que l'on peut avoir sur le génome
des vertébrés - compartimentation fonctionnelle quelles sont les
informations génétiques contenues dans le génome?
14Introduction (suite)
- organisation structurale. La structure physique
du génome peut être décrite sous plusieurs
aspects organisation en classes de séquences
répétées, structure de la chromatine, bandes
chromosomiques, isochores. Quels sont les liens
entre ces différents niveaux d'organisation? - évolution, relations structure-fonction Quelle
est l'origine évolutive de l'organisation
physique du génome? Quelles sont les relations
entre cette organisation physique et le
fonctionnement du génome? - composition nucléotidique homogène
15Introduction (suite)
- COMPARTIMENTATION FONCTIONNELLE
- Le premier point important pour comprendre
l'organisation du génome est d'identifier les
informations génétiques qu'il contient. En
génétique moléculaire, un gène est
traditionnellement défini physiquement, comme une
région d'ADN qui code pour une protéine ou qui
spécifie un ARN fonctionnel. Cependant, une
région d'ADN peut avoir une fonction qui ne
requiert ni sa traduction ni même sa
transcription.
16Introduction (suite)
- Cavalier-Smith (1985) propose donc de définir le
gène simplement comme un fragment d'ADN qui a une
fonction connue. On peut reconnaître trois types
de gènes - les gènes protéiques, qui sont transcrits en ARN
puis traduits en protéine - les gènes spécifiant des ARN, qui sont
transcrits mais non traduits - les gènes régulateurs, dont la fonction ne
requiert pas la transcription.
17Introduction (suite)
- Les gènes protéiques et les gènes spécifiant des
ARN sont regroupés sous le terme de gènes
structuraux. - La classe des gènes régulateurs comprend tous les
éléments fonctionnels du génome qui ne sont pas
des gènes structuraux (centromères, télomères,
origines de réplication, etc.). Cette définition
est volontairement floue, pour souligner le fait
que les éléments fonctionnels du génome n'ont
probablement pas encore été tous découverts.
18Introduction (suite)
- COMPARTIMENTATION STRUCTURALE
- La structure physique du génome peut être
décrites sous différents aspects, qui révèlent
différents types de compartimentation - organisation en classes de séquences répétées et
uniques - organisation en bandes chromosomiques, liée à la
structure de la chromatine - organisation en domaines de composition
nucléotidique homogène (isochores) - Il existe des relations entre ces différents
niveaux d'organisation, ainsi qu'entre
compartimentation physique et compartimentation
fonctionnelle du génome.
19Introduction (suite)
- CORRELATIONS FONCTIONNELLES ET STRUCTURALES
- La compartimentation des chromosomes en bandes
et en isochores est corrélée avec différents
aspects du fonctionnement du génome.
20Introduction (suite)
- L'analyse statistique des séquences biologiques
est une approche puissante pour étudier la
structure, le fonctionnement et l'évolution des
génomes. - Les travaux de Grantham (1972) sur l'usage du
code marquent sans doute le point de départ de
cette nouvelle discipline. Depuis, les techniques
de la biologie moléculaire ont très rapidement
progressé et se sont diffusées dans de nombreux
champs d'investigations de la recherche
biologique et médicale. - Grantham R. (1972) Codon base randomness and
composition drift in coliphage. Nature New Biol.
237265-266
21- 2. Recherche de similitude
- Permet de révéler des régions proches dans leur
séquence primaire en se basant sur le principe de
parcimonie en considérant le minimum de
changements en insertion, suppression, ou
substitution qui séparent deux séquences. - Apprendre ainsi, par association, des
informations importantes sur la structure, la
fonction ou l évolution des biomolécules.
22Recherche de similitude (suite)
- Utilisation
- les recherches de motifs à travers une séquence,
- la caractérisation de régions communes ou
similaires entre deux ou plusieurs séquences, - la comparaison d'une séquence avec l'ensemble ou
sous-ensemble des séquences d'une base de
données, - l'établissement d'un alignement multiple sur
lequel sont basées les analyses d'évolution
moléculaire. - Nous décrirons dans ce cours les principes
fondamentaux qui sont indispensables à la
compréhension de ces outils.
23Recherche de similitude (suite)
- RECHERCHE PAR SIMILITUDE DANS LES BANQUES DE
SÉQUENCES - Le problème qui est donc posé est le suivant
connaissant un gène ou une protéine, quelles sont
les séquences de la banque de données qui lui
sont similaires? - La ressemblance que l'on cherche à détecter ne
couvre pas forcément la séquence entière il est
fréquent que les similitudes entre deux protéines
ne portent que sur de courtes régions,
correspondant par exemple à des motifs
structuraux ou à des sites actifs.
24Recherche de similitude (suite)
-
- Le problème revient donc à rechercher des
similitudes locales entre la séquence 'requête'
et les séquences de la banque.
25Recherche de similitude (suite)
- Il existe de nombreuses méthodes de recherche de
similitude, et leur efficacité peut être évaluée
suivant plusieurs critères - pertinence (capacité à détecter des similitudes
reflétant des relations évolutives,
fonctionnelles ou structurales entre les
séquences) - sensibilité (capacité à détecter toutes les
similitudes pertinentes) - sélectivité (capacité à discriminer les
similitudes significatives du bruit de fond) - rapidité
26Recherche de similitude (suite)
- De nombreux paramètres influent fortement sur
l'efficacité de la recherche - choix de la mesure de similitude
- choix de l'algorithme de recherche
- choix de la stratégie de recherche (protéique ou
nucléique, traitement du bruit de fond dû à la
redondance ou aux séquences répétées) - complétude de la banque de données
27Recherche de similitude (suite)
- 2. 2. Mesure de similitude
- Quel que soit l'algorithme utilisé, le résultat
de la recherche dépend fortement de la mesure de
similitude qui a été choisie. Pour quantifier la
similitude entre deux séquences, celles-ci sont
alignées, c'est-à-dire juxtaposées de manière à
mettre en regard les résidus que l'on juge
correspondre.
28Recherche de similitude (suite)
- Par exemple l'alignement
- P I V S T Y A W R
- P I L S T - A W R
- indique que l'on suppose qu'il y a eu au cours
de l'évolution substitution entre les résidus
valine (V) et leucine (L), et qu'un résidu
tyrosine (Y) a été inséré dans la première
séquence ou délété dans la deuxième (NB on
utilise généralement le terme "indel" pour
indiquer un évènement d'insertion ou de délétion)
.
29Recherche de similitude (suite)
- LES SYSTEMES DE SCORES
- Les principes de la détermination d'un score
- Objectif Qualifier et quantifier la similitude
entre séquences. - La similitude entre deux séquences est mesurée
en sommant le long de l'alignement, les scores
attribués à chaque paire de résidus et aux
indels. Le choix des scores associés aux
identités, substitutions et aux indels détermine
donc la signification biologique de la similitude
que l'on mesure.
30 SCORE ELEMENTAIRE
Recherche de similitude (suite)
- Ceci est un élément d une matrice de scores qui
rend compte de tous les états possibles en
fonction de l alphabet utilisé dans la
description des séquences. Ainsi, pour les acides
nucléiques, la matrice d'identité ou unitaire est
principalement employée. Elle rend compte de
l'identité des résidus pour chacune des positions
de la comparaison, on parle ainsi de bon ou de
mauvais appariement ou bien de bonne ou mauvaise
association.
31Recherche de similitude (suite)
- Ce critère qui permet déjà d'établir des
ressemblances ne suffit pas toujours pour révéler
au mieux les similitudes entre séquences. Très
rapidement, on s'est aperçu qu'une insertion ou
une délétion d'une ou plusieurs bases pouvait
améliorer le score d'une comparaison et ainsi
faire davantage ressortir les zones identiques ou
très proches.
32Recherche de similitude (suite)
- Ces brèches (en anglais gap) que l'on impose aux
séquences sont évidemment pénalisantes dans le
calcul du score. - Si l'on considère que le score donne le
rapprochement entre deux séquences, on peut
résumer celui-ci par l'équation suivante -
- (1)
où se est un score élémentaire et sp une pénalité
d'insertion ou de délétion.
33Recherche de similitude (suite)
- Deux remarques
- le score est fonction de la longueur de la zone
de similitude que l'on considère, c'est à dire
que plus la longueur est grande, plus le score
est élevé. - on peut nuancer le calcul en donnant plus ou
moins d'importance aux pénalités et aux
associations possibles entre résidus. - Ainsi, le poids d'une insertion peut être plus
ou moins fort par rapport à une mauvaise
association.
34Recherche de similitude (suite)
- On voit déjà très bien ici que par le biais de
ces deux éléments fondamentaux, on pourra
privilégier une situation plutôt qu'une autre,
c'est-à-dire avoir des comparaisons de séquences
avec peu ou beaucoup d'insertions-délétions. On
retrouvera bien sûr ce type d'éléments sous forme
de paramètre dans les programmes de comparaison.
35LES MATRICES DE SUBSTITUTION
Recherche de similitude (suite)
-
- Le choix de la pondération dépend de la nature
de la similitude que l'on veut mettre en
évidence. -
- La mesure de similitude la plus simple consiste
à donner un score de zéro aux substitutions et un
score de un aux identités. Cette méthode est
cependant peu sensible car il existe différents
degrés de similitude entre séquences.
36Exemple
Recherche de similitude (suite)
- D un point de vue physico-chimique, la valine
est proche de l'alanine. En conséquence, la
substitution d'une valine par une alanine ne
perturbe généralement pas le fonctionnement de la
protéine. De telles substitutions sont dites
conservatrices et sont relativement fréquentes au
cours de l'évolution car elles modifient peu le
phénotype et offrent donc peu de prise à la
sélection naturelle.
37LES MATRICES DE SUBSTITUTION
Recherche de similitude (suite)
-
- Matrices de substitutions nucléiques
- Pour les séquences nucléiques, il existe
seulement 4 x 4 possibilités de substitution.
Certaines substitutions sont cependant plus
probables que d'autres en particulier, dans le
génome des mammifères, les transitions sont
généralement plus fréquentes que les
transversions. Des matrices de substitution
nucléiques ont été développées pour tenir compte
de cette propriété - States et al. 1991 Molecular sequence
accuracy and the analysis of protein coding
regions. Proc. Natl. Acad. Sci. U.S.A.
885518-5522
38EXEMPLE
Recherche de similitude (suite)
- Matrices de substitutions nucléiques
- a Matrice unitaire
- A C G T
- A 1 0 0 0
- C 0 1 0 0
- G 0 0 1 0
- T 0 0 0 1
- 2 scores possibles 1 pour l identité, 0
autrement
39EXEMPLE (SUITE)
Recherche de similitude (suite)
- b Matrice à 3 scores
- A C G T
- A 3 0 1 0
- C 0 3 0 1
- G 1 0 3 0
- T 0 1 0 3
- 3 scores possibles 3 pour l identité, 1 pour
une transition et 0 pour une transversion.
40Recherche de similitude (suite)
- Matrices de substitutions protéiques
- Pour tenir compte des similitudes entre
aminoacides, il est nécessaire de pondérer
chacune des substitutions possibles. Ces
pondérations forment une matrice de substitution
20 x 20. Le choix de la pondération dépend de la
nature de la similitude que l'on veut mettre en
évidence.
41Recherche de similitude (suite)
- Matrices de substitutions protéiques (suite)
- Dans le cas le plus général, on recherche une
similitude qui reflète des relations d'homologie
entre les séquences (et par conséquent des
relations fonctionnelles et structurales) et on
utilise donc une matrice qui indique les
probabilités de substitution d'un aminoacide par
un autre au cours de l'évolution.
42Recherche de similitude (suite)
- Matrices de substitutions protéiques (suite)
- Choix des matrices de substitutions
- Comme nous l'avons dit précédemment, le choix de
la matrice de substitution dépend de la nature de
la similitude que l'on veut mettre en évidence.
Dans le cas le plus général, on recherche une
similitude qui reflète une homologie entre les
séquences et on utilise donc une matrice qui
correspond aux probabilités de substitution d'un
aminoacide par un autre au cours de l'évolution.
43Recherche de similitude (suite)
- Matrices de substitutions protéiques (suite)
- Choix des matrices de substitutions (suite)
- Ces probabilités varient avec la distance
évolutive qui sépare deux protéines la matrice
de substitution utilisée pour aligner deux
séquences doit donc être choisie en conséquence. - La 'distance génétique' entre aminoacides est
le nombre minimal de changements de nucléotides
dans le codon pour convertir un résidu en un
autre. - La distance évolutive sépare la protéine
requête des séquences similaires présentes dans
la banque. Cette distance n'est pas connue a
priori.
44Recherche de similitude (suite)
- Matrices de substitutions protéiques (suite)
- Choix des matrices de substitutions (suite)
- Différentes approches ont été proposées pour
établir de telles matrices. Les matrices BLOSUM
(Block Substitution Matrices) Henikoff et
Henikoff 1992 ont été créées à partir
d'alignements locaux, sans indels correspondant
aux régions les plus conservées des protéines.
45Recherche de similitude (suite)
- Matrices de substitutions protéiques (suite)
- Aucune extrapolation n'est nécessaire car ces
matrices ont été calculées directement pour
différentes distances évolutives. Plusieurs
matrices BLOSUM (notées 45, 62 et 80) ont été
générées qui diffèrent par le degré de similitude
entre les séquences qui ont été alignées.
46Recherche de similitude (suite)
- Matrices de substitutions protéiques (suite)
- Ainsi, la matrice BLOSUM-45 a été construite
avec des séquences faiblement similaires et est
donc adaptée pour de grandes distances
évolutives, tandis que BLOSUM-80 est plus adaptée
à de faibles distances évolutives.
47Recherche de similitude (suite)
- La synthèse de toutes les études montre que
l'évaluation des matrices est très liée aux
méthodes d'expertise utilisées et que leur usage
est fortement corrélé aux types d'algorithme et
de paramètrage utilisés. En conclusion, il
apparaît tout de même que les matrices plutôt
basées sur les comparaisons de séquences (comme
les BLOSUM, Henikoff et Henikoff, 1992) semblent
donner plus souvent de meilleurs résultats.
Ainsi, la dernière version d'Octobre 1995 du
programme FASTA de recherche avec les banques
propose par défaut la matrice BLOSUM50. - Henikoff S. Henikoff J.G. (1993) Performance
Evaluation of Amino Acid Substitution Matrices.
Prot.Struct. Funct. Genet. 1749-61
48Rappel des génétiques classiques
Recherche de similitude (suite)
-
- Gènes et Phénotypes
- Gène une unité fonctionnelle de l héritage,
qui correspond habituellement à un segment d ADN
codant pour une seule protéine. - Génome l ensemble entier de gènes d un
organisme. - Locus l emplacement du gène dans le
génome - allèles des formes possibles d un
gène