Atlas of Genetics and Cytogenetics in Oncology and Haematology


Home   Genes   Leukemias   Solid Tumors   Cancer-Prone   Deep Insight   Case Reports   Journals  Portal   Teaching   

X Y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 NA
    

Liaison Génétique




I- Analyse de liaison génétique

I-1. Taux de recombinaison
I- 2. Définition du "Lod Score" d'une famille
I- 3. Test de linkage
I- 4. Estimateur du taux de recombinaison
I- 5. Taux de recombinaison entre un locus maladie et un locus marqueur
I- 6. Analyse de linkage pour trois loci : phénomène d'interférence
I- 7. Bibliographie


II- L'hétérogénéité génétique de localisation

II- 1. Le "Predivided sample test"
II- 2. L'"Admixture Test"
II- 3. Généralisation de l'"admixture test"
II- 4. Bibliographie


III- Propriétés statistiques de la méthode des lod scores

III- 1. Procédure de test
III- 1.1. Impact de la non-séquentialité
III- 1.2. Maximisation du lod score sur l'intervalle [0, 1/2[

III-2. Information génotypique
III-2.1. Ambiguïté dans les relations phénotypes-génotypes au locus maladie
III-2.2. Ambiguïté sur le génotype marqueur
III-2.3. Déséquilibre gamétique entre allèles au locus maladie et au locus marqueur

III-3. Problème des tests multiples
III-4. Bibliographie





*



 
L'étude de la ségrégation conjointe de gènes situés à deux loci permet de tester l'indépendance de transmission de ces gènes. Cette notion d'indépendance se traduit également par un taux de recombinaison q pourcentage de gamètes recombinés parmi l'ensemble des gamètes transmis par les parents. En cas d'indépendance, on attend autant de gamètes recombinés que de gamètes parentaux et on a donc q=1/2. En cas contraire, les gamètes parentaux se transmettent préférentiellement aux gamètes recombinés et on a 0 q<1/2. On dit alors que les deux loci sont liés ("LINKAGE").

 

I- ANALYSE DE LIAISON GENETIQUE

I-1. TAUX DE RECOMBINAISON
Supposons deux loci A et B avec deux allèles codominants à chacun de ces loci respectivement A1, A2 et B1, B2. Un tel individu peut produire quatre types de gamètes :


A1B1
A2B1
A1B2
A2B2

Deux situations sont possibles :
  1. Les deux loci A et B sont sur des paires de chromosomes différentes

    Figure 1


    Dans ce cas, les quatre gamètes ont la même probabilité 1/4.

  2. Les loci A et B sont sur la même paire de chromosomes

Distinguons alors deux cas : ou bien, les allèles A1 et B1 sont sur le même chromosome de la paire, on dit que A1 et B1 sont en "coupling" ; ou bien, ils sont chacun sur un chromosome différent A1 et B1 sont alors en "répulsion".

Figure 2


Supposons, par exemple, que A1 et B1 soient en "coupling". Il y a toujours production de quatre types de gamètes.

Figure 3


Les gamètes A1B1 et A2B2 sont dits "parentaux". On retrouve chez l'enfant A1 en "coupling" avec B1
(ou A2 en "coupling" avec B2) comme chez les parents.
Les gamètes A1B2 et A2B1 sont dits "recombinés". Il s'est passé entre les loci A et B des phénomènes de recombinaison ou "crossing-over" en nombre impair.

Figure 4


En supposant que l'événement de crossing-over sur une paire de chromosomes suit la loi de Poisson, et sachant qu'un gamète parental correspond à un nombre nul ou pair de crossing-over alors qu'un gamète recombiné correspond à un nombre impair, on peut montrer que la fréquence des gamètes recombinés est toujours inférieure ou égale à celle des gamètes parentaux et donc
0 q
< 1/2.
Dire que q = 1/2, c'est dire que tous les types de gamètes ont la même probabilité ou encore que les allèles des loci A et B se transmettent de manière indépendante. On dit que les loci A et B ne sont pas génétiquement liés. C'est le cas si A et B sont sur des paires de chromosomes différents mais aussi si A et B sont sur la même paire mais éloignés l'un de l'autre.
Au contraire si q < 1/2, les deux loci sont génétiquement liés.
Pour un couple dont on connaît les génotvges aux loci A et B la probabilité d'observer les génotypes des enfants dépend de la valeur de q.
Supposons le croisement suivant :

Figure 5


Donc, un tel couple peut avoir 4 types d'enfants

Figure 6


En supposant qu'il y a un équilibre gamétique aux loci A et B, le parent 1 a une probabilité 1/2 d'avoir les allèles A1et B1 en coupling et une probabilité 1/2 en répulsion.
  1. A1 et B1 sont en coupling, alors le parent (1) fournit les gamètes A1B1 et A2B2 avec une probabilité
    (1-q)/2 et les gamètes A1B2 et A2B1 avec une probabilité q/2. Donc la probabilité pour le couple d'avoir un enfant de type (1) ou (2) est (1-q)/2 et d'avoir un enfant de type (3) ou (4) est q/2.
    La probabilité d'observer n1 enfants de type (1), n2 de type (2), n3 de type (3) et n4 de type (4) est alors

    [(1- q)/2]n1+n2 x (q/2)n3+n4

  2. A1 et B1sont en répulsion, le parent (1) fournit alors les gamètes A1B2 et A2B1 avec une probabilité (1-q)/2 et les gamètes A1B1 et A2B2 avec une probabilité q/2.
    La probabilité de l'observation précédente est alors

    (q/2)n1+n2 x[(1-q)/2]n3+n4


Donc finalement, sans aucune information a priori sur la phase de A1 et B1 et en supposant que les allèles aux loci A et B sont en équilibre de coupling, la probabilité d'observer n1, n2, n3 et n4 enfants dans les catégories (1), (2), (3), (4) est

p(n1,n2,n3, n4/q)=1/2{[(1 -q)/2]n1+n2 x (q/2)n3+n4 + (q/2) n1+n2 x [(1-q)/2] n3+n4}

Donc, pour une observation n1, n2, n3, n4 on peut écrire la vraisemblance de q

L(q/n1,n2,n3,n4)=1/2 {[(1-q)/2]n1+n2 (q/2)n3+n4 + (q/2)n1+n2 [(1-q)/2] n3+n4}

Cas particulier: nombre d'enfants n= 1
Quelque soit la catégorie à laquelle appartient cet enfant

L(q) = 1/2 [(1-q)/2] + 1/2 [q/2] = 1/4

Pour une telle observation la vraisemblance de la famille ne dépend pas de q. On dit qu'une telle famille n'est pas informative pour q.

Familles informatives
On appelle famille informative, toute famille pour laquelle la vraisemblance est une fonction non constante de q.
Une condition nécessaire pour qu'une famille soit informative est donc qu'elle ait plus d'un enfant. Par ailleurs, il faut qu'au moins l'un des parents soit double hétérozygote.
Définition: si l'un des parents est double hétérozygote et que l'autre est


I- 2. DEFINITION DU "LOD SCORE" D'UNE FAMILLE

Soit une famille dont on connaît les génotypes au locus A et B pour chacun des membres.
Soit L(q) la vraisemblance d'un taux de recombinaison 0 q < 1/2
L(1/2) la vraisemblance de q = 1/2, c'est-à-dire d'une ségrégation indépendante en A et B.
Le lod score de la famille en q est :
Z(q) = log10 [L(q)/L(1/2)]
On peut considérer Z comme une fonction de q définie sur l'intervalle [0,1/2].

Lod score d'un échantillon de familles
La vraisemblance d'une valeur q pour un échantillon de familles indépendantes étant le produit des vraisemblances de chaque famille, le lod score de l'échantillon sera la somme des lod scores de chaque famille.

I- 3. TEST DE LINKAGE
Un certain nombre de méthodes ont été proposées pour détecter un linkage : les " U scores " par Bernstein en 1931, " la méthode des germains " par Penrose en 1935, " les rapports de vraisemblance " par Haldane et Smith en 1947, " la méthode des lod scores " par Morton en 1955 (1). Cette dernière méthode est celle qui est la plus couramment utilisée actuellement.
La procédure du test dans la méthode des lod scores est de type séquentiel (Wald, 1947 (2)). On accumule l'information, c'est-à-dire le nombre de familles de l'échantillon, jusqu'au moment où il sera possible de trancher entre les hypothèses H0 et H1 :

H0 : indépendance génétiqueq = 1/2
et
Hl : linkage à q10 q1 < 1/2

La valeur du lod score de l'échantillon en q1
Z(q1) = log10 [L(q1)/L(l/2)]

indique les probabilités relatives d'observer l'échantillon sous Hl et H0. Ainsi, un lod score de 3 signifie que la probabilité d'observer l'échantillon est 1000 fois plus grande sous Hl que sous H0       ("lod = logarithme de l'odd").

Les seuils de décision du test sont habituellement fixés à -2 et +3, c'est-à-dire que si :


Z(q1) > 3     on rejette H0 et on conclut au linkage.
Z(q1) -2     on rejette le linkage à q1.
-2 < Z(q1) < 3     on ne peut trancher entre H0 et Hl. Il faut continuer
d'accumuler de l'information.

Pour les seuils choisis -2 et +3, on peut montrer que :
l'erreur de 1ère espèce a < 10-3
l'erreur de 2ème espèce b < 10-2
la fiabilité 1-r  > 0.95 "q 1
la puissance P(q) > 0.80 " q1 si la vraie valeur de q < 0.10

Figure 7


Les détails sur le principe du test peuvent être trouvés dans Wald (2) et la justification des critères -2 et +3 dans Morton (1 ).
En fait, on ne teste pas une seule valeur de q1 par rapport à q = 1/2 mais tout un ensemble de valeurs comprises entre 0 et 1/2 avec un pas plus ou moins petit (0.01 ou 0.05).
S'il existe une valeur q1 telle que Z(q1) > 3 : on conclut au linkage.

Figure 8


S'il existe une valeur q1 telle que
Z(q1) = -2
Alors on exclut le linkage pour tout q q1

Figure 9


Si " q -2    < Z(q) < 3, on ne peut tirer aucune conclusion, l'échantillon n'est pas suffisamment informatif.

Figure 10


Le test proposé a l'avantage d'être très simple, et de protéger contre une fausse conclusion de linkage. Certaines critiques peuvent être cependant formulées non seulement à l'encontre des critères choisis (Chotai (3)), mais aussi sur le principe même d'utiliser une procédure séquentielle (Smith (4)). Le nombre de familles typées est, en effet, rarement décidé au vu des résultats du test.

I- 4. ESTIMATEUR DU TAUX DE RECOMBINAISON
Si le test, sur un échantillon de famille, a permis de conclure à un linkage entre les loci A et B, alors on peut vouloir estimer le taux de reçombinaison entre ces loci.
L'estimation de q est la valeur qui maximise la fonction de lod score Z, ce qui est équivalent à prendre la valeur de q pour laquelle la probabilité d'observer l'échantillon est maximum.

I- 5. TAUX DE RECOMBINAISON ENTRE UN LOCUS MALADIE ET UN LOCUS MARQUEUR
Supposons une maladie monogénique déterminée par un allèle g0 situé en un locus G (g0: allèle délétère, G0: allèle normal).
On aimerait situer le locus G par rapport à un locus marqueur T dont l'emplacement est connu sur le génome. Pour ce faire, on dispose de familles ayant un ou plusieurs individus atteints et on connaît le génotype de chaque membre des familles pour le marqueur T.
Pour pouvoir utiliser la méthode des lod scores précédemment exposée, il faut

Figure 11


pouvoir passer du phénotype des individus (atteint, non atteint) à leur génotype au locus G (ou à leur probabilité génotypique au locus G). Il faut donc connaître
  1. la fréquence g0
  2. le vecteur de pénétrance f1, f2,f3

f1 = proba (atteint/g0g0)
f2 = proba (atteint/g0G0)
f3 = proba (atteint/G0G0)

Il arrivera souvent que l'information pour le marqueur ne soit pas elle aussi génotypique mais phénotypique. Il faudra là aussi envisager toutes les possibilités génotypiques.
En règle générale, l'information dont on dispose sur une famille est une information phénotypique. Pour calculer la vraisemblance de q, il faudra envisager toutes les configurations génotypiques possibles en chacun des loci, pour cette famille, écrire la vraisemblance de q pour chaque configuration, la pondérer par la probabilité de cette configuration sachant les phénotypes des individus en A et B.
Une connaissance sur les paramètres génétiques en chacun des loci (fréquence génique, valeurs de pénétrance) est donc un préalable indispensable à l'estimation de q (Clerget-Darpoux et al (5)).
Il est bien évident que les calculs de lod scores, simples en théorie, sont longs et fastidieux. Morton avait fourni en 1955 un ensemble de tables donnant les lod scores pour différentes valeurs de q entre un locus maladie et un locus marqueur pour des familles nucléaires avec des tailles de fratries de 2 à 7. Les situations envisagées étaient cependant très restrictives. On supposait en particulier que la maladie était déterminée par un gène rare complètement pénétrant, dominant ou récessif.
"LIPED" écrit par Ott en 1974 (6) est le programme pionnier d'analyse de liaison. Il permet d'effectuer le calcul, dans des pédigrés étendus pour des valeurs quelconques de q, f1, f2, f3 et pour des pénétrances fonction de l'âge.
Le programme "LINKAGE" par Lathrop et al, 1984 (7,8) est celui le plus couramment utilisé en cartographie génétique. Il permet de faire des analyses multipoints.
Les logiciels précédents sont basés sur le même algorithme récursif (Elston et Stewart) qui permet d'étudier des pédigrés de taille quelconque mais qui envisage toutes les combinaisons haplotypiques possibles de marqueurs et se trouve donc limités par le nombre de marqueurs à envisager.
Au contraire, le logiciel "GENEHUNTER" (9) basé sur un principe de chaîne de Markov n'est pas limité par le nombre de marqueurs considérés dans l'analyse mais par la taille de la structure familiale.
Un logiciel tout récent "ALLEGRO" (10) peut utiliser l'information sur un nombre important de marqueurs et sur des structures familiales étendues.
L'analyse de liaison génétique a permis de construire une carte génétique en situant les nouveaux polymorphismes les uns par rapport aux autres sur le génome. La mesure utilisée sur la carte génétique n'est pas le taux de recombinaison qui n'est pas une mesure additive mais la distance génétique que nous définirons ultérieurement.

I- 6. ANALYSE DE LINKAGE POUR TROIS LOCI : PHENOMENE D'INTERFERENCE
(V. Bailey, 1961)
Supposont maintenant trois loci A, B et C. Appelons q1 le taux de recombinaison entre A et B, q2 celui entre B et C et q3 entre A et C.

Figure 12


Considérons l'événement double recombinant l'un entre A et B, l'autre entre B et C. Soit Rl2 la probabilité de cet événement. Si les crossing-over se produisent de manière indépendante dans le segment AB et dans le segment BC, alors :
Rl2 = q1q2
Sinon, on dira qu'on a un phénomène d'interférence et
Rl2 = C q1 q2 avec C 1
Si C < 1 l'interférence sera dite positive; les crossing-over
dans le segment AB inhibent ceux du segment BC.
Si C > 1 l'interférence est négative; les crossing-over
dans le segment AB favorisent ceux du segment BC.

Considérons l'individu triple hétérozygote
Un tel individu peut fournir 8 types de gamètes.

Figure 13

Figure 14

Figure 15


On peut écrire
q
3 = q1 + q2 -2 R12
q
3 = q1 + q2 -2 Cql q2
Si C = 1     q3 = q1 + q2- 2q1 q 2

Le taux de recombinaison est une mesure non additive. On peut cependant écrire
(1-2q3) = (1-2 q1) (1-2q2)

en posant x(q) = k Log (1-2q)
on a x(q3) = x(q1) + x(q2)
et pour k = -1/2, x(q) ~q pour les petites valeurs de q.
x(q) = -1/2 Log (1-2q) est une mesure additive.

On l'appelle distance génétique. L'unité est le Morgan. On peut montrer que x mesure le nombre moyen de crossing-over.

Test de l'existence d'interférence
Considérons un échantillon de familles génotypées en A, B et C. Appelons Lc le maximum de vraisemblance pour q1, q2, q3 et L1 le maximum de vraisemblance lorsqu'on pose la contrainte C=1
(c'est-à-dire q3 = q1 + q2 - 2q1 q2)
alors -2 Log (Ll/Lc ) suit un c2 à un degré de liberté.

I- 7. BIBLIOGRAPHIE

  1. Morton NE. Sequential tests for detection of linkage. Am J Hum Genet 1955; 7: 277-318.
  2. Wald A. Sequential analysis. New York: Wiley,1977.
  3. Chotai J. On the lod score method in linkage analysis. Ann Hum Genet 1984; 48: 359-378.
  4. Smith CAB. Some comments on the statistical methods used in linkage investigations. Am J Hum Genet 1959; 11: 289-304.
  5. Clerget-Darpoux F.; Bonaïti-Pellié C, Hochez J. Effects of mispecifying genetic parameters in lod score analysis. Biometrics 1986; 42: 393-399.
  6. Ott, J. Estimation of the recombination fraction in human pedigrees: Efficient computation of the likelihood for human linkage studies. Am J Hum. Genet 1974; 36: 363-386.
  7. Lathrop GM, Lalouel, J. Easy calculations of lod scores and genetic risks on small computers. Am J Hum Genet 1984; 36(2): 460-465
  8. Lathrop GM; Lalouel JM; Julier C; Ott J. Multilocus linkage analysis in humans. Detection of linkage and estimation of recombination. Am J Hum Genet 1985; 37: 482-498.
  9. Kruglyak L, Daly MJ, Reeve-Daly MP, Lander ES. Parametric and Nonparametric Linkage Analysis: A Unified Multipoint Approach. Am J Hum Genet 1996; 58: 1347-1363.
  10. Gudbjartsson DF, Jonasson K, Frigge M, Kong A. Allegro, a new computer program for multipoint linkage analysis. Nature Genet 2000; 25: 12-13
  11. Bailey N. Introduction to the mathematical theory of genetic linkage. London: Oxford University Press, Amen House,1961.
  12. Ott, J. Analysis of human genetic linkage. Johns Hopkins University Press, 1985.
  13. Morton NE. The detection and estimation of linkage between the genes for elliptocytosis and the Rh blood type. Am J Hum 1956; 8: 80-96.
  14. Smith CAB. Testing for heterogeneity of recombination values in human genetics. Ann Hum Genet 1963; 27: 175-182.

 

II- L'HETEROGENEITE GENETIQUE DE LOCALISATION

L'analyse de liaison génétique peut être compliquée par le fait que des mutations de plusieurs gènes, situées en des endroits différents du génome, peuvent être à l'origine de la même pathologie. On est confronté à une hétérogénéité génétique de localisation. Pour mettre en évidence une telle hétérogénéité, on utilise généralement l'un des deux tests suivants: le "Predivided sample test" ou l'"Admixture Test". Le premier test ne se justifie généralement que lorsqu'on dispose d'un bon critère de stratification des familles ou lorsque chaque famille a individuellement une grande informativité.

II- 1. LE "PREDIVIDED SAMPLE TEST" (Morton, 1956)
Ce test vise à mettre en évidence une hétérogénéité de liaison parmi différents sous-groupes d'un échantillon de familles. On veut tester si la liaison génétique entre maladie et marqueur(s) est identique dans tous les sous-groupes. Ces groupes sont formés a priori sur des critères cliniques, géographiques, etc...
Considérons que l'échantillon total de familles a été divisé en n sous-groupes (on peut tester l'existence d'autant de sous-groupes que de familles). On dénote par qila vraie valeur du taux de recombinaison du sous-groupe i.
On veut tester l'hypothèse nulle H0: q1 = q2 = q3 = ...= qn contre l'hypothèse alternative Hl: les qi ne sont pas tous égaux.


Alors, la quantité

Figure 16

suit un c2 à (n-l) degré de liberté. On rejettera l'homogénéité de l'échantillon pour la liaison avec une erreur de type I égale à a si Q est supérieur au seuil critique c2(n-l) correspondant à a.

II- 2. L'"ADMIXTURE TEST" (Smith, 1963)
Contrairement au test précédent, l'"admixture test" ne considère pas une subdivision a priori des familles. On suppose que parmi l'ensemble des familles étudiées, la liaison génétique entre la maladie et le marqueur n'existe que dans une proportion a des familles à un taux de recombinaison q<1/2. Dans les (l-a) familles restantes, on suppose qu'il n'y a pas de liaison avec le marqueur
(q = 1/2).
Pour chaque famille i de l'échantillon, on calcule la vraisemblance

Li(a, q) = a Li(q) + (l-a) Li(1/2),
où Li(q) est la vraisemblance de q étant donné la famille i. La vraisemblance du couple (a, q) est définie par le produit des vraisemblances associées à toutes les familles :
L(a,q)= Pi Li(a, q)
On teste si a est significativement différent de 1 en comparant Lmax(a=l,q), vraisemblance maximisée sur q en supposant l'homogénéité, et Lmax(a,q), vraisemblance maximisée sur les deux paramètres a et q (modèles emboîtés).
Alors la variable
Q
=2[Ln Lmax (a,q) - Ln Lmax (a= 1,q)]
suit un c2 à un degré de liberté.

II- 3. GENERALISATION DE L'"ADMIXTURE TEST"
illustration sur la maladie des exostoses multiples:
Dans certaines maladies monogéniques, l'existence de plusieurs gènes en des localisations différentes a été démontrée. C'est le cas par exemple de la maladie des exostoses multiples, pour laquelle 3 gènes ont été identifiés successivement sur 3 chromosomes différents. L'"admixture test" a alors été généralisé afin de déterminer la proportion de familles dans lesquelles chacun des trois gènes est impliqué (Legeai-Mallet et al, 1997) et l'existence éventuelle d'un quatrième gène.
Les trois localisations sur les chromosomes 8, 19 et 11 ont été notées respectivement El, E2, E3 et les proportions de familles concernées al, a2 et a3. Enfin a4 représente la proportion des familles concernées par une autre localisation.

Pour chaque famille i de l'échantillon, on calcule la vraisemblance en utilisant l'observation faite sur la ségrégation dans la famille des marqueurs disponibles dans chacune des trois régions et ce conditionnellement au statut clinique de chacun de ses membres.

Li(El, E2, E3,al, a2, a3 / Fi) = al (L(E1/Fi)/L(El=1/2 / Fi)] + al(L(E2/Fi)/L(E2=1/2 / Fi)] +
a3 [L(E3/Fi)/L(E3=1/2 / Fi)]+ a4

Pour l'ensemble des familles :

L(El, E2, E3,al, a2, a3/ Ft) = Pi Li(El, E2, E3,al, a2, a3 / Fi)
On peut pour chaque ai tester s'il est égal à 0 puis estimer les ai non nuls et les Ei correspondants.
Il est possible aussi de calculer pour chacune des familles de l'échantillon la probabilité que le gène impliqué soit en El, E2 ou E3. La probabilité a posteriori va utiliser les proportions ai estimées mais aussi les observations spécifiques dans cette famille.
Dans l'échantillon étudié, il a été montré que trois types de familles étaient représentées: pour 48% des familles le gène se trouve sur le chromosome 8, pour 24% sur le chromosome 19, et pour 28% des familles le gène se trouve sur le chromosome 11. Il n 'y avait pas d'évidence dans l'échantillon pour une quatrième localisation.

Les probabilités a posteriori d'appartenir à chacun des 3 sous-groupes ont été ensuite estimées: la probabilité est de plus de 90% pour 5 familles que le gène impliqué soit sur le chromosome 8, pour 3 familles qu'il soit sur le chromosome 19 et pour 4 familles qu'il soit sur le chromosome 11. Pour les autres familles la situation est moins nette: les probabilités a posteriori sont proches des probabilités a priori à cause d'un manque d'information apportée par les marqueurs utilisés.

II- 4. BIBLIOGRAPHIE

  1. Legeai-Mallet L, Margaritte-Jeannin P, Clerget-Darpoux F et al. Genetic heterogeneity of hereditary multiple exostoses. Hum Genet 1997 99: 298-302.
  2. Morton N. The detection and estimation of linkage between the genes for elliptocytosis and the Rh blood type. Am J Hum Genet 1956; 8: 80-96
  3. Smith CAB. Testing for heterogeneity of recombination values in human genetics. Ann Hum Genet 1963, 27: 175-182

III- PROPRIETES STATISTIQUES DE LA METHODE DES LOD SCORES

La procédure du test dans la méthode des lodscores est de type séquentiel (Wald, 1947). On accumule l'information, c'est-à-dire le nombre de familles de l'échantillon, jusqu'au moment où il sera possible de trancher entre les hypothèses H0 et H1 :


H0: indépendance génétique q = 1/2
et
H1: liaison à q1, 0 q 1 <1/2

La valeur du lod score de l'échantillon en q1

z(q1) = log10 [L(q 1)/L(1/2)]

indique les probabilités relatives d'observer l'échantillon sous H1 et H0. Ainsi, un lod score de 3 signifie que la probabilité d'observer l'échantillon est 1000 fois plus grande sous H1 que sous H0 ("lod = logarithme de l'odd").
Les seuils de décision du test sont habituellement fixés à -2 et +3, c'est-à-dire que si :


Z(q1) 3 on rejette H0 et on conclura à la liaison.
Z(q1) -2 on rejette la liaison à q1.
-2 Z(q1) < 3 on ne peut trancher entre H0 et H1.
Il faut continuer d'accumuler l'information.

Pour les seuils choisis -2 et +3, on peut montrer que :
l'erreur de 1ère espèce a < 10-3
l'erreur de 2ème espèce b < 10-2
la fiabilité 1-r > 0.95 " q1
la puissance P(q) > 0.80 " q1 si la vraie valeur de q<0.10

Figure 17


Les conditions d'application qui sous-tendent ces propriétés: séquentialité, ségrégation d'une maladie monogénique simple dans des familles nucléaires où tous les membres sont typés pour un marqueur génétique, unicité du test ne sont pas réalisées dans la pratique. Le tableau ci dessous montre l'évolution de ces conditions d'application. Nous discutons ici de l'impact de ces évolutions sur les propriétés statistiques.

Figure 18


 

III- 1. PROCEDURE DE TEST

III- 1.1. IMPACT DE LA NON-SEQUENTIALITE
On travaille en général sur un échantillon de familles ayant une taille fixée. Ce problème de non- séquentialité a été soulevé par Smith (1959) et étudié par Chotai (1984) et Guihenneuc (1991) qui ont montré que l'erreur de type 1 du test n'était pas augmenté mais au contraire diminuée.
Par ailleurs, la puissance va dépendre bien évidemment de la taille de l'échantillon. Elle dépend aussi des paramètres du modèle génétique (pénétrances, fréquence de l'allèle morbide, degré de dominance), du type de familles analysées (familles nucléaires ou étendues), de l'inforrnativité des marqueurs, de la connaissance que l'on a sur la phase des allèles au locus maladie et au locus marqueur et de la valeur du taux de recombinaison entre ces deux locus.
Lorsque l'on connaît parfaitement le modèle génétique de transmission de la maladie et ses paramètres, la puissance de la méthode est d'autant plus grande que l'existence d'une recombinaison entre le locus maladie et un locus marqueur est plus facilement détectable, autrement dit que sont aisément identifiables à partir du phénotype, le génotype à chacun des deux locus, mais aussi l'haplotype, c'est-à-dire la combinaison de 2 allèles de chacun des locus sur un même segment de chromosome. Au locus maladie, le génotype est déduit sans ambiguïté du phénotype en cas de gène dominant rare avec une pénétrance totale pour l'hétérozygote et nulle pour l'homozygote normal (absence de phénocopie). La puissance est d'autant moins bonne que le degré de dominance et la pénétrance diminuent et que la fréquence génique et la proportion de phénocopies augmentent (Ott, 1991). Au locus marqueur, cette puissance est d'autant plus grande que le degré d'hétérozygotie est élevé, autrement dit que le marqueur est polymorphe. Si l'on considère l'ensemble des deux locus, le degré de connaissance de l'haplotype transmis est meilleur si le nombre de générations est grand. Enfin, la proximité des deux locus augmente la puissance de détection de la liaison génétique.

L'analyse de liaison multipoint, utilisant donc plusieurs marqueurs de référence proches l'un de l'autre sur un segment chromosomique, augmente la puissance de la méthode par augmentation de l'informativité des méioses. Elle est en général utilisée pour préciser l'emplacement d'un locus morbide lorsqu'on a conclu à l'existence d'une liaison génétique.

III- 1.2. MAXIMISATION DU LOD SCORE SUR L'INTERVALLE [0, 1/2[
(E. Génin, Ann Hum Genet,1995,59:123-132)
En pratique cependant, le test n'est jamais réalisé pour une seule valeur de q1 mais de la manière suivante: on calcule le lod score pour différentes valeurs de q1, on détermine le lod score maximum Zmax et on réalise le test sur le Zmax. On utilise encore un critère de +3 voire inférieur pour conclure à la liaison en arguant que le risque a reste suffisamment petit. La probabilité de non liaison a posteriori quant à elle, n'est jamais calculée.
Le fait de considérer une hypothèse alternative composite en s'intéressant au lod score maximum Zmax (ce qui revient à tester H0: q=1/2 contre H1: q <1/2) baisse en fait la fiabilité du test de manière considérable. Ainsi, la probabilité r que la liaison n'existe pas quand un Zmax de + 3 a été obtenu peut atteindre 16.4% ; c'est-à-dire plus de trois fois la probabilité calculée par Morton (1955).
Le tableau ci-dessous montre la probabilité que la liaison n'existe pas en fonction du Zmax obtenu.

Figure 19


la relation entre r et Zmax dépend du type de structure familiale et du déterminisme de la maladie (ici le calcul a été fait pour une maladie dominante dans un échantillon de familles nucléaires avec deux enfants). Fiabilité = 1-r

Pour illustrer l'utilité du calcul de la probabilité de liaison a posteriori, l'exemple des résultats contradictoires obtenus en ce qui concerne la maladie d'Alzheimer est édifiant. La maladie d'Alzheimer est une démence se caractérisant par une perte de la mémoire et des fonctions cognitives. Les familles à cas multiples sont rares mais dans ce sous-groupe de familles, la distribution des malades est compatible avec l'hypothèse de l'intervention d'une mutation dominante sur un gène autosomal. Des analyses de liaison génétique par la méthode des lod scores ont donc été réalisées pour localiser le gène impliqué. En 1987, un lod score maximum de +2.46 obtenu avec un marqueur du chromosome 21 sur une grande généalogie avec de nombreux atteints (la famille FAD4) a d'abord fait conclure que la mutation responsable se situait sur le chromosome 21
(St Georges-Hyslop et coll. 1987). Pendant plusieurs années, les recherches concernant cette maladie se sont donc orientées sur ce chromosome. Cinq ans plus tard cependant, différentes équipes ont mis en évidence de manière très significative, une liaison avec des marqueurs du chromosome 14 (Schellenberg et coll. 1992, St Georges-Hyslop et coll. 1992). Les lod scores très forts qui étaient obtenus montraient que la plupart des formes familiales précoces étaient dues à une mutation d'un gène du chromosome 14. En particulier, pour la famille FAD4, un lod score de +5.21 était obtenu avec les marqueurs de cette région. Compte tenu des observations faites sur les marqueurs du chromosome 21 dans FAD4, la probabilité a posteriori que la liaison n'existait pas était de 1/3. Il est probable que si ce calcul avait été réalisé dès 1987, l'existence d'une mutation sur le chromosome 21 dans cette famille aurait paru moins convaincante. On a d'ailleurs maintenant montré que pour cette famille le gène impliqué se trouvait sur le chromosome 14.
 
III-1.3. BIBLIOGRAPHIE

  1. Génin E, Martinez M, Clerget-Darpoux F. Posterior probability of linkage and maximal lod score. Ann Hum Genet 1995; 59: 123-132.
  2. Schellenberg GD, Bird T, Wijsman E et al. Genetic linkage evidence for a Familial Alzheimer's disease locus on chromosome 14. Science 1992; 258: 668-671.
  3. St Georges-Hyslop PH, Haines J, Rogaev E et al. Genetic evidence for a novel familial Alzheimer's disease locus on chromosome 14. Nature Genet 1992; 2: 330-334.
  4. St Georges-Hyslop PH, Tanzi RE, Polinsky RJ et al. The genelic defect causing Alzheimer's disease maps on chromosome 21. Science 1987; 235: 885-890.

 

III-2. INFORMATION GENOTYPIQUE

III-2.1. AMBIGUITE DANS LES RELATIONS PHENOTYPES-GENOTYPES AU LOCUS MALADIE

La méthode initiale des lod scores s'appliquait à l'étude de familles nucléaires (les parents et leurs enfants), le génotype en chacun des locus pouvant se déduire simplement pour chaque membre de la famille. Puisque ce sont les phénotypes qui sont observables cela signifiait que la correspondance phénotype/génotype était connue. En particulier, lorsque l'analyse se faisait entre un locus "maladie" et un locus "marqueur", la maladie était supposée monogénique, due à un allèle rare d'un gène autosomal, ou lié au sexe et avec une pénétrance complète (probabilité d'être atteint égale à 1 pour les porteurs de l'allèle en simple dose dans les maladies dominantes, en double dose pour les maladies récessives). On supposait par ailleurs un équilibre gamétique entre les allèles au locus "maladie" et au locus "marqueur".
L'usage de la méthode, dont les propriétés étaient parfaitement établies sous ces hypothèses, a été étendu ces vingt dernières années à des situations plus diverses et plus complexes, sans pour autant que ses propriétés soient remises en question. En particulier, on l'applique à des pathologies à déterminisme moins simple, voire inconnu, qu'on étudie dans de grandes généalogies dont certains membres ont un phénotype inconnu. Ceci nous a mené à étudier la puissance du test sous des modèles divers et la robustesse à des erreurs de modélisation.
Il faut souligner que le "lod score", avant tout considéré comme une fonction du taux de recombinaison et utilisé comme estimateur de cette variable, dépend aussi de la valeur des paramètres génétiques au locus maladie à savoir la fréquence des allèles à ce locus et les pénétrances (probabilités d'être atteint) associées à chacun des génotypes.
Nous avons évalué les effets qu'une erreur sur ces paramètres induisait au niveau du test de linkage et de l'estimation du taux de recombinaison (Clerget-Darpoux et coll, 1986,1992,1993).


 
III-2.2. AMBIGUITE SUR LE GENOTYPE MARQUEUR

Le calcul d'un lod score entre un locus maladie et un locus marqueur nécessite de considérer toutes les configurations génotypiques possibles en chacun des locus et d'écrire les probabilités de ces configurations. Lorsque certains individus ne sont pas typés pour le marqueur génétique, la probabilité de chaque génotype possible sera calculé. Pour cela, il sera nécessaire de préciser les fréquences alléliques du marqueur.
Une erreur sur ces fréquences alléliques, en particulier la sous-estimation de la fréquence d'un allèle présent chez les malades, augmente artificiellement les valeurs de lod score et peut donc mener à conclure faussement à la liaison génétique (faux positifs) (Ott, 1991 ; Freimer et al, 1993; Knapp et al, 1993).
L'utilisation de plus en plus fréquente de généalogies très étendues, dans lesquelles seuls les individus de dernière génération sont typés, demande une grande prudence dans l'interprétation de résultats positifs.
 

III-2.3. DESEQUILIBRE GAMETIQUE ENTRE ALLELES AU LOCUS MALADIE ET AU LOCUS MARQUEUR
Une association entre un gène de susceptibilité et un marqueur peut induire un biais sur l'estimation du taux de recombinaison. En particulier, la méthode des "lod scores" spécifie qu'aucune sélection ne doit être faite sur le marqueur dans l'échantillon. Or, en cas d'association, la sélection que l'on fait sur le statut de malade entraîne implicitement une sélection sur le marqueur. D'autre part, le calcul suppose, chez les parents, une probabilité égale pour chaque combinaison génétique, ce qui n'est pas vrai en cas d'association. Ne pas tenir compte, dans l'analyse, du déséquilibre existant entre allèles maladie et allèles marqueur, induit une très grande sous-estimation du "lod score" (en d'autres termes, une diminution importante de la puissance du test de linkage) et une très légère sous-estimation du taux de recombinaison (Clerget-Darpoux, 1982).

 

III-3. PROBLEME DES TESTS MULTIPLES
 
Une des difficultés d'interprétation statistique des analyses de liaison génétique faites sur les maladies complexes vient en effet de ce qu'en général et de façon plus ou moins explicite, les données sont soumises à des tests multiples: plusieurs classifications cliniques, plusieurs marqueurs génétiques, plusieurs modélisations, plusieurs échantillons. Il est bien clair que les critères d'arrêt utilisés habituellement dans le test du lod score n'ont plus la même signification statistique lorsqu'on applique simultanément plusieurs tests à un même échantillon ou à plusieurs échantillons. Ce problème a été étudié par E. Thompson (1984) dans le cas d'une maladie monogénique pour laquelle on teste la liaison génétique avec plusieurs marqueurs situés sur des chromosomes différents (donc indépendants). II est beaucoup plus complexe dans le cas des maladies multifactorielles, car la multiplicité des tests intervient sous plusieurs formes et de façon non indépendante (Clerget-Darpoux et coll, 1990).
Les tests multiples pourraient être pris en compte en réajustant le critère d'arrêt du test des lod scores. Cependant, d'une part les tests réellement effectués n'apparaissent pas toujours clairement au niveau des publications, d'autre part cela peut rendre le test trop conservateur. C'est pourquoi la stratégie de réplication nous semble devoir être alors privilégiée.
La réplication d'un résultat positif sur un nouvel échantillon (utilisant la même classification, le même marqueur, le même modèle de transmission) permet d'obtenir un seuil de signification fiable.
 

III-4. BIBLIOGRAPHIE

  1. Chotai J. On the lod score method in linkage analysis. Ann Hum Genet 1984; 48: 359-378.
  2. Clerget-Darpoux F. Bias of the estimated recombination fraction and lod score due to an association beween a disease gene and a marker gene. Ann Hum Genet 1982; 46: 363-372.
  3. Clerget-Darpoux F, Bonaïti-Pellié C, Hochez J. Effects of misspecifying genetic parameters in 1od score analysis. Biometrics 1986; 42: 393-399.
  4. Clerget-Darpoux F, Babron M.C., Bonaïti-Pellié C. Assessing the effect of multiple linkage tests in complex diseases. Genet Epidemiol 1990; 7: 245-253.
  5. Clerget-Darpoux F, Bonaïti-Pellié C. Strategies based on marker information for the study of human diseases. Ann Hum Genet 1992; 56: 145-153.
  6. Clerget-Darpoux F, Bonaïti-Pellié C. An exclusion map covering the whole genome : a new challenge for genetic epidemiologists ? Am J Hum Genet 1993; 52: 442-443.
  7. Freimer NB, Sandkuijl LA, Blower SM. Incorrect spccification of marker allele frequencies : effect on linkage analysis. Am J Hum Genet 1993; 56: 1102-1110.
  8. Guihenneuc C, Prum B, Clerget-Darpoux F, Bonaïti-Pellié C. Remarques sur la méthode du lod score en génétique. Pub Inst Stat Univ Paris 1990; 35: 19-37.
  9. Knapp M, Seuchter SA, Bauer MP. The effect of misspccifying allele frequencies in incompletely typed families. Genet Epidemiol 1993; 10: 413-418.
  10. Morton NE. Sequential tests for the detection of linkage. Am J Hum Genet 1955; 7: 277-318.
  11. Ott J. Analysis of human genetic linkage, 2nd ed ition. John Hopkins University Press, 1991.
  12. Smith CAB. Some comments on the statistical methods used in linkage investigations. Am J Hum Genet 1959; 11: 289-304.
  13. Wald A. Sequential analysis. New York: Wiley, 1947.
 


Contributor(s)

Written2002-05Françoise Clerget-Darpoux
Unité de Recherche d'Epidémiologie Génétique, INSERM U535, Kremlin-Bicêtre, France

© Atlas of Genetics and Cytogenetics in Oncology and Haematology
indexed on : Mon Aug 12 17:31:14 CEST 2019


Home   Genes   Leukemias   Solid Tumors   Cancer-Prone   Deep Insight   Case Reports   Journals  Portal   Teaching   

X Y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 NA

For comments and suggestions or contributions, please contact us

jlhuret@AtlasGeneticsOncology.org.