Estadística en Genética Forense


Esta página web está dedicada principalmente a la parte estadística necesaria en el campo de la Genética Forense.

Hay teoría y con el tiempo ejercicios resueltos y para resolver. Las frecuencias que se usaran están en la pestaña Frecuencias.

1.- INTRODUCCIÓN

Podemos definir con matices que la Genética forense es una especialidad de la Genética que incluye un conjunto de conocimientos de Genética necesarios para resolver ciertos problemas jurídicos, tanto en el ámbito civil como penal.

El matiz hace referencia a que se necesitan conocimientos de genética molecular, genética de poblaciones, matematicas, biostadistica, química, etc. Así pues es una ciencia multidisciplinar.

Los tipos de asuntos más solicitados en un laboratorio de Genética forense por los tribunales son:

  1. Pericias de criminalística biológica (estudio de vestigios biológicos de interés criminal como manchas de sangre, saliva, esperma, pelos, etc.).
  2. Relaciones de parentesco entre dos ó más personas.

En un Laboratorio de Genética Forense podemos encontrarnos, en principio con dos tipos de asuntos: Criminalística y Parentesco e identificación.

De igual forma se reciben dos tipos de muestras: dubitadas e indubitadas.

Todas aquellas muestras de la que desconocemos de quién proceden son muestras dubitadas, si lo sabemos se trata de muestras indubitadas. Las muestras dubitadas son por ejemplo las que se recogen como consecuencia de un acto delictivo, en general durante la Inspección Ocular. Las indubitadas se recogen bien a detenidos por hechos delictivos ó a personas que buscan a parientes bien desaparecidos ó que han sufrido un accidente y se necesita una identificación genética.

Los casos de Criminalística son muy variados: hurtos, robos con fuerza, robos con violencia, violaciones, homicidios, terrorismo, delincuencia Organizada, etc. En todos ellos se mandan muestras ó efectos al Laboratorio para su análisis.

En Parentesco e Identificación tenemos desde el caso típico de la madre que va con su hijo a la autoridad judicial reclamando la paternidad de una determinada persona, a los casos de grandes catástrofes, personas desaparecidas, etc.

Algo común en ambos casos es la obtención a partir de las muestras recibidas de un perfil genético ó una mezcla de perfiles genéticos.

Un par de ejemplos de Criminalística:

  1. - Como consecuencia de un robo en un bar se recoge una muestra de sangre en su interior con una torunda y se remite al laboratorio. Tras los análisis se obtiene un perfil genético. Este perfil genético es un perfil anónimo o dubitado puesto que no sabemos a quién pertenece. En la mayoría de los países existen bases de datos con perfiles genéticos de personas de interés policial, estos perfiles genéticos anónimos se introducen y cotejan en la base de datos. También puede ocurrir que como consecuencia de una investigación se detenga a un sospechoso, se obtenga su perfil genético (perfil genético indubitado) y se coteje con el perfil genético anónimo obtenido.
  2. - En una violación se toma muestra vaginal de la víctima, se remite al laboratorio y se obtiene un perfil mezcla ó mezcla de perfiles genéticos. Al igual que antes esta mezcla se introduce y coteja en una base de datos o bien tras una investigación se compara con uno o varios sospechosos.

Un par de ejemplos de Parentesco e Identificación:

  1. Accidente aéreo con víctimas, se obtienen por un lado los perfiles genéticos de las víctimas y se intenta identificarlos a partir de los perfiles genéticos de familiares.
  2. Madre que va con su hijo a la autoridad judicial reclamando la paternidad de una determinada persona. A partir de sus perfiles genéticos se intenta saber si ese presunto padre es el padre biológico de la criatura.

Resumiendo

Así pues, en los casos de Criminalística se obtienen perfiles genéticos ó mezcla de perfiles genéticos dubitados y se cotejan con perfiles genéticos indubitados bien de una base de datos ó bien obtenidos como consecuencia de una investigación.

Si el perfil genético dubitado obtenido por ejemplo de una colilla de cigarrillo encontrada donde se cometió un determinado hecho delictivo NO COINCIDE con el perfil genético indubitado obtenido de un sospechoso, tenemos la certeza que esa persona no ha consumido ese cigarrillo. En el caso de que haya COINCIDENCIA ¿podemos asegurar sin ningún género de dudas que esa persona se fumó ese cigarro?.

Igual ocurre en los casos de mezcla de perfiles genéticos, pero ahora se trata de ver si un determinado perfil genético es COMPATIBLE ó no con la mezcla.

En parentesco e identificación se parte del hecho básico que todo aquel alelo presente en el hijo debe estar presente bien en la madre ó en el padre. En el caso de madre hijo y presunto padre, el alelo del hijo que no le da la madre debe proceder del presunto padre.

En todos los casos y después de un largo proceso, lo obtenido no tiene ningún valor sin un estudio estadístico. De ahí la importancia de entender de una forma sencilla como se lleva a cabo. Este suele ser el aspecto más complicado para muchos profesionales (Biólogos, Médicos, Farmacéuticos, etc) y aquí vamos a intentar explicarlo y hacerlo lo más sencillo posible. En muchas ocasiones se recurre a programas informáticos, se introducen los datos, nos da un resultado y no tenemos ni idea de cómo se obtienen ni lo que significan.

La forma actual de abordar este tipo de estudios, aunque no la única, es a través del concepto de LR ó razón de verosimilitud, definido como la probabilidad de la evidencia suponiendo una determinada hipótesis a la que llamaremos h1 frente a la probabilidad de la evidencia suponiendo una hipótesis alternativa ó h2. h1 y h2 suelen ser hipótesis contrapuestas, aunque no necesariamente. Se suelen llamar también hipótesis de la acusación y de la defensa.

LR = P(E|h1)/P(E|h2)

La evidencia son los perfiles genéticos ó perfiles mezcla. Las hipótesis las planteamos en función de la información que tenemos y esto puede hacer variar significativamente el resultado obtenido, de ahí la importancia de tener una información veraz sobre el asunto. En realidad, la persona que conoce todo el sumario es el juez o fiscal y por lo tanto lo lógico es que estas personas sean las que nos proporciones las hipótesis, pero esto no suele ocurrir.

2.- PERFIL GENETICO

2.1 Introducción

Actualmente en la mayoría de los laboratorios se estudian marcadores genéticos del tipo STRs, formados por una unidad o core de 4 ó 5 unidades que se repite n veces. Esto ocurre en el estudio de ADN nuclear autosómico, así como en el estudio de los cromosomas X e Y.

Después de un estudio preliminar se procede a la extracción, cuantificación, amplificación y detección de los fragmentos de ADN generados para los diversos marcadores genéticos estudiados, obteniéndose una relación de marcadores genéticos con los alelos detectados como se puede observar en la siguiente tabla:

MARCADOR MUESTRA
TH01 8-10
D10S1248 13-14
D8S1179 10-10
D13S317 11-13
D16S539 11-12
D18S51 11-16
D19S433 13-14
D1S1656 13-17.3
D21S11 29-33.2
D22S1045 14-16

Y esto es a lo que denominamos perfil genético, que actualmente se obtiene a partir del electroferograma. De momento no entramos en esto ni tampoco si este perfil genético es dubitado o indubitado.

Para cada marcador genético la persona puede ser homocigota o heterocigota, según reciba el mismo alelo de su padre y madre ó reciba alelos distintos.

La pregunta es obvia, para el marcador genético TH01 ¿cuántas personas de la población esperamos que tengan el genotipo 8-10?

Todos sabemos que esto lo podemos saber conociendo las frecuencias de los alelos 8 y 10 en la población de referencia.

Las frecuencias que vamos a usar están en la pestaña frecuencias (4).

En nuestro caso las frecuencias de estos alelos son 8 = 0.0986 y 10 = 0.0088, así pues la frecuencia para este marcador genético sería 2* 0.0986 * 0.0088l = 0,001737332.

Para el marcador genético D8S1179 que es 10-10, siendo la frecuencia del alelo 10 de 0.0739, la frecuencia seria 0.0739 * 0.0739 = 0.00546.

Es decir, esperamos que aproximadamente una de cada mil personas tenga ese genotipo 8-10 para el marcador TH01 y unas cinco de cada mil el genotipo 10-10 para el marcador D8S1179.

Si representamos por letras mayúsculas los alelos y por minúsculas sus frecuencias la forma de obtener como hemos visto a partir de las frecuencias génicas ó alélicas las frecuencias genotípicas es utilizar las archiconocidas fórmulas:

GENOTIPO FRECUENCIA
A A a * a = a2
A B 2*a*b

Al final para obtener la frecuencia del perfil genético se multiplican todas las frecuencias genotípicas obtenidas en cada marcador genético analizado.

Pero ¿de dónde salen estas fórmulas y esto se puede hacer siempre?

Estas fórmulas se pueden aplicar si la población está en Equilibrio Hardy Weinberg.

Por otro lado, las frecuencias de los perfiles genéticos parciales se pueden multiplicar si los marcadores genéticos son independientes, bien porque estén situados en distintos cromosomas ó muy separados dentro del mismo cromosoma. No hay que olvidar que, aunque ocurra esto, a veces se observa una relación estadística entre marcadores genéticos que cumplen las anteriores condiciones.

2.2 Equilibrio Hardy Weinberg

Hardy y Weinberg, explicaron el comportamiento de los alelos en las poblaciones. El equilibrio Hardy-Weinberg describe la relación esperada entre frecuencias alélicas y genotípicas en un locus simple.

Así, para un locus con dos alelos A y B con frecuencias a y b, las frecuencias esperadas de genotipos a partir de esas frecuencias alélicas son la extensión binomial de a + b , es decir : (a + b) 2 = a2 + 2*a*b + b2 = 1.

La frecuencia del genotipo AA sería a 2, la frecuencia de AB 2*a*b y la de BB b 2.

Esto se puede ampliar a cualquier número de alelos. Por ejemplo para cuatro alelos A, B, C y D con frecuencias a, b, c y d tendríamos:

(a + b + c + d) 2 = a2 + b2 + c2 + d2 + 2*a*b + 2*a*c + 2*a*d + 2*b*c+ 2*b*d + 2*c*d = 1.

En una población panmíctica (apareamiento aleatorio), suficientemente grande y no sometida a migración, mutación, deriva génica o selección, las frecuencias alélicas ó génicas se mantienen constantes de generación en generación.

Cuando se cumplen estas condiciones tal población se dice que está en equilibrio Hardy-Weinberg y entonces a partir de las frecuencias alélicas se pueden obtener las frecuencias genotípicas. Si no es así, y esto es algo que hay que tener muy en cuenta, no se puede hacer el cálculo. Es decir, nos quedamos sin la parte estadística y por lo tanto sin nada. ¿O sí que se podrían obtener a partir de un estudio poblacional?

Sabemos que en las poblaciones naturales existe migración, mutación, etc es decir que todo el contenido teórico de Hardy-Weinberg parece poco fiable. No obstante, podemos ayudarnos de la estadística para saber si aplicando las fórmulas de las que hemos hablado en las poblaciones hay diferencias significativas entre los valores que observamos en las poblaciones y los que deberíamos obtener usando nuestras fórmulas.

Para ello vamos a adentrarnos en un estudio poblacional para saber los alelos de un determinando marcador genético en la población, obtener sus frecuencias alélicas y a partir de ellas las frecuencias genotípicas.

Vamos a utilizar los valores de un estudio en la población gallega (2) para el marcador genético HUMTH01. En la siguiente tabla vemos los genotipos observados en el estudio poblacional y las personas observadas:

Genotipo Observados
5-7 1
6-6 9
6-7 18
6-8 15
6-9 22
6-9.3 26
7-7 6
7-8 9
7-9 14
7-9.3 27
8-8 4
8-9 10
8-9.3 20
9-9 6
9-9.3 25
9.3-9.3 22
Total 234

Observamos que se han detectado los alelos 5, 6, 7, 8, 9 y 9.3. También que para los genotipos 5-5, 5-6, 5-8, 5-9 y 5-9.3 no se observa ninguna persona en este estudio.

A partir de estos datos podemos calcular las frecuencias génicas ó alélicas, por ejemplo, para el alelo 6 sería fr(6) = (9*2+18+15+22+26) / 2*234 = 99/468 = 0.2115. Nos quedaría:

Alelo Frecuencia
5 0.0021
6 0.2115
7 0.1731
8 0.1325
9 0.1774
9.3 0.3034
Total 1

Al final hemos calculado a partir del estudio poblacional las frecuencias alélicas ó génicas a partir de las genotípicas. Si la población está en equilibrio Hardy Weinberg a partir de las frecuencias alélicas podemos calcular las frecuencias genotípicas esperadas y nos quedaría:

GENOTIPO OBSERVADOS FÓRMULA ESPERADOS
5-7 1 2*fr(5)*fr(7)*N 0.17
6-6 9 fr(6)*fr(6)*N 10.5
6-7 18 2*fr(6)*fr(7)*N 17.1
6-8 15 2*fr(6)*fr(8)*N 13.1
6-9 22 2*fr(6)*fr(9)*N 17.6
6-9.3 26 2*fr(6)*fr(9.3)*N 30
7-7 6 fr(7)*fr(7)*N 7
7-8 9 2*fr(7)*fr(8)*N 10.7
7-9 14 2*fr(7)*fr(9)*N 14.4
7-9.3 27 2*fr(7)*fr(9.3)*N 24.6
8-8 4 fr(8)*fr(8)*N 4.1
8-9 10 2*fr(8)*fr(9)*N 11
8-9.3 20 2*fr(8)*fr(9.3)*N 18.8
9-9 6 fr(9)*fr(9)*N 7.4
9-9.3 25 2*fr(9)*fr(9.3)*N 25.2
9.3-9.3 22 fr(9.3)*fr(9.3)*N 21.5
TOTAL (N) 234

Es obvio que es difícil que las frecuencias observadas y esperadas coincidan. En la anterior tabla al multiplicar por N es el número de personas observadas frente a esperadas.

Y la pregunta parece fácil ¿Como saber si esta diferencia no es significativa y podemos atribuirla al azar ó por el contrario es significativa y la población no estaría en equilibrio Hardy-Weinberg?

Se han desarrollado diversos test estadísticos al respecto. El más conocido y sencillo es el test de chi cuadrado ( X2 ) que vamos a ver, aunque en la actualidad no se considera el más correcto.

Se utiliza la fórmula:

x2 = ∑ [(observados - esperados) 2 / esperados]

GENOTIPO Observados Esperados (Observados - Esperados)2 / Esperados
5-7 1 0.17 3.95085
6-6 9 10.5 0.20669
6-7 18 17.1 0.0437
6-8 15 13.1 0.2708
6-9 22 17.6 1.12395
6-9.3 26 30 0.54294
7-7 6 7 0.14541
7-8 9 10.7 0.27915
7-9 14 14.4 0.0092936
7-9.3 27 24.6 0.23889
8-8 4 4.1 0.002779
8-9 10 11 0.090168
8-9.3 20 18.8 0.075027
9-9 6 7.4 0.251318
9-9.3 25 25.2 0.00134
9.3-9.3 22 21.5 0.0097058
OTROS 0 0.82582 0.82582
TOTAL(N) 234 SUMA: 8.06788

Después hay que determinar si el valor del test estadístico es significativo. Para hallar la respuesta debemos usar una tabla que encontramos en la mayoría de los libros de estadística. A parte del valor de X 2 obtenido, se necesita calcular los grados de libertad que en estos casos se calcula como número de genotipos (17) menos número de alelos (6).

Si miramos la tabla de x2 para una probabilidad de 0.05 (probabilidad de significancia) y 11 grados de libertad nos da un valor de 19.6752.

Así pues, como el valor obtenido es menor (8.06788) aceptamos la hipótesis nula y la población está en equilibrio Hardy Weinberg para este marcador genético.

Debido por un lado a que el número de alelos de los distintos marcadores genéticos utilizados se fue incrementando y por otro al pequeño tamaño de la muestra que se utiliza, hay genotipos para los que no se observa ninguna persona, haciendo estos test asintóticos poco fiables.

Para solventar el problema se desarrollaron otros test como el test exacto que elimina la incertidumbre inherente en los métodos asintóticos. No obstante, este test también presenta dificultades, entre otras el elevado número de operaciones para muestras grandes cuando hay muchos alelos implicados.