HomoloGene es una herramienta del Centro Nacional para la Información Biotecnológica (NCBI) que es utilizada como sistema de detección automática de homólogos (similitud atribuible a la descendencia de un ancestro común) entre los genes anotados de varios genomas eucariotas completamente secuenciados.[1][2][3]
El procesamiento de HomoloGene consiste en el análisis de proteínas de los organismos de entrada. Las secuencias se compararon mediante blastp,[4] a continuación, los empareja y agrupa, utilizando un árbol taxonómico construido a partir de la similitud de secuencias, donde los organismos más estrechamente relacionados se emparejan primero, y luego los siguientes son añadidos al árbol. Las alineaciones de proteínas se asignan a sus secuencias de ADN correspondientes; luego, las distancias métricas tales como las de Jukes & Cantor (1969) o la tasa Ka/Ks se pueden calcular.[2]
Las secuencias se emparejan utilizando un algoritmo heurístico para maximizar la puntuación global en una coincidencia bipartita (véase grafo bipartito completo), más que a nivel local. Y luego, se calcula la significación estadística de cada pareja. En cada posición se realizan puntos de corte, y se establecen valores de Ks para evitar falsos ortólogos cuando sean agrupados; además, los parálogos son identificados a través de la búsqueda de secuencias entre aquellas especies más relacionadas.[5]