Pipeline Copy Number Variations

Pipeline Copy Number Variations

Esta página describe el proceso seguido para la determinación y análisis de CNVs para muestras germinales o somáticas a partir de un panel de normales (PoN). Está especialmente adaptado para secuenciación illumina paired-end, tanto de exomas como de genomas completos.

Este pipeline está basado en las instrucciones de buenas prácticas de GATK y sus respectivos tutoriales.

Estructura general del pipeline

El pipeline ha sido desarrollado utilizando el lenguaje de desarrollo de workflows WDL. El código WDL implementado está específicamente preparado para ser ejecutado mediante la utilización de la herramienta de Cromwell. Para facilitar la ejecución, el pipeline ha sido encapsulado dentro de un script en bash que automatiza cada uno de los pasos. El código del pipeline está accesible en el siguente repositorio de Gitlab.

El pipeline completo está representado en el siguiente diagrama:

Diagrama disponible en: cnv_workflow_diagram.odp

Requisitos y recomendaciones

  • Este pipeline está desarrollado específicamente para secuenciación illumina paired-end, aunque podría funcionar con otras tecnologías.

  • Para realizar el llamado de CNVs es imprescindible la creación de un panel de normales (PoN). Se recomienda que el PoN esté formado con al menos 30 muestras independientes secuenciadas en las mismas condiciones que la muestra problema.

  • Se recomienda usar BAMs con reads duplicadas marcadas o, en el caso de PCR-free, sin marcar.

  • Se recomienda no eliminar reads del BAM (duplicadas, baja calidad por alineamiento, etc.)

  • No es recomendable hacer calling sobre regiones con baja mapeabilidad, duplicaciones segmentarias o altos contenidos de GC.

Ejecución

Aunque es posible ejecutar los pipelines directamente utilizando los ficheros WDL, el repositorio de Gitlab contiene una serie de script en bash (launchers) para facilitar la ejecución:

launcher_PoN_somatic.sh

Permite la creación de un panel de normales para hacer el llamado sobre muestras tumorales. Los principales parámetros de entrada son:

  • CNVSomaticPanelWorkflow.normal_bams: array con los BAMs

  • CNVSomaticPanelWorkflow.normal_bais: array con los BAIs

  • CNVSomaticPanelWorkflow.bin_length: tamaño de los fragmentos a analizar. Normalmente es 0 en el caso de capturas, y un valor entre 1k y 5k para genomas completos.

  • CNVSomaticPanelWorkflow.ref_fasta: genoma de referencia referencia (ej. hs37d5.fa)

  • CNVSomaticPanelWorkflow.padding: padding (en bp) a los márgenes de la captura. En WGS debe ser 0.

  • CNVSomaticPanelWorkflow.blacklist_intervals: intervalos a excluir. Se deben evitar regiones de baja mapeabilidad, duplicaciones segmentarias, zonas altamente repetitivas, etc. Un ejemplo es wgEncodeDacMapabilityConsensusExcludable.bed

launcher_case_somatic.sh

Permite detectar CNV en una o más muestras tumorales con o sin muestra normal asociada. Los principales parámetros de entrada son:

  • CNVSomaticPairWorkflow.read_count_pon: panel de normales

  • CNVSomaticPairWorkflow.common_sites: fichero con frecuencias alélicas poblacionales. Ejemplo: gnomad-2.1.1-SNP-biallel-AF05.vcf.gz

  • CNVSomaticPairWorkflow.blacklist_intervals: Se debe usar el mismo fichero utilizado en la creación del PoN

  • CNVSomaticPairWorkflow.padding: Se debe usar el mismo fichero utilizado en la creación del PoN

  • CNVSomaticPairWorkflow.intervals: Se debe usar el mismo fichero utilizado en la creación del PoN

  • CNVSomaticPairWorkflow.bin_length: Se debe usar el mismo fichero utilizado en la creación del PoN

launcher_PoN_germline.sh

Permite la creación de un panel de normales para hacer el llamado sobre muestras germinales. Los principales parámetros de entrada son:

  • CNVGermlineCohortWorkflow.normal_bams: array con los BAMs

  • CNVGermlineCohortWorkflow.normal_bais: array con los BAIs

  • CNVGermlineCohortWorkflow.blacklist_intervals: intervalos a excluir. Se deben evitar regiones de baja mapeabilidad, duplicaciones segmentarias, zonas altamente repetitivas, etc. Un ejemplo es wgEncodeDacMapabilityConsensusExcludable.bed

  • CNVGermlineCohortWorkflow.contig_ploidy_priors: ejemplo en ploidi_priors.tsv

  • CNVGermlineCohortWorkflow.ref_fasta: genoma de referencia referencia (ej. hs37d5.fa)

  • CNVGermlineCohortWorkflow.padding: padding (en bp) a los márgenes de la captura. En WGS debe ser 0.

  • CNVGermlineCohortWorkflow.bin_length: tamaño de los fragmentos a analizar. Normalmente es 0 en el caso de capturas, y un valor entre 1k y 5k para genomas completos.