Lá no fim do túnel, uma base de dados que permita responder às perguntas de pesquisa

Fernanda Marques 12 de novembro de 2021


Aprofundar o conhecimento sobre a Síndrome Congênita da Zika e suas consequências na saúde para apoiar medidas sanitárias e sociais para o seu enfrentamento: este é o objetivo da Plataforma de Vigilância de Longo Prazo para a Zika e Microcefalia no Âmbito do SUS. Por meio da análise de um imenso volume de dados integrados, a Plataforma tem acompanhado as crianças nascidas no Brasil entre 2015 e 2018, período em que foram registrados no país os primeiros casos de infecção pelo Zika vírus, causando um aumento significativo do número de recém-nascidos com anomalias congênitas, principalmente microcefalia. O acompanhamento de longo prazo das pessoas acometidas pelo Zika vírus e suas condições de vida envolve uma série de processos de curadoria de dados.

 

O desenvolvimento desses processos de governança e gestão de dados é o objetivo de um dos eixos da Plataforma Zika, coordenado pela médica, mestre em saúde comunitária e doutora em saúde pública Maria Yury Ichihara, atual vice-coordenadora do Centro de Integração de Dados e Conhecimentos para Saúde (Cidacs/Fiocruz Bahia). Nesta entrevista da série “Fala aê, pesquisador – Especial Plataforma Zika“, Yury explica todo o trabalho de preparação dos dados para que eles possam ser utilizados nas pesquisas.

 

Colaboram com a Plataforma mais de 40 pesquisadores oriundos da Fiocruz (Bahia, Brasília e Rio de Janeiro), Universidade Federal da Bahia, Universidade de Brasília e London School of Hygiene & Tropical Medicine.

 

Confira a entrevista.

 

Qual o principal objetivo do seu eixo na Plataforma Zika?

O principal objetivo é estabelecer requisitos e procedimentos para o acesso de pesquisadores e gestores a informações de saúde pública e pessoais. Para chegar a esses protocolos de acesso, existe toda uma trajetória que envolve gestão de dados, segurança da informação, infraestrutura etc. Ao final, o que a gente quer é dar acesso a uma base de dados tratada que permita responder às perguntas de investigação. O desenvolvimento do Cidacs como centro de dados e pesquisa avança na direção da construção de metodologias de pesquisa, análise e avaliação de impacto de determinantes sociais da saúde e políticas públicas, utilizando o desenho de coorte epidemiológico – que consiste em observar no tempo a ocorrência de determinada doença ou fenômenos relacionados à saúde em uma população. Quando o Cidacs foi criado, em dezembro de 2016, havia ainda várias dúvidas em relação à síndrome da zika, com grande interesse do Ministério da Saúde no monitoramento de longo prazo das crianças nascidas durante a epidemia de zika.

 

Com quais dados vocês trabalham?

Trabalhamos com dados administrativos, que são dados de registros oficiais, coletados por órgãos de governo, para fins da administração pública. Esses dados são coletados de acordo com um regramento, por meio de instrumentos específicos de registro. Para o projeto de pesquisa da zika, utilizamos bases de dados como o Sistema Nacional de Nascidos Vivos (Sinasc), o Registro de Emergência em Saúde Pública (Resp), o Sistema de Informação de Mortalidade (SIM), o Cadastro Único, o Bolsa Família etc. Este é um diferencial importante na experiência do Cidacs, considerando que os dados administrativos não foram criados para fins de pesquisa. É um grande desafio transformá-los em coortes epidemiológicas, uma estrutura longitudinal para análise de determinantes sociais e avaliação de impacto.

 

Para o acesso aos dados, qual o primeiro passo?

Os pesquisadores escrevem seus projetos, submetem ao comitê de ética e, depois de aprovados, nos apresentam seus projetos, pareceres éticos e planos de dados, que indicam quais bases de dados devem ser integradas para a realização dos estudos. A nossa equipe de curadoria identifica essas bases, faz as solicitações formais aos órgãos responsáveis, obtém as autorizações e cuida da transferência segura dessas bases identificadas para o nosso centro de dados. Isso inclui checar os dados, verificar se estão completos, se não estão corrompidos, fazer sua descrição etc. A equipe de curadoria e de produção de dados também conversa com os pesquisadores para compreender os objetivos e quais os dados necessários para o estudo. Assim, nosso trabalho é produzir datasets (conjuntos de dados organizados para análise), a partir das coortes epidemiológicas, possibilitando acesso às bases integradas necessárias para responder às perguntas de pesquisa.

 

Quais as etapas até chegar a essa base de dados final?

A gente recebe as bases e inicia um pré-processamento ou limpeza: retira as informações estranhas e, se houver dados escritos de jeitos diferentes, eles são colocados em um mesmo padrão. Depois, a gente verifica se o modo de registro dos dados sofreu alterações ao longo do tempo e, caso tenha ocorrido alguma mudança, busca-se estabelecer uma correspondência entre os diferentes registros, harmonizando e padronizando as categorias. Somente após esse tratamento as bases vão para o linkage.

 

O que é o linkage?

O linkage (vinculação ou integração de dados) é feito utilizando um algoritmo desenvolvido pelo Cidacs que busca similaridade entre atributos comuns de duas bases diferentes. Imagine, hipoteticamente, uma base com dados de saúde e outra com dados socioeconômicos. Eu preciso saber se os dados de saúde, em uma base, e os dados socioeconômicos, na outra, pertencem a um mesmo indivíduo. O algoritmo compara os atributos (nome da pessoa, nome da mãe, data de nascimento, sexo e município de residência) e me diz qual a chance de ser a mesma pessoa, onde 1 é combinação total e 0 é nenhuma similaridade. Por isso, a qualidade dos registros existentes nas bases de dados é muito importante. Embora ela tenha melhorado ao longo dos últimos anos, ainda apresenta problemas. Por exemplo, a pessoa pode ter o nome dela escrito errado ou de diferentes formas (com sobrenome abreviado ou faltando), registros errados de data de nascimento, idade etc. Também é possível encontrar pessoas com o mesmo nome (os homônimos), mesma data de nascimento e mesma idade, dificultando a identificação dos “pares verdadeiros”. Então, como a gente sabe se é ou não a mesma pessoa? É feita uma análise de acurácia a partir de estimativas, ou seja, tem-se um parâmetro para saber qual o ponto em que se obtêm os melhores pares combinados entre as bases. Essa avaliação da qualidade é feita manualmente, conferindo, em várias amostras, com milhares de registros, se os dados ‘linkados’ pelo algoritmo são do mesmo indivíduo. É um processo bastante trabalhoso.

 

Como o pesquisador tem acesso aos dados?

A base de dados integrada resultante passa por uma última checagem, os dados são anonimizados (de modo que não seja possível identificar as pessoas) e a base é transferida do centro de dados para o ambiente de análise, onde o pesquisador tem permissão de acesso ao dataset, após assinar um termo de responsabilidade de uso conforme os protocolos de segurança. Só é permitido o download de resultados de análise sob a forma de tabelas e gráficos.

 

Por que o linkage do Cidacs é uma inovação?

A nossa inovação é trabalhar com linkage para big data, em particular grande volume de dados administrativos utilizados para a construção da Coorte de 100 Milhões de Brasileiros, hoje com mais de 130 milhões de registros.

 

Leia mais 

“A inteligência cooperativa precisa ser acionada”

“Os dados têm impactos reais nas nossas vidas”

“A Zika requer toda a atenção dos gestores”