Resumo: Um problema comum em análises estatísticas é a ocorrência de bases de dados incompletas. Geralmente, nessas situações, restringe-se a análise aos sujeitos com dados completos nas variáveis. Esse procedimento reduz o tamanho da amostra e pode resultar em estimativas tendenciosas. O preenchimento dos dados faltantes pode ser feito por meio da imputação múltipla (IM), em que cada valor ausente e substituído por um conjunto de valores plausíveis, incorporando a incerteza sobre o valor a ser imputado. Atualmente a imputação múltipla está disponível nos principais softwares estatísticos, porém a maioria dos métodos implementados são paramétricos, e nestes casos há fortes suposições sobre a distribuição dos dados, o que na prática é difícil de se verificar. Com vistas a promover a interdisciplinaridade em Bioestatística, tratamos aqui de dois procedimentos para realizar imputação múltipla os quais oferecem maior flexibilidade quanto à distribuição dos dados: o algoritmo MICE - Multivariate Imputation by Chained Equatoins - e o método IMLD Imputação Múltipla Livre de Distribuição. O algoritmo MICE, é aplicado a dados de um estudo transversal de recém-nascidos vivos residentes no estado de Paraná no ano de 2012. Uma amostra aleatória, com registros completos, de 3380 casos foi obtida, um modelo de regressão logística foi ajustado para o desfecho baixo peso ao nascer. Por simulação, foram gerados três conjuntos de dados incompletos, com dados faltantes para o desfecho peso ao nascer, categorizado em baixo peso e peso normal. Os modelos foram ajustados nas três situações distintas para comparação com o modelo padrão. Percebe-se, por meio das estimativas, um melhor ajuste dos modelos com imputação, quando comparado ao caso em que analisamos os dados com registros faltantes. As estimativas dos erros padrão do modelo imputado se aproximam muito bem dos resultados obtidos com o modelo ajustado ao conjunto de dados completo (modelo padrão ouro). Uma aplicação usando o método IMLD é feita com uma matriz Y de dados referente a altura média de plantas (m) de 20 cultivares precoces e geneticamente modificadas de milho, avaliadas em 7 localidades no estado do Paraná (SHIOGA et al., 2015). Remoções aleatórias ( 5%, 15%, 30%) foram feitas na matriz original e posteriormente empregado o método IMLD para preenchimento destes valores faltantes. A implementação do método foi feita no software R, a qual é disponibilizada em anexo. Por meio de medidas de variabilidade e acurácia, o método mostrou-se eficaz. Com isso, temos indícios de que a imputação múltipla deve ser uma opção a ser utilizada quando se tem dados faltantes
Abstract: A common problem in statistical analyzes is the occurrence of incomplete databases. Generally, in these situations, it restricts the analysis to subjects with complete data on the variables. This reduces the size of the sample, and can result in unbiased estimates. The "filling" of the missing data can be done by multiple imputation (IM), wherein each missing value is replaced by a set of plausible values, incorporating the uncertainty about the amount to be imputed. Currently, multiple imputation is available in the main statistical software, but most of the implemented methods are parametric, and in these cases there are strong assumptions about the distribution of data, which in practice is dificult to verify. In order to promote interdisciplinarity in Biostatistics, we treat here two procedures to perform multiple imputation which offer greater flexibility in the distribution of the data: the MICE algorithm Multivariate imputation by Chained Equations - and IMLD method - Multiple Imputation Distribution Free. The MICE algorithm is applied to data from a cross-sectional study of newborns live residents in the Parana state, in the year 2012. A random sample with complete records of 3380 cases was obtained, a logistic regression model was fitted to the outcome of low birth weight. By simulation, it was generated three sets of incomplete data, with missing data for weight outcome. The models were adjusted in three diferent situations for comparison with the standard model. It can be seen through the estimates, a better adjustment of the models with imputation when compared to the case where we analyze the data with missing records. The estimates of imputed model standard errors of approaches very well the results obtained with the gold standard model. An application to the IMLD method is made with a array of data regarding the average plant height (m) of 20 early and genetically modified corn cultivars, evaluated in seven locations in the Parana state (SHIOGA et al., 2015). Random removals ( 5%, 15%, 30%) were made in the original array and then used the method IMLD to fill these missing values. The implementation of the method was taken in the R software, which is provided in annex. Through variability and accuracy measurements, the method proved to be effective. With this, we have evidence that multiple imputation should be an option to be used when there is missing data |