1 / 22

Rejane Sobrino Pinheiro Tania Guillén de Torres

Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis preditoras X 1 , X 2 , .., X k . O problema - Queremos determinar:

ethel
Download Presentation

Rejane Sobrino Pinheiro Tania Guillén de Torres

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Rejane Sobrino Pinheiro • Tania Guillén de Torres

  2. Seleção do melhor modelo de regressão • Introdução • Temos 1 variável resposta Y e um conjunto de k variáveis preditoras X1, X2, .., Xk. • O problema - Queremos determinar: • O melhor (mais importante ou mais válido) subconjunto dos k preditores • O modelo de regressão melhor ajustado

  3. Passos na seleção da melhor equação do modelo • Abaixo, são apresentados passos que tornam a tarefa menos nebulosa, em ações concretas. • Especificar o modelo máximo a ser considerado • Especificar o critério de seleção do modelo • Especificar a estratégia de seleção das variáveis • Estabelecer o modelo máximo, força o pesquisador a estabelecer os objetivos da análise claramente, reconhecer as limitações e o intervalo dos dados que possui. • O pesquisador pode usar todo o conhecimento científico disponível para definir o modelo máximo.

  4. Passo 1: Especificação do modelo máximo • É definido como o maior modelo, o que contém a maioria das variáveis preditoras • Qualquer outro modelo pode ser criado a partir da eliminação de variáveis preditoras. • Assume-se que o modelo máximo com k variáveis, ou alguma restrição destas com p  k, é o modelo correto para a população.

  5. Passo 1: Especificação do modelo máximo (cont...) • Incluir todos os preditores básicos concebíveis • Incluir termos de maior ordem (IDADE2) • Incluir outras transformações dos preditores (log IDADE, 1/ HGT) • Incluir interações entre preditores (de 2a. ordem e maiores) • Incluir todas as variáveis de controle possíveis.

  6. Passo 1: Especificação do modelo máximo (cont...) • O super-ajuste de um modelo (incluindo variáveis no modelo que tenham coeficientes da regressão verdadeiros nulos (população) não introduzirá viés na estimativa dos coeficientes da população. • Tem-se que se preocupar, entretanto, se o super-ajuste não irá incluir colinearidade. • Sub-ajustar, desconsiderando importantes preditores, introduzirá viés nos coeficientes de regressão. • Parcimônia  inclusão de coeficientes não importantes e não estatisticamente significantes pode prejudicar a interpretação e complicá-la

  7. Passo 1: Especificação do modelo máximo (cont...) • O tamanho da amostra traz restrições ao modelo máximo. Quanto menor o tamanho da amostra, menor o tamanho (número de variáveis) que o modelo máximo pode ter. • A maior limitação está em que o número de graus de liberdade do erro deve ser positivo graus de liberdade = n - k -1 > 0 • O que é equivalente à limitação: n > k + 1 • n  nº de observações • k  nº de preditores. (k + 1  inclui intercepto)

  8. Passo 1: Especificação do modelo máximo (cont...) • Existem algumas regras básicas para o no. de preditores: • n - k - 1  10 • n  5k • n  10k • Outra limitação é introduzir variáveis com variância zero. • Ex: supondo a inclusão da variável GÊNERO = 1 para todos os valores da amostra. • A variância da variável na amostra é nula. • Há perfeita colinearidade com o intercepto.

  9. Passo 2: Especificar um critério para a seleção do modelo • Diferenças numéricas podem ou não estar relacionadas com diferenças significantes ou importantes: • Estatisticamente significantes em amostras grandes, as diferenças podem ser significantes, porém podem ser ou não importantes • Cientificamente importantes diferenças importantes podem não ser estatísticamente significantes em amostras pequenas, por exemplo.

  10. Passo 2: Especificar um critério para a seleção do modelo cont. • R2 desvantagem: adicionando preditores, R2 não decresce. • F  bastante usada. • Diversos critérios têm sido propostos. Alguns são: • R2p, Fp, • MSE(p) = SSE(p) / (n-p-1)  variância do erro • Cp  Mallow's Cp

  11. Passo 2: Especificar um critério para a seleção do modelocont. Supondo o modelo máximo com k preditores: Y = 0 + 1 X1 + 2 X2 + ... + p Xp + p+1 Xp+1 + ... + k Xk +  E o modelo reduzido com p preditores: Y = 0 + 1 X1 + 2 X2 + ... + p Xp +  A estatística Fp pode ser comparada a uma distribuição F com k - p (numerador) e n - k -1 (denominador) graus de liberdade

  12. Fp testa se a diferença (SSE(p) - SSE(k)) entre a soma dos quadrados dos resíduos do modelo máximo (com k variáveis) e a soma dos quadrados dos resíduos do modelo reduzido (com p variáveis)  difere significativamente de zero? • Se Fp não é significante, podemos escolher o modelo menor - com p variáveis • Caso especial  p = k-1  Fp testa Ho: k = 0 no modelo completo (máximo)

  13. Passo 3: Especificar uma estratégia de seleção de variáveis A.Todas as regressões possíveis • Embora não prática, esta estratégia deve ser preferida às outras. É o único método que garante encontrar-se o modelo com maior R2. • Torna-se quase impraticável quando o nº k de variáveis é grande • Ajuste de todos os modelos que contenha a combinação das k variáveis

  14. A estatística F parcial entre o modelo 4 (F(X2|X1) = 4.785  contribuição de X2 • Modelo 7: F(X2|X1,X3) = 0.140

  15. Usando o teste F parcial múltiplo, compara-se um modelo reduzido com o modelo completo (máximo). • O valor pequeno de Fp aponta que o modelo 4 não difere significativamente do modelo máximo (modelo 7). • O algoritmo de usar todas as regressões possíveis demanda que sejam analisados 2k - 1 modelos(se k = 10 => 210-1 = 1023). • Outros métodos podem mostrar-se factíveis

  16. B. Procedimento de eliminação Backward • Ajusta-se o modelo contendo todas as variáveis (estimativa do modelo máximo) • Calcula-se o teste F parcial para cada variável do modelo como se fosse a última variável introduzida no modelo. • Observar o menor valor da estatística parcial F. • Comparar o valor p com um nível de significância pre-selecionado (exemplo 10%). Caso seja maior, decidir sobre a exclusão da variável do modelo. • Caso a variável saia do modelo, ajuste novamente para as variáveis remanescentes. Caso não saia, o processo termina.

  17. B. Procedimento de eliminação Backward

  18. C. Procedimento de seleção Foward • Selecionar a primeira variável a entrar no modelo como a variável mais correlacionada com a variável dependente. Ajustar o modelo. • Se o teste F global for não significante, parar e concluir que nenhuma variável independente é importante preditora. • Se o teste F global for significante, incluir a variável no modelo e seguir para o passo 4 • Determinar o teste F parcial e os valores p associados a cada variável remanescente, baseado no modelo contendo a variável inicial e a variável em questão. • Observar qual modelo (de qual variável incluída) possui o maior teste F parcial.

  19. C. Procedimento de seleção Foward • Testar a significância do teste F parcial. Caso seja significante, incluir esta variável no modelo. Caso não seja, usar no modelo somente a variável incluída no item 1 (usar p < 0,10, por exemplo). • Para cada passo seguinte, determinar o teste F parcial para as variáveis não incluídas no modelo. Incluir a variável que tiver o maior teste F parcial. Caso os testes F parciais não sejam significantes, nenhuma variável mais deve ser incluída no modelo.

  20. inserir a saída da pg. 397 kleinbaum • A variável com maior correlação é HGT (0,6630) • Ajustar regressão para esta variável

  21. Calcular o teste F parcial pela inclusão separadamente de cada uma das variáveis remanescentes (um p/ AGE e outro p/ AGE2) • Qual o maior F parcial (menor p valor)? Como p < 0,10, incluir idade

  22. D. Procedimento de regressão Stepwise • É uma versão modificada do procedimento Foward. • Permite o re-exame das variáveis já incluídas no modelo • Uma variável já incluída no modelo pode tornar-se supérflua. • A cada passo, um teste F parcial para cada variável é executado, como se fosse a última variável incluída no modelo. • A variável com o menor teste F parcial não significante é removida (caso haja). • O modelo é reajustado com as variável remanescentes. • O procedimento é repetido até que nenhuma variável saia ou entre mais no modelo. Desvantagens: • Não é controlada pelo usuário • A ordem da inclusão pode afetar os resultados

More Related