Rejane Sobrino Pinheiro Tania Guillén de Torres

Rejane Sobrino Pinheiro • Tania Guillén de Torres

Seleção do melhor modelo de regressão • Introdução • Temos 1 variável resposta Y e um conjunto de k variáveis preditoras X1, X2, .., Xk. • O problema - Queremos determinar: • O melhor (mais importante ou mais válido) subconjunto dos k preditores • O modelo de regressão melhor ajustado

Passos na seleção da melhor equação do modelo • Abaixo, são apresentados passos que tornam a tarefa menos nebulosa, em ações concretas. • Especificar o modelo máximo a ser considerado • Especificar o critério de seleção do modelo • Especificar a estratégia de seleção das variáveis • Estabelecer o modelo máximo, força o pesquisador a estabelecer os objetivos da análise claramente, reconhecer as limitações e o intervalo dos dados que possui. • O pesquisador pode usar todo o conhecimento científico disponível para definir o modelo máximo.

Passo 1: Especificação do modelo máximo • É definido como o maior modelo, o que contém a maioria das variáveis preditoras • Qualquer outro modelo pode ser criado a partir da eliminação de variáveis preditoras. • Assume-se que o modelo máximo com k variáveis, ou alguma restrição destas com p  k, é o modelo correto para a população.

Passo 1: Especificação do modelo máximo (cont...) • Incluir todos os preditores básicos concebíveis • Incluir termos de maior ordem (IDADE2) • Incluir outras transformações dos preditores (log IDADE, 1/ HGT) • Incluir interações entre preditores (de 2a. ordem e maiores) • Incluir todas as variáveis de controle possíveis.

Passo 1: Especificação do modelo máximo (cont...) • O super-ajuste de um modelo (incluindo variáveis no modelo que tenham coeficientes da regressão verdadeiros nulos (população) não introduzirá viés na estimativa dos coeficientes da população. • Tem-se que se preocupar, entretanto, se o super-ajuste não irá incluir colinearidade. • Sub-ajustar, desconsiderando importantes preditores, introduzirá viés nos coeficientes de regressão. • Parcimônia  inclusão de coeficientes não importantes e não estatisticamente significantes pode prejudicar a interpretação e complicá-la

Passo 1: Especificação do modelo máximo (cont...) • O tamanho da amostra traz restrições ao modelo máximo. Quanto menor o tamanho da amostra, menor o tamanho (número de variáveis) que o modelo máximo pode ter. • A maior limitação está em que o número de graus de liberdade do erro deve ser positivo graus de liberdade = n - k -1 > 0 • O que é equivalente à limitação: n > k + 1 • n  nº de observações • k  nº de preditores. (k + 1  inclui intercepto)

Passo 1: Especificação do modelo máximo (cont...) • Existem algumas regras básicas para o no. de preditores: • n - k - 1  10 • n  5k • n  10k • Outra limitação é introduzir variáveis com variância zero. • Ex: supondo a inclusão da variável GÊNERO = 1 para todos os valores da amostra. • A variância da variável na amostra é nula. • Há perfeita colinearidade com o intercepto.

Passo 2: Especificar um critério para a seleção do modelo • Diferenças numéricas podem ou não estar relacionadas com diferenças significantes ou importantes: • Estatisticamente significantes em amostras grandes, as diferenças podem ser significantes, porém podem ser ou não importantes • Cientificamente importantes diferenças importantes podem não ser estatísticamente significantes em amostras pequenas, por exemplo.

Passo 2: Especificar um critério para a seleção do modelo cont. • R2 desvantagem: adicionando preditores, R2 não decresce. • F  bastante usada. • Diversos critérios têm sido propostos. Alguns são: • R2p, Fp, • MSE(p) = SSE(p) / (n-p-1)  variância do erro • Cp  Mallow's Cp

Passo 2: Especificar um critério para a seleção do modelocont. Supondo o modelo máximo com k preditores: Y = 0 + 1 X1 + 2 X2 + ... + p Xp + p+1 Xp+1 + ... + k Xk +  E o modelo reduzido com p preditores: Y = 0 + 1 X1 + 2 X2 + ... + p Xp +  A estatística Fp pode ser comparada a uma distribuição F com k - p (numerador) e n - k -1 (denominador) graus de liberdade

Fp testa se a diferença (SSE(p) - SSE(k)) entre a soma dos quadrados dos resíduos do modelo máximo (com k variáveis) e a soma dos quadrados dos resíduos do modelo reduzido (com p variáveis)  difere significativamente de zero? • Se Fp não é significante, podemos escolher o modelo menor - com p variáveis • Caso especial  p = k-1  Fp testa Ho: k = 0 no modelo completo (máximo)

Passo 3: Especificar uma estratégia de seleção de variáveis A.Todas as regressões possíveis • Embora não prática, esta estratégia deve ser preferida às outras. É o único método que garante encontrar-se o modelo com maior R2. • Torna-se quase impraticável quando o nº k de variáveis é grande • Ajuste de todos os modelos que contenha a combinação das k variáveis

A estatística F parcial entre o modelo 4 (F(X2|X1) = 4.785  contribuição de X2 • Modelo 7: F(X2|X1,X3) = 0.140

Usando o teste F parcial múltiplo, compara-se um modelo reduzido com o modelo completo (máximo). • O valor pequeno de Fp aponta que o modelo 4 não difere significativamente do modelo máximo (modelo 7). • O algoritmo de usar todas as regressões possíveis demanda que sejam analisados 2k - 1 modelos(se k = 10 => 210-1 = 1023). • Outros métodos podem mostrar-se factíveis

B. Procedimento de eliminação Backward • Ajusta-se o modelo contendo todas as variáveis (estimativa do modelo máximo) • Calcula-se o teste F parcial para cada variável do modelo como se fosse a última variável introduzida no modelo. • Observar o menor valor da estatística parcial F. • Comparar o valor p com um nível de significância pre-selecionado (exemplo 10%). Caso seja maior, decidir sobre a exclusão da variável do modelo. • Caso a variável saia do modelo, ajuste novamente para as variáveis remanescentes. Caso não saia, o processo termina.

B. Procedimento de eliminação Backward

C. Procedimento de seleção Foward • Selecionar a primeira variável a entrar no modelo como a variável mais correlacionada com a variável dependente. Ajustar o modelo. • Se o teste F global for não significante, parar e concluir que nenhuma variável independente é importante preditora. • Se o teste F global for significante, incluir a variável no modelo e seguir para o passo 4 • Determinar o teste F parcial e os valores p associados a cada variável remanescente, baseado no modelo contendo a variável inicial e a variável em questão. • Observar qual modelo (de qual variável incluída) possui o maior teste F parcial.

C. Procedimento de seleção Foward • Testar a significância do teste F parcial. Caso seja significante, incluir esta variável no modelo. Caso não seja, usar no modelo somente a variável incluída no item 1 (usar p < 0,10, por exemplo). • Para cada passo seguinte, determinar o teste F parcial para as variáveis não incluídas no modelo. Incluir a variável que tiver o maior teste F parcial. Caso os testes F parciais não sejam significantes, nenhuma variável mais deve ser incluída no modelo.

inserir a saída da pg. 397 kleinbaum • A variável com maior correlação é HGT (0,6630) • Ajustar regressão para esta variável

Calcular o teste F parcial pela inclusão separadamente de cada uma das variáveis remanescentes (um p/ AGE e outro p/ AGE2) • Qual o maior F parcial (menor p valor)? Como p < 0,10, incluir idade

D. Procedimento de regressão Stepwise • É uma versão modificada do procedimento Foward. • Permite o re-exame das variáveis já incluídas no modelo • Uma variável já incluída no modelo pode tornar-se supérflua. • A cada passo, um teste F parcial para cada variável é executado, como se fosse a última variável incluída no modelo. • A variável com o menor teste F parcial não significante é removida (caso haja). • O modelo é reajustado com as variável remanescentes. • O procedimento é repetido até que nenhuma variável saia ou entre mais no modelo. Desvantagens: • Não é controlada pelo usuário • A ordem da inclusão pode afetar os resultados

Rejane Sobrino Pinheiro Tania Guillén de Torres