Bem-vindo ao Instituto de Pesquisa e Educação Digital Análise de Regressão de Saída Anotada Stata Esta página mostra um exemplo de análise de regressão com notas de rodapé explicando o resultado. Estes dados foram coletados em 200 alunos do ensino médio e são pontuações em vários testes, incluindo ciência, matemática, leitura e estudos sociais (socst). A variável feminina é uma variável dicotômica codificada 1 se o estudante fosse do sexo feminino e 0 se fosse do sexo masculino. Anova Table a. Fonte: no que diz respeito à desagregação da variância na variável de resultados, estas são as categorias que examinaremos: Modelo, Residual e Total. A variância Total é particionada na variância que pode ser explicada pelas variáveis independentes (Modelo) e a variância que não é explicada pelas variáveis independentes (Residual, às vezes chamado Erro). B. SS - São a Soma de Quadrados associada às três fontes de variância, Total, Modelo e Residual. C. Df - Estes são os graus de liberdade associados às fontes de variância. A variância total tem N-1 graus de liberdade. Os graus de liberdade do modelo correspondem ao número de coeficientes estimados menos 1. Incluindo a intercepção, existem 5 coeficientes, de modo que o modelo tem 5-14 graus de liberdade. Os graus de liberdade residuais são o DF total menos o modelo DF, 199 - 4 195. d. MS - São os quadrados médios, a soma dos quadrados divididos pelo respectivo DF. Global Model Fit e. Número de obs - Este é o número de observações utilizadas na análise de regressão. F. F (4, 195) - Esta é a estatística F é o modelo quadrado médio (2385.93019) dividido pelo residencial quadrado médio (51.0963039), produzindo F46.69. Os números entre parênteses são os graus de liberdade Modelo e Residual são da tabela ANOVA acima. G. Prob gt F - Este é o valor p associado à estatística F acima. Ele é usado para testar a hipótese nula de que todos os coeficientes do modelo são 0. h. R-quadrado - R-Squared é a proporção de variância na variável dependente (ciência) que pode ser explicada pelas variáveis independentes (matemática, fêmea, socst e leitura). Esta é uma medida geral da força da associação e não reflete a extensão em que qualquer variável independente particular está associada à variável dependente. Eu. Adj R-squared - Este é um ajuste do R-squared que penaliza a adição de preditores estranhos ao modelo. O R-squared ajustado é calculado usando a fórmula 1 - ((1 - Rsq) ((N - 1) (N - k - 1)) onde k é o número de preditores. J. Root MSE - Root MSE é o desvio padrão Do termo de erro e é a raiz quadrada do Mean Square Residual (ou Error). Parâmetro Estimativas k. Ciência - Esta coluna mostra a variável dependente no topo (ciência) com as variáveis preditoras abaixo dela (matemática, fêmea). Leitura e contras). A última variável (contras) representa a constante ou o intercepto. L. Coef. - Estes são os valores da equação de regressão para prever a variável dependente da variável independente. A equação de regressão é apresentada de várias maneiras diferentes , Por exemplo: Ypredicted b0 b1x1 b2x2 b3x3 b4x4 A coluna de estimativas fornece os valores para b0, b1, b2, b3 e b4 para esta equação. Math - O coeficiente é .3893102. Assim, para cada aumento de unidade em matemática. A .3893102 O aumento de unidade na ciência é previsto, mantendo todas as outras variáveis constantes. Feminino - Para Cada aumento de unidade em mulheres. Esperamos uma diminuição da unidade de 2.009765 na pontuação científica, mantendo todas as outras variáveis constantes. Uma vez que a mulher é codificada 01 (0male, 1female), a interpretação é mais simples: para as mulheres, a pontuação científica prevista seria 2 pontos menor do que para os homens. Socst - O coeficiente para socst é .0498443. Então, para cada aumento de unidade no socst. Esperamos um aumento de aproximadamente 0,05 pontos na pontuação científica, mantendo todas as outras variáveis constantes. Ler - O coeficiente para leitura é .3352998. Então, para cada aumento de unidade em leitura. Esperamos um aumento de 34 pontos no índice de ciência. M. Std. Errar. - Estes são os erros padrão associados aos coeficientes. N. T - Estas são as estatísticas t utilizadas para testar se um determinado coeficiente é significativamente diferente de zero. O. Pgtt - Esta coluna mostra os p-valores de 2 colas utilizados no teste da hipótese nula de que o coeficiente (parâmetro) é 0. Usando um alfa de 0,05: O coeficiente para matemática é significativamente diferente de 0 porque seu valor p é 0.000, Que é menor que 0,05. O coeficiente para a fêmea (-2,01) não é estáticamente significativo no nível de 0,05, uma vez que o valor de p é maior do que 0,05. O coeficiente para socst (.0498443) não é estatisticamente significativamente diferente de 0 porque seu valor de p é definitivamente maior do que 0,05. O coeficiente de leitura (.3352998) é estatisticamente significativo porque o seu valor p de 0.000 é inferior a .05. O constante (contras) é significativamente diferente de 0 no nível alfa 0,05. P. 95 Conf. Intervalo - Estes são os 95 intervalos de confiança para os coeficientes. Os intervalos de confiança estão relacionados aos valores de p de modo que o coeficiente não seja estatisticamente significativo em alfa .05 se o intervalo de confiança 95 incluir zero. Esses intervalos de confiança podem ajudá-lo a colocar a estimativa do coeficiente em perspectiva ao verificar quanto o valor pode variar. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Annotated Output T-test O comando ttest executa t - teste para uma amostra, duas amostras e observações pareadas. O teste t de amostra única compara a média da amostra com um número determinado (o qual você fornece). O teste t de amostras independentes compara a diferença nos meios dos dois grupos com um valor determinado (geralmente 0). Em outras palavras, ele prova se a diferença nos meios é 0. O teste-teste dependente ou emparelhado compara a diferença nos meios das duas variáveis medidas no mesmo conjunto de assuntos para um dado número (geralmente 0), Tendo em conta o fato de que as pontuações não são independentes. Em nossos exemplos, usaremos o conjunto de dados hsb2. Teste simples de amostra t O teste t de amostra única testa a hipótese nula de que a média da população é igual ao número especificado especificado usando a opção de escrita. Para este exemplo, vamos comparar a média da variável escrever com um valor pré-selecionado de 50. Na prática, o valor contra o qual a média é comparada deve basear-se em considerações teóricas e pesquisas anteriores. Stata calcula a estatística t e seu p-valor sob o pressuposto de que a amostra vem de uma distribuição aproximadamente normal. Se o valor p associado à t-test for pequeno (0,05 é freqüentemente usado como o limite), há evidências de que a média é diferente do valor da hipótese. Se o p-valor associado à t-test não for pequeno (p gt 0.05), a hipótese nula não é rejeitada e você pode concluir que a média não é diferente do valor da hipótese. Neste exemplo, a estatística t é 4.1403 com 199 graus de liberdade. O correspondente valor de pata de duas colunas é .0001, que é inferior a 0,05. Concluímos que a média de escrita variável é diferente de 50. Estatísticas de resumo a. Variável - Esta é a variável para a qual o teste foi conduzido. B. Obs - O número de observações válidas (ou seja, não faltantes) usadas no cálculo da prova t. C. Média - Esta é a média da variável. D. Std. Errar. - Este é o desvio padrão estimado da média da amostra. Se desenharmos amostras repetidas de tamanho 200, esperamos que o desvio padrão da amostra seja próximo do erro padrão. O desvio padrão da distribuição da média da amostra é estimado como o desvio padrão da amostra dividido pela raiz quadrada do tamanho da amostra: 9.478586 (sqrt (200)) .6702372. E. Std. Dev. - Este é o desvio padrão da variável. F. Intervalo de Confiança 95 - Estes são o limite inferior e superior do intervalo de confiança para a média. Um intervalo de confiança para a média especifica uma gama de valores dentro dos quais o parâmetro de população desconhecida, neste caso a média, pode mentir. É dado por onde s é o desvio de amostra das observações e N é o número de observações válidas. O valor t na fórmula pode ser calculado ou encontrado em qualquer livro de estatística com os graus de liberdade sendo N-1 e o valor p é 1- alfa 2, onde alfa é o nível de confiança e, por padrão, é .95. Estatísticas de teste g. Significa - este é o meio que está sendo testado. Neste exemplo, é o meio de escrever. H. T - Esta é a estatística t de Student. É a proporção da diferença entre a média da amostra e o número dado para o erro padrão da média: (52.775 - 50) .6702372 4.1403. Uma vez que o erro padrão das medidas médias a variabilidade da amostra significa, quanto menor for o erro padrão da média, mais provável é que a nossa amostra seja próxima da verdadeira média da população. Isto é ilustrado pelas três figuras a seguir. Nos três casos, a diferença entre a população significa é a mesma. Mas com grande variabilidade de meios de amostra, segundo gráfico, duas populações se sobrepõem muito. Portanto, a diferença pode vir por acaso. Por outro lado, com pequena variabilidade, a diferença é mais clara como no terceiro gráfico. Quanto menor o erro padrão da média, maior a magnitude do valor t e, portanto, menor o valor p. Eu. Ho - Esta é a hipótese nula que está sendo testada. O teste t de amostra única avalia a hipótese nula de que a média da população é igual ao número dado. J. Graus de liberdade - Os graus de liberdade para a prova de amostra única são simplesmente o número de observações válidas menos 1. Perdemos um grau de liberdade porque estimamos a média da amostra. Utilizamos algumas das informações dos dados para estimar a média, portanto, não está disponível para uso para o teste e as contas de graus de liberdade para isso. K. Pr (T lt t), Pr (Tgt t) - Estes são os valores p de unilatação avaliando o nulo contra as alternativas que a média é inferior a 50 (teste à esquerda) e superior a 50 (teste correto). Essas probabilidades são computadas usando a distribuição t. Novamente, se o valor de p for menor do que o nível alfa pré-especificado (geralmente 0,05 ou 0,01), concluiremos que a média é significativamente maior ou menos do que o valor hipotético nulo. eu. Pr (Tgt t) - Este é o valor p de duas colas avaliando o nulo contra uma alternativa que a média não é igual a 50. É igual à probabilidade de observar um valor absoluto maior de t sob a hipótese nula. Se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01, aqui o primeiro), concluiremos que a média é estatisticamente significativamente diferente de zero. Por exemplo, o valor de p para gravação é menor do que 0,05. Então, concluímos que a média para escrever é diferente de 50. Teste t pareado Um teste t pareado (ou quotdependentquot) é usado quando as observações não são independentes uma da outra. No exemplo abaixo, os mesmos alunos fizeram o teste de escrita e de leitura. Portanto, você esperaria que houvesse um relacionamento entre as pontuações fornecidas por cada aluno. O teste de t pareado é responsável por isso. Para cada aluno, estamos essencialmente olhando as diferenças nos valores das duas variáveis e testando se a média dessas diferenças é igual a zero. Neste exemplo, a estatística t é 0.8673 com 199 graus de liberdade. O correspondente valor p de duas colunas é 0.3868, que é superior a 0,05. Concluímos que a diferença média de escrita e leitura não é diferente de 0. Estatísticas de resumo a. Variável - Esta é a lista de variáveis utilizadas no teste. B. Obs - O número de observações válidas (ou seja, não faltantes) usadas no cálculo da prova t. C. Média - Esta é a lista dos meios das variáveis. A última linha mostra a diferença simples entre os dois meios. D. Std. Errar. - Este é o desvio padrão estimado da média da amostra. Se desenharmos amostras repetidas de tamanho 200, esperamos que o desvio padrão da amostra seja próximo do erro padrão. O desvio padrão da distribuição da média da amostra é estimado como o desvio padrão da amostra dividido pela raiz quadrada do tamanho da amostra. Isso fornece uma medida da variabilidade da média da amostra. O Teorema do Limite Central nos diz que os meios da amostra são aproximadamente normalmente distribuídos quando o tamanho da amostra é 30 ou maior. E. Std. Dev. - Este é o desvio padrão da variável. A última linha exibe o desvio padrão para a diferença que não é igual à diferença de desvios padrão para cada grupo. F. Intervalo de Confiança 95 - Estes são o limite inferior e superior do intervalo de confiança para a média. Um intervalo de confiança para a média especifica uma gama de valores dentro dos quais o parâmetro de população desconhecida, neste caso a média, pode mentir. É dado por onde s é o desvio de amostra das observações e N é o número de observações válidas. O valor t na fórmula pode ser calculado ou encontrado em qualquer livro de estatística com os graus de liberdade sendo N-1 e o valor p é 1- alfa 2, onde alfa é o nível de confiança e, por padrão, é .95. Teste de estatística significa (diff) mean (write-read) gt 0.8673 h Ho: média (diff) 0 graus de liberdade 199 i Ha: média (diff) lt 0 k Ha: média (diff) 0 j Ha: média (diff) Gt 0 k Pr (T lt t) 0,8066 Pr (Tgt t) 0,3868 Pr (T gt t) 0,1934 g. Média (diff) média (var1 - var2) - A prova t para grupos dependentes forma uma única amostra aleatória da diferença combinada, que funciona como um teste de amostra aleatória simples. A interpretação de t-value e p-value é a mesma que no caso da amostra aleatória simples. H. T - Esta é a estatística t. É a proporção da média da diferença para o erro padrão da diferença (.545.6283822). Eu. Graus de liberdade - os graus de liberdade para as observações pareadas são simplesmente o número de observações menos 1. Isso ocorre porque o teste é conduzido na amostra de uma das diferenças em pares. J. Pr (Tgt t) - Este é o p-valor de duas colunas computado usando a distribuição t. É a probabilidade de observar um valor absoluto maior de t sob a hipótese nula. Se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01, aqui o primeiro), concluiremos que a diferença média entre escrever e ler é estatisticamente significativamente diferente de zero. Por exemplo, o valor de p para a diferença entre escrever e ler é superior a 0,05, portanto, concluímos que a diferença média não é estatisticamente significativamente diferente de 0. k. Pr (T lt t), Pr (Tgt t) - Estes são os valores de pata unilateral para avaliar as alternativas (valor médio de lt H0) e (valor médio de gt H0), respectivamente. Como Pr (Tgt t). Eles são computados usando a distribuição t. Novamente, se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01), concluiremos que a diferença média é estatisticamente significativamente maior ou menor que zero. Teste de grupo independente t Este teste t é projetado para comparar médias da mesma variável entre dois grupos. No nosso exemplo, comparamos o escore médio de escrita entre o grupo de estudantes do sexo feminino e o grupo de estudantes do sexo masculino. Idealmente, esses assuntos são selecionados aleatoriamente de uma população maior de assuntos. O teste pressupõe que as variações para as duas populações são as mesmas. A interpretação para p-value é a mesma que em outros tipos de testes t. Neste exemplo, a estatística t é -3.7341 com 198 graus de liberdade. O correspondente p-valor de duas colunas é 0.0002, que é inferior a 0.05. Concluímos que a diferença de meios na escrita entre machos e fêmeas é diferente de 0. Estatísticas resumidas a. Grupo - Esta coluna fornece categorias da variável independente, no nosso caso feminino. Essa variável é especificada pela instrução by (female). B. Obs - Este é o número de observações válidas (ou seja, não faltando) em cada grupo. C. Média - Esta é a média da variável dependente para cada nível da variável independente. Na última linha, a diferença entre os meios é dada. D. Std Err - Este é o erro padrão da média para cada nível da variável independente. E. Std Dev - Este é o desvio padrão da variável dependente para cada um dos níveis da variável independente. Na última linha, o desvio padrão para a diferença é dado. F. 95 Conf. Intervalo - Estes são os limites de confiança inferior e superior dos meios. Teste de estatística diff mean (masculino) - média (fêmea) gt -3.7341 h Ho: diff 0 graus de liberdade 198 i Ha: diff lt 0 k Ha: diff 0 j Ha: diff gt 0 k Pr (T lt t) 0.0001 Pr (T gt t) 0,0002 Pr (T gt t) 0,9999 g. Diferença média (masculino) - média (feminino) - O teste t compara os meios entre os dois grupos, sendo a hipótese nula que a diferença entre os meios é zero. H. T - Esta é a estatística t. É a razão da média da diferença para o erro padrão da diferença: (-4.8699471.304191). Eu. Graus de liberdade - os graus de liberdade para as observações pareadas são simplesmente o número de observações menos 2. Utilizamos um grau de liberdade para estimar a média de cada grupo e, por haver dois grupos, subtrai dois graus de liberdade. J. Pr (Tgt t) - Este é o p-valor de duas colunas computado usando a distribuição t. É a probabilidade de observar um valor absoluto maior de t sob a hipótese nula. Se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01, aqui o primeiro), concluiremos que a média é estatisticamente significativamente diferente de zero. Por exemplo, o valor de p para a diferença entre fêmeas e machos é inferior a 0,05, portanto, concluímos que a diferença nos meios é estatisticamente significativamente diferente de 0. k. Pr (T lt t), Pr (Tgtt) - Estes são os valores p de uma união para as hipóteses alternativas (diferença média lt 0) e (diferença média gt 0), respectivamente. Como Pr (Tgt t). Eles são computados usando a distribuição t. Como de costume, se o valor de p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01), concluiremos que a média é estatisticamente significativamente maior ou menor do que zero. Prova independente de T de amostra assumindo variâncias desiguais Vamos novamente comparar os meios da mesma variável entre dois grupos. No nosso exemplo, comparamos o escore médio de escrita entre o grupo de estudantes do sexo feminino e o grupo de estudantes do sexo masculino. Idealmente, esses assuntos são selecionados aleatoriamente de uma população maior de assuntos. Nós assumimos anteriormente que as variações para as duas populações são as mesmas. Aqui, vamos permitir variações desiguais em nossas amostras. A interpretação para p-value é a mesma que em outros tipos de testes t. Neste exemplo, a estatística t é -3.6564 com 169.707 graus de liberdade. O correspondente valor de pata de duas colunas é 0.0003, que é inferior a 0.05. Concluímos que a diferença de meios na escrita entre homens e mulheres é diferente de 0, permitindo diferenças em variâncias entre os grupos. Estatística de resumo a. Grupo - A lista de grupos cujos meios estão sendo comparados. B. Obs. - Este é o número de observações válidas (ou seja, não faltando) de cada grupo, bem como o combinado. C. Média - Esta é a média da variável de interesse para cada grupo que estamos comparando. Na terceira linha é dada a média combinada e na última linha é dada a diferença entre os meios. D. Std. Errar. - Este é o erro padrão da média. E. Std. Dev. - Este é o desvio padrão da variável dependente para cada um dos grupos. F. 95 Intervalo de confiança - Estes são os limites inferior e superior para o intervalo de confiança 95 da média para cada um dos grupos. Estatísticas de teste g. Diff - Este é o valor que estamos testando: a diferença nos meios do grupo masculino e do grupo feminino. H. T - Esta é a estatística t. É a estatística de teste que usaremos para avaliar nossa hipótese. É a relação entre a média e o erro padrão da diferença dos dois grupos: (-4.8699471.331894). Eu. Satterthwaites graus de liberdade - Satterthwaites é uma maneira alternativa de calcular os graus de liberdade que leva em consideração que as variâncias são assumidas como desiguais. É uma abordagem mais conservadora do que usar os tradicionais graus de liberdade. Estes são os graus de liberdade sob este cálculo. J. Pr (Tgt t) - Este é o p-valor de duas colunas computado usando a distribuição t. É a probabilidade de observar um valor absoluto maior de t sob a hipótese nula. Se o valor p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01, aqui o primeiro), concluiremos que a diferença nos meios é estatisticamente significativamente diferente de zero. Por exemplo, o valor de p para a diferença entre fêmeas e machos é inferior a 0,05, portanto, concluímos que a diferença nos meios é estatisticamente significantemente diferente de 0. l. Pr (T lt t), Pr (Tgt t) - Estes são os valores p de uma união para as hipóteses alternativas (diferença lt 0) e (diferença gt 0), respectivamente. Como Pr (Tgt t). Eles são computados usando a distribuição t. Como de costume, se o valor de p for menor do que o nível alfa pré-especificado (geralmente .05 ou .01), concluiremos que a média é estatisticamente significativamente maior ou menor do que zero. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.
No comments:
Post a Comment