Tuesday 15 August 2017

Normalidade Residual Teste Em Stata Forex


Residuais são as diferenças entre as respostas observadas e previstas. Os resíduos são estimativas do erro experimental obtido ao subtrair as respostas observadas das respostas previstas. A resposta prevista é calculada a partir do modelo escolhido, depois que todos os parâmetros do modelo desconhecido foram estimados a partir dos dados experimentais. Examinar os resíduos é uma parte fundamental de todos os modelos estatísticos, incluindo DOEs. Examinar cuidadosamente os resíduos pode nos dizer se nossos pressupostos são razoáveis ​​e nossa escolha de modelo é apropriada. Os resíduos são elementos de variação inexplicados por modelo ajustado. Os resíduos podem ser considerados elementos de variação inexplicados pelo modelo ajustado. Uma vez que esta é uma forma de erro, os mesmos pressupostos gerais se aplicam ao grupo de resíduos que normalmente usamos para erros em geral: um espera que eles sejam (grosso modo) normais e (aproximadamente) distribuídos independentemente com uma média de 0 e alguma constante Variância. Pressupostos para resíduos Estes são os pressupostos de ANOVA e análise de regressão clássica. Isso significa que um analista deve esperar que um modelo de regressão erre em prever uma resposta de forma aleatória, o modelo deve prever valores maiores do que reais e inferiores aos reais com a mesma probabilidade. Além disso, o nível do erro deve ser independente de quando a observação ocorreu no estudo, ou o tamanho da observação prevista, ou mesmo as configurações do fator envolvidas na realização da previsão. O padrão geral dos resíduos deve ser semelhante ao padrão em forma de sino observado ao traçar um histograma de dados normalmente distribuídos. Enfatizamos o uso de métodos gráficos para examinar resíduos. As partidas indicam um modelo inadequado As saídas dessas suposições geralmente significam que os resíduos possuem estrutura que não é contabilizada no modelo. Identificar essa estrutura e adicionar o (s) termo (s) representando-o ao modelo original leva a um modelo melhor. Testes de Normalidade Residual Gráficos para análise de resíduos Qualquer gráfico adequado para exibir a distribuição de um conjunto de dados é adequado para julgar a normalidade da distribuição de um grupo de resíduos. Os três tipos mais comuns são: histogramas. Parcelas de probabilidade normais. E parcelas de pontos. O histograma é um gráfico de freqüência obtido colocando os dados em células regularmente espaçadas e planejando cada freqüência celular em relação ao centro da célula. A Figura 2.2 ilustra uma distribuição aproximadamente normal de resíduos produzidos por um modelo para um processo de calibração. Nós superpôs uma função de densidade normal no histograma. Pequenos tamanhos de amostras Os tamanhos de amostra de resíduos geralmente são pequenos (lt50) porque as experiências têm combinações de tratamento limitadas, de modo que um histograma não é a melhor escolha para julgar a distribuição de resíduos. Um gráfico mais sensível é o gráfico de probabilidade normal. Gráfico de probabilidade normal As etapas na formação de um gráfico de probabilidade normal são: Classificar os resíduos em ordem crescente. Calcule a probabilidade cumulativa de cada residual usando a fórmula: com P indicando a probabilidade cumulativa de um ponto, i é a ordem do valor na lista e N é o número de entradas na lista. Trace os valores de p calculados em relação ao valor residual no papel de probabilidade normal. O gráfico de probabilidade normal deve produzir uma linha aproximadamente reta se os pontos provêm de uma distribuição normal. Gráfico de probabilidade normal de amplo com plano de pontos sobreposto. A Figura 2.3 abaixo ilustra o gráfico de probabilidade normal criado a partir do mesmo grupo de resíduos usado para a Figura 2.2. Este gráfico inclui a adição de um gráfico de pontos. O traçado de pontos é a coleta de pontos ao longo do eixo dos eixos esquerdo. Estes são os valores dos resíduos. O objetivo do gráfico de pontos é fornecer uma indicação da distribuição dos resíduos. As curvas em forma de S indicam distribuição bimodal As pequenas partidas da linha reta no gráfico de probabilidade normal são comuns, mas uma curva claramente em forma de S neste gráfico sugere uma distribuição bimodal de resíduos. As rupturas próximas ao meio deste gráfico também são indicações de anormalidades na distribuição residual. NOTA: Os resíduos estudados são resíduos convertidos em uma escala que representa aproximadamente o desvio padrão de um residual individual a partir do centro da distribuição residual. A técnica utilizada para converter resíduos para esta forma produz uma distribuição de valores de Student. Independência dos resíduos ao longo do tempo Executar o diagrama de seqüência Se a ordem das observações em uma tabela de dados representar a ordem de execução de cada combinação de tratamento, então uma parcela dos resíduos dessas observações versus a ordem do caso ou a ordem do tempo das observações testarão Qualquer dependência de tempo. Estes são referidos como parcelas de execução de sequência. Esquema de sequência de execução de amostra que exibe uma tendência de tempo. Exemplo de diagrama de sequência de execução que não exibe uma tendência de tempo. Interpretação das parcelas de sequência de execução da amostra. Os resíduos na Figura 2.4 sugerem uma tendência de tempo, enquanto que na Figura 2.5 não. A Figura 2.4 sugere que o sistema estava vagando lentamente para diminuir os valores à medida que a investigação continuava. Em casos extremos, uma deriva do equipamento produzirá modelos com capacidade muito fraca para explicar a variabilidade nos dados (baixo R 2). Se a investigação incluir pontos centrais, então planejá-los em ordem temporal pode produzir uma indicação mais clara de uma tendência de tempo se houver. Traçar as respostas brutas na seqüência de tempo também pode às vezes detectar mudanças de tendência em um processo que os gráficos residuais podem não detectar. Lote de Residuals versus Valores Preditivos Correspondentes Verifique o aumento de resíduos, à medida que o tamanho do valor ajustado aumenta Os resíduos de traçados versus o valor de uma resposta ajustada devem produzir uma distribuição de pontos dispersos aleatoriamente em torno de 0, independentemente do tamanho do valor ajustado. Muito comumente, no entanto, os valores residuais podem aumentar à medida que o tamanho do valor ajustado aumenta. Quando isso acontece, a nuvem residual torna-se em forma de funil com a extremidade maior em direção a valores ajustados maiores que é, os resíduos têm dispersão maior e maior à medida que o valor da resposta aumenta. Traçar os valores absolutos dos resíduos em vez dos valores assinados produzirão uma distribuição em forma de cunha, uma função de suavização é adicionada a cada gráfico que ajuda a mostrar a tendência. Resíduos de amostra versus valores ajustados gráfico mostrando aumento de resíduos Sínteses de amostra versus valores ajustados gráfico que não mostra aumento de resíduos Interpretação dos resíduos versus valores ajustados gráficos Uma distribuição residual, como a da Figura 2.6, mostrando uma tendência para valores absolutos mais elevados como o valor do valor O aumento da resposta sugere que se deve transformar a resposta, talvez modelando seu logaritmo ou raiz quadrada, etc. (transformações contrativas). Transformar uma resposta dessa maneira simplifica sua relação com uma variável de preditores e leva a modelos mais simples. As seções posteriores abordam a transformação com mais detalhes. A Figura 2.7 traça os resíduos após uma transformação na variável de resposta foi usada para reduzir a dispersão. Observe a diferença de escalas nos eixos verticais. Independência dos resíduos das configurações do fator Residuais de amostra versus esquema de configuração do fator Exemplos de amostra versus plano de ajuste do fator após a adição de um termo quadrático Interpretação dos gráficos de residual versus fatores de fator A Figura 2.8 mostra que o tamanho dos resíduos mudou como uma função de configurações de preditores. Um gráfico como este sugere que o modelo precisa de um termo de ordem superior nesse preditor ou que se deve transformar o preditor usando um logaritmo ou uma raiz quadrada, por exemplo. A Figura 2.9 mostra os resíduos para a mesma resposta após adicionar um termo quadrático. Observe o único ponto amplamente separado dos outros resíduos na Figura 2.9. Este ponto é um outlier. Ou seja, a sua posição está bem na gama de valores utilizados para este preditor na investigação, mas o resultado foi um tanto menor do que o modelo previsto. Um sinal de que a curvatura está presente é um traço parecido com uma imagem franzida ou um sorriso nesses gráficos. Parâmetros de amostra versus acréscimo de fatores que não possuem um ou mais termos de ordem superior. Interpretação de trama O exemplo dado nas Figuras 2.8 e 2.9 envolve, obviamente, cinco níveis do preditor. O experimento utilizou um design de superfície de resposta. Para o projeto fatorial simples que inclui pontos centrais, se o modelo de resposta considerado não tiver um ou mais termos de ordem superior, o gráfico de configurações de residual versus fator pode aparecer como na Figura 2.10. O gráfico indica a presença de curvatura. Enquanto o gráfico dá um sinal definido de que a curvatura está presente, a identificação da fonte dessa curvatura não é possível devido à estrutura do projeto. Os gráficos gerados usando os outros preditores nessa situação teriam aparências muito semelhantes. Discussão adicional sobre análise residual Nota. Os resíduos são um assunto importante discutido repetidamente neste Manual. Por exemplo, as parcelas residuais gráficas são discutidas no Capítulo 1 e o exame geral dos resíduos como parte da construção do modelo é discutido no Capítulo 4.NOTICE: O grupo de consultoria IDRE Statistical estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção E criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal dando um presente Notas da Classe Stata Analisando Dados 1.0 Comandos do Stata nesta unidade Análise de variância Cria variáveis ​​fofas durante a estimativa do modelo Previsões após estimativa do modelo Estimações e gráficos de densidade do núcleo Gráficos padronizados Gráfico normal Gráficos um gráfico de quantile Gráficos de um gráfico residual versus encadernado Testar hipóteses lineares após estimativa do modelo Tabelas cruzadas com teste de qui-quadrado Testar a igualdade de pares de dados correspondentes Teste de classificação assinado de pares equivalentes de Wilcoxon Teste de duas amostras de Mann-Whitney Analógico não paramétrico para o One-way anova 2.0 Demonstração e explicação 2.1 teste chi-quadrado de frequências Aqui está o comando tabular para uma tabela cruzada com uma opção para calcular o teste qui-quadrado de independência e medidas de associação. Aqui está o comando com uma opção para exibir as freqüências esperadas para que se possa verificar células com valores esperados muito pequenos. 2.2 testes t Este é o teste t de uma amostra, testando se a amostra de pontuação de escrita foi tirada de uma população com uma média de 50. Este é o teste t pareado, testando se a média de escrita é ou não igual à Significa ler. Este é o teste t independente de duas amostras com variâncias agrupadas (iguais). Este é o teste t independente de duas amostras com variâncias separadas (desiguais). 2.3 Análise de Variância O comando anova, sem surpresa, realiza análise de variância (ANOVA). Aqui está um exame de uma análise de variância unidirecional. Neste exemplo, o comando anova é usado para realizar uma análise de variância fatorial de duas vias (ANOVA). Aqui está um exemplo de uma análise de covariância (ANCOVA) usando o comando anova. 2.4 regressão regressão linear OLS de baunilha simples. No exemplo abaixo, executamos a regressão com erros padrão robustos. Isso é muito útil quando existe heterogeneidade de variância. Esta opção não afeta as estimativas dos coeficientes de regressão. O comando de previsão calcula previsões, resíduos, estatísticas de influência e similares após um comando de estimativa. O padrão mostrado aqui é calcular os escores previstos. Ao usar a opção resid, o comando predito calcula o residual. O comando da lista exibe os valores das variáveis ​​que geramos. A opção em 120 estipula que apenas as primeiras 20 observações sejam exibidas. O comando kdensity com a opção normal exibe um gráfico de densidade dos resíduos com uma distribuição normal sobreposta ao gráfico. Isto é particularmente útil na verificação de que os resíduos são normalmente distribuídos, o que é uma suposição muito importante para a regressão. O comando pnorm produz um gráfico de probabilidade normal e é outro método de teste se os resíduos da regressão são normalmente distribuídos. O comando qnorm produz um gráfico quantile normal. É ainda outro método para testar se os resíduos são normalmente distribuídos. A trama de qnorm é mais sensível aos desvios da normalidade nas caudas da distribuição, enquanto que o gráfico do pnorm é mais sensível aos desvios próximos à média da distribuição. Rvfplot é um comando de conveniência que gera um gráfico do residual versus os valores ajustados que é usado após regressão ou anova. Criando variáveis ​​dummy usando o comando xi O prefixo xi é usado para variáveis ​​categóricas do código falso, como prog. O prog preditor tem três níveis e requer duas variáveis ​​codificadas. O comando de teste é usado para testar o efeito coletivo das duas variáveis ​​codificadas falsas em outras palavras, ela testa o efeito principal do prog. O prefixo xi também pode ser usado para criar variáveis ​​dummy para prog e para a interação de prog e leitura. O primeiro comando de teste testa a interação geral eo segundo comando de teste testa o efeito principal do prog. 2.5 Regressão logística Para demonstrar os comandos de regressão logística, criaremos uma variável dicotômica chamada honcomp (composição de honras) para usar como nossa variável dependente. Isto é apenas para fins ilustrativos. O comando logístico padrão produz a saída em odds ratios, mas pode exibir os coeficientes se a opção coef for usada. Os mesmos resultados exatos podem ser obtidos usando o comando logit, que produz coeficientes como padrão, mas exibirá o odds ratio se a opção ou for usada. 2.6 Testes não paramétricos O signtest é o análogo não paramétrico da prova t de amostra única. O comando signrank calcula um teste Wilcoxon, o análogo não paramétrico do teste t pareado. O teste do ranksum é o análogo não paramétrico do teste t de duas amostras independente e é conhecido como o teste de Mann-Whitney ou Wilcoxon. O comando kwallis calcula um teste de Kruskal-Wallis, o análogo não-paramétrico da ANOVA unidirecional. 3.0 Para obter mais informações, o conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment