2018, Vol. 4(1): 43-60
Calcular e apresentar tamanhos do efeito em
trabalhos científicos (3): Guia para reportar os tamanhos do efeito para análises
de regressão e ANOVAs
Artigo Original
Helena Espírito-Santo ⓘ ✉, Fernanda Daniel ⓘ
https://doi.org/10.7342/ismt.rpics.2018.4.1.72
Recebido 15 fevereiro 2018
Aceite 28 fevereiro 2018
EXTENSÃO À FAMÍLIA r:
variabilidade explicada
INTERPRETAÇÃO
DA MAGNITUDE DOS TDE
No
primeiro número da Revista Portuguesa de Investigação Comportamental e
Social foi revista a importância de calcular, indicar e interpretar os tamanhos
do efeito para as diferenças de médias de dois grupos (família d dos tamanhos do efeito). Os tamanhos
do efeito são uma métrica comum que permite comparar os resultados das análises
estatísticas de diferentes estudos, informando sobre o impacto de um fator na
variável em estudo e sobre a associação entre variáveis.
Depois
de rever os tamanhos do efeito para as diferenças de médias entre dois grupos (Espirito-Santo & Daniel, 2015) e a maior parte da família r (Espirito-Santo & Daniel, 2017), faltava rever os tamanhos
do efeito para a análise da variância. A análise da variância pode ser
compreendida como uma extensão da família d a mais de dois grupos (ANOVA)
ou como uma subfamília r em que a proporção da variabilidade é imputável
a um ou mais fatores. Na subfamília r revista neste estudo, analisa-se a mudança na variável
dependente que decorre de uma ou mais variáveis independentes. Esta análise debruça-se
sobre os modelos lineares gerais, onde se incluem os modelos de regressão e a ANOVA.
Este
artigo fornece as fórmulas para calcular os tamanhos do efeito mais comuns, revendo
os conceitos básicos sobre as estatísticas e facultando exemplos ilustrativos computados
no Statistical Package for the Social Sciences (SPSS). As orientações para a interpretação dos tamanhos
do efeito são também apresentadas, assim como as cautelas no seu uso. Adicionalmente,
o artigo acompanha-se de uma folha de cálculo em Excel para facilitar e agilizar
os cálculos aos interessados.
Palavras chave:
ANOVA · Tamanho
do efeito · Valor p
Quando se descrevem estatisticamente os
resultados de um estudo importa apresentarem-se as medidas do tamanho do
efeito (TDE) junto com os testes de significância estatística (Berben, Sereika, &
Engberg, 2012; Cohen, 1992a; Cumming,
2012; Ferguson, 2009; Keppel &
Wickens, 2004; Kline, 2013; Lipsey
et al., 2012; Olejnik & Algina, 2000, 2003; Snyder & Lawson, 1993).
A indicação dos TDE é fortemente recomendada
pela Task Force on Statistical Inference da American Psychological
Association (Wilkinson & Task
Force on Statistical Inference, 1999), sendo também aconselhada
pela política editorial da Revista Portuguesa de Investigação
Comportamental e Social. A American Psychological Association (2010) recomenda inclusivamente que os TDE sejam
apresentados, mesmo que os valores de p sejam não-significativos.
Um TDE é um indicador padronizado que, ao
contrário do valor p, não depende do tamanho da amostra e possibilita a
comparação entre resultados de diversos estudos (Berben et al., 2012; Bezeau & Graves, 2001; Cumming, 2012;
Ferguson, 2009; Kline, 2013; Lipsey et al., 2012; Olejnik &
Algina, 2000; Snyder & Lawson, 1993), sendo útil para os estudos
de metanálise ou mera comparação dos resultados entre estudos (Berben et al., 2012; Cumming, 2012; Kline, 2013; Lipsey et al., 2012; Rosenthal,
1991).
Para cada teste estatístico existe um TDE
apropriado (Cohen, 1992a; P. D. Ellis, 2010), podendo os vários TDE ser
classificados em duas famílias. Uma delas, a família d, inclui os TDE
relativos à magnitude da diferença. A outra, a família r, diz respeito à
magnitude da relação entre variáveis ou da proporção da variância explicada (Hedges, 1981; Olejnik & Algina, 2003; Rosenthal,
1994).
No seguimento dos artigos anteriores para a Revista
Portuguesa de Investigação Comportamental e Social (Espirito-Santo
& Daniel, 2015, 2017), faltava completar os TDE no
que diz respeito à análise da variância. A análise de variância pode ser
entendida de duas formas: (1) como um alargamento da família d a mais de
dois grupos ou (2) como uma subfamília r em que a proporção da variabilidade
é atribuível a um efeito (Ialongo,
2016; Keppel
& Wickens, 2004).
Na subfamília r considera-se que a
mudança na variável dependente (Y) é determinada por ou uma ou mais variáveis
independentes (X). Assim, a relação entre essas variáveis, de forma
simplificada, é uma função linear Y = bX
+ e que se adequa aos modelos lineares gerais, em
que se incluem a análise de variância (ANOVA), a regressão linear e outros
modelos estatísticos que decorrem dessa função linear (Ialongo,
2016).
Os TDEs para esta família, originalmente,
foram propostos por Fisher (1925) que considerava que o nível
de significância na análise de variância deveria ser acompanhado pelo rácio de
correlação ou pelo eta-quadrado. Desde então, têm sido propostas várias medidas
da magnitude do efeito. Neste artigo de revisão vamos dar conta das mais
comuns, fornecendo as respetivas equações e exemplos ilustrativos.
EXTENSÃO À FAMÍLIA d: ANOVA
Análise da variância de um fator
Conceitos básicos
A análise
de variância (ANOVA) de um fator ou de uma via consiste
na comparação do efeito fixo[1]
do fator sobre uma variável dependente Y.
O fator
é a variável independente (X) que pode assumir vários níveis.
Os níveis
de um fator correspondem a diferentes grupos ou a diferentes categorias. Por
exemplo, o fator pode ser a variável idade categorizada em três níveis
que equivalem a três grupos etários (14-24 anos; 25-64 anos; ≥ 65 anos).
Tome-se
como exemplo a resposta à pergunta: qual o efeito da idade (fator) sobre
o quociente de inteligência medido pelo teste das Matrizes Progressivas de
Raven (MP-Raven) (variável dependente) no projeto Estudos Normativos
de Instrumentos Neuropsicológicos a decorrer no Instituto Superior Miguel
Torga (N = 752 pessoas)?
Neste
exemplo o fator idade apresenta três níveis (e.g., 14-24 anos; 25-64 anos; ≥ 65
anos) e a variável dependente é representada pelas pontuações no MP-Raven
(variável contínua).
Como
se pode analisar o efeito de um fator sobre uma variável dependente? Uma forma
seria pegar em cada dois pares de comparações como análises diferentes para
dois grupos (A. Field, Miles, & Field, 2012; Keppel &
Wickens, 2004).
Retome-se
o exemplo: comparava-se (1) o grupo dos 14-24 anos com o dos 25-64 anos, (2) o
grupo dos 14-24 anos com o dos ≥ 65 anos e (3) o grupo dos 25-64 anos com o dos
≥ 65 anos.
O
problema em proceder assim é que se está a usar o mesmo conjunto de dados uma e
outra vez e cada conjunto aparece em duas comparações. Dessa forma, o Erro do Tipo
I[2]
aumenta (A. Field et al., 2012; Stevens,
2007). Na verdade, as
comparações não são independentes (ainda assim, ver as secções mais à
frente sobre os contrastes teóricos). Outra forma é considerar todas as
categorias numa única avaliação e efetuar uma ANOVA com um fator.
Designa-se
por ANOVA (análise de variância) porque compara a
variabilidade de valores ou pontuações (variância) entre os
grupos com a variabilidade em cada grupo.
A
variância entre grupos é a soma dos quadrados das diferenças entre as
médias dos grupos e a média global e é aqui designada por SQentre
grupos ou SQfator. A média global é a média de todos os dados considerando a amostra como um todo.
A variabilidade
em cada grupo é designada por termo de erro (Keppel & Wickens, 2004; Pallant, 2011, p. 242), variância de erro (Cohen, 1973) ou erro normal do acaso (Ialongo, 2016). Assim, a variabilidade em cada grupo é a
soma dos quadrados das diferenças entre os dados e as médias de cada grupo e é
aqui representada por SQnos grupos ou SQerro.
Parte-se
da premissa que a variabilidade de valores entre os grupos se deve à
variável independente e que a variabilidade em cada grupo se deve ao
acaso (Pallant, 2011, p. 242).
No exemplo, a variabilidade das pontuações no MP-Raven entre
as três faixas etárias dever-se-á à própria idade (14-24 anos; 25-64 anos; ≥ 65
anos) e a variabilidade das pontuações em cada faixa etária dever-se-á ao
acaso.
A estatística
F da ANOVA corresponde à divisão da variância entre grupos
pela variância nos grupos (Cohen, 1973; 1992a; Ialongo, 2016; Keppel & Wickens, 2004; Pallant, 2011):
Variabilidade
entre diferentes grupos de sujeitos
Variabilidade entre sujeitos dos mesmos grupos
Assim,
um F alto significa que há mais variabilidade entre os grupos do que
variabilidade em cada grupo (Pallant, 2011).
Continuando com o exemplo (Tabela 1), o F
de 106,12 resultou da divisão entre o quadrado médio entre grupos (SQentre
grupos / glentre grupos = 9332,48) pelo quadrado médio
nos grupos (SQnos grupos / glnos grupos =
87,94).
Nota. Comandos no SPSS: Analisar > Comparar
Médias > Análise de Variância Unidirecional > Lista de
Variáveis Dependentes (MP-Raven) e Fator (Idade) > Opções > Estatísticas
Descritivas.
|
TABELA 1 Exemplo
de ANOVA das Pontuações do Teste das Matrizes Progressivas de Raven Entre os
Grupos Definidos Pela Idade Calculado Através do Programa SPSS-25 |
|
||||
Grupos |
n |
M |
DP |
IC 95% |
||
14-24 anos |
231 |
47,73 |
7,07 |
46,82 |
||
25-64 anos |
420 |
45,04 |
9,72 |
44,10 |
||
≥ 65 anos |
101 |
31,81 |
12,15 |
29,41 |
||
Total |
752 |
44,09 |
10,61 |
43,33 |
||
Componente da
variância |
SQ |
gl |
QM |
F |
||
Entre grupos |
18664,96 |
2 |
9332,48 |
106,12 |
||
Nos grupos |
65867,25 |
749 |
87,94 |
|
||
Total |
84532,21 |
751 |
|
|
||
Nota. SQ = soma dos quadrados; gl =
graus de liberdade; QM = quadrado médio; F = estatística F da ANOVA;
p = nível de significância. |
O valor do p,
que acompanha a estatística F abrangente ou global (omnibus), indica se se pode rejeitar ou não a hipótese nula de que as
médias são semelhantes para todos os grupos (Pallant, 2011).
Assim, na Tabela 1 para o exemplo, pode afirmar-se que houve diferenças
estatisticamente significativas nas pontuações do MP-Raven entre os grupos
etários (F = 106,12; p < 0,011).
Para saber que
grupos diferem entre si há que conduzir testes pós ANOVA — testes post-hoc
— ou efetuar somente algumas comparações específicas — contrastes
teóricos. Os testes post-hoc protegem a probabilidade do Erro do
tipo I, mas dificultam a descoberta de diferenças significativas. No entanto, os
contrastes teóricos só se devem usar quando há razões teóricas claras (Pallant, 2011) (ver em secção mais à frente sobre a ANOVA).
No exemplo, uma vez que
o teste de homogeneidade de variâncias de Levene foi significativo (W =
25,14; p < 0,001) e os grupos tinham dimensão diferentes (Tabela 1), recorreu-se aos post-hoc de Games-Howell que
revelaram diferenças estatisticamente significativas (p < 0,001) em
todos os pares de comparações. Assim, a média de pontuações no grupo dos 14 aos
24 anos foi estatisticamente significativamente superior quando comparada com
grupo dos 25 aos 64 anos e com a do grupo com idade superior aos 65 anos. A
média do grupo dos 25 aos 64 anos foi também estatisticamente
significativamente superior quando comparada com grupo com idade acima dos 65 anos.
Calculando o tamanho
do efeito para a ANOVA
Considerando a
família d e ampliando-a à diferença de mais de dois grupos, deve
corrigir-se a diferença global (diferença de cada pontuação em relação à média
de todas as pontuações) pelo número de grupos. Ou seja, tem-se em conta o
efeito global (omnibus) da ANOVA a um fator de efeito fixo (Ialongo, 2016).
Mais, a
estatística F é sensível ao tamanho
da amostra e com amostras grandes tende a ser maior e o valor p tende a ser menor. Assim, é útil
apresentar uma medida de TDE única que sumarize o efeito da comparação global
ou efeito omnibus (Keppel & Wickens, 2004).
Para esse
propósito, pode calcular-se o TDE Psi (Y) ou f* de Steiger e Fouladi ou efeito padronizado quadrático médio [root
mean square standardized effect (RMSSE)] (Steiger,
2004; Steiger & Fouladi, 2016). O índice RMSSE
representa a diferença coletiva de todo o modelo padronizado pela raiz
quadrática média:
RMSSE = Raiz quadrada [(Somatório (ȳ – MG)2 / (k – 1)
QMerro] Equação 1
Nesta equação, ȳ é a média de cada grupo; MG a média global; k o número de grupos e QMerro
o quadrado médio de erro que corresponde à variância de erro dividida pelo N
menos o número de grupos (QMerro = SQerro /
(N – k).[3]
Continuando com o exemplo, e tendo em conta que a MG
foi de 44,09, o cálculo fornece um TDE de 0,97 que corresponde a um TDE grande.
O cálculo pode ser observado em detalhe a seguir:
QMerro = 65867,25
/ (752 – 3) = 87,94
RMSSE = Raiz quadrada [((47,73
– 44,09)2 + (45,04
– 44,09)2 + (31,81
– 44,09)2) / (3 – 1) x 87,94]
Pelo facto de o
índice RMSSE ser afetado por dados assimétricos, longas caudas e/ou
valores extremos, Zhang e Algina (2011) propõem uma formulação mais robusta com variações para a ANOVA de um fator e ANOVA de um fator com ns
iguais. Os interessados podem consultar as fórmulas 1, 2, e 9, pp. 79-80 de Zhang
e Algina (2011) ou
rever a estimativa f de Cohen (1992b, p. 274-275).
EXTENSÃO
À FAMÍLIA r: variabilidade explicada
Como enunciámos na introdução, na subfamília r
considera-se que a variabilidade na variável dependente (Y) é uma função linear
de uma ou mais variáveis independentes (X), representada por:
Y = bX
+ e Equação
2
Nos modelos lineares gerais, X é nomeada por
planeamento (design) e pode ser uma ou um conjunto de variáveis
independentes, b é a ponderação, e o erro normal aleatório e Y
varia com as mudanças em X (Bewick, Cheek, & Ball, 2003;
Ialongo, 2016).
Na subfamília r vamos considerar a regressão
e a ANOVA de novo, pois este teste pode ser considerado como um caso especial
de regressão (A.
Field et al., 2012).
Regressão linear
Conceitos básicos
Na regressão linear pretende saber-se se Y —
aqui designada por variável de desfecho — varia segundo a
forma como X muda (seja uma variável ou um conjunto delas), usando a associação
entre as variáveis para predizer como é que isso acontece (Bewick
et al., 2003; Ialongo, 2016; Pallant, 2011)[4]. Neste modelo estatístico, as variáveis do
planeamento são contínuas, pelo que a predição é feita ponto-a-ponto entre X e
Y (Ialongo, 2016).
No exemplo anterior, quer saber-se o efeito da idade (preditor
ou variável X) sobre as pontuações do teste MP-Raven (variável desfecho ou Y). Ou
seja, pretende estimar-se a relação linear subjacente por forma a que se
consiga predizer a pontuação do MP-Raven para uma determinada idade. A análise
de regressão efetuada através do SPSS-25 forneceu os dados para se construir a
equação linear (Tabela 2):
MPRaven = (-0,27) x
Idade + 55,05
Assim, para cada ano que se avança na idade, prevê-se que as
pontuações do MP-Raven desçam 0,27 pontos (a partir de um ponto médio de
55,05). O contributo da idade para a predição das pontuações no MP-Raven foi
estatisticamente significativo (p <
0,001).
Nota. Comandos no SPSS: Analisar > Regressão
> Linear > Dependente (MP-Raven); Independente (Idade).
|
TABELA 2 Exemplo de Regressão Linear Calculando a
Capacidade da Idade Predizer as Pontuações do Teste das Matrizes Progressivas
de Raven Através do Programa SPSS-25 |
|
||||||
|
Resumo do modelo |
|
||||||
|
Modelo |
R |
R2 |
R2 |
|
EP |
|
|
|
1 |
0,49 |
0,244 |
0,243 |
|
9,231 |
|
|
|
ANOVA |
|
||||||
|
Modelo |
SQ gl |
QM |
Z |
|
p |
|
|
|
1 Regressão |
20622,32 1 |
20622,32 |
242,01 |
|
< 0,001 |
|
|
|
Resíduo |
63909,89 750 |
85,21 |
|
|
|
|
|
|
Total |
84532,21 751 |
|
|
|
|
|
|
|
Coeficientes |
|
||||||
|
Modelo |
Não-padronizados |
Padronizados |
t |
p |
|
||
|
|
B |
Erro |
Beta |
|
|||
|
1
(Constante) |
55,05 |
0,781 |
|
70,49 |
< 0,001 |
|
|
|
Idade |
-0,271 |
0,017 |
-0,494 |
-15,56 |
< 0,001 |
|
|
|
Nota. R = correlação
de Pearson; R2 = coeficiente de determinação; R2=
R2 ajustado; EP = erro padrão da estimativa; SQ = Soma dos quadrados; QM = Quadrado
médio; Z = estatística F; B da constante = intercepto e
da equação de regressão ou constante de Euler; B da idade = declive b
da equação de regressão; t = valores t para os
testes de H0: intercepto = 0 e H0: declive = 0; p = nível de
significância. |
|
Calculando o tamanho
do efeito para a regressão linear
Regressão
linear simples. O TDE para a regressão linear corresponde ao coeficiente de
determinação ou rácio de correlação,
dado pela seguinte equação (Ialongo,
2016; Keppel & Wickens, 2004; Keren & Lewis, 1969;
Richardson, 2011):
R2
= [(Somatório (xi – Mx) (yi – My)]2 / Somatório (xi – Mx) 2 Somatório (yi – My)2 = SQregr / SQtotal Equação 3
Em que xi,
yi são os valores das variáveis X e Y; My e My
são as médias do grupo/amostra e S
é o somatório. Ou, em que SQregr é a soma dos quadrados relativa à
regressão e SQtotalé a soma dos quadrados total.
O R-quadrado representa então o
ajustamento entre a variável dependente e a variáveis independente preditora
que designa o efeito (Keren &
Lewis, 1969). Dito ainda de outro modo,
o R-quadrado é a proporção da
variância de Y que pode ser predita ou explicada com base na sua relação linear
com X (Hays, 1963).
Quanto mais
forte for o coeficiente de determinação, mais forte é a predição ou a força da
associação entre a variável dependente Y e os múltiplos preditores Xi
em termos lineares (Ferguson, 2009). O valor teórico mínimo de R-quadrado é de 0% e o máximo de 100%, ainda que o máximo não seja
expectável nas ciências sociais[5].
No exemplo, para a contribuição da idade para as pontuações do
MP-Raven o TDE foi de 0,244; ou seja, a idade contribuiu em 24,4% para a
variância das pontuações do MP-Raven. Este valor pode ser obtido facilmente no output do SPSS (ver Tabela 2) ou calculado
através da Equação 3:
R2 = 20622,32 / 84532,21 = 0,244
Uma vez que o R-quadrado tende a ser sobrestimado
em amostras pequenas (Pallant, 2011; Tabachnick & Fidell, 2007) e aumenta quando se adiciona uma nova variável ao modelo
(mesmo que não se associe à variável-desfecho), há que corrigir o efeito.
Regressões
lineares múltiplas. Assim, nestas regressões em que pode haver mais do que uma
variável preditora (X1, X2, etc.) pode usar-se o R-quadrado ajustado (Tabela
2) (P. D. Ellis, 2010; Ialongo, 2016; Pallant, 2011; Vacha-Haase & Thompson, 2004)[6].
Nesta correção, é
feito o ajustamento para o número de variáveis preditoras e de casos (Ialongo,
2016), sendo apropriado para
amostras pequenas (Tabachnick & Fidell, 2007). Deste modo, o R-quadrado
ajustado aumenta somente se o novo preditor melhorar o modelo mais do que seria
esperado pelo acaso. A equação é a que se segue (Wherry,
1931):
R2 = [N – 1) R2 – (p – 1)] / (N – p) Equação 4
Na equação, R2
é o coeficiente de determinação, N o tamanho da amostra e p o
número de preditores (VI).
O R-quadrado ajustado pode também obter-se
na análise de regressão de linear realizada através do SPSS (ver a Tabela 2 do exemplo). No entanto, como Ialongo (2016) faz notar, o ajustamento do R-quadrado não é uma medida do TDE, é, ao invés, uma medida da
adequação do conjunto de preditores para o modelo.
Outras fórmulas
do R-quadrado ajustado e sua discussão podem ser consultadas em Herzberg
(1969), Snyder e Lawson (1993) e Stevens (2007).
Existem ainda
outras fórmulas de correção para amostras com menos de 60 sujeitos e vários
preditores (para uma revisão ver Tabachnick
& Fidell, 2007).
Note-se que o R-quadrado pode ser negativo e, ainda
que matematicamente possível, indica que o modelo tem problemas sérios (Vacha-Haase & Thompson, 2004).
Em alternativa
ao R-quadrado ajustado para
regressões lineares múltiplas com mais do que uma variável preditora (X1,
X2), pode calcular-se o valor f2 de Cohen[7]
que indica o efeito incrementador de se adicionar X2 ao modelo (Cohen,
1992b). A fórmula é a seguinte (Ialongo,
2016):
f2 = R2 /
(1 – R2) Equação 5
De novo, na
equação R2 é o coeficiente de determinação.
No exemplo anterior, quer-se agora saber o efeito da idade e
do grau de escolaridade (preditoras) sobre as pontuações do teste MP-Raven (Y)
(Tabela 3; Coluna
Correlações Parte). Comparando o contributo de cada variável preditora (coluna
dos Beta), o coeficiente maior foi o
referente à escolaridade (Beta =
0,49; p < 0,001), sendo o contributo da idade menor (Beta = -0,13; p < 0,01), com
ambos os contributos a serem estatisticamente significativos.
Neste modelo, a idade contribuiu em 0,79% (0,0892 x
100) e a escolaridade em 11,2% (0,3342 x 100) para a variância das
pontuações do MP-Raven com um f2 de 0,54 que corresponde a um
alto valor preditivo.
Nota. Comandos no SPSS: Analisar > Regressão
> Linear > Dependente (MP-Raven); Independente (Idade; Escolaridade).
|
TABELA 3 Exemplo de Regressão Linear Calculando a Capacidade da Idade e
Escolaridade Predizerem as Pontuações do Teste das Matrizes Progressivas de
Raven Através do Programa SPSS-25 |
|
|||||
|
Resumo do modelo |
|
|||||
|
Modelo |
|
R |
R2 |
R2 |
EP |
|
|
1 |
|
0,59 |
0,35 |
0,35 |
8,56 |
|
|
Coeficientes |
|
|||||
|
Modelo |
Não-padronizados |
Padronizados |
t |
p |
|
|
|
|
B |
Erro |
Beta |
|
||
|
1
(Constante) |
27,69 |
2,58 |
|
10,73 |
< 0,001 |
|
|
Idade |
-0,07 |
0,02 |
-0,130 |
-2,96 |
0,003 |
|
|
Escolaridade |
3,39 |
0,31 |
0,489 |
11,11 |
< 0,001 |
|
|
Correlações |
|
|||||
|
|
Ordem zero |
Parciais |
Parte |
|
||
|
1
(Constante) |
|
|
|
|
||
|
Idade |
-0,49 |
-0,11 |
-0,09 |
|
||
|
Escolaridade |
0,59 |
0,38 |
0,33 |
|
||
|
Nota. R = correlação de Pearson; R2
= coeficiente de determinação; R2 = R2 ajustado; EP = erro
padrão da estimativa; B da constante = intercepto e da equação
de regressão ou constante de Euler; B da idade = declive b da
equação de regressão; t = valores t para os testes de
H0: intercepto = 0 e H0: declive = 0; p = nível de significância;
Parte = coeficiente de correlação semiparcial. Por economia de espaço, não se
apresenta o modelo da ANOVA. |
|
Uso da
regressão para comparar médias. Pode recorrer-se à regressão linear para comparar as
médias, e, nesse sentido, um TDE útil pode ser o expresso na equação seguinte (Fritz, Morris, & Richler, 2012):
r = Raiz quadrada [t2
/ (t2 + gl)] Equação
6
Nesta equação, t é estatística t de Student e gl os
graus de liberdade (número de grupos – 1). Esta equação é também designada por
correlação ponto bisserial (Fritz et al., 2012).
Retomemos o exemplo e use-se a variável postiça (dummy)[8] “sexo” na regressão linear
do teste MP-Raven (Tabela 4).
Nota. Comandos no SPSS: Analisar > Regressão
> Linear > Dependente (MP-Raven); Independente (Sexo).
|
TABELA 4 Exemplo de Regressão Linear Calculando a
Capacidade do Sexo Predizer as Pontuações do Teste das Matrizes Progressivas
de Raven Através do Programa SPSS-25 |
|
||||||
|
Resumo do modelo |
|
||||||
|
Modelo |
R |
R2 |
R2 |
|
EP |
|
|
|
1 |
0,10 |
0,01 |
0,009 |
|
10,563 |
|
|
|
ANOVA |
|
||||||
|
Modelo |
SQ gl |
QM |
F |
|
p |
|
|
|
1 Regressão |
852,70 |
1 |
852,703 |
7,64 |
0,006 |
|
|
|
Resíduo |
83679,50 |
750 |
111,57 |
111,57 |
|
|
|
|
Total |
84532,21 |
751 |
|
|
|
|
|
|
Coeficientes |
|
||||||
|
Modelo |
Não-padronizados |
Padronizados |
t |
p |
|
||
|
|
B |
Erro |
Beta |
|
|||
|
1
(Constante) |
47,41 |
1,26 |
|
37,597 |
< 0,001 |
|
|
|
Sexo |
-2,141 |
0,774 |
-0,100 |
-2,765 |
0,006 |
|
|
|
Nota. R = correlação
de Pearson; R2 = coeficiente de determinação; R2=
R2 ajustado; EP = erro padrão da estimativa; SQ = Soma dos quadrados; QM = Quadrado
médio; Z = estatística F; B da constante = intercepto e
da equação de regressão ou constante de Euler; B da idade = declive b
da equação de regressão; t = valores t para os
testes de H0: intercepto = 0 e H0: declive = 0; p = nível de
significância. |
|
Compare-se com os obtidos através da análise do teste t de Student: t (750) = -2,765 e p
= 0,006 e note-se que F = 7,64 na regressão é o quadrado do valor de t.
O R-quadrado é igual a t2 / t2 + gl
(7,64 / 7,64 + 750).
De acordo com a Equação 6, r é igual a 0,100, o que significa que o impacto do sexo sobre as
pontuações das MP-Raven é pequeno[9].
Um caso
especial: regressão logística. A regressão logística é uma forma especial de
regressão a que se recorre quando a variável dependente é dicotómica (Hair et al., 2009; Pallant,
2011)[10].
Devido à sua relativa simplicidade e propriedades tem-se tornado popular (Pampel, 2000).
O TDE associado
é o coeficiente de logit[11]
ou a razão de chances (odds ratio) (P. D. Ellis, 2010).
Ora os logits, não
são facilmente interpretáveis, pelo que é usual transformar os logits em
métricas mais intuitivas, como as chances (odds
ou razão de probabilidades) e a razão de chances (odds ratio ou rácio das razões de probabilidade) (P. D. Ellis, 2010; Pampel, 2000).
Continuando com o exemplo, depois de recategorizar a variável
MP-Raven (Y) em “capacidades intelectuais abaixo da mediana” (valor 0) e
“capacidades intelectuais acima da mediana” (valor 1), computou-se a regressão
logística para verificar se Ycategorizada
variava em função do sexo (X). O logit
foi de 0,503 – 0,375 * X e o rácio de chances de 0,689 (indicando que as mulheres
tenderam menos a ter capacidades intelectuais acima da mediana do que os homens).
Transformando para métricas interpretáveis, 53,3% dos homens e
44,0% das mulheres apresentaram capacidades intelectuais acima da mediana. O
que significa que as chances de os
homens apresentarem capacidades intelectuais acima da mediana foram de 1,14 (0,533
/ 0,467), o que indica que cerca de 11 homens estão acima da mediana para cada
10 que estão abaixo. As chances para
as mulheres apresentarem capacidades intelectuais acima da mediana foram de 0,79
(0,440 / 0,560), o que indica que cerca de 8 mulheres estão acima da mediana
para cada 10 que estão abaixo. A razão de
chances dos homens para as mulheres foi de 1,44 (1,14 / 0,79), o que
significa as chances de ter
capacidades intelectuais acima da mediana são cerca de 1,44 vezes maiores para
os homens do que para as mulheres (chances baixas).
Nota. Comandos no SPSS: Analisar > Regressão
Logística Binária > Dependente (MP-Raven recategorizada); Covariáveis
(Sexo).
ANOVA de novo: 1 fator
ou n-fatores
Conceitos
básicos
À semelhança da
regressão linear, na ANOVA também se intenta perceber se Y varia quando
X muda, mas agora X é uma variável discreta ou nominal variável (fator) e as
suas mudanças são discretas (i.e., muda de uma categoria ou nível para
outra/o).
Neste modelo
estatístico, a predição é feita ponto-a-nível, sendo o cálculo um pouco
diferente, mas conceptualmente semelhante (Ialongo, 2016). O efeito pode ser entendido como uma mudança no agrupamento
de Y em relação ao valor de X (Ialongo, 2016).
Seguindo o mesmo
exemplo, pretende descrever-se quanto variam as pontuações no teste MP-Raven
(Y) com as mudanças nas faixas etárias (X).
ANOVA com um fator. Já vimos
anteriormente, na ANOVA de uma via compara-se a variabilidade de pontuações entre grupos (soma dos quadrados das
diferenças entre as médias dos grupos e a média global = SQfator) com a variabilidade em cada grupo (soma dos quadrados das diferenças entre cada
observação e a média do seu grupo = SQerro).
A variável
independente (X) ou fator contém um conjunto de níveis diferentes (grupos ou
categorias) (e.g., (Pallant, 2011).
ANOVA com dois
ou mais fatores entre grupos (independente). Nesta ANOVA significa que
existem duas ou mais variáveis independentes e entre grupos significa que os sujeitos em cada grupo são diferentes.
Este tipo de
ANOVA permite ainda testar o efeito principal para cada variável
independente e verificar ainda se existe um efeito de interação. Se o efeito de uma variável
independente sobre a variável dependente decorrer do nível de uma segunda variável
independente, então houve efeito de interação (e.g., Pallant, 2011).
Com a introdução
de mais uma variável independente, recorremos à Figura 1 para resumir os tipos
de variância.
|
|
|
SQerro Variabilidade não-explicada |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
SQTotal Variabilidade
total |
|
|
|
|
|
SQerroA Variabilidade explicada
pela VI A |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
SQerro Variabilidade explicada |
|
|
SQerroB Variabilidade explicada
pela VI B |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
SQA
x B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
FIGURA 1. Síntese gráfica dos tipos
de variabilidade envolvidos na ANOVA com dois ou mais fatores (VI = variáveis
independentes). Nota. SQ = Soma dos quadrados ou variância.
Mantendo o estudo do efeito da idade, verificámos que os mais
velhos tiveram piores pontuações do que os dois grupos mais novos no MP-Raven.
Agora, podemos questionar: isso continua a acontecer para os dois sexos?
Assim, consideraram-se a idade e o sexo como fatores fixos e
as pontuações do MP-Raven como variável dependente. Os resultados são
apresentados na Tabela 5.
Primeiramente, verificou-se que não houve efeito de interação (p = 0,164) — se houvesse, seria mais
difícil interpretar os efeitos principais —, significando que não ocorreram
diferenças significativas no efeito da idade sobre as pontuações do MP-Raven
para o sexo feminino e masculino. Depois, o efeito principal da idade foi
significativo (p < 0,001), assim
como foi significativo o efeito do sexo (p
= 0,045).
Nota. Comandos no SPSS: Analisar > Modelo
Linear Geral > Univariado > Dependente (MP-Raven); Fatores
Fixos (Idade; Sexo).
|
TABELA 5 Exemplo de ANOVA das Pontuações do
Teste das Matrizes Progressivas de Raven Entre os Grupos Definidos Pela Idade
e pela Escolaridade Calculado Através do Programa SPSS-25 |
|
||||||
|
Estatística descritiva |
|
||||||
|
Grupos |
|
|
n |
M |
DP |
|
|
|
Idade |
Sexo |
|
|
||||
|
14-24 anos |
Masculino |
88 |
47,52 |
7,87 |
|
|
|
|
Feminino |
143 |
47,86 |
6,55 |
|
|
||
|
25-64 anos |
Masculino |
215 |
46,22 |
9,23 |
|
|
|
|
Feminino |
205 |
43,79 |
10,09 |
|
|
||
|
≥ 65 anos |
Masculino |
35 |
33,71 |
10,83 |
|
|
|
|
Feminino |
66 |
30,80 |
12,77 |
|
|
||
|
Testes de efeitos entre sujeitos |
|
||||||
|
Origem |
SQ |
gl |
QM |
F |
p |
hp 2 |
|
|
MC |
19486,20a |
5 |
3897,24 |
44,697 |
< 0,001 |
0,23 |
|
|
Intercepto |
872195,18 |
1 |
872195,18 |
10003,04 |
< 0,001 |
0.93 |
|
|
Idade |
15974,80 |
2 |
7987,40 |
91,606 |
< 0,001 |
0,20 |
|
|
Sexo |
350,08 |
1 |
350,08 |
4,015 |
0,045 |
0,005 |
|
|
Idade x Sexo |
315,85 |
2 |
157,93 |
1,811 |
0,164 |
0,005 |
|
|
Erro |
65046,00 |
|
|
|
|
|
|
|
Total |
1546218,00 |
|
|
|
|
|
|
|
Total corrigido |
84532,21 |
|
|
|
|
|
|
|
Nota. MC =
Modelo corrigido; SQ = soma dos quadrados; gl = graus de liberdade; QM
= quadrado médio; F = estatística F da ANOVA; p = nível
de significância; hp2 = eta-quadrado parcial. aR2 = 0,231 (R2-ajustado =
0,225). |
|
Outros tipos
de ANOVA. Pode ser confuso entender as ANOVAS pois há vários tipos (Tabela
6), mas todas elas têm dois aspetos em comum: (1) envolvem um determinado
número de variáveis independentes ou fatores, (2) as variáveis independentes
podem ser medidas usando participantes diferentes ou usando os mesmos
participantes.
Se se usarem
sujeitos diferentes, a ANOVA diz-se independente
(todas as ANOVAS das secções anteriores), se se usarem os mesmos sujeitos,
designa-se por ANOVA de medidas repetidas.
Quando há duas
ou mais variáveis independentes, é possível que algumas incluam os mesmos
participantes e outras envolvam sujeitos diferentes. Neste caso a ANOVA
designa-se por mista (A. Field et al., 2012).
|
TABELA 6 Tipos de ANOVAS
Consoante o Número de Variáveis Independentes (VI) e Consoante os Sujeitos
são Diferentes (≠) ou os Mesmos (=) |
|
||
|
ANOVA Tipo |
# VI |
Sujeitos |
|
|
De um fator independente (Entre sujeitos [between-subjects]) |
1 |
≠ |
|
|
De um fator medidas repetidas [within-subjects] |
1 |
= |
|
|
De n-fatores independente (Entre sujeitos [between-subjects]) (Fatorial) |
≥ 2 |
≠ |
|
|
De n-fatores medidas repetidas |
≥ 2 |
= |
|
|
Mista [split-plot] |
≥ 1 |
= |
|
|
≥ 1 |
≠ |
|
|
|
Nota. Entre parêntesis são indicadas as várias designações, incluindo as
de língua inglesa. |
|
Calculando o tamanho
do efeito para a ANOVA
O TDE para a
ANOVA pode não ser muito interessante de apresentar, pois está a testar-se
somente a hipótese geral (A. Field et al., 2012) e, raramente, responde ao que se quer saber (Rosnow, Rosenthal, & Rubin, 2000). Consoante o objetivo do estudo, pode ser mais relevante
obter os TDE para as diferenças entre pares de grupos (A. Field et al., 2012).
Ainda assim, o
TDE relativo à ANOVA deve mostrar quanto é que o fator de agrupamento explica a
variabilidade da variável dependente Y, comparando com a variabilidade global
observada de Y — a dispersão de todas as pontuações de Y. A equação (Ialongo, 2016; Keppel & Wickens, 2004) pode ser transcrita como:
TDEvariância = Variabilidadeexplicada
/ Variabilidadetotal
= (Variabilidadetotal
– Variabilidadenão-explicada) / Variabilidadetotal Equação
7
TDE para ANOVA
a um fator. Para medir a proporção da variância em Y associada aos diferentes grupos
definidos por X pode usar-se o eta-quadrado (h2) (Fritz et al., 2012; Ialongo,
2016; Keppel &
Wickens, 2004), que corresponde à proporção
da variância total associada ao fator (revisão de Cohen, 1973, p. 107). Pearson (1905) designou-o por rácio de correlação:
h2 =
SQfator / SQtotal Equação
8
Em que SQfator
é a soma dos quadrados entre grupos
para o fator (variância entre grupos) e SQtotal é a soma dos
quadrados total (variância total).
O eta-quadrado é zero quando
não há diferenças entre os grupos e aproxima-se de um quando as diferenças entre
grupos ultrapassam a variabilidade entre grupos (Keppel &
Wickens, 2004; Pearson, 1905). É preciso ter particular atenção ao facto de muitos artigos
publicados que indicam ter computado o eta-quadrado, na verdade calcularam o
eta-quadrado parcial (ver à frente). O erro deteta-se algumas vezes, pois o
valor apresentado ultrapassa a unidade, o que só pode acontecer com
a segunda estimativa (Levine & Hullett, 2002; Pierce, Block,
& Aguinis, 2004).
Como se pode verificar, a fórmula
do eta-quadrado é similar à do coeficiente de determinação (R2)
(Ialongo, 2016), é, de facto, “literalmente uma generalização da correlação
ponto-bisserial” e é uma função da estimativa f (Cohen, 1992b, pp. 282-283). No
entanto, diferentemente do R-quadrado
que só mede relações lineares (a não ser que os preditores sejam elevados a
expoentes), o eta-quadrado é sensível a vários tipos de relação, incluindo os
não-lineares, daí a designação ser diferente (Vacha-Haase & Thompson, 2004).
Voltando à Tabela 1 da ANOVA no mesmo exemplo, o eta-quadrado
fica da seguinte forma:
h2
= 18664,96 / 84532,21 = 0,221
Este valor (22,1%), como se pode observar, é muito semelhante
ao coeficiente de determinação (R2
= 0,244).
Se se confrontar o valor do eta-quadrado com o psi de Steiger
(ψ = 0.97), sobressai a grande diferença entre
os dois. O que acontece é que o psi (RMSSE) de Steiger pode ser influenciado
por um único grande desvio da média entre os grupos, pelo que o efeito omnibus deve ser considerado a título
meramente indicativo (Ialongo,
2016).
Uma fórmula equivalente (Keppel &
Wickens, 2004) baseia-se na estatística F
e é muito útil para obter o TDE em resultados publicados que somente
reportam esta estatística (raramente são publicadas as somas dos quadrados):
h2 =
(k – 1)F / [(k – 1)F + k(n – 1)] Equação 9
Nesta fórmula, k é o número de grupos e n é o número médio de sujeitos nos grupos.
Prosseguindo com a Tabela 1 da ANOVA no mesmo exemplo, o
eta-quadrado resulta igual:
h2
= (3 – 1) x 106,12 / [(3 – 1) x 106,12 + 3(250,67 – 1)]
O eta-quadrado,
deve notar-se, tende a inflacionar a variabilidade explicada e deve ser
considerado como uma estimativa para uma amostra e não para a população e, por
isso, foram sugeridas duas correções (Keppel &
Wickens, 2004; Olejnik & Algina,
2000)[12].
Segundo vários autores (e.g.,
A. Field et al., 2012; Keppel &
Wickens, 2004; Lakens, 2013;
Levine & Hullett, 2002; Olejnik & Algina,
2000, 2003), o ómega-quadrado é uma
medida corrigida do TDE (menos enviesada e menos inflacionada). A fórmula é de
Hays (1963):
w2 = [SQfator – (k –
1) QMerro / (SQtotal + QMerro) Equação
10
ou
w2 =
[(k – 1) (QMfator – QMerro)] / (SQtotal + QMerro) Equação
11
Em que SQfator
é a soma dos quadrados entre grupos
para o fator (variância entre grupos), k
é o número de grupos, SQtotal é a soma dos quadrados total
(variância total) e QMerro o quadrado médio de erro.
Deve evitar usar-se o
ómega-quadrado quando os tamanhos das amostras não são iguais e são geralmente
desproporcionais (Carroll & Nordholm, 1975; Vaughan &
Corballis, 1969) e, simultaneamente, as variâncias
são desiguais e as amostras são pequenas.
O ómega-quadrado pode também ser
calculado quando se dispõe somente do parâmetro F (sendo vantajoso para calcular o TDE em resultados publicados
noutros estudos):
w2 =
[(k – 1) (F – 1)] / [(k – 1) (F – 1) + kn] Equação
12
Nesta fórmula (Keselman, 1975), k é o número de
grupos, F o parâmetro da ANOVA, e n é o número médio de sujeitos nos grupos.
Assim, o ómega-quadrado para o nosso exemplo resulta um pouco menos
inflacionado.
Através da Fórmula 10:
w2
= [18664,96 – (3 – 1) x 87,94] / (84532,21 + 87,94) = 0,2185
Através da Fórmula 12:
w2
= [(3 – 1) (106,12 – 1)] / [(3 – 1) x (106,12 – 1) + 3 x 250,67]
Outra alternativa ao
enviesamento positivo do eta-quadrado é o épsilon-quadrado (E2) (T.
L. Kelley, 1935; Kirk, 1996; Olejnik &
Algina, 2000; Snyder & Lawson, 1993). Esta é uma estimativa
raramente usada, mas será ainda menos enviesada do que o ómega-quadrado (Okada, 2013). A fórmula que apresentamos é a de Glass e Hakstian (1969):
e2 = [SQfator – (k – 1) QMerro] / SQtotal Equação
13
Mais uma vez, SQfator
é a soma dos quadrados entre grupos para o fator, k é o número de grupos, SQtotal é a soma dos quadrados
total (variância total) e QMerro o quadrado médio de erro.
No nosso exemplo, o épsilon-quadrado resulta num TDE
ligeiramente superior:
e2 = [18664,96 – 2 x 87,94] / 84532,21 = 0,2187
As precauções indicadas para
o ómega-quadrado aplicam-se também ao épsilon-quadrado (Carroll & Nordholm, 1975; Vaughan &
Corballis, 1969).
Como também se pode
constatar pelos exemplos, o épsilon-quadrado tende a ser um pouco maior do que o
ómega-quadrado e ambos são menores do que o eta-quadrado (Ferguson, 2009; Ialongo, 2016; Olejnik & Algina,
2000; Richardson, 2011). O ómega-quadrado e o épsilon-quadrado podem assumir valores
negativos, no entanto, habitualmente o que se apresenta é o número inteiro não
positivo zero.
Estas estimativas não-enviesadas
ou corrigidas são geralmente menores do que as suas contrapartes não corrigidas
e estão mais próximas dos TDE populacionais (Snyder &
Lawson, 1993). A diferença entre medidas corrigidas e não corrigidas é
referida como contração (Vacha-Haase & Thompson, 2004). A contração tende
a diminuir à medida que o tamanho das amostras aumenta e o número de preditores
no modelo cai. No entanto, a contração
tende a ser muito pequena se os efeitos forem grandes, independentemente do
tamanho da amostra (e.g., os R2
maiores tendem a convergir para as suas contrapartes ajustadas) (P. D. Ellis, 2010).
TDE para ANOVAs a n-fatores. Referiu-se atrás que os TDEs
tendem a diminuir em modelos com mais do que um fator X (X1, X2,
... Xi), reduzindo-se tanto mais quanto mais fatores forem incluídos
(Ferguson, 2009). Presentemente
vamos apenas considerar os modelos a dois fatores, mas as equações podem
generalizar-se para integrar mais fatores.
Assim, para planeamentos com
mais do que um fator, o TDE a usar é o eta-quadrado parcial (Ialongo, 2016; Keppel & Wickens, 2004; Olejnik &
Algina, 2000; Richardson,
2011; Tabachnick & Fidell, 2007):
hp2 = SQfator / (SQfator
+ SQerro) Equação 14
Nesta fórmula, se considerarmos
somente dois fatores, SQfator corresponde à soma dos
quadrados entre grupos para o fator X1 ou X2 ou para a
interação de X1 com X2; SQtotal à soma
dos quadrados total e SQerro à soma dos quadrados para o erro.
Se um fator for
significativo num dos níveis do outro fator, usualmente reporta-se também o TDE
para a interação. Assim, devem indicar-se os etas-quadrados parciais para os
efeitos simples e quaisquer contrastes derivados (Keppel &
Wickens, 2004).
Retomando o exemplo agora com os fatores idade e sexo (Tabela 5), podemos
verificar essa redução, ficando o eta-quadrado parcial para a idade em:
hp2 = 15974,80 / (15974,80 +
65046,004) = 0,197
Como se pode verificar pela Tabela 4, o SPSS-25 fornece esse mesmo
valor. Quanto ao sexo acontece o mesmo:
hp2 = 350,077 / (350,077 + 65046,004)
= 0,0054
Como se pode verificar pela Tabela 4, o SPSS-25 fornece também o eta-quadrado
parcial para a interação idade com o sexo. Apesar de o fator idade não ser
significativo nos níveis do fator sexo, apresenta-se o cálculo para ilustrar o
processo.
hp2 = 315,85 / (315,85 + 65046,004)
= 0,0048
Note-se que a Equação
14 é genérica e a precisão dos seus termos depende do planeamento (Olejnik &
Algina, 2003). Refira-se ainda que o
eta-quadrado e o eta-quadrado parcial coincidem na ANOVA com um fator (Levine & Hullett, 2002; Pierce et al.,
2004), especialmente
com grandes amostras (Ferguson, 2009). O eta-quadrado parcial pode
variar entre 0 e acima de 1, por isso não deve ser interpretado como
percentagem da variância (Levine & Hullett, 2002; Pierce et al.,
2004; Richardson, 2011). Finalmente, há que ter em
consideração que o eta-quadrado varia consoante a natureza e o número de
variáveis que se juntam ao modelo, pelo que pode não ser comparável entre
estudos diferentes (Kennedy, 1970). Mais, nem sequer deve ser usado para comparar os efeitos
dos diferentes fatores na mesma análise, uma vez que os denominadores são
diferentes (Olejnik &
Algina, 2000; Sechrest &
Yeaton, 2016).
Uma vez que o
eta-quadrado parcial só pode ser usado para comparar efeitos entre estudos com
planeamentos experimentais semelhantes, Olejnik
e Algina (2003) propuseram um eta-quadrado geral (nG2) que retira a variação dos
outros fatores do cálculo do TDE, mas inclui a variância devida a diferenças
individuais. Este eta-quadrado geral permite a comparação entre estudos em que
os fatores não foram manipulados[13]
(nos estudos com fatores manipulados hG2 e
hp2 são idênticos). A fórmula é
a seguinte:
hG2 = SQfatorX1 / (SQtotal
+ SQfatorX2) Equação 15
Nesta fórmula,
se consideramos somente dois fatores, SQfatorX1 corresponde à
soma dos quadrados entre grupos para o fator X1, SQtotal
à soma dos quadrados total e SQfatorX2 à soma dos quadrados
para o fator X2.
Para a inclusão
de mais fatores veja-se a revisão de Fritz et al. (2012).
Assim, no nosso exemplo seria:
hG2 = 15974,80 / (1546218,00 +
350,08) = 0,010
Tal como no
anterior, o eta-quadrado parcial pode ser corrigido através do ómega ou do
épsilon quadrados (sendo indicados para amostras pequenas), cujas equações são,
respetivamente, as seguintes (Bakeman, 2005; Olejnik & Algina, 2000):
wp2 = [(k – 1) (QMfator –
QMerro)] / [(k – 1) QMfator + ((N – (k – 1)) QMerro] Equação 16
ep2 = glfator (SQfator – SQerro) / (SQfator + SQerro) Equação
17
SQfator é a soma dos quadrados
entre grupos para o fator, k é o
número de grupos, gl são os graus de
liberdade, QMfator é o quadrado médio do fator e QMerro
o quadrado médio de erro.
O cálculo do ómega e do épsilon quadrados pode tornar-se complexo em
planeamentos com muitos fatores e níveis, pelo que, dada a pequena diferença,
se recomenda o uso do eta-quadrado (Lakens, 2013).
O f2 de Cohen, cuja fórmula se descreve a seguir, é também apropriado
para a ANOVA com n-fatores (Cohen, 1992b; Ialongo, 2016):
f2 = hp2 /
(1 – hp2) Equação 18
No exemplo com os fatores idade e sexo (Tabela 4), o f2 de Cohen para a idade foi
de:
f2 = 0,0048 / (1 – 0,0048) = 0,0048
ANOVAs: Outros tipos. Os
modelos de medidas repetidas e outros mais complexos não serão descritos neste
artigo, mas remetemos o leitor interessado para bibliografia a seguir apontada.
Assim, para a ANOVA de medidas repetidas, ANOVA mista (usa-se o hp2) e
análise de variância multivariada (MANOVA: usa-se o h2 ou
o hp2) recomendamos o livro de Keppel e Wickens (2004) e o artigo de Steyn e Ellis (2009).
Para a análise
de covariância (ANCOVA; usa-se o h2)
e de análise de covariância
multivariada (MANCOVA; usa-se o f2
de Cohen), sugerem-se os livros de
Keppel e Wickens (2004) e de Tabachnick e Fidell ( 2007). Existem também fórmulas de correção para a análise
multivariada (Vacha-Haase & Thompson, 2004).
INTERPRETAÇÃO DA MAGNITUDE DOS TDE
Quando se
reporta um TDE, o objetivo é permitir ao leitor a interpretação da importância
dos resultados. Mantidas inalteradas todas as outras coisas, quanto mais alto
for um TDE, maior o impacto da variável independente ou fator na variável
dependente (Fritz et al., 2012). O estabelecimento de diretrizes para qualificar a magnitude
de um efeito em pequeno, médio e grande foi marcado essencialmente por Cohen
(1988).
No entanto, os
TDEs foram definidos com base no tipo de fenómenos que Cohen observou na sua
área (psicologia), de modo que eles dificilmente podem ser traduzíveis em domínios
fora das ciências comportamentais.
Outro problema,
como refere o próprio Cohen (1988), é que muita da variância na variável
dependente nas ciências comportamentais não é facilmente explicável. Quando se
considera um TDE como grande nas ciências comportamentais não é a mesma coisa
que, por exemplo, na física em que cerca de 99% da variância é explicável.
Assim, nas ciências comportamentais, os valores têm de ser entendidos de forma
relativa e não absoluta, reconhecendo que, frequentemente, são muito pequenos
(Cohen, 1988).
Na verdade, não
se tem conseguido fornecer uma escala universal e os valores de referência atuais
são apenas uma herança derivada da forma como se iniciou o estudo dos TDE.
Ainda assim,
observando as cautelas devidas apresentadas na secção seguinte, a Tabela 7 pode ser usada como guia de orientação na
interpretação dos TDE, especialmente quando o estudo for inovador e não houver
um contexto de efeitos anteriores.
|
TABELA 7 Interpretação dos Tamanhos do Efeito (TDE) |
|
||||
|
Referência |
TDE Estatística |
Valores |
Interpretação |
Comandos no SPSS |
|
|
Steiger e Fouladi, 1997/2016 |
RMSSE ou f* ANOVA omnibus |
0,10 0,25 0,40 |
Pequeno Médio Grande |
Analisar, Compare Means, Comparar
Médias, Análise de variância unidirecional |
|
|
Cohen, 1988 |
r2 Regressão
bivariada |
0,0196 0,1300 0,2600 |
Pequeno Médio Grande |
Analisar,
Regressão, Linear |
|
|
McGrath e Meyer, 2006 |
r Correlação
ponto bisserial Regressão
linear para contrastes teóricos |
0,10 0,24 0,37 |
Pequeno Médio Grande |
Analisar,
Regressão, Linear |
|
|
Cohen, 1988 |
R2 Regressão
múltipla |
0,0196 0,1300 0,2600 |
Pequeno Médio Grande |
Analisar,
Regressão, Linear |
|
|
Cohen, 1988 |
f2 de Cohen Regressão múltipla |
0,02 0,15 0,35 |
Pequeno Médio Grande |
Analisar,
Regressão, Linear |
|
|
Ferguson, 2009 |
Rajust2 Regressão
múltipla |
0,04** 0,25 0,64 |
Pequeno Médio Grande |
Analisar,
Regressão, Linear |
|
|
Wilson, 2010 |
Razão de
chances (Logit) Regressão
logística |
1,50 2,50 4,30 |
Pequeno Médio Grande |
Analisar,
Regressão, Logística binária Analisar,
Regressão, Logística binária Antilog do
logit exponenciando o coeficiente |
|
|
Cohen, 1988 |
h2 ANOVA |
0,02 0,13 0,26 |
Pequeno Médio Grande |
Analisar, Modelo
Linear Geral, Univariado, Opções, Estimativas de tamanho de efeito |
|
|
Cohen 1988 |
w2 Alternativa
corrigida ANOVA |
0,01 0,06 0,14 |
Pequeno Médio Grande |
Analisar, Modelo
Linear Geral, Univariado |
|
|
Ferguson, 2009 |
e2 Alternativa
corrigida ANOVA |
0,04** 0,25 0,64 |
Pequeno Médio Grande |
Analisar, Modelo
Linear Geral, Univariado |
|
|
Cohen, 1988 |
hp2 ANOVA
n-fatores |
0,0099*** 0,0588 0,1379 |
Pequeno Médio Grande |
Analisar, Modelo
Linear Geral, Univariado |
|
|
Nota. Os valores de corte para a consideração dos tamanhos
do efeito devem ser considerados de forma não-dogmática, somente como linhas
de orientação, e sempre no contexto dos tamanhos do efeito reportados ou
calculados noutras investigações. A conversão em tamanhos do efeito em
linguagem comum (ver Espirito-Santo
& Daniel, 2015) para o r, R2,
e eta-quadrado podem ser consultadas em Fritz, Morris e Richler (2012). * Estes valores não estão ancorados
ao r pelo que devem ser
interpretados cautelosamente. ** Estes valores devem ser usados
com cautela, pois não encontrámos outro suporte e Ferguson (2009)
atribui os mesmos valores para diferentes estimativas. *** Haase, Waechter e Solomon (1982) calcularam
os valores do eta-parcial em 11.044 estatísticas reportadas no Journal of Counseling Psychology entre
1970 e 1979 e encontraram um valor mediano de 0,0830 que é um pouco maior que
o de Cohen. Fontes: Ferguson (2009), Keppel e Wickens (2004), Kirk
(1996),
Lipsey e Wilson (2001),
Thompson (2007), Wilson (2010) . |
|
NOTAS DE CAUTELA
O contexto dos tamanhos do efeito
Os TDE são
estimativas importantes e são estatísticas descritivas úteis, mas, tal como
referimos anteriormente, é preciso não cair no erro que se tem caído com o
valor do p — tomar os TDE como se
fossem entidades divinas que ditam dogmaticamente o destino do valor de um
estudo. Portanto, as indicações relativamente às diretrizes sumarizados neste
artigo são arbitrários(, pelo que a adesão rígida a essas indicações não é
aconselhada, devendo ser usados meramente como guias de orientação (A. Field, 2005). Assim, na interpretação dos TDEs, é importante compará-los
com os reportados na literatura (A. Field, 2005; Fritz et al., 2012; Lakens, 2013) e, na medida do possível, convertê-los em tamanho do
efeito em linguagem comum (Fritz et al., 2012; Lakens, 2013).
Acrescente-se
que a significância substantiva ou
importância de um TDE depende em grande parte da área em que o estudo é
efetuado (Rosnow & Rosenthal, 1989). Assim,
a mesma
magnitude do TDE num estudo sobre o efeito de um tratamento com consequências
potencialmente mortais será de grande significado prático, mesmo que o valor
seja pequeno (Ferguson, 2009). Se, por exemplo, num
estudo for obtido uma razão de chances (OR) de 2,5, que é “médio” segundo
as indicações de Wilson (2010), mas no contexto da área a
média dos OR for de 1,3, então o valor não deve ser considerado médio (Ialongo, 2016).
Desta forma, um
ponto chave a reter é que os TDE devem ser interpretados no contexto ou área da
investigação. Quando um processo de decisão se baseia em critérios
relativamente arbitrários e em comparações com outros estudos da mesma área,
ele passa a incluir um elemento de subjetividade. Inevitavelmente, o processo
de decisão passa então a envolver o sistema de valores, preocupações sociais, preocupações
com custos e benefícios por parte do investigador (Snyder &
Lawson, 1993). No entanto, como Kirk (1996) aponta, é uma obrigação do
investigador fazer esse tipo de julgamento.
Intervalos de confiança
Os TDE devem ser
sempre acompanhados dos respetivos intervalos de confiança com o argumento de
que é fornecido uma margem de incerteza associada à magnitude do efeito. É,
assim, facultado um conjunto de valores plausíveis para a estimativa em
análise, com um risco tradicionalmente fixado em 5% de que o verdadeiro valor
seja excluído (P. D. Ellis, 2010).
A maior parte
dos intervalos de confiança para os TDE tem de ser computada com software apropriado (e.g., Smithson, 2003; Steiger, 2004) e, talvez por isso, raramente são indicados (Fritz et al., 2012).
Não cabendo
nesta revisão o seu cálculo e exemplificação, existem vários artigos que
recomendamos ao leitor interessado (e.g., K. Kelley, 2007; Keselman et
al., 2008; Thompson, 2007). Adicionalmente, para os intervalos de confiança associados
à ANOVA e à regressão, Smithson (2003) fornece instruções e
sintaxes para o SPSS, SAS, SPlus e R. Outros detalhes são proporcionados por Steiger (2004).
Fatores de enviesamento
Apesar do valor
e utilidade, os TDEs refletem as propriedades dos dados e as condições em que
os dados foram recolhidos (Fritz et al., 2012). Assim, estas estimativas podem
ser inflacionadas ou deflacionadas pela qualidade da medição (Ferguson, 2009). Um TDE obtido com um
questionário fracamente validado, provavelmente no “mundo real” não terá
significado prático. A falha em conter as ameaças à validade interna (e.g.,
não-controlo do efeito placebo; não-controlo do efeito de aprendizagem nos
testes), a fraca fidedignidade e validade das respostas aos instrumentos e a
heterogeneidade da população, ao invés, podem reduzir a magnitude dos TDE (Ferguson, 2009; Fritz et al., 2012; Olejnik & Algina,
2000).
Outro aspeto a
considerar são as estratégias de amostragem (Ferguson, 2009). Por exemplo, se a amostra
incluir somente sujeitos de um grupo restrito (e.g., meio urbano), a
variabilidade de erro é menor (inflacionando o TDE) do que numa amostra que
inclua sujeitos de grupos diversos (e.g., meios rural, semiurbano e urbano) (Fritz et al., 2012).
Amostras
pequenas e não aleatórias são outro detalhe que deve remeter para a prudência
na interpretação dos TDE (Ferguson, 2009).
Depois há que
considerar o planeamento do estudo. Quando se interpreta um TDE deve ter-se em
consideração a falha em controlar outros preditores relevantes, pois podem
amplificar os TDE, especialmente se estiverem correlacionados com as variáveis
independentes (Olejnik &
Algina, 2003). Por exemplo, se um estudo considerar a variabilidade
associada ao grupo económico e incluir como covariável o salário, então vai
reduzir a variabilidade de erro e o TDE tende a aumentar (Fritz et al., 2012). No entanto, a análise através do eta-quadrado geral poderá
controlar o enviesamento (Olejnik &
Algina, 2003).
Outro aspeto a
considerar no planeamento é que em modelos com fatores fixos, os TDE para os
efeitos omnibus dependem dos níveis
específicos. Logo, os TDE não são comparáveis para diferentes níveis do fator (Olejnik &
Algina, 2000). A amplitude dos níveis de um fator definidos de forma
concentrada (e.g., 20, 25, 30, 35 anos de idade) tende a reduzir o TDE, e,
inversamente, um maior espaçamento entre os níveis (e.g., 20, 50, 80 anos de
idade) tende a ampliar o TDE (Olejnik &
Algina, 2000).
A própria
análise estatística pode ter impacto sobre o valor de um TDE. Assim, o uso de
métodos estatísticos que reduzam a variância (e.g., usar falsas dicotomias ou
categorizações de variáveis com base em pontos de corte) podem também reduzir
os TDE (Ferguson, 2009).
RECOMENDAÇÕES
Como reportar os tamanhos do efeito
Antes de se
reportarem os TDEs, primeiramente, descrevam-se os dados, incluindo as médias
ou outras medidas apropriadas de tendência central, pelo menos uma medida
associada de variabilidade (e.g., desvio-padrão, amplitude, amplitude interquartílica)
e o quadrado médio de erro para a ANOVA (Fritz et al., 2012).
Depois, apresentem-se
as estimativas dos efeitos, indicando explicitamente que TDEs estão a ser
reportados, os seus valores, incluindo os intervalos de confiança para uso
potencial em estudos de metanálise (Fritz et al., 2012; Vacha-Haase &
Thompson, 2004; Wilkinson & Task Force on Statistical Inference, 1999).
Selecione-se o
eta-quadrado apropriado entre os disponíveis; se os efeitos ou os Ns forem pequenos, indique-se a possível
inflação do eta-quadrado, apresentando o ómega-quadrado adequado ao modelo (Fritz et al., 2012). Neste respeito, são preferidos os TDE corrigidos aos não-corrigidos,
pois tendem a ser estimativas mais precisas para a população alvo (Ferguson, 2009). No entanto, Vacha-Haase e
Thompson (2004) tendem para as estimativas
não corrigidas quando as amostras são grandes e o número de variáveis pequeno. Adicionalmente,
Roberts e Henson (2002) consideram que têm havido
excesso de “correção” nas estimativas, pelo o mais correto será que se reportem
ambas (P. D. Ellis, 2010).
Por vezes, vale
a pena reportar mais do que um TDE para interpretar convenientemente os dados.
Usando o exemplo dado por Fritz et al. (2012), pode
ser adequado apresentar o eta-quadrado parcial para revelar a proporção da variabilidade
relativa a um fator quando se controlam os restantes fatores, e também reportar
o eta-quadrado geral para espelhar a contribuição do fator para o desempenho
global.
Em análises mais
complexas (ANOVA de n-fatores ou regressão múltipla), reportem-se todos os
efeitos: a estimativa F, os graus de
liberdade e o quadrado médio de erro, para que o leitor possa computar outros
TDE de interesse (Fritz et al., 2012). É também útil reportar o TDE para o efeito global e para
cada um dos contrastes planeados. Tal como dissemos noutra secção, os TDE para
testes planeados (determinadas comparações par-a-par) podem até ser mais
interessantes de reportar que os TDEs do efeito global. Por vezes, mais do que
“interessantes”, uma única comparação entre dois níveis é a responsável pelo
efeito omnibus. Nesse sentido, o
melhor TDE a reportar para as comparações par-a-par será a estatística g de Hedges (Ferguson, 2009). As
considerações sobre o g de Hedges podem
ser consultadas no nosso artigo de 2015 (Espirito-Santo & Daniel, 2015).
Depois, indique-se
a interpretação dos TDE, tendo em consideração os seus pressupostos (e.g.,
normalidade das distribuições ou homogeneidade de variâncias) e as suas
limitações. O manual da American Psychological Association (2010) sugere que se discutam os TDEs quer nas suas
unidades originais — por ser mais claro e fácil de discutir no contexto de um
estudo único —, quer em termos padronizados — por facilitar a comparação de
estudos e as metanálises.
Compare-se, de
seguida, os TDEs com os obtidos noutros estudos, não deixando de contemplar as
diferenças nos planeamentos (Fritz et al., 2012; Vacha-Haase &
Thompson, 2004). Tenha-se em atenção que as
generalizações devem ser limitadas aos delineamentos que envolvam os mesmos
níveis da variável independente e números e tipos semelhantes de sujeitos (Snyder &
Lawson, 1993). Em delineamentos com fatores fixos será mais preciso
indicar quais k níveis da variável
independente explicaram determinada percentagem da variância na variável
dependente quando n sujeitos do tipo p foram designados para cada nível (Snyder &
Lawson, 1993).
Finalize-se,
discutindo as implicações práticas, clínicas ou teóricas dos TDE mais
relevantes (Fritz et al., 2012; Vacha-Haase &
Thompson, 2004).
CÁLCULO DOS TDE
Muitos dos
programas informáticos de estatística não calculam os TDE. Por isso, este
artigo acompanha-se por uma folha Excel para as equações relevantes indicadas
para os vários testes estatísticos.
Existem também
online várias calculadoras compreensivas (e.g., W.
Lenhard & Lenhard, 2016; Lyons & Morris, 2018;
Wilson, 2018).
As fórmulas
apresentadas ao longo do texto podem também, obviamente, ser usadas para o
cálculo dos vários TDE.
CONCLUSÕES
Neste artigo, mais
uma vez, procurámos defender a importância de apresentar as magnitudes do
efeito. Abordámos, assim, os tamanhos do efeito relativos às proporções de
variância, referindo questões
metodológicas, teóricas e substantivas quanto à interpretação dos mesmos.
Para determinar a significância ou importância substantivas, não é
suficiente apresentar a significância estatística, nem a dimensão relativa de um
tamanho de efeito.
Todos os tamanhos de efeito devem ser interpretados no contexto específico
da investigação, do nível de desenvolvimento teórico na área da investigação e das
aplicações práticas no mundo real.
Pode ser complexo e intricado comparar os tamanhos de efeito entre
estudos devido ao número de fatores previstos e não-previstos e suas possíveis
combinações. Apesar disso, mantém-se a recomendação de se indicar os tamanhos
do efeito a par com o nível de significância estatística.
Desta forma, confiamos mais uma vez que os
autores da RPICS usem as diretrizes e sugestões fornecidas neste artigo para
decidir pelos tamanhos de efeito
adequados e interpretação adequada nas análises de variância.
Conflito de interesses: Nenhum.
Fontes de financiamento: Nenhuma.
American Psychological Association. (2010). Publication manual of the American
Psychological Association (6th
ed.). Washington, DC: American Psychological Association. [Google Scholar]
Bakeman, R. (2005). Recommended effect size statistics for
repeated measures designs. Behavior
Research Methods, 37(3), 379-384. [Google Scholar]
Berben, L., Sereika, S. M., & Engberg, S. (2012). Effect
size estimation: methods and examples. International
Journal of Nursing Studies, 49(8), 1039-1047. [Google Scholar] [CrossRef]
Bewick, V., Cheek, L., & Ball, J. (2003). Statistics
review 7: Correlation and regression. Critical
Care, 7(6), 451-459. [Google Scholar] [CrossRef]
Bezeau, S., & Graves, R. (2001). Statistical power and
effect sizes of clinical neuropsychology research. Journal of Clinical and
Experimental Neuropsychology (Neuropsychology, Development and Cognition:
Section A), 23(3), 399-406. [Google Scholar]
Carroll, R. M., & Nordholm, L. A. (1975). Sampling
characteristics of Kelley“s ε2 and
Hays” ω2. Educational
and Psychological Measurement, 35(3), 541-554. [Google Scholar] [CrossRef]
Cohen, J. (1973). Eta-squared and partial eta-squared in
fixed factor ANOVA designs. Educational
and Psychological Measurement, 33, 107-112. [Google Scholar] [CrossRef]
Cohen, J. (1992a). A power primer. Psychological Bulletin, 112(1), 155-159. [Google Scholar] [CrossRef]
Cohen, J. (1992b). Statistical power analysis. Current Directions in Psychological
Science, 1(3), 98-101. [Google Scholar] [CrossRef]
Cumming, G. (2012). Understanding
the new statistics. New York: Routledge. [Google Scholar]
Ellis, P. D. (2010). The
essential guide to effect sizes. Cambridge: Cambridge University Press. [Google Scholar]
Erceg-Hurn, D. M., & Mirosevich, V. M. (2008).
Modern robust statistical methods: An easy way to maximize the accuracy and
power of your research. The
American Psychologist, 63(7), 591-601. [Google Scholar] [CrossRef]
Espirito-Santo, H., & Daniel, F. B. (2015).
Calcular e apresentar tamanhos do efeito em trabalhos científicos (1): As
limitações do p < 0,05 na análise
de diferenças de médias de dois grupos [Calculating and reporting effect sizes
on scientific papers (1): p < 0.05 limitations in the analysis of mean
differences of two groups]. Revista
Portuguesa de Investigação Comportamental e Social, 1(1), 3-16. [Google Scholar] [CrossRef]
Espirito-Santo, H., & Daniel, F. (2017). Calcular e
apresentar tamanhos do efeito em trabalhos científicos (2): Guia para reportar
a força das relações [Calculating and reporting effect sizes on scientific
papers (2): Guide to report the strength of relationships]. Revista Portuguesa de Investigação
Comportamental e Social, 3(1), 53-64. [Google Scholar] [CrossRef]
Ferguson, C. J. (2009). An effect size primer: A guide for
clinicians and researchers. Professional
Psychology: Research and Practice, 40(5), 532-538. [Google Scholar] [CrossRef]
Field, A. (2005). Effect
sizes. [URL]
Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R.
London: Sage. [Google Scholar]
Fisher, R. A. (1925). Statistical
methods for research workers. Edinburgh: Oliver & Boyd. [Google Scholar]
Fritz, C. O., Morris, P. E., & Richler, J. J. (2012).
Effect size estimates: Current use, calculations, and interpretation. Journal of Experimental Psychology:
General, 141(1), 2-18. [Google Scholar] [CrossRef]
Glass, G. V., & Hakstian, A. R. (1969). Measures of
association in comparative experiments: Their development and interpretation. American Educational Research
Journal, 6(3), 403-414. [Google Scholar] [CrossRef]
Haase, R. F., Waechter, D. M., & Solomon, G. S. (1982).
How significant is a significant difference? Average effect size of research in
counseling psychology. Journal
of Counseling Psychology, 29(1), 58-65. [Google Scholar] [CrossRef]
Hair, J., Black, B., Babin, B., & Anderson, R. (2009). Multivariate data analysis (7th ed.). Upper Saddle River:
Pearson Higher Ed. [Google Scholar]
Hays, W. L. (1963). Statistics
for psychologists. New York: Holt, Rinehart and Winston. [Google Scholar]
Hedges, L. V. (1981). Distribution theory for Glass's
estimator of effect size and related estimators. Journal of Educational and
Behavioral Statistics, 6(2), 107-128. [Google Scholar] [CrossRef]
Herzberg, P. A. (1969). The
parameters of cross-validation. Richmond, VA: William Byrd Press. [Google Scholar]
Ialongo, C. (2016). Understanding the effect size and its
measures. Biochemia Medica, 26(2), 150-163. [Google Scholar] [CrossRef]
Kelley, K. (2007). Confidence intervals for standardized
effect sizes: Theory, application, and implementation. Journal of Statistical Software, 20(8), 1-24. [Google Scholar] [CrossRef]
Kelley, T. L. (1935). An unbiased correlation ratio measure. Proceedings of the National Academy
of Sciences of the United States of America, 21(9), 554-559. [Google Scholar] [Pmc]
Kennedy, J. J. (1970). The eta coefficient in complex ANOVA
designs. Educational and
Psychological Measurement, 30(4), 885-889. [Google Scholar] [CrossRef]
Keppel, G., & Wickens, T. D. (2004). Design and analysis: A researcher's
handbook (4th ed.). New
Jersey: Pearson. [Google Scholar]
Keren, G., & Lewis, C. (1969). Partial omega squared for
ANOVA designs. Educational and
Psychological Measurement, 39(1), 119-128. [Google Scholar] [CrossRef]
Keselman, H. J. (1975). A Monte Carlo investigation of
three estimates of treatment magnitude: Epsilon squared, eta squared, and omega
squared. Canadian
Psychological Review/Psychologie Canadienne, 16(1), 44-48. [Google Scholar] [CrossRef]
Keselman, H. J., Algina, J., Lix, L. M., Wilcox, R. R., &
Deering, K. N. (2008). A generally robust approach for testing hypotheses and
setting confidence intervals for effect sizes. Psychological Methods, 13(2), 110-129. [Google Scholar] [CrossRef]
Kirk, R. E. (1996). Practical significance: A concept whose
time has come. Educational and
Psychological Measurement, 56(5), 746-759. [Google Scholar] [CrossRef]
Kline, R. B. (2013). Beyond
significance testing: Reforming data analysis methods in behavioral research (2nd ed.). Washington, DC: American
Psychological Association. [Google Scholar]
Lakens, D. (2013). Calculating and reporting effect sizes to
facilitate cumulative science: A practical primer for t-tests and ANOVAs. Frontiers in Psychology, 4(863), 1-12. [Google Scholar] [CrossRef]
Lenhard, W., & Lenhard, A. (2016). Calculation of effect sizes. [Google Scholar] [CrossRef]
Levine, T. R., & Hullett, C. R. (2002). Eta squared,
partial eta squared, and misreporting of effect size in communication research. Human Communication Research, 28(4), 612-625. [Google Scholar] [CrossRef]
Lipsey, M. W., Puzio, K., Yun, C., Hebert, M. A.,
Steinka-Fry, K., Cole, M. W., . . . Busick, M. D. (2012). Translating the statistical
representation of the effects of education interventions into more readily
interpretable forms. National Center for Special Education Research,
Institute of Education Sciences. [Google Scholar] [URL]
Lipsey, M. W., & Wilson, D. B. (2001). Practical meta-analysis. New
York: Sage Publications, Inc. [Google Scholar]
Lyons, L. C., & Morris, W. A. (2018). The meta analysis calculator. [Google Scholar]
[URL]
Okada, K. (2013). Is omega squared less biased? A comparison
of three major effect size indices in one-way anova. Behaviormetrika, 40(2), 129-147. [Google Scholar] [CrossRef]
Olejnik, S., & Algina, J. (2000). Measures of effect size
for comparative studies: Applications, interpretations, and limitations. Contemporary Educational
Psychology, 25(3), 241-286. [Google Scholar] [CrossRef]
Olejnik, S., & Algina, J. (2003). Generalized eta and
omega squared statistics: Measures of effect size for some common research
designs. Psychological
Methods, 8(4), 434-447. [Google Scholar] [CrossRef]
Pallant, J. (2011). SPSS:
Survival manual (4th ed.).
Crows Nest, NSW: Allen & Unwin. [Google Scholar]
Pampel, F. C. (2000). Logistic
regression: A primer. Thousand Oaks: SAGE Publications. [Google Scholar]
Pearson, K. (1905). Mathematical
contributions to the theory of evolution. XIV. On the general theory of skew
correlation and non-linear regression. London: Dulau. [Google Scholar]
Pierce, C. A., Block, R. A., & Aguinis, H. (2004).
Cautionary note on reporting eta-squared values from multifactor ANOVA designs. Educational and Psychological
Measurement, 64(6), 916-924. [Google Scholar] [CrossRef]
Richardson, J. T. E. (2011). Eta squared and partial eta
squared as measures of effect size in educational research. Educational Research Review, 6(2), 135-147. [Google Scholar] [CrossRef]
Roberts, J. K., & Henson, R. K. (2002). Correction
for bias in estimating effect sizes. Educational
and Psychological Measurement, 62(2), 241-253. [Google Scholar] [CrossRef]
Rosenthal, R. (1991). Meta-analytic
procedures for social research (Revised).
Newbury Park: Sage. [Google Scholar]
Rosenthal, R. (1994). Science and ethics in conducting,
analyzing, and reporting psychological research. Psychological Science, 5(3), 127-134. [Google Scholar] [CrossRef]
Rosnow, R. L., & Rosenthal, R. (1989). Statistical
procedures and the justification of knowledge in psychological science. The American Psychologist, 44(10), 1276-1284. [Google Scholar] [CrossRef]
Rosnow, R. L., Rosenthal, R., & Rubin, D. B. (2000).
Contrasts and correlations in effect-size estimation. Psychological Science, 11(6), 446-453. [Google Scholar] [CrossRef]
Sechrest, L., & Yeaton, W. H. (2016). Magnitudes of
experimental effects in social science research. Evaluation Review, 6(5), 579-600. [Google Scholar] [CrossRef]
Smithson, M. (2003). Confidence
intervals. Thousand Oaks, CA: Sage. [Google Scholar]
Snyder, P., & Lawson, S. (1993). Evaluating results using
corrected and uncorrected effect size estimates. The Journal of Experimental
Education, 61(4), 334-349. [Google Scholar]
[Jstor]
Steiger, J. H. (2004). Beyond the F test: Effect size
confidence intervals and tests of close fit in the analysis of variance and contrast
analysis. Psychological
Methods, 9(2), 164-182. [Google Scholar]
Steiger, J. H., & Fouladi, R. T. (2016). Noncentrality
interval estimation and the evaluation of statistical models. In L. L. Harlow,
S. A. Mulaik, & J. H. Steiger (Eds.), What
if there were no significance tests? (pp.
197-229). Routledge: Routledge. [Google Scholar]
Stevens, J. P. (2007). Intermediate
statistics (3rd ed.). New
York: Lawrence Erlbaum Associates. [Google Scholar]
Steyn, H. S. Jr., & Ellis, S. M. (2009). Estimating an
effect size in one-way multivariate analysis of variance (MANOVA). Multivariate Behavioral Research, 44(1), 106-129. [Google Scholar] [CrossRef]
Tabachnick, B. G., & Fidell, L. S. (2007). Using multivariate statistics (5th ed.). Boston: Pearson Education. [Google Scholar]
Thompson, B. (2002). "Statistical,” “practical,”
and “clinical”: How many kinds of significance do counselors need to consider?. Journal of Counseling &
Development, 80(1), 64-71. [Google Scholar] [CrossRef]
Thompson, B. (2007). Effect sizes, confidence intervals, and
confidence intervals for effect sizes. Psychology
in the Schools, 44(5), 423-432. [Google Scholar] [CrossRef]
Vacha-Haase, T., & Thompson, B. (2004). How to estimate
and interpret various effect sizes. Journal
of Counseling Psychology, 51(4), 473-481. [Google Scholar] [CrossRef]
Vaughan, G. M., & Corballis, M. C. (1969). Beyond tests
of significance: Estimating strength of effects in selected ANOVA designs. Psychological Bulletin, 72(3), 204-213. [Google Scholar] [CrossRef]
Wherry, R. J. (1931). A new formula for predicting the
shrinkage of the coefficient of multiple correlation. The Annals of Mathematical
Statistics, 2(4), 440-457. [Google Scholar] [CrossRef]
Wilkinson, L., & Task Force on Statistical Inference.,
(1999). Statistical methods in psychology journals: Guidelines and
explanations. The American
Psychologist, 54(8), 594-604. [Google Scholar]
Wilson, D. B. (2010). Meta-analysis
stuff. [Google Scholar] [URL]
Wilson, D. B. (2018). Practical
meta-analysis effect size calculator.
[Google Scholar] [URL]
Zhang,
G., & Algina, J. (2011). A robust Root Mean Square Standardized Effect Size
in one-way fixed-effects ANOVA. Journal
of Modern Applied Statistical Methods, 10(1), 77-96. [Google Scholar] [CrossRef]
ⓘ PhD. Redação do manuscrito, Análise estatística. Instituto Superior Miguel Torga. Centro de
Investigação do Núcleo de Estudos e Intervenção Cognitivo-Comportamental da
Faculdade de Psicologia e de Ciências da Educação da Universidade de Coimbra,
Portugal
ⓘ PhD. Revisão do manuscrito, Elaboração das folhas de cálculo. Instituto Superior Miguel Torga. Centro de Estudos e
Investigação em Saúde da Universidade de Coimbra, Portugal.
[1] Só
discutimos aqui os fatores de efeito fixo em que as observações são realizadas
em todos os níveis do fator de interesse. Ou seja, os níveis da variável
independente são escolhidos especificamente pelo investigador (não-aleatórios).
O fator aleatório assume teoricamente todos os níveis possíveis da variável
independente, pretendendo o investigador generalizar os dados a outros níveis
da variável independente (Olejnik &
Algina, 2000).
[2] O
erro do Tipo I significa rejeitar falsamente a hipótese nula (A. Field
et al., 2012).
[3] O QMerro também se designa por “erro
quadrado médio”, aparecendo o seu valor
no SPSS na interseção entre o Quadrado
médio e Nos grupos.
[4] A
regressão é uma forma de correlação que se usa com a intenção de fazer a
análise de predição (Tabachnick
& Fidell, 2007).
[5]
Segundo a revisão de Ellis (2010), alguns não consideram útil o
coeficiente de determinação, pois combina os efeitos de vários preditores. A
contribuição individual de cada preditor, ou seja, a alteração em Y quando X1
é alterado por uma unidade enquanto se controlam todos os outros preditores (X2,
X3... etc.), deve ser examinada através dos coeficientes de
correlação parcial (Hair, Black,
Babin, & Anderson, 2009).
[6] O R-quadrado ajustado adequa-se também às
análises em que as amostras são pequenas (P. D. Ellis,
2010; Ialongo,
2016; Pallant,
2011).
[7]
Deve-se notar que muitas destas estimativas de teste exigem distribuição normal
das observações e homocedasticidade (variações iguais para os grupos que estão
sendo comparados). Caso isso não aconteça, o poder estatístico dos testes cai,
e a deteção de efeitos torna-se mais difícil (P. D. Ellis, 2010). Existem métodos estatísticos
alternativos para a violação daqueles pressupostos (Erceg-Hurn
& Mirosevich, 2008; Keselman, Algina, Lix, Wilcox, & Deering,
2008)
e TDEs igualmente robustos, como por exemplo, a probabilidade de superioridade
ou TDE em Linguagem Comum (ver revisão em Espirito-Santo & Daniel (2015).
[8] As
variáveis postiças ou dummy são variáveis
nominais (e.g., sexo, religião) que são transformadas em numéricas (e.g., sexo
masculino = 0 e sexo feminino = 1) (Cohen, 1992).
[9] As
variáveis independentes foram selecionadas com propósitos pedagógicos, não
existindo preocupação em comprovar hipóteses previamente estabelecidas.
[10] A
regressão logística é uma combinação de regressão múltipla (uma ou mais
variáveis X predizem uma única Y) e de análise discriminante (variável Y
não-métrica). Distingue-se da análise discriminante porque pode incluir
variáveis X métricas e não métricas e não exige normalidade multivariada. Se a
variável Y tiver mais de dois níveis, a análise discriminante pode ser mais
indicada (Hair et al.,
2009).
[11] O
logit é o logaritmo das chances (Hair et al.,
2009).
Considere-se que cada sujeito tem a probabilidade Pi de ter uma característica. Assim, a variável
dependente assume os valores de 0 e de 1 e as chances são o rácio de Pi com 1-Pi. A transformação logit consiste no logaritmo das
chances de ter a característica [Li
= log [Pi / (1 - Pi)] (Pampel, 2000). No SPSS, o logit Li é igual ao beta da
constante mais o beta da variável independente vezes X. Os odds ratio ou razão das chances encontram-se em Exp(B).
[12]
Essa inflação decorre do princípio da maximização matemática usado no cálculo
dos modelos lineares gerais que explica que qualquer variação nos dados —
devida aos efeitos naturais na população ou peculiaridades da amostra — será
considerada quando se estimarem os efeitos (P. D. Ellis,
2010).
Cada amostra é única e a sua unicidade impede a replicação. A unicidade das
amostras ou erro de amostragem correlaciona-se positivamente com o número de
variáveis independentes
e negativamente com o tamanho da amostra (Thompson,
2002).
De onde resulta que a inflação atribuível ao erro de amostragem é maior quando
o tamanho e os efeitos das amostras são pequenos e quando o número de variáveis
no modelo é alto (Vacha-Haase &
Thompson, 2004).
[13] Os fatores não-manipulados são as variáveis
que o investigador não controla (e.g., pertença ou não a grupo de fumadores
para determinar o efeito do fumar na saúde pulmonar). Os fatores
não-manipulados são típicos dos estudos não experimentais. Fatores ou variáveis
manipuladas são aqueles que o investigador controla, estando relativamente
seguro que irá obter um determinado efeito (e.g., efeito de uma determinada
intervenção terapêutica sobre o funcionamento cognitivo). Tipicamente, as
variáveis são manipuladas em estudos experimentais ou quase-experimentais.