Table of Contents
« 4. Některá rozdělení náhodných veličin
» 6. Vícerozměrná náhodná veličina
5. Intervalové odhady
Úvod
Z charakteristik rozptylu, polohy a vlastností jednotlivých rozdělení umíme sestavit tzv. intervaly spolehlivostiinterval spolehlivosti, tj. stanovit intervaly, ve kterých s jistou pravděpodobností budeme očekávat naměřené hodnoty $x$. Tento odhad později rozšíříme na očekávání, jak daleko od vypočtené hodnoty (získané např. vyrovnáním) může být hodnota pravá $X$. Interval spolehlivosti se obvykle vyjadřuje ve tvaru:
$$ P\left(X-t\cdot {\overline{m}}_x<x<X+\ t\cdot {\overline{m}}_x\right)=1-\alpha , $$
kde násobek $t$ je v souvislosti s hladinou významnosti $\alpha $ podle vzorců normálního rozdělení a vztah je pro naše potřeby tabelován. Např. pro nejpoužívanější $t=2,5$ je $\alpha =0,01$ a znamená to, že s pravděpodobností 0,99 se naměřená hodnota pohybuje od pravé hodnoty až do vzdálenosti $2,5\cdot \overline{m}$. Čili teoreticky jen 1% výsledků měření (či výpočtů) by mělo překročit tyto meze, což bereme jako velmi nepravděpodobné (i když možné) a tyto výsledky již neuvažujeme. V dalším rozebereme některé tyto skutečnosti podrobněji.
Bodový odhad
Bodový odhad spočívá v nahrazení neznámé hodnoty parametru rozdělení nebo jeho funkce hodnotou výběrové charakteristiky nebo výběrové funkce. Hlavní úlohou teorie bodového odhadu je určení vhodné charakteristiky pro tento účel.
Nahradíme-li neznámý parametr $\Theta $ výběrovou hodnotou nějaké charakteristiky $\tau $, pak rozdíl $\tau -\Theta $ je výběrová chyba odhadu $\tau $. Z hlediska pravděpodobnosti je tento rozdíl náhodnou veličinou a pro hodnocení kvality odhadu je potřeba studovat její rozdělení (zejména střední hodnotu a varianci). Charakteristiku $\tau $ považujeme za tzv. konsistentní (vhodný) odhad tehdy, jestliže platí o její pravděpodobnosti
$$ {\mathop{\lim }_{n\to \infty } P\left\{\left(\tau {\rm -}\Theta \right){\rm <}\varepsilon \right\}\ }{\rm =1}, $$
kde $n$ je rozsah výběru a $\varepsilon $ libovolně malé číslo.
Charakteristika, pro kterou platí $E(\tau )=\Theta $ se nazývá nestranným (nevychýleným) odhadem. Při nestranném odhadu nedochází k systematickému nadhodnocování nebo podhodnocování hodnoty parametru, protože střední hodnota výběrové chyby $\tau -\Theta $ je nulová $E(\tau -\Theta )=0$.
Sledujeme-li u některých charakteristik, které jsou nestranným odhadem parametru $\Theta $, jak se jejich hodnoty kumulují kolem $\Theta $, vyšetřujeme tzv. vydatnost odhadu. Vydatnost odhadu měříme variancí $V(\tau )$, přičemž za lepší (vydatnější) považujeme tu charakteristiku, která má menší varianci.
Jelikož výběrová chyba kolísá případ od případu, můžeme přesnost odhadu vyjádřit tak, že určíme její „střední“ velikost. Běžně užívanou mírou je střední chyba odhadu
$$ \sqrt{E{\left(\tau -\Theta \right)}^2}, $$
kterou je vhodné pro získání představy o přesnosti uvést u výsledku bodového odhadu.
Intervalový odhad
Intervalový odhad je založen na vytvoření intervalu, ve kterém s jistou zvolenou pravděpodobností můžeme očekávat hodnotu neznámého parametru $\Theta $. Interval od ${\tau }_1$ do ${\tau }_2$ nazveme $100\cdot (1-\alpha )$ procentním intervalem spolehlivosti parametru $\Theta $, pokud platí:
$$ P\left({\tau }_1<\Theta <{\tau }_2\right)=1-\alpha . $$
Číslo $(1-\alpha )$ pro $0<\alpha <1$ se nazývá koeficient spolehlivosti a $\alpha $ se nazývá hladina významnosti nebo riziko. Volíme-li koeficient spolehlivosti blízký jedné (většinou 0,95 nebo 0,99), lze s touto velkou pravděpodobností očekávat, že náhodný interval $({\tau }_1,{\tau }_2)$ obsahuje bod $\Theta $. Jsou-li udány obě hranice intervalu, mluvíme o oboustranném intervalu, je-li dána pouze horní nebo dolní hranice, mluvíme o jednostranném intervalu spolehlivosti.
Konstrukce intervalů spolehlivosti
Jak jsme se již zmínili, interval spolehlivosti může být:
- oboustranný - hladinu významnosti $\alpha $ rozdělíme na dvě části $\alpha =p_1+p_2$ a určíme dolní mez intervalu ${\tau }_1$ pro pravděpodobnost $p_1$ a horní mez intervalu ${\tau }_2$ pro pravděpodobnost $p_2$ - viz Obr. 1. Interval obsahuje neznámou hodnotu parametru s pravděpodobností $P=1-(p_1+p_2)$; a při symetrickém intervalu $p_1=p_2=p$ s pravděpodobností $P=1-2\cdot p$;
- jednostranný - hodnota $\alpha $ je přímo $p$, určíme dolní mez ${\tau }_1$ nebo horní mez ${\tau }_2$, druhou mez předpokládáme v nekonečnu. Interval obsahuje neznámou hodnotu parametru základního souboru $\Theta $ s pravděpodobností $P=1-p$. Obě situace názorně odlišuje Obr. 1.
Intervaly spolehlivosti pro parametry normálního rozdělení
Interval spolehlivosti pro střední hodnotu základního souboru
Mějme náhodný výběr ${\mathbf x}={\left(x_1,x_2,...,x_n\right)}^T$ z rozdělení $N(X;{\sigma }^2)$. Odlišíme případ, kdy známe a kdy neznáme varianci ${\sigma }^2$.
Uvažujme případ, kdy známe ${\sigma }^2$ a hledáme interval spolehlivosti pro parametr $X$. Nestranným odhadem parametru $X$ je výběrový průměr
$$\overline{x}=\frac{1}{n}\sum^n_{i=1}{x_i} ;$$
vytvoříme funkci
$$\lambda =\frac{\overline{x}-X}{\sigma }\sqrt{n} ,$$
který má rozdělení $N(0;1)$, tj. rozdělení, nezávislé na neznámém parametru $X$. Pro daná $p_1$ a $p_2$, $p_1+p_2=\alpha $ najdeme z tabulek normálního rozdělení $N(0;1)$ hodnoty: $-t_{p_1}$ a $t_{p_2}$, které použijeme pro rovnici
$$ P\left(-t_{p_1}<\frac{\overline{x}-X}{\sigma }\sqrt{n}<t_{p_2}\right)=1-\alpha . $$
Po úpravě nerovnosti na levé straně rovnice bude $100\cdot (1-\alpha )$ procentní interval spolehlivosti pro parametr $X$
$$ \overline{x}-t_{p2}\frac{\sigma }{\sqrt{n}}<X<\overline{x}+t_{p1}\frac{\sigma }{\sqrt{n}} . $$
V případě $p_1=0$ a $p_2=\alpha $ dostáváme jednostranný (levostranný) interval spolehlivosti
$$ X>\overline{x}-t_{\alpha }\frac{\sigma }{\sqrt{n}} $$
a v případě $p_1=\alpha $ a $p_2=0$ dostáváme jednostranný (pravostranný) interval spolehlivosti
$$ X<\overline{x}+t_{\alpha }\frac{\sigma }{\sqrt{n}} . $$
V případě, že neznáme ${\sigma }^2$ a hledáme interval spolehlivosti pro neznámý parametr $X$, bude opět nestranným odhadem parametru $X$ výběrový průměr $\overline{x}$, vytvoříme ale funkci
$$ {\lambda }'=\frac{\overline{x}-X}{m}\sqrt{n} , $$
kde $m$ je výběrová střední chyba; veličina $\lambda '$ má pak Studentovo $t$-rozdělení $t(n')$, kde $n'$ je počet stupňů volnosti střední chyby $m$. Další postup je obdobný jako v případě známého ${\sigma }^2$. Pro daná $p_1$ a $p_2$ při $p_1+p_2=\alpha $ můžeme vytvořit tyto $100\cdot (1-\alpha )$ procentní intervaly spolehlivosti:
- oboustranný
$$ \overline{x}-t_{p_2}\frac{m}{\sqrt{n}}<X<\overline{x}+t_{p_1}\frac{m}{\sqrt{n}} , $$
- levostranný při $p_1=0$ a $p_2=\alpha $
$$ X>\overline{x}-t_{\alpha }\frac{m}{\sqrt{n}} , $$
- pravostranný při $p_1=\alpha $ a $p_2=0$
$$ X<\overline{x}+t_{\alpha }\frac{m}{\sqrt{n}} , $$
kde hodnoty $t_{p_1}$, $t_{p_2}$, nebo $t_{\alpha }$ vyhledáme z tabulek Studentova rozdělení.
- Poznámka: Pro $n'>30$ lze přibližně nahradit Studentovo rozdělení normálním rozdělením $N(0;1)$, takže při splnění podmínky $n'>30$ lze hodnoty $t_{p_1}$, $t_{p_2}$, nebo $t_{\alpha }$ vyhledat z tabulek normálního rozdělení $N(0;1)$.
Interval spolehlivosti pro varianci základního souboru
Mějme náhodný výběr ${\mathbf x}{\mathbf \ }=\ {\left(x_1,x_2,...,\ x_n\right)}^T$ z rozdělení $N(X;{\sigma }^2)$. Odlišíme případ, kdy známe a kdy neznáme střední hodnotu $E(x)=X$.
Uvažujme případ, kdy známe $X$ a hledáme interval spolehlivosti pro parametr ${\sigma }^2$. Nejlepším nestranným odhadem parametru je ${\sigma }^2$je charakteristika
$$ s^2=\frac{1}{n}\sum^n_{i=1}{{\left(X-x_i\right)}^2}, $$
Protože veličina
$$ {\chi }^2=\frac{n\ s^2}{{\sigma }^2}, $$
má ${\chi }^2$-rozdělení ${\chi }^2(n)$, platí rovnice
$$ P\left\{{\chi }^2_{1-p_1}\left(n\right)<\frac{n\ s^2}{{\sigma }^2}<{\chi }^2_{p_2}\left(n\right)\right\}=1-\alpha , $$
kde ${\chi }^2_{1-p_1}\left(n\right)$ a ${\chi }^2_{p_2}\left(n\right)$ jsou kritické hodnoty rozdělení ${\chi }^2\left(n\right)$ vyhledané v tabulkách pro hodnoty $(1\ -\ p_1)$ a $p_2$, kde $p_1+p_2=\alpha $.
Je tedy $100\cdot (1-\alpha )$ procentním intervalem spolehlivosti pro parametr ${\sigma }^2$ interval
$$ \frac{n\ s^2}{{\chi }^2_{p_2}\left(n\right)}<{\sigma }^2<\frac{n\ s^2}{{\chi }^2_{1-p_1}\left(n\right)} $$
a $100\cdot (1-\alpha )$ procentním intervalem spolehlivosti pro střední kvadratickou odchylku interval
$$ \sqrt{\frac{n\ s^2}{{\chi }^2_{p_2}\left(n\right)}}<\sigma <\sqrt{\frac{n\ s^2}{{\chi }^2_{1-p_1}\left(n\right)}}. $$
Z uvedených vzorců pro oboustranný interval spolehlivosti se dostanou vzorce pro jednostranné intervaly tak, že položíme
- při levostranném intervalu $p_1=0$ a $p_2=\alpha $,
- při pravostranném intervalu $p_1=\alpha $ a $p_2=0$.
V případě, že neznáme $X$ a hledáme interval spolehlivosti pro parametr ${\sigma }^2$, je nejlepším nestranným odhadem charakteristika
$$ m^2=\frac{1}{n'}\sum^n_{i=1}{{\left(\overline{x}-x_i\right)}^2}. $$
Protože veličina
$$ {\chi }^2=\frac{n'\cdot \ m^2}{{\sigma }^2} $$
má ${\chi }^2$ rozdělení ${\chi }^2\left(n'\right)$, kde $n'$ je počet stupňů volnosti $m^2$, dostaneme obdobnou úvahou jako u známého $X$ $100\cdot (1-\alpha )$ procentní interval spolehlivosti pro parametr ${\sigma }^2$
$$ \frac{n{\rm '\ }m^{{\rm 2}}}{{\chi }^{{\rm 2}}_{p{\rm 2}}\left(n{\rm '}\right)}{\rm <}{\sigma }^{{\rm 2}}{\rm <}\frac{n{\rm '\ }m^{{\rm 2}}}{{\chi }^{{\rm 2}}_{{\rm 1-}p{\rm 1}}\left(n{\rm '}\right)} $$
a $100\cdot (1-\alpha )$ procentní interval spolehlivosti pro střední kvadratickou odchylku
$$ \sqrt{\frac{n'\ m^2}{{\chi }^2_{p_2}\left(n'\right)}}< \sigma <\sqrt{\frac{n'\ m^2}{{\chi }^2_{1-p_1}\left(n'\right)}}, $$
Kde ${\chi }^2_{1-P_1}$ a ${\chi }^2_{P_2}$ jsou kritické hodnoty rozdělení ${\chi }^2\left(n'\right)$ a $n'=n-k$ je počet stupňů volnosti při určování $m^2$. V případě, že $\overline{x}$ určíme jako výběrový průměr, pak $n'=n-1$.
Jednostranné intervaly určíme obdobným způsobem jako při známém $X$.
« 4. Některá rozdělení náhodných veličin
» 6. Vícerozměrná náhodná veličina