Popolazione generale e campione. Popolazioni generali e campionarie. Metodo di campionamento

100 rubli bonus primo ordine

Scegli il tipo di lavoro Lavoro laureato Lavoro del corso Estratto Tesi di laurea Relazione sulla pratica Articolo Relazione Recensione Test Monografia Risoluzione dei problemi Piano aziendale Risposte alle domande lavoro creativo Saggio Disegno Saggi Traduzione Presentazioni Battitura Altro Aumentare l'unicità del testo Tesi di dottorato Lavoro di laboratorio Aiuto in linea

Chiedi un prezzo

La popolazione generale è l'intero insieme statistico di oggetti e/o fenomeni studiati con il metodo del campionamento vita pubblica aventi caratteristiche qualitative o variabili quantitative comuni.

Il numero totale di oggetti di osservazione (persone, famiglie, imprese, insediamenti ecc.), che presentano un certo insieme di caratteristiche (sesso, età, reddito, numero, fatturato, ecc.), limitate nello spazio e nel tempo. Esempi di popolazioni:
- Tutti i residenti di Mosca (10,6 milioni di persone secondo il censimento del 2002)
- Uomini moscoviti (4,9 milioni di persone secondo il censimento del 2002)
- Persone giuridiche Russia (2,2 milioni all'inizio del 2005)
- Punti vendita di prodotti alimentari (20 mila a inizio 2008), ecc.

La corretta definizione di G.S. e le sue caratteristiche sono estremamente importanti per la scelta del disegno di ricerca - una strategia per la costruzione di un campione rappresentativo ( cm.). Le caratteristiche più importanti G.S. sono la sua portata e la disponibilità di elementi da definire.

Dal punto di vista del volume, è consuetudine individuare G.S. finito e infinito. Questa divisione è puramente tecnica, è dovuta alle peculiarità delle procedure per la stima del volume e degli errori di un campione rappresentativo probabilistico (casuale). G.S. sono considerati definitivi, il cui numero è paragonabile alla dimensione del campione. Se la dimensione del campione supera una piccola percentuale della popolazione F.S., l'errore di campionamento deve essere stimato aggiustando per la dimensione F.S.

Vengono chiamati G.S. infiniti, il cui volume, rispetto al volume di un campione casuale rappresentativo, è sproporzionatamente grande. A rigor di termini, tutti i G.S. nelle scienze sociali sono finite (anche se il loro numero è di diversi miliardi), ma in pratica G.S. può essere considerato infinito se la dimensione del campione, fornendo un livello di errore accettabile, non supera l'1-2% del suo numero. A volte il concetto di infinito è associato direttamente al volume di G.S., ad esempio più di centomila oggetti.

G.S., la cui appartenenza è ovvia o facilmente stabilita, sono chiamati specifici. Per specifiche G.S. è facile determinare il volume e ottenere relativamente lista completa dei loro elementi - il quadro di campionamento (cfr. Base di campionamento). Ad esempio, nella tabella degli indirizzi è possibile ottenere un elenco di residenti adulti della città e elenchi di studenti grande città- nelle università. Se un particolare G.S. è molto grande (ad esempio, la popolazione di un paese), è possibile ottenere elenchi per tutti i suoi parti strutturali. Costruzione di un campione rappresentativo di casuali ( cm.) per specifiche G.S. tecnicamente sempre possibile; possono sorgere problemi per mancanza di tempo, di personale qualificato o di risorse materiali.

G.S., la cui appartenenza può essere stabilita solo a seguito di procedure mirate o studi speciali, sono detti ipotetici. A tale G.S. includere, ad esempio, QMS audience (non puoi sapere se una persona ha visto un determinato spot a meno che tu non glielo chieda), fan di certi tipi pesci d'acquario, esperti su un problema ristretto, ecc. Per determinare il volume di alcuni ipotetici G.S. sono necessari anche studi speciali. La possibilità di costruire un campione rappresentativo di casuali ( cm.) per ipotetico G.S. il grande volume è problematico in molti casi.

PARAMETRO DELLA POPOLAZIONE- un termine statistico utilizzato per designare qualsiasi caratteristica quantitativa della popolazione generale ( cm.). Valore atteso ( cm.), varianza ( cm.), probabilità ( cm.) risposta positiva, coefficiente di correlazione tra due variabili casuali ( cm.) sono G.S.P. Caratteristiche del campione simili ( cm.) sono chiamate statistiche di campionamento ( cm.).

Campione (popolazione campione) - un insieme di casi (soggetti, oggetti, eventi, campioni), utilizzando una determinata procedura, selezionati dalla popolazione generale per la partecipazione allo studio.
Parte degli oggetti della popolazione selezionata per lo studio al fine di trarre una conclusione sull'intera popolazione. Affinché la conclusione ottenuta studiando il campione sia estesa all'intera popolazione, il campione deve avere la proprietà di essere rappresentativo.

Caratteristiche del campione:

Caratteristiche qualitative del campione: chi esattamente scegliamo e quali metodi di costruzione del campione utilizziamo per questo.

La caratteristica quantitativa del campione è quanti casi selezioniamo, in altre parole, la dimensione del campione.

Misura di prova— il numero di casi inclusi nel campione. Per ragioni statistiche, si raccomanda che il numero di casi sia almeno 30-35.

Un insieme di oggetti omogenei viene spesso esaminato in relazione a qualche caratteristica che li caratterizza, misurata quantitativamente o qualitativamente.

Ad esempio, se è presente un lotto di parti, la dimensione della parte secondo GOST può essere un segno quantitativo e la standardità della parte può essere un segno di qualità.

Se necessario, vengono controllati per la conformità agli standard, a volte ricorrono a un sondaggio completo, ma in pratica questo viene utilizzato raramente. Ad esempio, se la popolazione generale contiene un numero enorme di oggetti studiati, è praticamente impossibile condurre un'indagine continua. In questo caso, un certo numero di oggetti (elementi) viene selezionato dall'intera popolazione e viene esaminato. Quindi, c'è una popolazione generale e campione.

Il nome generale è la totalità di tutti gli oggetti che sono soggetti a esame o studio. La popolazione generale, di regola, contiene un numero finito di elementi, ma se è troppo grande, per semplificare i calcoli matematici si presume che l'intera popolazione sia costituita da un numero innumerevole di oggetti.

Un campione o una popolazione campione è una parte degli elementi selezionati dall'intera popolazione. Il campionamento può essere ripetuto o non ripetuto. Nel primo caso viene restituito alla popolazione generale, nel secondo no. In pratica, viene utilizzata più spesso la selezione casuale non ripetitiva.

La popolazione e il campione devono essere correlati tra loro per rappresentatività. In altre parole, affinché le caratteristiche della popolazione campione possano determinare con sicurezza le caratteristiche dell'intera popolazione, è necessario che gli elementi del campione le rappresentino nel modo più accurato possibile. In altre parole, il campione deve essere rappresentativo (rappresentativo).

Il campione sarà più o meno rappresentativo se estratto a caso da molto un largo numero l'intero aggregato. Ciò può essere sostenuto sulla base della cosiddetta legge dei grandi numeri. In questo caso, tutti gli elementi hanno la stessa probabilità di essere inclusi nel campione.

Disponibile varie opzioni selezione. Tutti questi metodi, in linea di principio, possono essere suddivisi in due opzioni:

Opzione 1. Gli elementi vengono selezionati quando la popolazione non è divisa in parti. Questa variante include semplici selezioni casuali ripetute e non ripetute.
Opzione 2. La popolazione generale è divisa in parti e viene effettuata la selezione degli elementi. Questi includono selezioni tipiche, meccaniche e seriali.

Casuale semplice - selezione in cui gli elementi vengono estratti uno alla volta dall'intera popolazione in modo casuale.

Tipica è una selezione in cui gli elementi vengono selezionati non dall'intera popolazione, ma da tutte le sue parti "tipiche".

Meccanico: questa è una tale selezione, quando l'intera popolazione è divisa nel numero di gruppi, uguale al numero elementi che dovrebbero essere nel campione e, di conseguenza, viene selezionato un elemento da ciascun gruppo. Ad esempio, se è necessario selezionare il 25% delle parti prodotte dalla macchina, viene selezionata una parte su quattro e se è richiesto il 4% delle parti, viene selezionata una parte su venticinque e così via. Allo stesso tempo, va detto che a volte la selezione meccanica può non essere sufficiente

seriale - questa è una tale selezione in cui gli elementi vengono selezionati dall'intera popolazione in "serie" sottoposti a continue ricerche, e non uno alla volta. Ad esempio, quando le parti vengono prodotte da un gran numero di macchine automatiche, viene eseguito un sondaggio completo solo in relazione ai prodotti di più macchine. La selezione seriale viene utilizzata se il tratto in esame ha poca variabilità in serie diverse.

Per ridurre l'errore, vengono utilizzate stime della popolazione generale con l'ausilio di un campione. Inoltre, il controllo selettivo può essere sia monostadio che multistadio, il che aumenta l'affidabilità del sondaggio.

Popolazione

La popolazione statistica è costituita da oggetti materialmente esistenti (dipendenti, imprese, paesi, regioni), è un oggetto ricerca statistica. Popolazione- un insieme di unità che presentano carattere di massa, tipicità, uniformità qualitativa e presenza di variazione.

Unità di popolazione- ciascuna unità specifica della popolazione statistica.

La stessa popolazione statistica può essere omogenea in una caratteristica ed eterogenea in un'altra.

Uniformità qualitativa- la somiglianza di tutte le unità della popolazione su qualsiasi base e la dissomiglianza su tutto il resto.

In una popolazione statistica, le differenze tra un'unità della popolazione e l'altra sono più spesso di natura quantitativa. I cambiamenti quantitativi nei valori dell'attributo di diverse unità della popolazione sono chiamati variazione.

Caratteristica Variazione- cambiamento quantitativo di un segno (per un segno quantitativo) durante la transizione da un'unità della popolazione a un'altra.

cartello- questa è una proprietà, caratteristica o altra caratteristica di unità, oggetti e fenomeni che possono essere osservati o misurati. I segni sono divisi in quantitativi e qualitativi. Viene chiamata la diversità e la variabilità del valore di una caratteristica nelle singole unità della popolazione variazione.

Le caratteristiche attributive (qualitative) non sono quantificabili (composizione della popolazione per sesso). Le caratteristiche quantitative hanno un'espressione numerica (composizione della popolazione per età).

Indice- questa è una caratteristica quantitativa e qualitativa generalizzante di qualsiasi proprietà di unità o aggregati per lo scopo in specifiche condizioni di tempo e luogo.

Segnapunti- è un insieme di indicatori che riflettono in modo completo il fenomeno oggetto di studio.

Ad esempio, considera lo stipendio:

Segno - salari
Popolazione statistica - tutti i dipendenti
Unità aggregata - ogni lavoratore
Omogeneità qualitativa - stipendio maturato
Variazione delle caratteristiche: una serie di numeri

Popolazione generale e campione da essa

La base della ricerca statistica è un insieme di dati ottenuti a seguito della misurazione di una o più caratteristiche. Insieme di oggetti realmente osservati, rappresentati statisticamente da una serie di osservazioni variabile casuale, È campionamento, e ipoteticamente esistente (pensato) - popolazione generale. La popolazione generale può essere finita (numero di osservazioni N = cost) o infinito ( N = ∞), e un campione della popolazione generale è sempre il risultato di un numero limitato di osservazioni. Viene chiamato il numero di osservazioni che compongono un campione misura di prova. Se la dimensione del campione è abbastanza grande n→∞) si considera il campione grande, altrimenti si chiama campione volume limitato. Il campione è considerato piccolo, se, quando si misura una variabile casuale unidimensionale, la dimensione del campione non supera 30 ( N<= 30 ), e quando si misurano simultaneamente diversi ( K) caratteristiche in una relazione spaziale multidimensionale N A K non eccede 10 (n/k< 10) . Le forme del campione serie di variazione se i suoi membri lo sono statistiche sugli ordini, cioè valori campione della variabile casuale X sono ordinati in ordine crescente (classificati), vengono chiamati i valori dell'attributo opzioni.

Esempio. Quasi lo stesso insieme di oggetti selezionati casualmente - le banche commerciali di un distretto amministrativo di Mosca, può essere considerato come un campione della popolazione generale di tutte le banche commerciali in questo distretto e come un campione della popolazione generale di tutte le banche commerciali di Mosca , nonché un campione di banche commerciali nel paese e così via.

Metodi di campionamento di base

L'affidabilità delle conclusioni statistiche e l'interpretazione significativa dei risultati dipende da rappresentatività campioni, ad es. completezza e adeguatezza della presentazione delle proprietà della popolazione generale, rispetto alle quali tale campione può ritenersi rappresentativo. Lo studio delle proprietà statistiche della popolazione può essere organizzato in due modi: utilizzando continuo E osservazione incoerente. Osservazione continua comprende l'esame di tutto unità studiato aggregati, UN osservazione non continua (selettiva).- solo parti di esso.

Esistono cinque modi principali per organizzare il campionamento:

1. selezione casuale semplice, in cui gli oggetti vengono selezionati casualmente dalla popolazione generale di oggetti (ad esempio, utilizzando una tabella o un generatore di numeri casuali) e ciascuno dei possibili campioni ha una probabilità uguale. Tali campioni sono chiamati effettivamente casuale;

2. semplice selezione attraverso una procedura regolare viene effettuata utilizzando un componente meccanico (ad esempio, date, giorni della settimana, numeri di appartamento, lettere dell'alfabeto, ecc.) e i campioni così ottenuti sono denominati meccanico;

3. stratificato la selezione consiste nel fatto che la popolazione generale di volume è suddivisa in sottoinsiemi o strati (strata) di volume in modo che . Gli strati sono oggetti omogenei in termini di caratteristiche statistiche (ad esempio, la popolazione è suddivisa in strati per fascia di età o classe sociale; imprese - per settore). In questo caso, vengono chiamati i campioni stratificato(Altrimenti, stratificato, tipico, zonato);

4. metodi seriale selezione sono usati per formare seriale O campioni nidificati. Sono convenienti se è necessario esaminare contemporaneamente un "blocco" o una serie di oggetti (ad esempio una partita di merci, prodotti di una determinata serie o una popolazione nella divisione territoriale-amministrativa del Paese). La selezione delle serie può essere effettuata in modo casuale o meccanico. Allo stesso tempo, viene effettuato un rilevamento continuo di un determinato lotto di beni o di un'intera unità territoriale (un edificio residenziale o un quartiere);

5. combinato la selezione (a gradini) può combinare diversi metodi di selezione contemporaneamente (ad esempio, stratificato e casuale o casuale e meccanico); un tale campione è chiamato combinato.

Tipi di selezione

Di mente ci sono selezione individuale, di gruppo e combinata. A selezione individuale singole unità della popolazione generale sono selezionate nel campione, con selezione di gruppo- gruppi qualitativamente omogenei (serie) di unità, e selezione combinata comporta una combinazione del primo e del secondo tipo.

Di metodo selezione distinguere ripetuto e non ripetitivo campione.

Irripetibile chiamata selezione, in cui l'unità caduta nel campione non ritorna alla popolazione originaria e non partecipa all'ulteriore selezione; mentre il numero di unità della popolazione generale N ridotta durante il processo di selezione. A ripetuto selezione preso nel campione, l'unità dopo l'immatricolazione viene restituita alla popolazione generale e quindi conserva pari opportunità, insieme alle altre unità, di essere utilizzata nell'ulteriore procedura di selezione; mentre il numero di unità della popolazione generale N rimane invariato (il metodo è usato raramente negli studi socio-economici). Tuttavia, con un grande N (N → ∞) formule per non ripetuto selezione sono vicini a quelli per ripetuto selezione e questi ultimi sono usati quasi più spesso ( N = cost).

Le principali caratteristiche dei parametri della popolazione generale e campione

La base delle conclusioni statistiche dello studio è la distribuzione di una variabile casuale , mentre i valori osservati (x 1, x 2, ..., x n) sono chiamate realizzazioni della variabile casuale X(n - dimensione del campione). La distribuzione di una variabile casuale nella popolazione generale è teorica, di natura ideale, e il suo analogo campionario lo è empirico distribuzione. Alcune distribuzioni teoriche sono fornite analiticamente, ad es. loro opzioni determinare il valore della funzione di distribuzione in ogni punto nello spazio dei possibili valori della variabile casuale . Per un campione, quindi, è difficile, ea volte impossibile, determinare la funzione di distribuzione opzioni sono stimati da dati empirici, e poi sono sostituiti in un'espressione analitica che descrive la distribuzione teorica. In questo caso, l'ipotesi (o ipotesi) sul tipo di distribuzione può essere statisticamente corretta ed errata. Ma in ogni caso, la distribuzione empirica ricostruita dal campione caratterizza solo approssimativamente quella vera. I parametri di distribuzione più importanti sono valore atteso e dispersione.

Per loro stessa natura, le distribuzioni lo sono continuo E discreto. La distribuzione continua più nota è normale. Gli analoghi selettivi dei parametri e per esso sono: valore medio e varianza empirica. Tra i discreti negli studi socio-economici, il più comunemente usato alternativa (dicotomica) distribuzione. Il parametro di aspettativa di questa distribuzione esprime il valore relativo (o condividere) unità della popolazione che hanno la caratteristica oggetto di studio (è indicata dalla lettera ); la proporzione della popolazione che non ha questa caratteristica è indicata dalla lettera q (q = 1 - p). Anche la varianza della distribuzione alternativa ha un analogo empirico.

A seconda del tipo di distribuzione e del metodo di selezione delle unità di popolazione, le caratteristiche dei parametri di distribuzione vengono calcolate in modo diverso. Le principali per le distribuzioni teoriche ed empiriche sono riportate in Tabella. 9.1.

Quota campionaria k nè il rapporto tra il numero di unità della popolazione campione e il numero di unità della popolazione generale:

kn = n/N.

Condivisione del campione wè il rapporto tra le unità che hanno la caratteristica in esame X alla dimensione del campione N:

w = n n / n.

Esempio. In un lotto di merce contenente 1000 unità, con un campione del 5%. frazione campionaria k n in valore assoluto è di 50 unità. (n = N*0,05); se in questo campione vengono trovati 2 prodotti difettosi, allora frazione campionaria w sarà 0,04 (w = 2/50 = 0,04 o 4%).

Poiché la popolazione campione è diversa dalla popolazione generale, ci sono errori di campionamento.

Tabella 9.1 Principali parametri della popolazione generale e campione

Popolazione- un insieme di unità che presentano carattere di massa, tipicità, uniformità qualitativa e presenza di variazione.

La popolazione statistica è costituita da oggetti materialmente esistenti (dipendenti, imprese, paesi, regioni), è un oggetto.

Unità di popolazione- ciascuna unità specifica della popolazione statistica.

La stessa popolazione statistica può essere omogenea in una caratteristica ed eterogenea in un'altra.

Uniformità qualitativa- la somiglianza di tutte le unità della popolazione per ogni caratteristica e la dissomiglianza per tutto il resto.

Caratteristica Variazione- cambiamento quantitativo di un segno (per un segno quantitativo) durante la transizione da un'unità della popolazione a un'altra.

Indice- questa è una caratteristica quantitativa e qualitativa generalizzante di qualsiasi proprietà di unità o aggregati per lo scopo in specifiche condizioni di tempo e luogo.

Segnapuntiè un insieme di indicatori che riflettono in modo completo il fenomeno oggetto di studio.

Ad esempio, considera lo stipendio:

Segno - salari
Popolazione statistica - tutti i dipendenti
L'unità della popolazione è ogni lavoratore
Omogeneità qualitativa - stipendio maturato
Variazione delle caratteristiche: una serie di numeri

Popolazione generale e campione da essa

La base è un insieme di dati ottenuti come risultato della misurazione di una o più caratteristiche. L'insieme di oggetti effettivamente osservato, rappresentato statisticamente da una serie di osservazioni di una variabile casuale, è campionamento, e l'ipoteticamente esistente (pensato) - popolazione generale. La popolazione generale può essere finita (numero di osservazioni N = cost) o infinito ( N = ∞), e un campione della popolazione generale è sempre il risultato di un numero limitato di osservazioni. Viene chiamato il numero di osservazioni che compongono un campione misura di prova. Se la dimensione del campione è abbastanza grande n→∞) si considera il campione grande, altrimenti si chiama campione volume limitato. Il campione è considerato piccolo, se, quando si misura una variabile casuale unidimensionale, la dimensione del campione non supera 30 ( N<= 30 ), e quando si misurano simultaneamente diversi ( K) caratteristiche in una relazione spaziale multidimensionale N A K non eccede 10 (n/k< 10) . Le forme del campione serie di variazione se i suoi membri lo sono statistiche sugli ordini, cioè valori campione della variabile casuale X sono ordinati in ordine crescente (classificati), vengono chiamati i valori dell'attributo opzioni.

Metodi di campionamento di base

L'affidabilità delle conclusioni statistiche e l'interpretazione significativa dei risultati dipende da rappresentatività campioni, ad es. completezza e adeguatezza della presentazione delle proprietà della popolazione generale, rispetto alle quali tale campione può ritenersi rappresentativo. Lo studio delle proprietà statistiche della popolazione può essere organizzato in due modi: utilizzando continuo E discontinuo. Osservazione continua comprende l'esame di tutto unità studiato aggregati, UN osservazione non continua (selettiva).- solo parti di esso.

Esistono cinque modi principali per organizzare il campionamento:

3. stratificato la selezione consiste nel fatto che la popolazione generale di volume è suddivisa in sottoinsiemi o strati (strata) di volume in modo che . Gli strati sono oggetti omogenei in termini di caratteristiche statistiche (ad esempio, la popolazione è suddivisa in strati per fascia di età o classe sociale; imprese per settore). In questo caso, vengono chiamati i campioni stratificato(Altrimenti, stratificato, tipico, zonato);

Tipi di selezione

Di mente ci sono selezione individuale, di gruppo e combinata. A selezione individuale singole unità della popolazione generale sono selezionate nel campione, con selezione di gruppo sono gruppi qualitativamente omogenei (serie) di unità, e selezione combinata comporta una combinazione del primo e del secondo tipo.

Di metodo selezione distinguere ripetuto e non ripetitivo campione.

Le principali caratteristiche dei parametri della popolazione generale e campione

La base delle conclusioni statistiche dello studio è la distribuzione di una variabile casuale , mentre i valori osservati (x 1, x 2, ..., x n) sono chiamate realizzazioni della variabile casuale X(n è la dimensione del campione). La distribuzione di una variabile casuale nella popolazione generale è teorica, di natura ideale, e il suo analogo campionario lo è empirico distribuzione. Alcune distribuzioni teoriche sono fornite analiticamente, ad es. loro opzioni determinare il valore della funzione di distribuzione in ogni punto nello spazio dei possibili valori della variabile casuale . Per un campione, quindi, è difficile, ea volte impossibile, determinare la funzione di distribuzione opzioni sono stimati da dati empirici, e poi sono sostituiti in un'espressione analitica che descrive la distribuzione teorica. In questo caso, l'ipotesi (o ipotesi) sul tipo di distribuzione può essere statisticamente corretta ed errata. Ma in ogni caso, la distribuzione empirica ricostruita dal campione caratterizza solo approssimativamente quella vera. I parametri di distribuzione più importanti sono valore atteso e dispersione.

Quota campionaria k nè il rapporto tra il numero di unità della popolazione campione e il numero di unità della popolazione generale:

kn = n/N.

Condivisione del campione wè il rapporto tra le unità che hanno il tratto in esame X alla dimensione del campione N:

w = n n / n.

Poiché la popolazione campione è diversa dalla popolazione generale, ci sono errori di campionamento.

Tabella 9.1 Principali parametri della popolazione generale e campione

Errori di campionamento

Con qualsiasi (solido e selettivo) possono verificarsi errori di due tipi: registrazione e rappresentatività. Errori registrazione possono avere casuale E sistematico carattere. Casuale gli errori sono costituiti da molte diverse cause incontrollabili, sono di natura non intenzionale e di solito si bilanciano a vicenda (ad esempio, cambiamenti nelle letture dello strumento dovute a fluttuazioni di temperatura nella stanza).

Sistematico gli errori sono distorti, in quanto violano le regole per la selezione degli oggetti nel campione (ad esempio, deviazioni nelle misurazioni quando si modificano le impostazioni del dispositivo di misurazione).

Esempio. Per valutare lo stato sociale della popolazione in città, si prevede di esaminare il 25% delle famiglie. Se, invece, la selezione di ogni quarto appartamento si basa sul suo numero, allora c'è il pericolo di selezionare tutti gli appartamenti di una sola tipologia (ad esempio monolocali), il che introdurrà un errore sistematico e distorcerà i risultati; la scelta del numero dell'appartamento per lotto è più preferibile, poiché l'errore sarà casuale.

Errori di rappresentatività inerenti solo all'osservazione selettiva, non possono essere evitati e sorgono in conseguenza del fatto che il campione non riproduce integralmente quello generale. I valori degli indicatori ottenuti dal campione differiscono dagli indicatori degli stessi valori nella popolazione generale (o ottenuti durante l'osservazione continua).

Errore di campionamentoè la differenza tra il valore del parametro nella popolazione generale e il suo valore campionario. Per il valore medio di un attributo quantitativo, è pari a: , e per la quota (attributo alternativo) - .

Gli errori di campionamento sono inerenti solo alle osservazioni del campione. Quanto più grandi sono questi errori, tanto più la distribuzione empirica differisce da quella teorica. I parametri della distribuzione empirica e sono variabili casuali, pertanto anche gli errori di campionamento sono variabili casuali, possono assumere valori diversi per campioni diversi e quindi è consuetudine calcolare errore medio.

Errore medio di campionamentoè un valore che esprime la deviazione standard della media campionaria dall'aspettativa matematica. Questo valore, soggetto al principio della selezione casuale, dipende principalmente dalla dimensione del campione e dal grado di variazione del tratto: maggiore e minore è la variazione del tratto (quindi il valore di ), minore è il valore di l'errore medio di campionamento. Il rapporto tra le varianze della popolazione generale e quella campionaria è espresso dalla formula:

quelli. per sufficientemente grande, possiamo supporre che . L'errore medio di campionamento mostra le possibili deviazioni del parametro della popolazione campione dal parametro della popolazione generale. A tavola. 9.2 mostra le espressioni per calcolare l'errore medio di campionamento per diversi metodi di organizzazione dell'osservazione.

Tabella 9.2 Errore medio (m) della media e della proporzione del campione per diversi tipi di campione

Dove è la media delle varianze campionarie infragruppo per una caratteristica continua;

La media delle dispersioni infragruppo del titolo;

— numero di serie selezionate, — numero totale di serie;

dov'è la media della esima serie;

- la media generale sull'intero campione per una caratteristica continua;

dov'è la proporzione del tratto nell'esima serie;

— la quota totale del carattere sull'intero campione.

Tuttavia, l'entità dell'errore medio può essere giudicata solo con una certa probabilità Р (Р ≤ 1). Lyapunov A.M. dimostrato che la distribuzione delle medie campionarie, e quindi le loro deviazioni dalla media generale, con un numero sufficientemente grande, obbedisce approssimativamente alla legge della distribuzione normale, a condizione che la popolazione generale abbia una media finita e una varianza limitata.

Matematicamente, questa affermazione per la media è espressa come:

e per la frazione, l'espressione (1) assumerà la forma:

Dove - C'è errore marginale di campionamento, che è un multiplo dell'errore di campionamento medio , e il fattore di molteplicità è il criterio di Student ("fattore di confidenza"), proposto da W.S. Gosset (pseudonimo "Studente"); i valori per diverse dimensioni del campione sono memorizzati in una tabella speciale.

I valori della funzione Ф(t) per alcuni valori di t sono:

Pertanto, l'espressione (3) può essere letta come segue: con probabilità P = 0,683 (68,3%) si può sostenere che la differenza tra il campione e la media generale non supererà un valore dell'errore medio m(t=1), con probabilità P = 0,954 (95,4%)— che non superi il valore di due errori medi m (t = 2) , con probabilità P = 0,997 (99,7%)- non supererà i tre valori m (t = 3) . Pertanto, determina la probabilità che questa differenza superi tre volte il valore dell'errore medio livello di errore e non è più di 0,3% .

A tavola. 9.3 sono fornite le formule per il calcolo dell'errore marginale di campionamento.

Tabella 9.3 Errore marginale di campionamento (D) per media e proporzione (p) per diversi tipi di campionamento

Estensione dei risultati del campione alla popolazione

L'obiettivo finale dell'osservazione del campione è quello di caratterizzare la popolazione generale. Per campioni di piccole dimensioni, le stime empiriche dei parametri ( e ) possono discostarsi in modo significativo dai loro valori reali ( e ). Diventa quindi necessario stabilire i confini entro i quali giacciono i valori veri ( e ) per i valori campionari dei parametri ( e ).

Intervallo di confidenza di qualche parametro θ della popolazione generale è chiamato un intervallo casuale di valori di questo parametro, che con una probabilità vicina a 1 ( affidabilità) contiene il vero valore di questo parametro.

errore marginale campioni Δ consente di determinare i valori limite delle caratteristiche della popolazione generale e loro intervalli di confidenza, che sono pari a:

Linea di fondo intervallo di confidenza ottenuta sottraendo errore marginale dalla media campionaria (condivisione) e quella superiore aggiungendola.

Intervallo di confidenza per la media utilizza l'errore marginale di campionamento e per un dato livello di confidenza è determinato dalla formula:

Ciò significa che con una data probabilità R, che è chiamato livello di confidenza ed è determinato in modo univoco dal valore T, si può sostenere che il vero valore della media si trova nell'intervallo da , e il vero valore della quota è compreso tra

Quando si calcola l'intervallo di confidenza per i tre livelli di confidenza standard P=95%, P=99% e P=99,9% il valore è selezionato da . Applicazioni in funzione del numero di gradi di libertà. Se la dimensione del campione è abbastanza grande, i valori corrispondono a queste probabilità T sono uguali: 1,96, 2,58 E 3,29 . Pertanto, l'errore di campionamento marginale ci consente di determinare i valori marginali delle caratteristiche della popolazione generale e i loro intervalli di confidenza:

La distribuzione dei risultati dell'osservazione selettiva alla popolazione generale negli studi socioeconomici ha le sue caratteristiche, poiché richiede la completezza della rappresentatività di tutti i suoi tipi e gruppi. La base per la possibilità di una tale distribuzione è il calcolo errore relativo:

Dove Δ % - errore di campionamento marginale relativo; , .

Esistono due metodi principali per estendere un'osservazione campionaria alla popolazione: conversione diretta e metodo dei coefficienti.

Essenza conversione direttaè moltiplicare la media campionaria!!\overline(x) per la dimensione della popolazione .

Esempio. Stima il numero medio di bambini piccoli in città con un metodo di campionamento e ammonti a una persona. Se in città ci sono 1000 giovani famiglie, allora il numero di posti richiesti nell'asilo nido comunale si ottiene moltiplicando tale media per la consistenza della popolazione generale N = 1000, cioè saranno 1200 posti.

Metodo dei coefficienti si consiglia di utilizzare nel caso in cui si effettui l'osservazione selettiva per chiarire i dati dell'osservazione continua.

In tal caso, viene utilizzata la formula:

dove tutte le variabili sono la dimensione della popolazione:

Dimensione del campione richiesta

Tabella 9.4 Dimensione del campione richiesta (n) per diversi tipi di organizzazione di campionamento

Quando si pianifica un'indagine campionaria con un valore predeterminato dell'errore di campionamento ammissibile, è necessario stimare correttamente il richiesto misura di prova. Tale importo può essere determinato sulla base dell'errore ammissibile durante l'osservazione selettiva sulla base di una data probabilità che garantisca un livello di errore accettabile (tenendo conto del modo in cui è organizzata l'osservazione). Le formule per determinare la dimensione richiesta del campione n possono essere facilmente ottenute direttamente dalle formule per l'errore marginale di campionamento. Quindi, dall'espressione per l'errore marginale:

la dimensione del campione è determinata direttamente N:

Questa formula mostra che con errore di campionamento marginale decrescente Δ aumenta significativamente la dimensione del campione richiesta, che è proporzionale alla varianza e al quadrato del test t di Student.

Per un metodo specifico di organizzazione dell'osservazione, la dimensione del campione richiesta viene calcolata secondo le formule fornite in Tabella. 9.4.

Esempi pratici di calcolo

Esempio 1. Calcolo del valore medio e dell'intervallo di confidenza per una caratteristica quantitativa continua.

Per valutare la velocità di liquidazione con i creditori in banca è stato effettuato un campione casuale di 10 documenti di pagamento. I loro valori risultarono uguali (in giorni): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Richiesto con probabilità P = 0,954 determinare l'errore marginale Δ media campionaria e limiti di confidenza del tempo medio di calcolo.

Soluzione. Il valore medio è calcolato dalla formula della tabella. 9.1 per la popolazione campione

La dispersione è calcolata secondo la formula della tabella. 9.1.

L'errore quadratico medio del giorno.

L'errore della media è calcolato dalla formula:

quelli. il valore medio è x ± m = 12,0 ± 2,3 giorni.

L'affidabilità del mezzo era

L'errore limite è calcolato dalla formula della tabella. 9.3 per la riselezione, poiché la dimensione della popolazione è sconosciuta, e per P = 0,954 livello di confidenza.

Pertanto, il valore medio è `x ± D = `x ± 2m = 12,0 ± 4,6, ovvero il suo vero valore è compreso tra 7,4 e 16,6 giorni.

Uso del tavolo dello studente. L'applicazione ci permette di concludere che per n = 10 - 1 = 9 gradi di libertà il valore ottenuto è attendibile con un livello di significatività a £ 0.001, cioè il valore medio risultante è significativamente diverso da 0.

Esempio 2. Stima della probabilità (quota generale) r.

Con un metodo di campionamento meccanico di rilevamento dello stato sociale di 1000 famiglie, è stato rivelato che la percentuale di famiglie a basso reddito era w = 0,3 (30%)(il campione era 2% , cioè. n/N = 0,02). Richiesto con livello di confidenza p = 0,997 definire un indicatore R famiglie a basso reddito in tutta la regione.

Soluzione. Secondo i valori della funzione presentati F(t) trovare per un dato livello di confidenza P = 0,997 Senso t=3(vedi formula 3). Errore di quota marginale w determinare con la formula della tabella. 9.3 per il campionamento non ripetitivo (il campionamento meccanico è sempre non ripetitivo):

Limitazione dell'errore di campionamento relativo in % sarà:

La probabilità (quota generale) di famiglie a basso reddito nella regione sarà p=w±Δw, e i limiti di confidenza p sono calcolati sulla base della doppia disuguaglianza:

w — Δw ≤ p ≤ w — Δw, cioè. il vero valore di p si trova all'interno di:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Pertanto, con una probabilità di 0,997, si può sostenere che la percentuale di famiglie a basso reddito tra tutte le famiglie della regione varia dal 28,6% al 31,4%.

Esempio 3 Calcolo del valore medio e dell'intervallo di confidenza per una caratteristica discreta specificata da una serie di intervalli.

A tavola. 9.5. viene stabilita la distribuzione delle domande per la produzione di ordini in base ai tempi della loro attuazione da parte dell'impresa.

Tabella 9.5 Distribuzione delle osservazioni per tempo di accadimento

Soluzione. Il tempo medio di completamento dell'ordine è calcolato dalla formula:

Il tempo medio sarà:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 mesi

Otteniamo la stessa risposta se usiamo i dati su pi dalla penultima colonna della tabella. 9.5 utilizzando la formula:

Si noti che la metà dell'intervallo dell'ultima gradazione si trova integrandola artificialmente con l'ampiezza dell'intervallo della gradazione precedente pari a 60 - 36 = 24 mesi.

La dispersione è calcolata dalla formula

Dove x io- la metà della serie di intervalli.

Pertanto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) e l'errore standard è .

L'errore della media è calcolato dalla formula per mesi, ad es. la media è!!\overline(x) ± m = 23,1 ± 13,4.

L'errore limite è calcolato dalla formula della tabella. 9.3 per la riselezione perché la dimensione della popolazione è sconosciuta, per un livello di confidenza 0.954:

Quindi la media è:

quelli. il suo vero valore è compreso tra 0 e 50 mesi.

Esempio 4 Per determinare la velocità degli accordi con i creditori di N = 500 imprese della società in una banca commerciale, è necessario condurre uno studio selettivo utilizzando il metodo della selezione casuale non ripetitiva. Determinare la dimensione del campione richiesta n in modo che con una probabilità P = 0,954 l'errore della media campionaria non superi i 3 giorni, se le stime di prova hanno mostrato che la deviazione standard s era di 10 giorni.

Soluzione. Per determinare il numero di studi necessari n, utilizziamo la formula per la selezione non ripetitiva dalla tabella. 9.4:

In esso, il valore di t è determinato dal livello di confidenza P = 0,954. È uguale a 2. Il valore quadratico medio s = 10, la dimensione della popolazione N = 500 e l'errore marginale della media Δ x = 3. Sostituendo questi valori nella formula, otteniamo:

quelli. è sufficiente fare un campione di 41 imprese per stimare il parametro richiesto: la velocità degli accordi con i creditori.

La necessità di condurre ricerche selettive può essere causata da vari motivi:

spesso uno studio completo del fenomeno in esame è troppo costoso e lungo;

a volte l'opportunità di utilizzare le informazioni ricevute in uno studio completo può esaurirsi prima che il processo della sua preparazione sia completato;

in alcuni casi, a seguito del controllo della qualità del prodotto, l'oggetto in studio viene distrutto.

Esempio:

supponiamo che la popolazione sia costituita da tutti gli studenti della scuola (600 persone di 20 classi, 30 persone per classe). L'oggetto di studio è l'atteggiamento nei confronti del fumo.

Popolazioneè un insieme di oggetti sui quali è necessario ottenere informazioni.

La popolazione generale è costituita da tutti gli oggetti che hanno qualità, proprietà che interessano il ricercatore. A volte la popolazione generale è l'intera popolazione adulta di una determinata regione (ad esempio, quando si studia l'atteggiamento dei potenziali elettori nei confronti di un candidato), molto spesso vengono stabiliti diversi criteri che determinano gli oggetti di studio. Ad esempio, le donne di età compresa tra 10 e 89 anni che usano una certa marca di crema per le mani almeno una volta alla settimana e hanno un reddito di almeno 5.000 rubli per membro della famiglia.

Campioneè un piccolo insieme di oggetti estratti dalla popolazione generale.

Il set di campionamento è il minimo di risultati (casi, soggetti, oggetti, eventi, campioni) selezionati da una determinata procedura dalla popolazione generale, necessari per lo studio.

Esempi:

identificando la reazione dei clienti dell'azienda alle innovazioni, tutti i clienti dell'azienda rappresentano la popolazione generale. I clienti che sono stati chiamati formano un campione.

Quando si controllano società con un gran numero di transazioni, ci si deve accontentare di esaminare un numero selezionato di transazioni. Tutte le transazioni dell'azienda formano la popolazione generale, selezionata - il campione.

la popolazione generale è formata da tutti i coscritti di un certo anno.

tutte le lampade realizzate in un certo periodo in una certa impresa formano una popolazione generale. Le lampade selezionate per il controllo sono opzionali.

Il campione può essere considerato rappresentativo o non rappresentativo. Il campione sarà rappresentativo quando si esamina un ampio gruppo di persone, se all'interno di questo gruppo ci sono rappresentanti di diversi sottogruppi, solo in questo modo si possono trarre conclusioni corrette. .

Rappresentatività - la corrispondenza delle caratteristiche del campione alle caratteristiche della popolazione o della popolazione generale nel suo insieme. La rappresentatività determina quanto è possibile generalizzare i risultati dello studio con il coinvolgimento di un determinato campione all'intera popolazione da cui è stato raccolto.

La rappresentatività può anche essere definita come la proprietà di un campione di rappresentare i parametri della popolazione generale che sono significativi dal punto di vista degli obiettivi dello studio.

Esempio: un campione di 60 studenti delle scuole superiori rappresenta la popolazione molto peggio di un campione delle stesse 60 persone, che includerà 3 studenti per classe. La ragione principale di ciò è l'ineguale distribuzione dell'età nelle classi. Pertanto, nel primo caso la rappresentatività del campione è bassa e nel secondo la rappresentatività è alta (ceteris paribus) .

Compito 1. In una città di 253.000 cittadini idonei, cerca le simpatie politiche dei futuri elettori.

Soluzione

Il campione può essere costruito intervistando ogni 15 clienti che escono da un grande centro commerciale. Tale campione rifletterà l'opinione dei visitatori del centro commerciale, ma è improbabile che rappresenti il punto di vista di tutti i residenti della città.

Un altro metodo di campionamento consiste nel condurre un sondaggio telefonico su ogni centesimo abitante della città, prendendo i numeri dall'elenco telefonico. Tale campionamento sistematico fornirà informazioni sul punto di vista di un gruppo di persone che hanno un telefono, sono a casa e rispondono alle telefonate. Ma non riflette le opinioni di tutti i residenti della città.

Un altro metodo di campionamento potrebbe essere quello di intervistare i partecipanti a una manifestazione organizzata da diversi partiti politici. Tale campione fornirà informazioni sui residenti che sono attivamente coinvolti nella vita politica della città.

Quindi, abbiamo bisogno di tali metodi di campionamento che rappresenterebbero l'intera popolazione, cioè il campione dovrebbe essere rappresentativo (rappresentativo).

Compito 2. Determinare se il campione è rappresentativo:

1) il numero di incidenti stradali nel mese di giugno, se è necessario compilare un rapporto statistico sugli incidenti in città per l'anno;

2) residenti urbani nel calcolo del numero di auto pro capite nel paese;

3) persone di età compresa tra 40 e 50 anni nel determinare il rating di un programma televisivo giovanile.

Soluzione

1) Il campione non è rappresentativo. In estate non c'è neve e ghiaccio sulle strade, e questa è una delle principali cause di incidenti.

2) Il campione non è rappresentativo. È chiaro che ci sono molte più macchine in città che nelle zone rurali. Questo deve essere preso in considerazione.

3) Il campione non è rappresentativo. È improbabile che le persone di età compresa tra i 40 ei 50 anni mostrino interesse per un programma rivolto a un pubblico giovanile. Quando si utilizza un tale campione, la valutazione può diminuire in modo significativo, ma ciò non riflette il reale stato delle cose. Per formare una popolazione campione, vengono utilizzati vari metodi di selezione. I dati statistici dovrebbero essere presentati in modo tale da poter essere utilizzati.

Popolazione e parametri del campione

N è la popolazione generale, suddivisa in strati N 1 , N 2 e così via.

strati rappresentano oggetti omogenei in termini di caratteristiche statistiche (ad esempio, la popolazione è suddivisa in strati per fasce di età o ceto sociale; le imprese per settore). In questo caso i campioni sono detti stratificati.

N - dimensione del campione.

La base delle conclusioni statistiche dello studio è la distribuzione della variabile casuale X, mentre i valori osservati x 1 , x 2 , x 3 sono chiamati realizzazioni della variabile casuale x.

La distribuzione della variabile casuale X nella popolazione generale è teorica, di natura ideale, e la sua controparte campionaria è la distribuzione empirica

Per un campione, è difficile, e talvolta impossibile, determinare la funzione di distribuzione, quindi i parametri sono stimati da dati empirici e quindi sostituiti in un'espressione analitica che descrive la distribuzione teorica. In questo caso, l'ipotesi sul tipo di distribuzione può essere sia statisticamente corretta che errata.

Ma in ogni caso, la distribuzione empirica ricostruita dal campione caratterizza solo approssimativamente quella vera.

I parametri più importanti delle distribuzioni sono le aspettative matematicheUN e varianza σ2è una misura della dispersione dei dati.

Deviazione standardσ - il grado di deviazione dei dati osservativi o degli insiemi dal valore medio.

Compito 3. Mikhail, insieme ai suoi amici, ha deciso di misurare l'altezza dei loro cani (dal garrese). Trova: valore medio; deviazione della crescita

Soluzione

L'aspettativa matematica o il valore medio può essere trovato dalla formula:

Ora calcoliamo la deviazione dell'altezza di ciascun cane dall'aspettativa media o matematica, cioè calcoliamo la varianza.

La deviazione standard è solo la radice quadrata della varianza.

σ \ = 147,32

Quindi conoscendo la deviazione standard sappiamo cos'è "l'altezza normale" e cos'è un cane molto alto e molto piccolo.

Risposta: 394, 21.704; 147.32.

Compito 4. L'osservazione nel laboratorio di controllo della data di scadenza di 50 lampade elettriche della stessa potenza, prelevate a caso da un grande lotto di lampade della stessa potenza prodotte dalla fabbrica, ha portato ai seguenti dati sulla violazione della garanzia stabilitatempo di combustione:

Deviazione in H

10 piccola distribuzione, che riflette la deviazione del reale th il periodo di combustione delle lampadine dalla garanzia.

Soluzione.

Deviazione media

Pertanto, la distribuzione normale desiderata è caratterizzata dai seguenti valori dei parametri: a = 0,4;σ2 = 318; σ = 17,8.

Da qui la densità di probabilità:

La funzione di distribuzione corrispondente a questa densità sarà simile a: