che cosa si intende per popolazione? | è linsieme di individui da analizzare |
che cosa si intende per campione? | sottoinsieme di individui della popolazione che sia in qualche modo rappresentativo di quest'ultima (ovvero che non incorre in bias) |
che cosa si intende per bias di un campione? | indica un errore sistematico(comportamento) che può influenzare i risultati di un'analisi o di una ricerca |
quale è la differenza fra frequenza relativa e frequenza assoluta? | frequenza assoluta: espressa in termini di numeri assoluti (300 studenti su 2000)
frequenza relativa: si ottiene suddividendo la frequenza assoluta per il numero totale di elementi |
cosa sono gli indici di posizione?
quali sono? | sono valori numerici che forniscono informazioni su dove si concentra la distribuzione di una serie di dati.
- media aritmetica o media campionaria
- mediana campionaria
- moda |
formula della media aritmetica o media campionaria,
quale difetto presenta questa? | in base a se si vuole la frequenza di occorrenza di ogni dato o meno.
il difetto principale della media campionaria è di non essere robusta (ovvero sensibile a dati fuori scala) |
come si calcola la mediana campionaria? | una volta ordinati i dati in ordine crescente si cerca il valore centrale,
se per X(n) si intende l'elemento n nell'insieme ordinato: |
come si calcola la moda?
un difetto di questa? | la moda è semplicemente il dato con la maggiore frequenza
difetto: non ha necessariamente un valore preciso(più valori possono avere la frequenza massima) |
quali sono i principali indici di dispersione? | - Varianza campionaria
- Deviazione standard campionaria
- Coefficiente di variazione
- distanza interquantile |
quali sono i principali indici di correlazione? | - Covarianza
- Coefficiente di correlazione campionaria
- Coefficiente di correlazione di Pearson |
quali sono i principali indici di eterogeneità? | - Indice di Gini
- Indice di Gini normalizzato
- Entropia |
che cosa si intende per quantile campionario? | da wikipedia:
un quantile di ordine n (n compreso in [0,1]) è un valore qn che suddivide la popolazione ORDINATA in due parti:
- i valori minori di qn
- valori maggiori di qn |
come si calcola la varianza campionaria?
quali sono le proprietà?
quali sono i difetti? | la varianza campionaria serve a poter indicare quanto i valori del campione si discostano dalla media.
le proprietà che può rispettare la varianza campionaria sono:
- traslazione: addizione di una costante ad ogni elemento x
- scalatura: moltiplicazione di ogni elemento x
il difetto principale è il rispetto delle unità di misura dato che i dati vengono tutti elevati al quadrato |
che cosa è la deviazione standard campionaria? | deriva dalla varianza campionaria e risolve il problema dell'elevazione al quadrato dei valori: |
che cosa è il coefficiente di variazione campionario? | nasce con lo scopo di poter rendere confrontabili dati fra loro a prescindere dalle loro unità di misura,
può assumere valori compresi fra 0(quando std = 0) e > 0(dipende da quanta dispersione) per questo si ricorre alla standardizzazione della deviazione standard : |
che cosa è la covarianza campionaria? | !dato un campione bivariato!
Se il risultato `e ≥ 0 allora esiste una correlazione diretta tra i dati, indiretta se < 0 |
che cosa è il coefficiente di correlazione campionaria?
quali valori può assumere?
se i dati vengono trasformati? | facente parte degli indici di correlazione
serve a poter misurare la forza e la direzione della relazione che intercorre fra due variabili.
proprietà:
- può assumere valori compresi fra 1 e -1, un valore 0 indica l'assenza di correlazione.(dimostrazione)
- non cambia se sommiamo costanti o moltiplichiamo per costanti (è indipendente dalle unità di misura) |
che cosa è il coefficiente di Pearson? | è un coefficiente che serve a stabilire la correlazione fra due variabili quantitative.
si calcola con la formula: |
quale è la differenza fra quantile teorico e quantile empirico?
quando vengono utilizzati entrambi? | quantile teorico: è un valore fisso e definito per una specifica distribuzione di probabilità
quantile empirico: è una stima del quantile teorico basato su campioni di dati reali
Vengono utilizzati contemporaneamente nei diagrammi qqplot: |
che cosa è l'indice di Gini? | è un indice che viene utilizzato per misurare l'eterogeneità di un insieme.
questo è compreso fra 0 e 1
- 0 eterogeneità minima (elementi uguali)
- 1 eterogeneità massima |
che cosa è l'indice di Gini normalizzato?
in quali casi è utile utilizzarlo? | è la normalizzazione dell'indice di Gini che conosciamo.
- ha degli estremi affidabili -> 0 <= I' <= 1
- la sua utilità si trova quando confrontiamo distribuzioni con scale differenti (es voti 1-10 e voti 1-5) |
perchè ha senso dividere la deviazione standard per il valore assoluto della media campionaria(nel coefficiente di variazione) ? | se voglio fare un confronto fra la variazione di due campioni che hanno due medie diverse si può fare in maniera più corretta.
In più si tratterà di valori adimensionali quindi indipendenti dall'unità di misura |
per avere una alta omogeneità devo avere più copie di uno stesso elemento, per avere una alta eterogeneità devo avere elementi tutti differenti? | no, devo avere un numero pari di occorrenza di elementi diversi, per esempio l'insieme {X,X,O,O} è eterogeneo |
dimostra perchè l'indice di Gini è 0<= I <1 | applicando la formula in due casi |
come si calcola l'entropia?
quali valori può assumere ?
si può normalizzare? | l'entropia assume valori: 0 < H <= Log(K) si calcola con due possibili formule: l'entropia normalizzata si calcola con: |
quali sono le possibili trasformazioni dei dati? | - traslazione v → v′ = v + k
- contrazione / dilatazione v → v′ = v / h (h < 1 dilatazione)
- standardizzazione g(v) -> (v - media camp.(v)) / deviazione stand.(v)
- trasformazione logaritmica. v → v′ = log v |
cosa si intende per classificatore binario? | un classificatore capace di classificare in due sole classi |
come si calcola l'accuratezza di un classificatore? | volte in cui ci azzecca / volte totali
oppure(vero positivo + vero negativo / totali positivi + totali negativi) |
come si calcola la sensibilità di un classificatore?
e la specificità ? | - sensibillità:
veri positivi / veri positivi + falsi positivi (totale delle volte in cui ho sbagliato un positivo)
- specificità:
veri negativi / veri negativi + falsi negativi |
quali sono i vari tipi di classificatori binari?
dove si posizionano fra di loro? | - Costante positivo
- Costante negativo
- Classificatore ideale
- Classificatore sbagliato
- Classificatore casuale |
come si relazionano i vari classificatori binari? | . |
come si stabilisce se un classificatore binario è migliore o peggiore di un altro? | si prende di riferimento la curva ROC di quest'ultimo e si compara l'area sottesa (AUC) fra i due classificatori, quello con l'area maggiore è migliore |
A cosa serve ANOVA? | serve per esprimere con migliori garanzie un confronto fra 2 o piu' gruppi (rispetto al confronto semplice di medie) |
quali sono le definizioni essenziali in ANOVA? | SSt = sum square total
SSw = sum square within
SSb = sum square between
inoltre SSt = SSw + SSb |
fai un esempio reale in cui si evince il significato di varianza? | in questo caso la varianza(ovvero la dispersione rispetto al valore medio) è maggiore nell'insieme B |
come mai la varianza è elevata al quadrato? | per poter disambiguare valori negativi e positivi nella somma |
quali tipi di dati esistono? | - quantitativi: misurano una quantità numerica associata a un fenomeno
- qualitativi: descrivono le caratteristiche o gli attributi di un fenomeno, senza utilizzare numeri |
che cosa è la curva di Lorenz? | la curva di Lorenz è la curva generata dai valori dell'indice di Gini su diverse percentuali della popolazione(asse x).
Di solito questa curva viene paragonata alla bisettrice del grafico, l'area risultante dalla differenza fra le due indica il valore dell'indice di gini |
Sappiamo che il 28% degli americani fuma le sigarette (E) e che il 7% fuma i sigari (F). Il 5% degli americani invece, fuma sia sigarette che sigari (E ∩ F ). Qual è la percenutale di non fumatori? | 4.2.3 : |
Avendo una confezione di 40 pennarelli di cui 5 guasti, 10 difettosi e 25 accettabili, dopo averli mescolati, mi chiedo qual è la probabilità che ne abbia pescato uno accettabile dato che so di averne pescato uno non guasto? | 4.3.1: |
dimostra che se E e F sono indipendenti allora E ed F(complementare) sono indipendenti | 4.3.6/1) modificando la definizione di eventi indipendenti si ottiene:
P(E ∩ F) = P(E) * P(F) allora si può dedurre: |
che cosa si intende per quantile campionario? | per quantile campionario di livello q [0,1] si intende il valore del campione >= di almeno il 100 * q% dei dati e <= del 100 *q% dei dati |
quale è la differenza fra tipi di dati categorici, ordinali, scalari? | categorici: dati che non seguono un determinato ordine ma possono essere suddivisi in categorie (es colori)
ordinali : i dati possono essere categorizzati e le categorie possono essere ordinate ma non i dati (es titolo di istruzione)
scalari: intervalli ordinati (es numeri) |
che cosa si intende per distanza interquartile?
che cosa significa che un dato ha una distanza interquartile più alta o più bassa? | si intende la differenza dei valori del primo e del terzo quartile campionario (rappresenta il range entro il quale si trova il 50% centrale dei dati).
una distanza interquartile alta indica una maggiore dispersione dei dati, al contrario una bassa indica una più alta concentrazione |
la varianza e la distanza interquartile sono la stessa cosa? | (distanza interquartile = rappresenta il range entro il quale si trova il 50% centrale dei dati)
sebbene indichino entrambi la dispersione dei dati, la varianza è sensibile a eventuali valori outlier mentre la distanza interquartile no |
che calcoli devo fare se volessi che X* sia la standardizzazione di X ?
che cosa comporta la standardizzazione alla media, alla deviazione standard e alla varianza? | X* = (x - media(X)) / dev.std(X)
questo comporta:
- la media = 0
- la varianza = 1
- la dev. standard = 1 |
quale è un caso pratico degli indici di eterogeneità? | per la realizzazione di processi di decisione più complessi come per esempio gli alberi di decisione consentono (tramite gli indici di eterogeneità).
in particolare una domanda viene scelta in base a quanto i due gruppi in cui suddivide il dataset sono omogenei ! |