SEARCH
You are in browse mode. You must login to use MEMORY

   Log in to start

statistica/python


🇮🇹
In Italian
Created:
statistica/python


Public
Created by:
federico volpe


5 / 5  (1 ratings)



» To start learning, click login

1 / 25

[Front]


che cosa si intende per popolazione?
[Back]


è linsieme di individui da analizzare

Practice Known Questions

Stay up to date with your due questions

Complete 5 questions to enable practice

Exams

Exam: Test your skills

Test your skills in exam mode

Learn New Questions

Popular in this course

Learn with flashcards

Dynamic Modes

SmartIntelligent mix of all modes
CustomUse settings to weight dynamic modes

Manual Mode [BETA]

Select your own question and answer types
Other available modes

Complete the sentence
Listening & SpellingSpelling: Type what you hear
multiple choiceMultiple choice mode
SpeakingAnswer with voice
Speaking & ListeningPractice pronunciation
TypingTyping only mode

statistica/python - Leaderboard

0 users have completed this course. Be the first!

No users have played this course yet, be the first


statistica/python - Details

Levels:

Questions:

329 questions
🇮🇹🇮🇹
Cosa succede se in una funzione di pandas che si aspetta per esempio due array inserisco un numero
Quel numero tramite il broadcasting viene replicato fino a creare un array della dimensione necessaria
Come si possono ordinare i valori di un dataframe?
Con la funzione sort_index o sort_value con la clausola by = "qualcosa o colonna"
Come creare un istogramma con lo spessore delle barre variabile? che caratteristica presenta l'altezza della singola barra?
Bisogna utilizzare il metodo .hist : <dataF.>[colonna] . hist (bins = np.hstack( np.arange(r1, r2, <spessore>), np.arange(...), ... )) il valore contenuto in un certo range non è determinato dall'altezza della barra ma dall'area sottesa dalla barra!
Che cosa è un box plot?
È una rappresentazione grafica che riassume le principali caratteristiche di un campione di dati ha due componenti principali: - una scatola con il primo e il terzo quartile campionario con un segmento identificante la mediana - due baffi che si estendono fino a raggiungere il minimo e il massimo valore osservato (lattributo wis serve per prendere in considerazione eventuali outlier) (quasto grafo non soffre per mancanza di alcuni dati)
Che cosa sono le liste in python
Una lista è una struttura dati eterogenea ed ad accesso posizionale
Cosa succede se accedo ad una lista con un valore negativo L[-1]
Al valore specificato viene aggiunta la lunghezza della lista
Differenza fra memorizzare informazioni in liste o in dizionari
La facilità di accesso va per i dizionari poichè insieme[n] è più complicato di insieme[nome] la velocità di accesso va a vantaggio delle liste poichè sono implementate come degli array consentendo così un tempo di accesso costante al contrario del tempo costante delle tabelle di hash del dizionario che possono avere collisioni
Di quali funzioni e argomenti ho bisogno per creare un dataframe con i valori normalizzati?
Funzioni: pandas.crosstab argomenti: index columns colnames normalize
Che cosa rappresenta il diagramma di pareto?
È un diagramma dove vengono unite frequanze cumulate e frequenze(in ordine non crescente)
Il metodo qqplot_2samples a che serve?
Nel caso si abbiano due campioni e si vogliano paragonare secondo una specifica caratteristica allora posso invocare il metodo che in base a come sono distribuiti i dati rispetto la bisettrice posso determinare il comportamento
A che cosa serve l'operatore "in" nelle liste?
Verifica se il valore di una espressione occorre in una posizione qualsiasi della lista
Cosa non funziona nel codice ? counts = {} for y in years: counts[y] += 1
Il primo accesso che verrebbe fatto utilizzerebbe una chiave che non esiste causado il lancio di una eccezione una possibile soluzione: counts = {} for y in years: if y in counts: counts[y] += 1 else: counts[y] = 1
Come cambiare l'ordine di un dataframe
Tramite il metodo .loc elencando gli elementi dell'indice <dataframe>.loc["A","B","C"...]
Che cosa è un diagramma Q-Q
È una rappresentazione grafica che considera due campioni al fune di valutare la validità dell'ipotesi che i capioni stessi seguano la stessa distribuzione
Nel caso si presentino delle asimmetrie nella disposizione dei dati cosa è meglio fare?
È meglio utilizzare degli indici che si basano sui quantili
Che cosa è una tupla? cosa succede se viene modificata?
È una lista immutabile, ovvero non è possibile modificarne i contenuti se si tenta di modificare una tupla allora verrà restituito un errore
A cosa si ha accesso quando si esegue from collections import defaultdict ?
Dei dizionari che non danno errore quando si accede alla cella sbagliata un dizionario si dichiara con defaultdict(tipo) dove il tipo indica il tipo delle chiavi
Se alcune barre di un grafo devono essere semi trasparenti come posso fare?
Utilizzando l'argomento alpha nel metodo .plot.bar() posso regolare la trasparenza
Cosa fare quando si vuole creare una tupla con un solo valore
Si specifica il valore fra parentesi tonde ma seguito da una virgola (es : (1,))
A che cosa servono le linee di codice con "%"?
Vengono chiamate linee magic e permettono di effettuare operazioni accessorie come per esempio l'interfacciamento con le operazioni di shell esempio: %matplotlib inline in questo caso specifica che i contenuti dei grafici debbano essere mostrati nel notebook
Che eccezione si ottiene accedendo ad un dizionario con una chiave inesistente?
Si ottiene l'errore KeyError ma solo se si accede in modalità lettura questo non succede se si accede in modalità scrittura , in tal caso viene semplicemente aggiunta la coppia chiave-valoresss
Linee di codice per leggere un file csv
Import csv //import del file with open('data/heroes.csv', 'r') as heroes_file: heroes_reader = csv.reader(heroes_file, delimiter=';', quotechar='"') //lettura iterativa heroes = list(heroes_reader)[1:] //selezione delle rige
Che cosa consente di fare l'unpacking in python?
L'unpacking in Python consente di assegnare i valori di una sequenza (come una lista o una tupla) a una serie di variabili separate, in una singola istruzione per esempio: a, b = np.array(get:sorted.counts(years)).transpose()
Linea standard per una list comprehension ?
[<fun> for <elem> in <lista>]
Come realizzare un grafico dove i dati vengono indicati da i punti?
Utilizzando il metodo plot.scatter <dataframe>. plot.scatter(<argAscisse>,<argOrdinate>)
Quale è la differenza fra le serie di pandas e le tuple o liste?
La differenza consiste nella implementazione di funzioni diverse
Cosa consente di fare la funzione xlim ?
È una funzione di matplotlib che consente di escludere eventuali valori outlier dal grafico la stessa funzione si può usare per limitare le ordinate nella modalità ylim
Quale è la differenza fra le serie di pandas e le tuple o liste?
La differenza consiste nella implementazione di funzioni diverse
Come possono essere eseguite delle query su delle serie ?
Per eseguire delle query sulle serie di pandas bisogna usare il formato: <serie>[<clausola where>]
Quale è la differenza fra le serie di pandas e le tuple o liste?
La differenza consiste nella implementazione di funzioni diverse
Come calcolare le frequenze assolute su una serie?
Con il metodo value_counts: <serie>.value_counts()
Quale è la differenza fra le serie di pandas e le tuple o liste?
La differenza consiste nella implementazione di funzioni diverse
Come si esegue una funzione di map su una serie?
Tramite il metodo apply: <serie> . apply( <funzione> ) [<range>]
Quale è la differenza fra le serie di pandas e le tuple o liste?
La differenza consiste nella implementazione di funzioni diverse
Come è possibile combinare due serie?
Utilizzando operazioni binarie come + - ... i valori di entrambe le serie saranno sommati, sottratti... facendo attenzione che l'indice dei due operandi sia uguale
Come viene creato un dataframe a partire da un file csv e come è strutturato un dataframe?
Un dataframe viene creato da un csv tramite la funzione read_csv: pandas.read_csv("percorso", sep = " ; " , index_col = 0) un dataframe è composto da - index : la prima colonna - caratteri : la prima riga - valori : i valori contenuti nella tabella
Come si effettua il list slicing?
Indicando tra parentesi quadre la posizione del primo elemento da inserire e la posizione del primo elemento da escludere, sono ammessi numeri negativi
Quale è la differenza fra dati quantitativi e qualitativi
I dati qualitativi sono suddivisi in binari(quando il valore può assumere due diversi valori) e nominali(osservazioni che possono assumere diversi valori) i dati quantitativi si suddividono in discreti(possono assumere un insieme finito di valori) e continui(insieme potenzialmente infinito di valori) possono essere confrontati a differenza dei dati qualitativi
Che cosa si intende per popolazione?
È linsieme di individui da analizzare
Che cosa si intende per campione?
Sottoinsieme di individui della popolazione che sia in qualche modo rappresentativo di quest'ultima (ovvero che non incorre in bias)
Che cosa si intende per bias di un campione?
Indica un errore sistematico(comportamento) che può influenzare i risultati di un'analisi o di una ricerca
Quale è la differenza fra frequenza relativa e frequenza assoluta?
Frequenza assoluta: espressa in termini di numeri assoluti (300 studenti su 2000) frequenza relativa: si ottiene suddividendo la frequenza assoluta per il numero totale di elementi
Cosa sono gli indici di posizione? quali sono?
Sono valori numerici che forniscono informazioni su dove si concentra la distribuzione di una serie di dati. - media aritmetica o media campionaria - mediana campionaria - moda
Formula della media aritmetica o media campionaria, quale difetto presenta questa?
In base a se si vuole la frequenza di occorrenza di ogni dato o meno. il difetto principale della media campionaria è di non essere robusta (ovvero sensibile a dati fuori scala)
Come si calcola la mediana campionaria?
Una volta ordinati i dati in ordine crescente si cerca il valore centrale, se per X(n) si intende l'elemento n nell'insieme ordinato:
Come si calcola la moda? un difetto di questa?
La moda è semplicemente il dato con la maggiore frequenza difetto: non ha necessariamente un valore preciso(più valori possono avere la frequenza massima)
Quali sono i principali indici di dispersione?
- Varianza campionaria - Deviazione standard campionaria - Coefficiente di variazione - distanza interquantile
Quali sono i principali indici di correlazione?
- Covarianza - Coefficiente di correlazione campionaria - Coefficiente di correlazione di Pearson
Quali sono i principali indici di eterogeneità?
- Indice di Gini - Indice di Gini normalizzato - Entropia
Quali sono le possibili trasformazioni lineari?
- Traslazione - Contrazione e dilatazione - Standardizzazione - Trasformazione Logaritmica
Che cosa si intende per quantile campionario?
Da wikipedia: un quantile di ordine n (n compreso in [0,1]) è un valore qn che suddivide la popolazione ORDINATA in due parti: - i valori minori di qn - valori maggiori di qn
Come si calcola la varianza campionaria? quali sono le proprietà? quali sono i difetti?
La varianza campionaria serve a poter indicare quanto i valori del campione si discostano dalla media. le proprietà che può rispettare la varianza campionaria sono: - traslazione: addizione di una costante ad ogni elemento x - scalatura: moltiplicazione di ogni elemento x il difetto principale è il rispetto delle unità di misura dato che i dati vengono tutti elevati al quadrato
Che cosa è la deviazione standard campionaria?
Deriva dalla varianza campionaria e risolve il problema dell'elevazione al quadrato dei valori:
Che cosa è il coefficiente di variazione campionario?
Nasce con lo scopo di poter rendere confrontabili dati fra loro a prescindere dalle loro unità di misura, può assumere valori compresi fra 0(quando std = 0) e > 0(dipende da quanta dispersione) per questo si ricorre alla standardizzazione della deviazione standard :
Che cosa è la covarianza campionaria?
!dato un campione bivariato! Se il risultato `e ≥ 0 allora esiste una correlazione diretta tra i dati, indiretta se < 0
Che cosa è il coefficiente di correlazione campionaria? quali valori può assumere? se i dati vengono trasformati?
Facente parte degli indici di correlazione serve a poter misurare la forza e la direzione della relazione che intercorre fra due variabili. proprietà: - può assumere valori compresi fra 1 e -1, un valore 0 indica l'assenza di correlazione.(dimostrazione) - non cambia se sommiamo costanti o moltiplichiamo per costanti (è indipendente dalle unità di misura)
Che cosa è il coefficiente di Pearson?
È un coefficiente che serve a stabilire la correlazione fra due variabili quantitative. si calcola con la formula:
Quale è la differenza fra quantile teorico e quantile empirico? quando vengono utilizzati entrambi?
Quantile teorico: è un valore fisso e definito per una specifica distribuzione di probabilità quantile empirico: è una stima del quantile teorico basato su campioni di dati reali Vengono utilizzati contemporaneamente nei diagrammi qqplot:
Che cosa è l'indice di Gini?
È un indice che viene utilizzato per misurare l'eterogeneità di un insieme. questo è compreso fra 0 e 1 - 0 eterogeneità minima (elementi uguali) - 1 eterogeneità massima
Che cosa è l'indice di Gini normalizzato? in quali casi è utile utilizzarlo?
È la normalizzazione dell'indice di Gini che conosciamo. - ha degli estremi affidabili -> 0 <= I' <= 1 - la sua utilità si trova quando confrontiamo distribuzioni con scale differenti (es voti 1-10 e voti 1-5)
Perchè ha senso dividere la deviazione standard per il valore assoluto della media campionaria(nel coefficiente di variazione) ?
Se voglio fare un confronto fra la variazione di due campioni che hanno due medie diverse si può fare in maniera più corretta. In più si tratterà di valori adimensionali quindi indipendenti dall'unità di misura
Per avere una alta omogeneità devo avere più copie di uno stesso elemento, per avere una alta eterogeneità devo avere elementi tutti differenti?
No, devo avere un numero pari di occorrenza di elementi diversi, per esempio l'insieme {X,X,O,O} è eterogeneo
Come si calcola l'entropia? quali valori può assumere ? si può normalizzare?
L'entropia assume valori: 0 &lt; H &lt;= Log(K) si calcola con due possibili formule: l'entropia normalizzata si calcola con:
Quali sono le possibili trasformazioni dei dati?
- traslazione v → v′ = v + k - contrazione / dilatazione v → v′ = v / h (h < 1 dilatazione) - standardizzazione g(v) -> (v - media camp.(v)) / deviazione stand.(v) - trasformazione logaritmica. v → v′ = log v
Cosa si intende per classificatore binario?
Un classificatore capace di classificare in due sole classi
Come si calcola l'accuratezza di un classificatore?
Volte in cui ci azzecca / volte totali oppure(vero positivo + vero negativo / totali positivi + totali negativi)
Come si calcola la sensibilità di un classificatore? e la specificità ?
- sensibillità: veri positivi / veri positivi + falsi positivi (totale delle volte in cui ho sbagliato un positivo) - specificità: veri negativi / veri negativi + falsi negativi
Quali sono i vari tipi di classificatori binari? dove si posizionano fra di loro?
- Costante positivo - Costante negativo - Classificatore ideale - Classificatore sbagliato - Classificatore casuale
Come si stabilisce se un classificatore binario è migliore o peggiore di un altro?
Si prende di riferimento la curva ROC di quest'ultimo e si compara l'area sottesa (AUC) fra i due classificatori, quello con l'area maggiore è migliore
A cosa serve ANOVA?
Serve per esprimere con migliori garanzie un confronto fra 2 o piu' gruppi (rispetto al confronto semplice di medie)
Quali sono le definizioni essenziali in ANOVA?
SSt = sum square total SSw = sum square within SSb = sum square between inoltre SSt = SSw + SSb
Fai un esempio reale in cui si evince il significato di varianza?
In questo caso la varianza(ovvero la dispersione rispetto al valore medio) è maggiore nell'insieme B
Come mai la varianza è elevata al quadrato?
Per poter disambiguare valori negativi e positivi nella somma
Quali tipi di dati esistono?
- quantitativi: misurano una quantità numerica associata a un fenomeno - qualitativi: descrivono le caratteristiche o gli attributi di un fenomeno, senza utilizzare numeri
Che cosa è la curva di Lorenz?
La curva di Lorenz è la curva generata dai valori dell'indice di Gini su diverse percentuali della popolazione(asse x). Di solito questa curva viene paragonata alla bisettrice del grafico, l'area risultante dalla differenza fra le due indica il valore dell'indice di gini
Dimostra che se E e F sono indipendenti allora E ed F(complementare) sono indipendenti
4.3.6/1) modificando la definizione di eventi indipendenti si ottiene: P(E ∩ F) = P(E) * P(F) allora si può dedurre:
Che cosa si intende per quantile campionario?
Per quantile campionario di livello q [0,1] si intende il valore del campione >= di almeno il 100 * q% dei dati e <= del 100 *q% dei dati
Quale è la differenza fra tipi di dati categorici, ordinali, scalari?
Categorici: dati che non seguono un determinato ordine ma possono essere suddivisi in categorie (es colori) ordinali : i dati possono essere categorizzati e le categorie possono essere ordinate ma non i dati (es titolo di istruzione) scalari: intervalli ordinati (es numeri)
Che cosa si intende per distanza interquartile? che cosa significa che un dato ha una distanza interquartile più alta o più bassa?
Si intende la differenza dei valori del primo e del terzo quartile campionario (rappresenta il range entro il quale si trova il 50% centrale dei dati). una distanza interquartile alta indica una maggiore dispersione dei dati, al contrario una bassa indica una più alta concentrazione
La varianza e la distanza interquartile sono la stessa cosa?
(distanza interquartile = rappresenta il range entro il quale si trova il 50% centrale dei dati) sebbene indichino entrambi la dispersione dei dati, la varianza è sensibile a eventuali valori outlier mentre la distanza interquartile no
Quale è un caso pratico degli indici di eterogeneità?
Per la realizzazione di processi di decisione più complessi come per esempio gli alberi di decisione consentono (tramite gli indici di eterogeneità). in particolare una domanda viene scelta in base a quanto i due gruppi in cui suddivide il dataset sono omogenei !
Che cosa dice il principio di enumerazione?
Avendo due esperimenti (1) con m esiti e (2) con n esiti, abbiamo m · n coppie ordinate possibili di esiti. Generalizzando per n esperimenti(non solo per 2): S = insieme di insiemi di esiti(le coppie nel caso precedente) s(i) = esiti possibili per l'esperimento i
Formula delle disposizioni con ripetizione
- n numero totale di elementi - k numero di elementi scelti
Formula di disposizioni senza ripetizione?
- n numero totale di elementi - k numero di elementi scelti
Formula per le permutazioni?
N numero totale di elementi
Formula per le combinazioni?
- n numero totale di elementi - k numero di elementi scelti
Quante password da 5 cifre esistono?
Disposizioni con ripetizione D(10, 5) = 100'000
Quante password da 5 cifre esistono che abbiano le prime 3 cifre identiche?
Le prime tre cifre uguali possono essere 000, 111, . . . , 999, quindi le prime tre celle possono essere considerate come una sola. in totale le celle sono 3 D(10,3) = 1000
Qual `e il numero di password distinte da 5 cifre che hanno 3 cifre uguali in qualsiasi posizione consecutiva?
10 · 1 · 1 · 10 · 10 + 10 · 10 · 1 · 1 · 10 + 10 · 10 · 10 · 1 · 1 = 103 + 103 + 103 = 3 · 103