𝒮ia A, insieme degli n
caratteri ascii stampabili e p[ßk]
la probabilità dei simboli di A. Il
modello è in
tal caso:
M=(A,p) (1)
Se la password P è composta da N caratteri allora lo spazio dei simboli sarà A•A•...•A = AN, quello delle probabilità sarà p[ßk1,ßk2,...,ßkN] e darà luogo al modello della password P.
MP=(AN,p) (2)
Nella teoria dell'inforazione si definisce l'informazione del simbolo ßk come:
i[ßk] = -log2(p(ßk)) con unità di misura in bit (3)
L'intera password porta invece una informazione pari a:
i[P] = -log2(p(P)) con unità di misura in bit (4)
con il logaritmo in base 2 che verrà d'ora in poi sottointeso.
Il modello M visto come sorgente di informazione ha una informazione media ovvero una entropia pari a:
H[M] = ∑nk=1 p(µk) i[µk] con unità di misura in bit (5)
analogamente il modello della password MP ha un'informazione media ovvero una entropia pari a:
H[MP] = ∑k1,k2,..kN p[µk1,µk2,...,µkN] i[µk1,µk2,...,µkN] con unità di misura in bit (6)
Valgono le regole di scomposizione per la probabilità di P:
p(P) = p(ß1)+p(ß2|ß1)+...+p(ßN|ß1,...,ßN) (7)
se gli N simboli sono indipendenti anche l'informazione di P è scomponibile:
i[P] = ∑Nk=1 i[ßk] (8)
Sia IN lo spazio delle password P a simboli indipendenti:
IN = { P=(ß1,ß2,...,ßN) tale che P abbia simboli indipendenti }
poiché intendiamo muoverci all'interno dello spazio delle password che un umano può pensare, possiamo affermare che difficilmente si memorizzano simboli indipendenti che quindi avranno probabilità bassa e perciò informazione alta. In pratica la nostra mente è un processo di markoff quando genera una passwd.
Possiamo quindi fare la supposizione che:
p(IN) ≤ p(AN-IN) per ogni elemento dei due insiemi
i[AN-IN] ≤ i[IN] per ogni elemento dei due insiemi
Il massimo e il minimo di informazione delle password indipendenti sono:
i*N = min { i[IN] }
i*N = max { i[IN] }
è interessante considerare l'informazione della password meno severa tra quelle indipendenti cioè la migliore tra quelle non indipendenti che porta l'informazione i*N, da cui si ha il rendimento per una generica password pari a:
µ = i[P] / i*N
E utile notare che non appena si scelgano password al limite dell'indipendenza, il rendimento si avvicina a 1, superando l'unità solo se si trovano password a simboli indipendenti.
Un altro punto di vista è il considerare la generazione di una parola segreta infinita e quindi un processo markoviano, in tal caso meno memoria ha il processo e più il rendimento si avvicina all'unità.
Segue un ragionamento che non porta a nessuna conclusione ma che ho tentato di sviluppare.
Rispetto alle singole sorgenti M1,...,MN di cui è composta MP, si può riscrive la sua entropia come:
H[MP] = H[M1]+H[M2|M1]+...+H[MN|M1,...,MN] (6)
Dove la formula per determinare l'entropia di una sorgente condizionata da un'altra sorgente è una immediata estensione della formula (4) e (5) qual ora si considerino le probabilità condizionate al posto di quelle incondizionate.
A questo punto le mie informazioni sicure si fermano e quindi inizia la mia fantasia. Cerco di trasporre tutti i ragionamenti visti per le sorgenti in ragionamenti sui simboli, sui caratteri.
Comincio col definire l'entropia del simbolo ßk della password P:
Ĥ[ßk] = p(ßk) i[ßk]
da cui l'entropia della password:
Ĥ[P] = p[P] i[P]
visto che per l'informazione vale:
i[ß1,ß2] = i[ß1]+i[ß2|ß1]
dopo pochi passaggi si arriva a Ĥ[ß1,ß2] ≤ Ĥ[ß1]+Ĥ[ß2|ß1] che generalizzata (suppongo la generalizzazione) per la password diventa:
Ĥ[P] ≤ Ĥ[ß1]+ Ĥ[ß2|ß1]+...+ Ĥ[ßN|ß1,...,ßN]
si può anche definire l'entropia per carattere come:
Ĥs[P] = Ĥ[P]/N
Ovviamente in tutte le formule si ha Ĥ[]≤H[] in quanto Ĥ viene calcolato sul simbolo mentre H sull'intero alfabeto.
Nel caso particolare di simboli ß1 e ß2 indipendenti si ha:
i[ß1,ß2] = i[ß1]+i[ß2]
Ĥ[ß1,ß2] = Ĥ[ß1]p(ß2) + Ĥ[ß2]p(ß1)
da cui discende Ĥ[ß1,ß2]≤Ĥ[ß1]+Ĥ[ß2] e quindi in generale:
Ĥ[P] ≤ ∑ Ĥ[ßk] P a simboli ßk indipendenti
Ora consideriamo la formula esatta nel caso di simboli indipendenti nella password, consideriamo il caso di tre soli caratteri:
Ĥ[P] = p(ß1)p(ß2)p(ß3) i[ß1,ß2,ß3]
Ĥ[P] = Ĥ[ß1]p(ß2)p(ß3) + Ĥ[ß2]p(ß1)p(ß3) + Ĥ[ß3]p(ß1)p(ß2)
Ĥ[P] = ( Ĥ[ß1]+Ĥ[ß2]+Ĥ[ß3] ) • [ µ1p(ß2)p(ß3)+µ2p(ß1)p(ß3)+µ3p(ß1)p(ß2) ]
dove µk = Ĥ[ßk] / ( Ĥ[ß1]+Ĥ[ß2]+Ĥ[ß3] ) è quindi una media pesata di tutte le coppie di probabilità della password.
Si potrebbe considerare p(ßk)=cost=p e quindi:
Ĥ[P] =p^3(-3logp), porre p=1/n e rispetto a questo Ĥ massimo (è massimo?) calcolare il rendimento
In tutto il ragionamento manca il concetto di massimo teorico dell'entropia di P.
Lascio quindi questo ragionamento incompleto, forse qualcuno ha già teorizzato su questo.
M=(A,p) (1)
Se la password P è composta da N caratteri allora lo spazio dei simboli sarà A•A•...•A = AN, quello delle probabilità sarà p[ßk1,ßk2,...,ßkN] e darà luogo al modello della password P.
MP=(AN,p) (2)
Nella teoria dell'inforazione si definisce l'informazione del simbolo ßk come:
i[ßk] = -log2(p(ßk)) con unità di misura in bit (3)
L'intera password porta invece una informazione pari a:
i[P] = -log2(p(P)) con unità di misura in bit (4)
con il logaritmo in base 2 che verrà d'ora in poi sottointeso.
Il modello M visto come sorgente di informazione ha una informazione media ovvero una entropia pari a:
H[M] = ∑nk=1 p(µk) i[µk] con unità di misura in bit (5)
analogamente il modello della password MP ha un'informazione media ovvero una entropia pari a:
H[MP] = ∑k1,k2,..kN p[µk1,µk2,...,µkN] i[µk1,µk2,...,µkN] con unità di misura in bit (6)
Valgono le regole di scomposizione per la probabilità di P:
p(P) = p(ß1)+p(ß2|ß1)+...+p(ßN|ß1,...,ßN) (7)
se gli N simboli sono indipendenti anche l'informazione di P è scomponibile:
i[P] = ∑Nk=1 i[ßk] (8)
Sia IN lo spazio delle password P a simboli indipendenti:
IN = { P=(ß1,ß2,...,ßN) tale che P abbia simboli indipendenti }
poiché intendiamo muoverci all'interno dello spazio delle password che un umano può pensare, possiamo affermare che difficilmente si memorizzano simboli indipendenti che quindi avranno probabilità bassa e perciò informazione alta. In pratica la nostra mente è un processo di markoff quando genera una passwd.
Possiamo quindi fare la supposizione che:
p(IN) ≤ p(AN-IN) per ogni elemento dei due insiemi
i[AN-IN] ≤ i[IN] per ogni elemento dei due insiemi
Il massimo e il minimo di informazione delle password indipendenti sono:
i*N = min { i[IN] }
i*N = max { i[IN] }
è interessante considerare l'informazione della password meno severa tra quelle indipendenti cioè la migliore tra quelle non indipendenti che porta l'informazione i*N, da cui si ha il rendimento per una generica password pari a:
µ = i[P] / i*N
E utile notare che non appena si scelgano password al limite dell'indipendenza, il rendimento si avvicina a 1, superando l'unità solo se si trovano password a simboli indipendenti.
Un altro punto di vista è il considerare la generazione di una parola segreta infinita e quindi un processo markoviano, in tal caso meno memoria ha il processo e più il rendimento si avvicina all'unità.
Kensan.it
Sarebbe interessante anche una nuova definizione di rendimento dove anche se il processo ha memoria il rendimento è unitario per N->∞. A tal fine si potrebbe fare ricorso all'entropia di una sorgente che emetta un simbolo dell'alfabeto A e applicare le proprietà dei processi ergodici per ricavare tale entropia da una password infinita, il rendimento sarebbe allora il classico rapporto tra H(A)/log(N), se la password è breve tale sviluppo ha poco senso.Segue un ragionamento che non porta a nessuna conclusione ma che ho tentato di sviluppare.
Rispetto alle singole sorgenti M1,...,MN di cui è composta MP, si può riscrive la sua entropia come:
H[MP] = H[M1]+H[M2|M1]+...+H[MN|M1,...,MN] (6)
Dove la formula per determinare l'entropia di una sorgente condizionata da un'altra sorgente è una immediata estensione della formula (4) e (5) qual ora si considerino le probabilità condizionate al posto di quelle incondizionate.
A questo punto le mie informazioni sicure si fermano e quindi inizia la mia fantasia. Cerco di trasporre tutti i ragionamenti visti per le sorgenti in ragionamenti sui simboli, sui caratteri.
Comincio col definire l'entropia del simbolo ßk della password P:
Ĥ[ßk] = p(ßk) i[ßk]
da cui l'entropia della password:
Ĥ[P] = p[P] i[P]
visto che per l'informazione vale:
i[ß1,ß2] = i[ß1]+i[ß2|ß1]
dopo pochi passaggi si arriva a Ĥ[ß1,ß2] ≤ Ĥ[ß1]+Ĥ[ß2|ß1] che generalizzata (suppongo la generalizzazione) per la password diventa:
Ĥ[P] ≤ Ĥ[ß1]+ Ĥ[ß2|ß1]+...+ Ĥ[ßN|ß1,...,ßN]
si può anche definire l'entropia per carattere come:
Ĥs[P] = Ĥ[P]/N
Ovviamente in tutte le formule si ha Ĥ[]≤H[] in quanto Ĥ viene calcolato sul simbolo mentre H sull'intero alfabeto.
Nel caso particolare di simboli ß1 e ß2 indipendenti si ha:
i[ß1,ß2] = i[ß1]+i[ß2]
Ĥ[ß1,ß2] = Ĥ[ß1]p(ß2) + Ĥ[ß2]p(ß1)
da cui discende Ĥ[ß1,ß2]≤Ĥ[ß1]+Ĥ[ß2] e quindi in generale:
Ĥ[P] ≤ ∑ Ĥ[ßk] P a simboli ßk indipendenti
Ora consideriamo la formula esatta nel caso di simboli indipendenti nella password, consideriamo il caso di tre soli caratteri:
Ĥ[P] = p(ß1)p(ß2)p(ß3) i[ß1,ß2,ß3]
Ĥ[P] = Ĥ[ß1]p(ß2)p(ß3) + Ĥ[ß2]p(ß1)p(ß3) + Ĥ[ß3]p(ß1)p(ß2)
Ĥ[P] = ( Ĥ[ß1]+Ĥ[ß2]+Ĥ[ß3] ) • [ µ1p(ß2)p(ß3)+µ2p(ß1)p(ß3)+µ3p(ß1)p(ß2) ]
dove µk = Ĥ[ßk] / ( Ĥ[ß1]+Ĥ[ß2]+Ĥ[ß3] ) è quindi una media pesata di tutte le coppie di probabilità della password.
Si potrebbe considerare p(ßk)=cost=p e quindi:
Ĥ[P] =p^3(-3logp), porre p=1/n e rispetto a questo Ĥ massimo (è massimo?) calcolare il rendimento
In tutto il ragionamento manca il concetto di massimo teorico dell'entropia di P.
Lascio quindi questo ragionamento incompleto, forse qualcuno ha già teorizzato su questo.
Commento:
Normale di Pisa?