Must know Information Theory concepts in Deep Learning (AI)

La teoria dell’informazione è un campo importante che ha dato un contributo significativo all’apprendimento profondo e all’IA, e tuttavia è sconosciuto a molti. La teoria dell’informazione può essere vista come una fusione sofisticata di elementi costitutivi fondamentali dell’apprendimento profondo: calcolo, probabilità e statistica. Alcuni esempi di concetti nell’intelligenza artificiale che provengono dalla teoria dell’informazione o dai campi correlati:

Popolare funzione di perdita di entropia incrociata
Costruire alberi decisionali sulla base del massimo guadagno di informazioni
Algoritmo di Viterbi ampiamente usato in NLP e Speech
Concetto di codificatore di encoder usato comunemente in RNN di traduzione automatica e vari altri tipi di modelli

Breve introduzione alla storia della teoria dell’informazione

Claude Shannon, il padre dell’età dell’informazione.

All’inizio del 20 ° secolo, scienziati e ingegneri erano alle prese con la domanda: “Come quantificare l’informazione? Esiste un modo analitico o una misura matematica che ci può dire del contenuto informativo? “. Ad esempio, considera sotto due frasi:

Bruno è un cane.
Bruno è un grosso cane marrone.

Non è difficile dire che la seconda frase ci dà più informazioni in quanto dice anche che Bruno è “grande” e “marrone” oltre ad essere un “cane”. Come possiamo quantificare la differenza tra due frasi? Possiamo avere una misura matematica che ci dice quante più informazioni hanno la seconda frase rispetto alla prima?

Gli scienziati stavano lottando con queste domande. Semantica, dominio e forma di dati aggiunti solo alla complessità del problema. Quindi, il matematico e ingegnere Claude Shannon ha avuto l’idea di “Entropia” che ha cambiato il nostro mondo per sempre e ha segnato l’inizio di “Digital Information Age”.

Shannon ha introdotto il termine “bit” nel 1948, che ha umilmente accreditato al suo collega John Tukey.

Shannon ha proposto che “gli aspetti semantici dei dati sono irrilevanti”, e la natura e il significato dei dati non hanno importanza quando si tratta di contenuto informativo. Invece ha quantificato le informazioni in termini di distribuzione di probabilità e “incertezza”. Shannon ha anche introdotto il termine “bit”, che ha umilmente accreditato al suo collega John Tukey. Questa idea rivoluzionaria non solo gettò le basi della Teoria dell’informazione, ma aprì anche nuove strade per il progresso in campi come l’intelligenza artificiale.

Di seguito discutiamo di quattro concetti teorici di informazione popolare, ampiamente utilizzati e da conoscere in ambito di deep learning e data science:

entropia

Chiamato anche Entropia di informazioni o Entropia di Shannon.

L’entropia è una misura di casualità o incertezza in un esperimento.

Intuizione

L’entropia fornisce una misura di incertezza in un esperimento. Consideriamo due esperimenti:

Lancia una moneta equa (P (H) = 0,5) e osserva la sua uscita, diciamo H
Lancia una moneta parziale (P (H) = 0,99) e osserva la sua uscita, diciamo H

Se confrontiamo i due esperimenti, nell’esp 2 è più facile predire l’esito rispetto all’esp. 1. Quindi, possiamo dire che exp 1 è intrinsecamente più incerto / imprevedibile di exp 2. Questa incertezza nell’esperimento viene misurata usando l’entropia .

Pertanto, se c’è maggiore incertezza inerente nell’esperimento, allora ha un’entropia più alta. O meno l’esperimento è prevedibile, più è l’entropia. La distribuzione di probabilità dell’esperimento viene utilizzata per calcolare l’entropia.

Un esperimento deterministico, che è completamente prevedibile, diciamo che lanciare una moneta con P (H) = 1, ha entropia zero. Un esperimento che è completamente casuale, dice rolling fair dado, è meno prevedibile, ha massima incertezza e ha l’entropia più alta tra tali esperimenti.

L’esperimento di lanciare una moneta equa ha più entropia che lanciare una moneta parziale.

Un altro modo di guardare l’entropia è l’informazione media acquisita quando osserviamo i risultati di un esperimento casuale. Le informazioni acquisite per un risultato di un esperimento sono definite come una funzione della probabilità di accadimento di quel risultato. Più il più raro è il risultato, più è l’informazione acquisita dall’osservarla.

Ad esempio, in un esperimento deterministico, conosciamo sempre il risultato, quindi nessuna nuova informazione acquisita è qui dall’osservazione del risultato e quindi l’entropia è zero.

Matematica

Per una variabile casuale discreta X , con possibili risultati (stati) x_1, …, x_n l’entropia, in unità di bit, è definita come:

dove p (x_i) è la probabilità di I ^ esimo risultato di X .

Applicazione

L’entropia viene utilizzata per la costruzione automatica di alberi decisionali. In ogni fase della costruzione di un albero, la selezione delle funzioni viene effettuata utilizzando i criteri di entropia.
La selezione del modello basata sul principio dell’entropia massima, che stabilisce dai modelli in competizione uno con l’entropia più alta è il migliore.

Cross-Entropy

Intuizione

L’entropia trasversale viene utilizzata per confrontare due distribuzioni di probabilità. Ci dice quanto siano simili due distribuzioni.

Matematica

L’entropia incrociata tra due distribuzioni di probabilità p e q definite sullo stesso insieme di risultati è data da:

Applicazione

I classificatori basati sulla rete neurale convoluzionale spesso usano il layer softmax come strato finale che viene addestrato usando una funzione di perdita di entropia incrociata.

La funzione di perdita di entropia incrociata è ampiamente utilizzata per i modelli di classificazione come la regressione logistica. La funzione di perdita di entropia incrociata aumenta man mano che le previsioni divergono dalle uscite reali.
Nelle architetture di apprendimento profondo come le reti neurali convoluzionali, lo strato finale di “softmax” utilizza frequentemente una funzione di perdita di entropia incrociata.

Informazioni reciproche

Intuizione

L’informazione reciproca è una misura della dipendenza reciproca tra due distribuzioni di probabilità o variabili casuali. Ci dice quante informazioni su una variabile sono trasportate dall’altra variabile.

L’informazione reciproca cattura la dipendenza tra variabili casuali ed è più generalizzata del coefficiente di correlazione della vaniglia, che cattura solo la relazione lineare.

Matematica

Le informazioni mutue di due variabili casuali discrete X e Y sono definite come:

dove p (x, y) è la distribuzione di probabilità congiunta di X e Y , e p (x) e p (y)sono la distribuzione di probabilità marginale di X e Y rispettivamente.

Applicazione

In una rete bayesiana, la struttura delle relazioni tra le variabili può essere determinata utilizzando l’informazione reciproca.

Selezione delle funzionalità: anziché utilizzare la correlazione, è possibile utilizzare le informazioni reciproche. La correlazione acquisisce solo le dipendenze lineari e perde le dipendenze non lineari ma le informazioni reciproche no. L’indipendenza reciproca di zero garantisce che le variabili casuali siano indipendenti, ma la correlazione zero no.
Nelle reti bayesiane, l’informazione reciproca viene utilizzata per apprendere la struttura delle relazioni tra variabili casuali e definire la forza di queste relazioni.

Kullback Leibler (KL) Divergenza

Chiamato anche Entropia relativa.

La divergenza KL è usata per confrontare due distribuzioni di probabilità

Intuizione

La divergenza di KL è un’altra misura per trovare somiglianze tra due distribuzioni di probabilità. Misura quanto una distribuzione diverge dall’altra.

Supponiamo, abbiamo alcuni dati e una vera distribuzione sottostante è “P”. Ma non conosciamo questa ‘P’, quindi scegliamo una nuova distribuzione ‘Q’ per approssimare questi dati. Dato che “Q” è solo un’approssimazione, non sarà in grado di approssimare i dati come “P” e si verificherà una perdita di informazioni. Questa perdita di informazioni è data dalla divergenza di KL.

La divergenza KL tra ‘P’ e ‘Q’ ci dice quante informazioni perdiamo quando proviamo ad approssimare i dati dati da ‘P’ con ‘Q’.

Matematica

La divergenza KL di una distribuzione di probabilità Q da un’altra distribuzione di probabilità P è definita come:

Applicazione

La divergenza KL è comunemente usata in autoincodenziatori a variazione continua non presidiata.

Information Theory è stato originariamente formulato dal matematico e ingegnere elettrico Claude Shannon nel suo seminario “A Mathematical Theory of Communication” nel 1948.

Nota: gli esperimenti sui termini, la variabile casuale e l’intelligenza artificiale, l’apprendimento automatico, l’apprendimento approfondito, la scienza dei dati sono stati usati in modo approssimativo ma hanno significati tecnicamente diversi.

Se ti è piaciuto l’articolo, seguimi Abhishek Parbhakar per altri articoli relativi a AI, filosofia ed economia.