# Iniciació a la Criptografia

### Artur Travesa

#### (versió 2024-07)

# Capítol 1. El criptosistema de Cèsar, i afins

## 1.0. Introducció

En aquest capítol tractarem d'un tipus de criptosistemes molt antics i molt elementals, que es poden encabir en una família de criptosistemes anomenats monoalfabètics de substitució. 

La comprensió del significat d'aquests sintagmes és gairebé tautològica: els missatges, escrits en un alfabet, es xifren caràcter a caràcter per substitució d'un caràcter per un altre del mateix alfabet, sempre el mateix, i de manera bijectiva.

## 1.1. Alfabets

### 1.1.0. Definició

A fi de disposar d'eines matemàtiques precises, anomenarem <i>alfabet</i> qualsevol conjunt finit i no buit; els seus elements seran els <i>símbols</i> o les <i>lletres</i> de l'alfaget. I els <i>missatges</i> (relatius a aquest alfabet) són les successions finites de lletres de l'alfabet. 

### 1.1.1. Exemples

Com a exemples, podem pensar en l'alfabet (grec), o l'abecedari (llatí), o en altres alfabets. Per exemple, durant molts anys, es consideraven "ch", "ll" i "ñ" com a caràcters (lletres) del 'abecedario' castellà; això feia un alfabet de 29 lletres.

Però podem pensar en altres llengües o alfabets: ciríl·lic, europeus orientals, escandinaus, hebreu, àrabs, xinesos, coreà, japonès, tais, bràmics, altres alfabets orientals, i molts altres africans, amerindis, malaisians, etcètera, dels quals ni en conec l'existència.

I, si es vol, encara caldria pensar en alfabets que continguin tots els caràcters accentuats o modificats d'alguna manera. Sense anar més lluny, com es consideren ny o ç en català? Com un caràcter o com un dígraf, l'un? I com un caràcter senzill o com un caràcter modificat (equivalent a accentuat), l'altre? El diccionari de l'IEC considera ny com un dígraf i ç com una c amb un accent (almenys, en algunes paraules que jo he consultat).

D'altra banda, els alfabets s'aprenen sovint en un cert ordre; és a dir, se suposa que els caràcters de l'alfabet en qüestió estan ordenats d'una certa manera estàndard; per exemple, l'ordre alfabètic, si es tracta de l'alfabet (grec) o l'abecedari (llatí), o altres ordres depenent de l'alfabet que es faci servir. Per exemple, quan es consideren ch, ll i ñ com a caràcters del 'abecedario', la ch es col·loca entre la c i la d, la ll, entre la l i la m, i la ñ, entre la n i la o; això determina un ordre en l'alfabet castellà de 29 lletres.

Però no tothom considera de la mateixa manera l'ordre dels caràcters. Segons quina aplicació o quin programari d'ordinador es fa servir (o fins i tot quina versió del mateix programari), ens podem trobar que la ch es pensa com dues lletres (i, per tant, se situa entre cg i ci), o bé com una de sola (i se situa entre c i d). I anàlogament amb les ll i ñ, o les lletres accentuades (i en quin ordre van els accents?).

### 1.1.2. El nostre alfabet

Caldrà tenir això present. Per tant, suposarem que treballem amb un alfabet fixat i amb un ordre determinat en aquest alfabet. 

En aquest tutorial, utilitzarem com a alfabet el conjunt format pels $1114112 = 16^5+16^4$ caràcters (possibles) que fa servir <i>SageMath</i>, i l'ordre, el que es deriva de manera natural de l'ordre de la seva codificació $0<1<2<3<\cdots<1114111$.

## 1.2. El criptosistema de Cèsar

El criptosistema de Cèsar consisteix a fer córrer cíclicament els caràcters d'un missatge una quantitat fixa de caràcters; aquesta quantitat és la clau secreta. Per exemple, es pot usar la funció següent, que s'aplica a un missatge pla (sense codificar) i proporciona un missatge xifrat (també sense codificar). (Això de xifrar missatges sense codificar és una mala praxi, perquè podem intentar usar codis que corresponen a caràcters no imprimibles... però ja hi tornarem, a aquest punt.)

Òbviament, doncs, la clau secreta és un nombre enter entre $0$ i $1114112$; de fet, i per la propietat de ciclicitat que hem anomenat més amunt, la clau és un nombre enter qualsevol, del qual només compta la seva classe residual mòdul $1114112$.

### 1.2.0. La funció

In [None]:
def Cesar(mis,clau):
    m=1114112
    xif=""
    for i in range(len(mis)):
        xif=xif+chr((ord(mis[i])+clau) %m) 
    return xif

### 1.2.1. Exemple

Per exemple, podem xifrar amb la clau que sovint s'atribueix a l'emperador romà Juli Cèsar (clau=3) el missatge "VENIVIDIVINCI", que també se li atribueix a ell. D'aquí el nom del criptosistema.

In [None]:
mispla="VENIVIDIVINCI"

In [None]:
xifrat=Cesar(mispla,3)

In [None]:
xifrat

Efectivament, el mètode xifra. Es tracta de veure que també desxifra, si es fa servir la clau oposada. Notem que, òbviament, és el mateix usar $-3$ que usar $1114112-3$.

In [None]:
Cesar(xifrat,-3)

In [None]:
Cesar(xifrat,1114109)

In [None]:
Cesar(xifrat,-3)==mispla

### 1.2.2. Altres exemples

Qui no ha jugat a intentar desxifrar missatges xifrats amb el criptosistema de Cèsar i l'alfabet llatí de 26 lletres? Sembla extraordinàriament "senzill"; de fet, només hi ha 26 claus possibles, de manera que s'acaba aviat. O no? 

Algú ha intentat esbrinar perquè l'ordinador de la novel·la 2001: A space Oddysey, d'Arthur C. Clarke, es diu HAL i és de la sèrie 9000? O a qui fa correspondre les inicials JCN?

Hom pot pensar que serà molt difícil desxifrar un missatge xifrat amb el criptosistema de Cèsar i una clau desconeguda, ja que aquesta s'ha pogut triar entre les $1114112$ possibles. Caldrà provar les $1114112$ claus?

### 1.2.3. Exercici

Es demana intentar desxifrar el text següent, que ha estat xifrat amb la funció Cesar anterior i una clau menor que $1114112$.

In [None]:
x='寶尅尉尅尕寀尃小對寀導小寀岉尓寀尔封導寀射尉将岍尃尉尌察'

#### 1.2.3.0. Una solució

Comencem per conèixer els caràcters numèrics (que, de fet, és allò que compta) asssociats al missatge xifrat.

In [None]:
lta=[ord(i) for i in x]

In [None]:
print(lta)

Ara, mirem com són els caràcters numèrics associats a un text de prova.

In [None]:
print([ord(i) for i in "A veure què succeeix."])

Notem que el menor caràcter és el $32$, i correspon a l'espai en blanc.

Si el missatge xifrat és un text (com diu l'enunciat), deu tenir espais en blanc i, per tant, el menor dels codis hauria de correspondre a l'espai blanc. Això hauria de fer senzill proporcionar-nos la clau.

In [None]:
min(lta)-32

La clau podria ser $23456$. Provem-ho.

In [None]:
Cesar(x,-23456)

<b>Observació</b>. Cal notar que els missatges poden ser molt més complicats que simples textos; però els codis associats als caràcters que els componguin difícilment pertanyeran a intervals molt grans, de manera que es poden provar claus en intervals petits (i per a parts petites dels missatges). Més avall tornarem sobre això. 

### 1.2.4. Versions millorades de la funció Cesar(mis,clau)

Més amunt hem comentat que no és una bona praxi treballar amb els missatges sense codificar. A fi de tractar aquesta qüestió, incorporem les funcions Codis( ) i Caracters( ) del capítol 0.

In [None]:
def Codis(text):
    return [ord(i) for i in text]

In [None]:
def Caracters(codis):
    m=1114112
    cars=""
    for i in range(len(codis)):
        cars=cars+chr(codis[i]%m)
    return cars

#### 1.2.4.0. Millorem l'entrada i la sortida de la funció

La funció Cesar(mis,clau) s'aplica a una tira de caràcters mis i un nombre enter clau i proporciona una altra tira de caràcters. Es tracta de refer la funció en una funció CesarX(mis,clau) en què mis sigui indistintament una tira de caràcters o bé a una llista de codis i clau sigui un nombre enter, i proporcioni el missatge xifrat (o desxifrat, segons la clau que s'utilitzi) en el mateix format que el missatge d'entrada.

I encara, si tenim en compte que sovint les claus poden xifrar un text senzill en una successió il·legible de caràcters del codi, molt probablement sigui més útil una funció, CesarC(mis,clau), que proporcioni el missatge xifrat/desxifrat en forma codificada (independentment del tipus d'entrada); i una altra funció, CesarD(mis,clau), que el proporcioni en forma de tira de caràcters (també independentment del tipus d'entrada), per als missatges descodificats. 

Notem que en qualsevol cas, sempre podrem aplicar les funcions Codis() o Caracters() per a obtenir-ne (o veure'n) l'altra versió.

#### 1.2.4.1. Les funcions

In [None]:
 def CesarX(mis,clau):
    m=1114112
    if type(mis)==str:
        b=1
        lta=Codis(mis)
    else:
        lta=mis
        b=0
    xif=[(lta[i]+clau)%m for i in range(len(lta))]
    if b==1:
        xif=Caracters(xif) 
    return xif
    

In [None]:
 def CesarC(mis,clau):
    m=1114112
    if type(mis)==str:
        lta=Codis(mis)
    else:
        lta=mis
    xif=[(lta[i]+clau)%m for i in range(len(lta))]
    return xif
    

In [None]:
 def CesarD(mis,clau):
    m=1114112
    if type(mis)==str:
        lta=Codis(mis)
    else:
        lta=mis
    xif=Caracters([(lta[i]+clau)%m for i in range(len(lta))])
    return xif    

#### 1.2.4.2. Exemples

In [None]:
mispla

In [None]:
CesarX(mispla,3)

In [None]:
CesarC(mispla,3)

In [None]:
CesarD(mispla,3)

In [None]:
cds=Codis(mispla)

In [None]:
cds

In [None]:
CesarX(cds,3)

In [None]:
CesarC(cds,3)

In [None]:
CesarD(cds,3)

## 1.3. Observacions sobre la seguretat

A fi de poder desxifrar un missatge xifrat amb un criptosistema de Cèsar sense conèixer la clau, cal fer-ne una estimació. I això pot ser (potser) impossible. 

Imaginem-nos que els missatges que es volen transmetre xifrats siguin nombres de, per exemple, 8 xifres decimals (nombres de DNI?).

Podem utilitzar un alfabet de 10 símbols, 0, 1, 2, 3, 4, 5, 6, 7, 8, i 9. Però quina de les 10 claus possibles s'ha fet servir per a xifrar un missatge determinat? En principi, totes 10 són igualment probables, i qualsevol produeix un missatge xifrat (o desxifrat) vàlid. Per tant, <i>sembla</i> que el criptosistema és prou segur, perquè no sabem desxifrar el missatge xifrat, llevat que coneguem la clau. 

Ara bé, tot i que només una clau desxifra correctament el missatge, entre els $10^8$ missatges que es poden enviar, només n'hi ha $10$ que puguin correspondre al missatge xifrat amb el criptosistema de Cèsar. 

És a dir, no tots els missatges plans possibles tenen la mateixa probabilitat de ser el missatge original: n'hi ha $99999990$ amb probabilitat zero i només $10$ amb probabilitat no nul·la, $\dfrac{1}{10}=0,1$. 

Ara, canviem una mica el paradigma. En comptes de pensar en missatges de 8 lletres d'un alfabet de 10 símbols, pensem en missatges d'una sola lletra d'un alfabet de $10^8$ símbols. Ara, hi ha $10^8$ claus possibles i tots els missatges possibles són equiprobables. Només podrem desxifrar el missatge si encertem la clau?

Tot i que això sembla molt més segur, encara hi ha un altre fet que incideix en la seguretat: són tots els missatges igualment probables? 

La freqüència amb què apareix cada caràcter en el text pla pot ser determinant per a desxifrar un missatge xifrat amb el criptosistema de Cèsar. Per exemple, ja hem utilitzat més amunt que el caràcter blanc és el més utilitzat en textos escrits en català, i també en moltes altres llengües de paraules no especialment llargues o que tenen moltes paraules curtes (per exemple, articles, preposicions, conjuncions), i que aquestes paraules curtes apareixen molt sovint en un escrit llarg. 

Això fa que en escrits llargs (o sigui, de molts caràcters de l'alfabet), la probabilitat dels caràcters no sigui la mateixa i una <i>anàlisi de freqüències</i> pot permetre obtenir la clau i desxifrar el missatge.

Deixo oberta una reflexió més profunda sobre aquest fet. Només comentaré que, a fi d'evitar els problemes derivats de la diferent probabilitat dels missatges plans/sifrats, convé que tots els missatges que es xifren siguin (pseudo)aleatoris o, com a mínim, tant com sigui possible. Tornarem a aquest punt en un capítol posterior (farciment de missatges).


### 1.3.0. Exercici

Intenteu esbrinar la clau del missatge xifrat "YHQLYLGLYLQFL" a partir d'una anàlisi de freqüències.

#### 1.3.0.1. Una solució

El caràcter més freqüent és "L"; potser correspon a una vocal (i tot són majúscules...). Provem les cinc possibilitats.

In [None]:
prova="YHQLYLGLYLQFL"

In [None]:
CesarX(prova,ord("A")-ord("L"))

In [None]:
CesarX(prova,ord("E")-ord("L"))

In [None]:
CesarX(prova,ord("O")-ord("L"))

In [None]:
CesarX(prova,ord("U")-ord("L"))

In [None]:
CesarX(prova,ord("I")-ord("L"))

Sembla clar.

### 1.3.1. Exercici proposat

Intenteu desxifrar el missatge xifrat 'JZWJPF'.

## 1.4. Criptosistemes afins

Els criptosistemes afins (en dimensió 1) són una evolució natural del criptosistema de Cèsar. Es tracta de donar-ne una descripció senzilla.

Recordem que el criptosistema de Cèsar és un criptosistema monoalfabètic de substitució. Això vol dir que els caràcters de l'alfabet es xifren un a un (monoalfabètic) fent-ne una substitució del caràcter del missatge pla per un caràcter del missatge xifrat, de manera que aquest procés de substitució sigui una aplicació bijectiva.

Formalment, es considera una bijecció entre el conjunt dels $N$ caràcters de l'alfabet i $\mathbb{Z}/N\mathbb{Z}$. Recordem que en el nostre cas fem servir $N=1114112$. Fins aquí, només es tracta de la codificació dels missatges: successions d'elements de $\mathbb{Z}/N\mathbb{Z}$.

Una clau qualsevol del criptosistema de Cèsar és un element $c\in \mathbb{Z}/N\mathbb{Z}$. El procés de xifratge consisteix a aplicar la translació (bijecció) $x(m):\equiv m+c \pmod{N}$; i el procés de desxifratge és l'aplicació de la translació inversa, $x'(m'):\equiv m'+(N-c) \pmod{N}$.

### 1.4.0. Descripció dels criptosistemes afins

No cal limitar-nos a aplicacions tan senzilles com les translacions; podem utilitzar transformacions lineals $x(m):\equiv c m \pmod{N}$, o bé afins $x(m):\equiv c x+d \pmod{N}$, on ara les claus són $c$, per a les lineals, o la parella $(c,d)$, per a les afins.

Però cal que les aplicacions de xifratge i les de desxifratge siguin bijectives (de fet, cal que l'aplicació de xifratge seguida de l'aplicació de desxigratge sigui la identitat; per tant, l'aplicació de desxifratge ha de ser exhaustiva i l'aplicació de xifratge ha de ser injectiva; i en un conjunt finit, això significa que les dues han de ser bijectives i l'una inversa de l'altra).

Per tant, cal que $c$ sigui invertible mòdul $N$. En aquest cas, si $c'$ és l'invers de $c$ mòdul $N$, les transformacions inverses (o sigui, les de desxifratge), són les $x'(m'):\equiv c' m' \pmod{N}$, i $x'(m'):\equiv c'(m'-d)\equiv c'm'-c'd \pmod{N}$, respectivament. Notem que, en particular, la transformació inversa d'una transformació lineal també és lineal; i la transformació inversa d'una transformació afí també és afí.

No totes les claus proporcionaran missatges xifrats diferents del missatge pla. Per exemple, per a $c=1$, l'aplicació lineal de xifratge és la identitat, de manera que els missatges xifrats són exactament els missatgs plans. I això mateix succeeix per a la clau afí $(1,0)$.

D'altra banda, el xifratge de Cèsar amb clau $d$ és exactament el missatge afí amb clau $(1,d)$. Doncs, el criptosistemes de Cèsar són casos particulars de criptosistemes afins.

### 1.4.1. Les claus

Així com per al criptosistema de Cèsar, hi ha exactament $N$ claus possibles (tantes com caràcters té l'alfabet), per al criptosistema lineal amb $N=1114112$ el nombre de claus possibles és exactament $\varphi(N)=2^{15}⋅16=2^{19}=524288$. I per al criptosistema afí amb $N=1114112$, és $n\cdot\varphi(N)=2^{35}\cdot17=584115552256$.

### 1.4.2. Les funcions de xifratge / desxifratge

Es tracta de definir una funció per a xifrar amb el criptosistema afí de $1114112$ caràcters. La funció ha d'admetre com a paràmetres el missatge, mis, i la clau de xifratge, clau. Se'n poden  fer versions AfiX(mis,clau), AfiXC(mis,clau), AfiXD(mis,clau) de manera que la sortida sigui del mateix tipus que l'entrada, o bé sempre codificada, o bé sempre descodificada.

In [None]:
def AfiX(mis,clau):
    if type(mis)==str:
        lta=Codis(mis)
        b=1
    else:
        lta=mis
        b=0
    m=1114112
    c1=clau[0]
    c2=clau[1]
    xif=[(c1*lta[i]+c2)%m for i in range(len(lta))]
    if b==1:
        xif=Caracters(xif)
    return xif


In [None]:
def AfiXC(mis,clau):
    if type(mis)==str:
        lta=Codis(mis)
    else:
        lta=mis
    m=1114112
    c1=clau[0]
    c2=clau[1]
    xif=[(c1*lta[i]+c2)%m for i in range(len(lta))]
    return xif


In [None]:
def AfiXD(mis,clau):
    if type(mis)==str:
        lta=Codis(mis)
    else:
        lta=mis
    m=1114112
    c1=clau[0]
    c2=clau[1]
    xif=[(c1*lta[i]+c2)%m for i in range(len(lta))]
    xif=Caracters(xif)
    return xif


Ara cal definir una funció AfiDX(mis,clau) per a desxifrar amb el criptosistema afí de $1114112$ caràcters. La funció ha d'admetre com a paràmetres el missatge xifrat, mis, i la clau de xifratge, clau. Convé fer, també, les altres dues versions per a la sortida sempre codificada o sempre descodificada 

In [None]:
def AfiDX(mis,clau):
    if type(mis)==str:
        lta=Codis(mis)
        b=1
    else:
        lta=mis
        b=0
    m=1114112
    c1=((clau[0]%m)^(-1))%m
    c2=-c1*clau[1]%m
    pla=[(c1*lta[i]+c2)%m for i in range(len(lta))]
    if b==1:
        pla =Caracters(pla)
    return pla


In [None]:
def AfiDXC(mis,clau):
    if type(mis)==str:
        lta=Codis(mis)
    else:
        lta=mis
    m=1114112
    c1=((clau[0]%m)^(-1))%m
    c2=-c1*clau[1]%m
    pla=[(c1*lta[i]+c2)%m for i in range(len(lta))]
    return pla


In [None]:
def AfiDXD(mis,clau):
    if type(mis)==str:
        lta=Codis(mis)
    else:
        lta=mis
    m=1114112
    c1=((clau[0]%m)^(-1))%m
    c2=-c1*clau[1]%m
    pla=Caracters([(c1*lta[i]+c2)%m for i in range(len(lta))])
    return pla


### 1.4.3. Proves

Comencem per definir un missage de prova.

In [None]:
missatge="Un missatge de prova per al criptosistema afí."

#### 1.4.3.0.
La clau [1,0] xifra/desxifra com la identitat.

In [None]:
xifrat=AfiX(missatge,[1,0])

In [None]:
print(xifrat)

#### 1.4.3.1.
La clau [1,c] xifra/desxifra com el criptosistema de Cèsar.

In [None]:
xifrat=AfiX('VENIVIDIVINCI',[1,3])

In [None]:
xifrat

In [None]:
AfiDX(xifrat,[1,3])

#### 1.4.3.2. 
Xifrem i desxifrem el <b>missatge</b> amb la clau <b>[37,59]</b>, d'una banda, com a tira de caràcters, i de l'altra, com a llista de codis.

Primerament, com a llista de codis:

In [None]:
mis1=Codis(missatge)
print(mis1)

In [None]:
xifrat1=AfiX(mis1,[37,59])
print(xifrat1)

In [None]:
pla1=AfiDX(xifrat1,[37,59])
print(pla1)
pla1==mis1

In [None]:
Caracters(pla1)

Ara, com a tira de caràcters:

In [None]:
xxifrat1=AfiX(missatge,[37,59])

In [None]:
print(xxifrat1)

In [None]:
Codis(xxifrat1)==xifrat1

In [None]:
Caracters(xifrat1)==xxifrat1

In [None]:
xifrat2=AfiX(missatge,[37,59])

In [None]:
xifrat2

In [None]:
xxifrat2=Codis(xifrat2)

In [None]:
print(xxifrat2)

In [None]:
mis2=AfiDX(xxifrat2,[37,59])

In [None]:
print(mis2)

In [None]:
Caracters(mis2)

### 1.4.4. Anàlisi de freqüències

Però una anàlisi de freqüències pot trencar la clau de manera prou senzilla. De fet, només necessitem "endevinar" a quins caràcters corresponen els dos o tres més freqüents a fi de tenir un sistema d'equacions lineals, mòdul N, la solució del qual sigui la clau. 

Intentem fer-ho explícitament.

In [None]:
print(xifrat1)

In [None]:
fr=[[i,xifrat1.count(i)] for i in set(xifrat1)]

In [None]:
print(fr)

In [None]:
w=sorted((u:=transpose(matrix(fr)))[1],reverse=True)

In [None]:
u

In [None]:
w

In [None]:
cfr=[u[0][list(u[1]).index(i)] for i in w[0:5]]

In [None]:
print(cfr)

Acabem de veure quins són els caràcters més freqüents. Ens podem imaginar que el més freqüent correspon a l'espai en blanc i el següent a la lletra 'e'. Això produeix un sistema d'equacions lineals, que intentem resoldre.

In [None]:
m=1114112

In [None]:
var('x,y')

In [None]:
eq1=[ord(' ')*x+y==cfr[0],ord('e')*x+y==cfr[1]]

In [None]:
solve_mod(eq1,m)

In [None]:
AfiDX(xxifrat1,[1001121, 274619])

En cas que no haguem "endevinat" els caràcters més freqüents, podem intentar fer algunes proves similars; per exemple, amb altres vocals, o amb l'ordre invers, o...

Aquesta no és la clau. Provem amb 'a' en lloc de 'e'.

In [None]:
eq2=[ord(' ')*x+y==cfr[0],ord('a')*x+y==cfr[1]]

In [None]:
solve_mod(eq2,m)

No ha costat gaire!

## Fi del capítol 1