# Iniciació a la Criptografia

###  Artur Travesa

#### (versió 2024-07)

# Capítol 0. Codificació

## 0.0. Introducció

La idea bàsica que guia aquest primer capítol de les notes és descriure l'aplicació d'eines d'Aritmètica bàsica que són fonamentals per a les transmissions d'informació, xifrades o no.

I per a la transmissió d'informació, cal tenir en compte, en primer lloc,  quin tipus de missatges es volen transmetre i com es poden transcriure de manera que se'n pugui fer un estudi i una manipulació raonablement còmodes; és a dir, com estan <i>codificats</i>. 

Centrem, doncs, el contingut, en la descripció de la codificació bàsica que considerarem per als missatges.

## 0.1. Codificació de missatges

Sembla evident que la codificació dels missatges dependrà en gran manera de quin tipus de missatges es volen transmetre. Per exemple, és molt difícil pensar com un actor pot transmetre una olor, o una sensació tàctil, o un gust, o una emoció qualsevol, almenys, de manera exacta o, fins i tot, prou acurada, a algun altre. 

Fins i tot, un missatge tan senzill (de dir) com "t'estimo", no es pot transmetre amb tota la seva profunditat sense la presència en directe de l'emissor i el receptor del missatge; en efecte, no només és la frase concreta, sinó la mirada, el to, el timbre de veu, i el context, per posar només un exemple, allò que fa que el missatge arribi completament al seu destinatari. I, fins i tot així, potser el missatge rebut no és exactament el missatge enviat! La "codificació" del missatge no és prou precisa perquè el missatge pugui arribar íntegrament al seu destinatari, tal com el vol transmetre l'emissor.

<b>Observació</b>. Per als missatges criptogràfics, això no és possible. En efecte, <b>CAL</b> que el missatge desxifrat sigui exactament igual que el missatge que es xifra; per tant, el codificador i el descodificador hauran de ser adequats a fi de fer això possible. En particular, això limitarà el tipus de missatge que es pot xifrar/desxifrar.

Doncs, sembla evident que cal que l'emissor disposi d'un "codificador" adaptat al tipus de missatge que vol transmetre, i que el destinatari disposi d'un "descodificador" adequat que recuperi el missatge enviat, si és que això és possible. 

Per exemple, per a la transmissió oral d'informació, cal que l'emissor i el receptor disposin d'una llengua comuna per a la transmissió del missatge; en aquest cas, la llengua actua com a codificador i també com a descodificador del missatge. Notem, també, que, tot i així, el procés de codificació i descodificació no sempre aconsegueix una transmissió perfecta del missatge. 

Però encara que els dos actors disposin d'aquesta llengua comuna, la transmissió del missatge no és xifrada; només és codificada. De fet, qualsevol altre actor que conegui aquesta llengua comuna podria descodificar el missatge i aquest no li seria críptic. És a dir, qualsevol actor que conegui el sistema de codificació del missatge el pot descodificar sense conèixer cap altra informació complementària. En aquest cas, no parlem de Criptografia, sinó només de Codificació.

I abans de fer críptics els missatges per a altres actors, cal que el missatge sigui codificat d'alguna manera adequada a la seva transmissió. 

Per a començar un estudi matemàtic de la criptografia, cal concretar bé quin tipus de missatges podem tractar, a fi de poder-los codificar de manera adequada i, després, fer-los críptics a tercers actors.

Un dels fets bàsics que s'han de tenir presents, és que la codificació pot dependre molt del tipus de missatge que es vol transmetre. Per exemple, potser cal transmetre dades bancàries per a una transacció comercial (NIF, números de comptes corrents, números de targetes de crèdit, quantitats que cal transferir entre comptes diferents, etcètera), o bé cal transmetre informacions confidencials alfanumèriques en general (informes de seguiment de projectes, cartes de recomanació, sol·licituds de beques), o bé cal transmetre claus privades per a l'ús de certes funcions criptogràfiques (per exemple, en les comunicacions xifrades entre diferents ordinadors), etcètera.

<b>Observació</b>. Això obvia, clarament, quin és el procés bàsic de codificació al qual s'han de sotmetre prèviament els missatges. Per exemple, un text alfanumèric es codifica, sovint, amb un processador de textos concret, que li dóna una forma tal que qualsevol altre actor amb el mateix processador de textos el pot recuperar íntegrament; però potser no el pot recuperar amb un processador diferent. És conegut que per a evitar aquest tipus de problemes "d'incompatibilitat" entre els sistemes diferents, es poden fer servir formats de tipus estàndard. I, encara ens podem trobar amb més dificultats si volem tractar altres tipus de missatges; per exemple, de so, o d'imatge; o bé d'arxius executables en un determinat sistema operatiu.

### 0.1.0. Tipus de missatges

Actualment, la majoria de les comunicacions s'estableixen entre ordinadors, i les dades que cal transmetre són, sovint, arxius (de text, o executables, o multimèdia comprimits, o del tipus que sigui). Per tant, volem suposar, i ho farem sovint, que les dades que cal transmetre són successions de zeros i uns.

A fi de poder <i>simular</i> còmodament aquest fet, en aquest tutorial usarem les funcions incorporades chr( ) i ord( ). Cal notar que <i>SageMath</i> usa els 1114112 codis numèrics Unicode, entre els valors $0$ i $16^5+16^4-1=1114111$=0x10ffff, inclosos; o sigui en el rang (en el tipus de dades de <i>SageMath</i>) $0\le codi<1114112$. 

Notem que es tracta només d'una <i>simulació</i>. En un cas real, caldria treballar directament sobre els bits (o, potser, sobre els bytes) de l'arxiu origen. En efecte, els diferents programaris <i>interpreten</i> d'alguna manera les successions de bits que constitueixen l'arxiu i ens el presenten visualment; però usualment no ens ensenyen la successió original de bits. De fet, nosaltres treballarem sobre aquesta <i>interpretació</i>.

## 0.2. La llista dels caràcters de <i>SageMath</i>: de codis a caràcters

### 0.2.0. Els caràcters ASCII

Els caràcters ASCII (American Standard Code for Information Interchange) imprimibles són els caràcters de codis entre el $32$ (caràcter blanc=espai) i el $126$ (titlle). Fem-ne una llista.

In [None]:
print([[i,chr(i)] for i in range(32,127)])

Abans dels caràcters ASCII imprimibles (del $0$ al $31$), i després (només el $127$), hi ha els diferents caràcters ASCII de control; mirem-nos-els, i notem que <i>SageMath</i> ens en dóna una interpretació en format hexadecimal d'un sol byte, excepte dels codis <i>tabulador</i>, \t, <i>línia nova</i>, \n, i <i>retorn de carro</i>, \r.

In [None]:
print([[i,chr(i)] for i in range(0,32)]+[[127,chr(127)]])

### 0.2.1. Extensions del codi ASCII

Després dels caràcters ASCII imprimibles hi ha diferents extensions de la taula de codis fins al codi $255$ (o més enllà). Són les <i>diferents taules de caràcters</i> que corresponen a les diferents extensions del codi ASCII que s'han usat durant molt de temps; de fet, n'hi ha moltes i convé utilitzar-ne una més estandarditzada. <i>SageMath</i> utilitza la taula de codis estàndard <i>Unicode</i>. Notem que per als primers caràcters que interpreta però no "dibuixa" en proporciona (com abans) una codificació hexadecimal d'un sol byte (notem que $255=2^8-1=16^2-1$ s'escriu, en base $16$, com "ff" i, en binari, com "1111 1111").

In [None]:
print([chr(v) for v in range(128,256)])

In [None]:
print([chr(v) for v in range(256,512)])

In [None]:
print([chr(v) for v in range(512,1024)])

Aquí també hi ha caràcters "interpretats", però la interpretació ja no és hexadecimal d'un sol byte, com abans, sinó que és en format unicode de $4$ caràcters hexadecimals (per exemple, \u038b).

In [None]:
print([chr(v) for v in range(1024,1556)])

In [None]:
print([chr(v) for v in range(1556,2048)])

Etcètera. Per a valors superiors, trobem símbols d'altres alfabets (per exemple, orientals).

In [None]:
print([chr(v) for v in range(23456,23600)])

I per a valors més grans, hi ha caràcters interpretats en format unicode de $8$ caràcters hexadecimals (per exemple, \U0001000c).

In [None]:
print([chr(v) for v in range(2^16,2^16+256)])

Mirem-nos els darrers possibles (el darrer és \U0010ffff): 

In [None]:
print([chr(v) for v in range(16^5+16^4-256,16^5+16^4)])

Però si intentem veure'n un de posterior, obtenim un error (òbviament).

In [None]:
print(chr(16^5+16^4))

## 0.3. La llista dels caràcters de <i>SageMath</i>: de caràcters a codis

La funció ord( ) de <i>SageMath</i> proporciona el valor (decimal) del codi d'un caràcter. En cas de voler els codis d'un text, cal fer-ho caràcter a caràcter. Per tant, caldrà fer un petit programa.

In [None]:
llista=[ord(i) for i in "Llista de caràcters."]
print(llista)

Notem que el caràcter de codi més petit és l'espai (de codi $32$), i que hi ha algun caràcter que no és ASCII (de codi $224$), i que correspon a una vocal minúscula accentuada, à.

In [None]:
print([min(llista), max(llista)])

Veiem quins codis numèrics tenen (en <i>SageMath</i>) les vocals accentuades:

In [None]:
vocals="ÀÁÂÄÈÉÊËÌÍÎÏÒÓÔÖÙÚÛÜàáâäèéêëìíîïòóôöùúûü"

In [None]:
cc=[ord(v) for v in vocals]
print(cc)

In [None]:
print([min(cc), max(cc)])

Notem que les (nostres) vocals accentuades no esgoten la llista de codis (per exemple, quins caràcters corresponen al codis $195$, $197$, $198$, $199$, etcètera?. Fem la llista de tots els caràcters amb aquests codis:

In [None]:
ll=""
for v in range(192,253):
    ll=ll+chr(v)
print(ll)

## 0.4. Les funcions Codis(text) i Caracters(codis)

Es tracta de definir una funció Codis(text) que, aplicada a una tira de caràcters, text, en proporcioni la llista de codis numèrics.

I també, definir una funció inversa, Caracters(codis) que, aplicada a una llista de codis en proporcioni la tira de caràcters de la qual prové. 

<b>Observació</b>. A fi que la llista sigui de codis, els elements de la llista han de ser del rang $0\le codi < m:=11141112$; però, en algun dels usos posteriors, la llista podria contenir valors fora d'aquest rang. A fi d'estalviar-nos feina i no fer una programació més feixuga (hauríem de comprovar que els codis són correctes i proporcionar, si cal, missatges d'error), ens limitarem a prendre el residu de la divisió per $m$ de cadascun dels elements de la llista.

### 0.4.0. La funció Codis(text)

In [None]:
def Codis(text):
    return [ord(i) for i in text]

### 0.4.1. La funció Caracters(codis)

In [None]:
def Caracters(codis):
    m=1114112
    cars=""
    for i in range(len(codis)):
        cars=cars+chr(codis[i]%m)
    return cars

### 0.4.2. Exemples

Es tracta de comprovar en alguns exemples que les funcions són inverses l'una de l'altra (per a valors del rang $0\le codi<m$).

#### 0.4.2.0.

In [None]:
text="Un text de prova."
print(text)

In [None]:
codis=Codis(text)
print(codis)

In [None]:
retext=Caracters(codis)
print(retext)

In [None]:
text==retext

Notem, a continuació, que per a valors fora del rang, les funcions no són (no ho poden ser) inverses l'una de l'altra: la composició Codis(Caracters(lta1)) no és la identitat sobre lta1.

In [None]:
lta1=[65,65+1114112]
print(lta1)

In [None]:
txt1=Caracters(lta1)
print(txt1)

In [None]:
lta2=Codis(txt1)
print(lta2)

In [None]:
lta2==lta1

In [None]:
Codis(Caracters(lta1))==lta1

#### 0.4.2.1.

Descodifiquem la llista següent de caràcters: [69, 102, 101, 99, 116, 105, 118, 97, 109, 101, 110, 116, 44, 32, 110, 111, 109, 233, 115, 32, 99, 97, 108, 105, 97, 32, 97, 112, 108, 105, 99, 97, 114, 45, 108, 105, 32, 108, 97, 32, 102, 117, 110, 99, 105, 243, 32, 67, 97, 114, 97, 99, 116, 101, 114, 115, 40, 32, 41].

In [None]:
lta=[69, 102, 101, 99, 116, 105, 118, 97, 109, 101, 110, 116, 44, 32, 110, 111, 109, 233, 115, 32, 99, 97, 108, 105, 97, 32, 97, 112, 108, 105, 99, 97, 114, 45, 108, 105, 32, 108, 97, 32, 102, 117, 110, 99, 105, 243, 32, 67, 97, 114, 97, 99, 116, 101, 114, 115, 40, 32, 41]

In [None]:
Caracters(lta)

## Fi del capítol 0