Criptología

Principal > Docencia >Criptología

 

 

FRECUENCIAS DEL ESPAÑOL

 

Índice de la página:


Los datos que vienen a continuación están basados en estas dos fuentes:

  1. Códigos y claves secretas: programas en Basic, Anaya Multimedia 1986, basado a su vez en un estudio lexicográfico del diario "El País".
  2. http://www.mundocripto.com/mambo//content/view/79/54/

Las estadísticas de frecuencias de letras pueden variar de uno a otro autor dependiendo del corpus que hayan elegido para elaborarlas. Suele haber diferencias cuando el corpus es literario o cuando está compuesto de textos de distintas procedencias.

Letras de alta frecuencia

Letras de media frecuencia

Letras de baja frecuencia

Frecuencias <0.5%

Letra

Frec. %

Letra

Frec. %

Letra

Frec. %

G, F, V, W,

J, Z, X, K, Ñ

E

16,78

R

4,94

Y

1,54

A

11,96

U

4,80

Q

1,53

O

8,69

I

4,15

B

0,92

L

8,37

T

3,31

H

0,89

S

7,88

C

2,92

 

 

N

7,01

P

2,76

 

 

D

6,87

M

2,12

  • Las vocales constituyen cerca del 46,38% del texto.
  • Las letras de alta frecuencia suman el 67,56% del texto.
  • Las letras de media frecuencia suman el 25% del texto.
  • En el diccionario la vocal más frecuente es la A, pero en textos escrito es la E a causa de las preposiciones, conjunciones, verbos, etc.
  • Las consonantes más frecuentes son L,S,N,D, con cerca del 30%.
  • Las seis letras menos frecuentes: V,Ñ,J,Z,X y K (poco más del 1%).
  • La frecuencia media de una palabra en español es de 5.9 letras.
  • El índice de coincidencia para el español es 0.0775.


Palabras más frecuentes
Palabras de dos letras
Palabras de tres letras

Palabra

Frecuencia (por diez mil)

Palabra

Frecuencia
(por diez mil)

Palabra

Frecuencia (por
diez mil)

DE

778

DE

778

QUE

289

LA

460

LA

460

LOS

196

EL

339

EL

339

DEL

156

EN

302

EN

302

LAS

114

QUE

289

SE

119

POR

110

Y

226

UN

98

CON

82

A

213

NO

74

UNA

78

LOS

196

SU

64

MAS

36

DEL

156

AL

63

SUS

27

SE

119

ES

47

HAN

19

LAS

114

       

 

Palabras de cuatro letras
Distribución de letras en textos literarios

Palabra

Frecuencia (por diez mil)

E - 16,78% R - 4,94% Y - 1,54% J - 0,30%

PARA

67

A - 11,96% U - 4,80% Q - 1,53% Ñ; - 0,29%

COMO

36

O - 8,69% I - 4,15% B - 0,92% Z - 0,15%

AYER

25

L - 8,37% T - 3,31% H - 0,89% X - 0,06%

ESTE

23

S - 7,88% C - 2,92% G - 0,73% K - 0,00%

PERO

18

N - 7,01% P - 2,77% F - 0,52% W - 0,00%

ESTA

17

D - 6,87% M - 2,12% V - 0,39%  

AÑOS

14

       

TODO

11

       

SIDO

11

       

SOLO

10

       


Las fuentes anteriores no traen las frecuencias para dígrafos y trígrafos (dos y tres letras). Usamos el artículo de Randy Nichols en la web:

http://www.fortunecity.com/skyscraper/coding/379/lesson7.htm

que a su vez se basa en:

  1. Friedman, William F. and Callimahos, Lambros D., Military Cryptanalytics Part I - Volume 2, Aegean Park Press, Laguna Hills, CA, 1985.
  2. Barker, Wayne G., Cryptograms in Spanish, Aegean Park Press, Laguna Hills, CA., 1986.

El tamaño del corpus es de 60.115 letras. Las frecuencias son absolutas. Los dígrafos se leen por fila y columna en este orden.

FRECUENCIAS DE DÍGRAFOS - I
A
B
C
D
E
F
G
H
I
J
K
L
M
A
12
14
54
64
15
5
8
4
10
8
41
30
B
11
5
14
1
12
C
39
5
17
8
80
3
D
32
1
2
84
1
30
E
20
5
47
26
17
8
21
6
9
3
44
26
F
2
9
12
1
G
12
12
5
1
H
15
3
5
I
43
8
42
29
40
5
8
1
14
16
J
4
5
K
1
L
44
5
5
35
1
3
28
9
5
M
32
10
42
30
Ñ
                         
N
41
2
33
37
41
10
6
2
28
1
5
4
O
19
17
28
26
16
6
5
5
4
1
22
33
P
30
1
16
5
8
Q
                         
R
74
1
12
10
94
1
12
45
1
1
6
15
S
32
2
18
15
57
3
2
4
41
1
5
7
T
60
1
67
35
U
13
6
11
5
52
1
3
9
9
6
V
12
1
15
15
W
1
1
X
1
4
Y
5
1
3
2
5
1
1
1
1
Z
6
1
1

 

FRECUENCIAS DE DÍGRAFOS - II
N
Ñ
O
P
Q
R
S
T
U
V
W
X
Y
Z
A
64
4
24
5
81
62
18
9
9
11
4
B
5
12
2
1
3
C
69
6
13
18
D
1
59
2
1
3
1
6
1
E
126
5
23
4
94
119
17
5
10
1
8
2
3
F
7
4
5
G
2
15
11
1
11
H
6
1
I
50
67
4
1
16
27
24
1
8
5
J
3
3
K
L
1
17
5
1
2
4
5
5
3
1
M
15
10
6
N
3
43
10
2
4
21
91
12
6
1
1
Ñ
O
104
4
29
7
58
73
12
3
5
2
9
1
P
31
34
1
3
19
Q
29
R
11
43
7
3
10
10
15
9
6
1
1
S
5
22
26
4
6
10
57
23
2
4
T
56
37
11
U
34
1
3
9
10
4
1
2
V
7
W
1
X
3
2
Y
1
5
2
1
1
3
1
1
Z
3
2

Los siguientes dígrafos:

Dígrafo
EN ES ON ER RE NT DE AR CI RA OS CO IO TE AN
Frecuencia 126 119 104 94 94 91 84 81 80 74 73 69 67 67 64

representan el 25% del texto. Si añadimos los siguientes:

Dígrafo
AD AS TA DO OR SE ST TO AC UE IN EC RI EL LA
Frecuencia 64 62 60 59 58 57 57 56 54 52 50 47 45 44 44
Dígrafo RO NO IA IC ME AL SI NE NA IE          
Frecuencia 43 43 43 42 42 41 41 41 41 40          

Pares de dígrafos simétricos (o palindrómicos) que aparecen con más frecuencia:

Par
EN-NE
ES-SE
ON-NO
ER-RE
AR-RA
CI-IC
AN-NA
Dígrafo
126 - 41
119-57
104-43
94-94
81-74
80-42 64-41
Par
AD-DA AS-SA OR-RO AC-CA AL-LA EL-LE MA-AM
Dígrafo
64-32
62-32
58-43
54-39
41-44
44-35
32-30

Frecuencias de iniciales basadas en textos de 10.129 letras.

Letra
P C D E S A L R M N T
Frecuencia 1.1128 1.081 1.012 989 789 761 435 425 403 346 298

Letra
Q I H U G V F O B J Y W Z K
Frecuencia 286 281 230 219 206 183 177 169 124 47 27 19 2 1

Frecuencias de trígrafos (sobre 60.115 letras)::

Trígrafo
Frecuencia
Trígrafo
Frecuencia
Trígrafo
Frecuencia
ENT
596
CIA
190
PRO
158
ION
564
ENC
188
ACO
155
CIO
502
NCI
184
ENE
153
NTE
429
PRE
183
UES
151
CON
415
DEL
183
ESP
149
EST
355
NDO
183
OSE
147
RES
335
NES
183
ONS
144
ADO
307
DOS
182
REC
144
QUE
294
MEN
181
ORE
143
ACI
277
NTA
176
OCO
142
NTO
270
POR
176
EDE
141
IEM
267
TER
174
ICI
140
COM
246
ODE
168
END
139
ICA
242
ERE
166
SEN
139
STA
240
ERA
165
TAD
138
ARA
229
TRA
165
ECO
135
ONE
227
AME
165
STR
134
ESE
202
ERI
163
TOS
133
ADE
193
MER
162
IDA
132
PAR
190
ELA
159
SDE
132

Trígrafo
Frecuencia
Trígrafo
Frecuencia
Trígrafo
Frecuencia
ERO
131
NDE
121
PER
111
ONT
131
RAN
121
ASE
109
ANA
130
STE
119
CAN
109
ARE
129
REN
118
UNI
108
UNT
127
ARI
117
OSI
107
ANO
127
TEN
116
GEN
105
TAR
126
OND
115
NCO
105
ANT
126
RIA
115
RIO
105
ESA
126
ECI
114
ERN
104
IER
125
IST
113
OMI
104
ADA
125
ONA
113
SCO
104
DEN
124
DAD
112
TES
103
AND
123
INT
112
BIE
101
DES
121
NTR
112
NTI
100
IDO
121
ESI
111
TOR
100

 

Última actualización: 6-marzo-08.