Le fichier Gougenheim.txt présente pour 8774 mots leur fréquence et pour les mots de fréquence supérieure à 20 leur répartition (nombre de textes dans lesquels ils apparaissent). Le corpus sur lequel, il est basé est un corpus de langue oral basé sur un ensembles d'entretiens avec 275 personnes. C'est donc non seulement un corpus de langue orale mais aussi de langue produite (dans le sens où les personnes interrogées avaient une conversation courante ce qui n'est pas forcément le cas dans des corpus radiophoniques ou télévisuels p. ex.). Le corpus original comprend 163 textes, 312.135 mots et 7.995 lemmes différents.

Cette base a été élaborée à partir du livre "L'élaboration du français fondamental", 1964 (pour les mots de fréquence supérieure à 20) et un ensemble de pages dactylographiées pour les mots de fréquence inférieure à 20.

Web: http://www.lexique.org/public/gougenheim.php


Les champs sont les suivants

  • mots: le mot
  • semgram: indication grammaticale et sémantique sur le lemme
  • lemfreq: fréquence brute du lemme (p.ex. adéquat)
  • surfreq:  fréquence de surface (p.ex. adéquate) (n'existe que pour les mots de fréquence < 20)
  • répar: le nombre de textes dans lequel le mot est présent (n'existe que pour les mots de fréquence > 19)

mots semgram lemfreq surfreq répartition
être (verbe.) 14083  163
avoir  11552  163
de  10503  163
je  7905  162
il (ou ils) 7515  160
ce (pronom) 6846  163
la (article) 5374  163
pas (négation) 5308  158
à (prépos.) 5236  163
et  5082  161
le (article) 4957  163
on  4266  128
vous  4202  154
un (article) 4188  162
ça (pronom démonstratif) 3972  159
les (article) 3815  162
que (conj.) 3537  162
ne  3283  150
faire  3174  162
qui (relatif) 3096  160
oui  2935  154
alors  2854  155
une (article) 2780  163
mais  2768  159
des (article indéfini) 2646  161
elle (ou elles) 2462  134
en (prépos.) 2405  161
dire  2391  160
y  2391  143
pour  2076  161
dans  2066  162
me  2014  152
se  1993  161
aller  1876  161
bien (adv.) 1697  163
du  1658  154
tu  1536  105
en (pronom-adv.) 1501  153
au  1490  161
là  1468  153
l' (article le) 1465  158
comme  1452  153
voir  1439  153
non  1435  139
savoir  1432  150
nous  1386  141
puis  1384  136
ah  1373  139
l' (article la) 1319  156
oh  1258  141
moi  1218  143
tout (adj.) 1205  149
très  1189  141
que (relatif) 1136  157
pouvoir (verbe.) 1131  157
parce que  1126  148
avec  1087  152
lui  1066  128
falloir  1001  151
enfin  1001  142
par  965  153
quand  964  143
le (pronom) 894  140
vouloir  881  146
petit  863  143
si (conditionnel) 837  141
plus (comparatif) 832  135
même  810  148
sur (prépos.) 801  139
ce (déterminatif) 705  142
ou (conj.) 705  137
autre  695  145
deux  689  139
mon  675  133
ben  620  111
venir  613  136
prendre  608  143
tout (pronom) 608  130
arriver  568  133
beaucoup  561  130
croire  555  135
heure  545  117
rien  541  124
jour  538  132
mettre  530  125
passer  483  136
un peu  481  120
chose  411  121
les (pronom) 475  120
devoir (verbe.) 472  124
l' (pronom le) 458  102
aussi  454  126
encore  452  138
des (de les) 452  95
trois  450  113
parler  447  118
hein  447  74
toujours  443  117
cette  439  130
trouver  439  123
quoi (exclamatif) 437  85
ma  432  107
grand (adj.) 428  118
temps  426  130
donner  426  128
après  425  120
fois  423  121
eh bien  417  104
te  413  86
an  407  111
son (possessif) 407  103
où (relatif) 406  131
sa  401  113
cent  397  92
comprendre  393  94
maintenant  391  125
bon (adj.) 384  123
tout (adv.) 381  110
quand même  368  97
chez  365  108
plus (temporel) 355  117
moment  337  114
vingt  335  101
qu'est-ce que  328  115
que (après comparaison) 328  106
la (pronom) 328  105
comment  327  106
jamais  325  108
moins  322  106
quatre  322  105
connaître  316  107
monsieur (messieurs) 316  92
ces  314  107
vraiment  314  101
dix  311  97
franc (monnaie) 311  68
cinq  310  109
votre (déterminatif) 306  86
partir  305  100
enfant  305  84
voilà  304  95
assez  302  107
madame (mesdames) 299  70
demander  291  108
trop  286  109
d'ailleurs  283  98
tenir  281  106
maison  278  93
femme  275  74
peut-être  273  114
aimer  267  94
gens  265  87
mois  262  78 penser  258  102
là-bas  257  76
mille  257  70
quelque chose  255  105
soir  253  91
rester  250  100
sans  249  117
année  247  91
donc  243  95
exemple  242  94
déjà  241  107

Auteurs

Cette base est tirée du livre "L'élaboration du français fondamental" écrit par G. Gougenheim , P. Rivenc, R. Michéa, A. Sauvageot.Pour la mise sous format électronique: Boris New

Téléchargement

Gougenheim 2.00

in Lexique - Une Base de Données Lexicales Libre