Corpus de Referencia del Español Actual – CREA

El Corpus de Referencia del Español Actual (CREA) consiste en una colección de textos de variada procedencia, almacenados digitalmente, que permite obtener información para analizar las palabras, sus significados y los contextos en los que se utilizan. Este recurso es esencial para lingüistas, investigadores y educadores, ya que proporciona un acceso directo a ejemplos reales del uso del español en diferentes ámbitos y situaciones. Además, facilita el estudio de la evolución del lenguaje.

La Real Academia de la Lengua Española - RAE cuida del Corpus de Referencia del Español Actual - CREA.
Real Academia de la Lengua Española – RAE. Foto: RAE

Un corpus de referencia es diseñado para ofrecer información completa sobre un idioma en un momento específico de su historia, por lo que debe ser lo suficientemente amplio para representar todas las variantes significativas de dicho idioma. Esa situación ocurre también con el idioma español.

Siguiendo este criterio, la versión del CREA (3.2, junio de 2008) incluye más de ciento sesenta millones de formas. Está compuesto por una gran diversidad de textos escritos y orales, producidos en todos los países hispanohablantes desde 1975 hasta 2004. Los textos escritos provienen tanto de libros como de periódicos y revistas, y cubren más de cien temas diferentes. La lengua oral se representa mediante transcripciones de grabaciones, principalmente de radio y televisión.

En diciembre de 2023, se lanzó la versión 1.0 del CREA anotado, que permite búsquedas por formas, lemas y categorías gramaticales. Los materiales del CREA se han seleccionado siguiendo criterios estándar, buscando mantener el equilibrio propuesto en su diseño. Los contenidos del corpus se emplean a diario en la creación de diversos diccionarios académicos, y sus capacidades de búsqueda aseguran que la información refleje fielmente el uso actual del idioma.

Desde su creación, el CREA ha sido esencial para la investigación sobre el español contemporáneo, principalmente en lingüística, pero también en áreas como publicidad, terminología y sociología, y ha servido de base para el desarrollo de numerosos productos derivados: gramáticas, diccionarios, tesoros, correctores ortográficos, métodos de enseñanza del español y herramientas de traducción automática, entre otros.

Referencias

Las 500 palabras más usadas en español

El Corpus de Referencia del Español Actual (CREA), un banco de datos de la Real Academia Española, determina las formas más frecuentes en idioma español sobre la base de un conjunto de textos, escritos y orales, de diversa procedencia. La última versión cuenta con casi 140.000 documentos y algo más de 154 millones de formas procedentes de textos de todos los países hispánicos y producidos entre 1975 y 2004.

diccionario-palabras-espanol_claima20150724_0038_39
Foto: Diccionario de la lengua española

«Gobierno» y «país» figuran entre las 100 primeras. «Vida» está en el puesto 76, mientras que «muerte» ocupa recién el 264. «José», «Juan» y «Carlos», entre los pocos nombres de la lista. Son algunas de las formas más utilizadas, según un banco de datos de la Real Academia Española.

Los textos escritos, seleccionados tanto de libros como de periódicos y revistas, abarcan más de cien materias distintas. La lengua hablada está representada por transcripciones de documentos sonoros, obtenidos, en su mayor parte, de la radio y la televisión. 

El Corpus está compuesto por un banco de datos que está dividido en los siguientes componentes:

El Corpus de Referencia del Español Actual (CREA) está constituido por un conjunto de textos de diversa procedencia que son almacenados en soporte informático, del que es posible extraer información para estudiar las palabras, sus significados y sus contextos. Fue diseñado para proporcionar información exhaustiva acerca de la lengua española en un momento determinado de su historia. Es lo suficientemente extenso para representar todas las variedades relevantes de la lengua.

Vea también en el Corpus de Referencia del Español Actual (CREA)

1000 formas más frecuentes

5000 formas más frecuentes

10000 formas más frecuentes

Según el CREA, las 500 palabras más comunes en español son las siguientes: Seguir leyendo «Las 500 palabras más usadas en español»