Corpus de español

Uno de los recursos más útiles para la investigación son los corpus língüísticos. Debajo ofrecemos algunos enlaces de los principales corpus lingüísticos de español dispobibles en la Internet junto a una breve descripción de sus características. Para acceder a cada uno de estos corpus tan solo tiene que hacer click encima de cada uno de los iconos al lado del texto explicativo.

Corpus generales

o de referencia

CNDHE: El corpus del actual Diccionario histórico de la lengua española (CNDHE) consta de 355 740 238 registros, que se distribuyen en tres capas de consulta:

CDH nuclear: Cuenta con más de 53 millones de ocurrencias, de las cuales 32 pertenecen a textos españoles y más de 20 millones a obras americanas. Los textos que conforman el corpus (en buena medida, comunes al CORDE y al CREA) se han sometido a un proceso semiautomático de anotación lingüística (operación llevada a cabo por el Departamento de Tecnología de la Real Academia Española), lematización que constituye un punto de partida para el manejo de los datos en el trabajo lexicográfico. Posteriormente, en la Fundación Lapesa se desarrolló una interfaz de consulta para el CDH, aplicación que permite realizar una variada gama de consultas, motivo por el que se ha utilizado para la presentación de otros corpus de la Academia. Las obras medievales de esta capa de consulta presentan, además, una caracterización filológica, por lo que en el apartado de consulta se pueden obtener las ocurrencias por la fecha del testimonio base (y no solo por la fecha de redacción del texto).
S. XII-1975. Conjunto de textos enmarcados entre el siglo xii y 1975, formado por una selección de obras procedentes del CORDE (Corpus Diacrónico del Español) de la Real Academia Española (con un total de 199 387 676 formas). Estas obras poseen una preanotación morfosintáctica, realizada con herramientas de software libre (Freeling) en el marco del proyecto del Diccionario histórico de la lengua española.
1975-2000. Conjunto de obras datadas entre 1975 y 2000, con títulos procedentes del CREA (Corpus de Referencia del Español Actual), anotados lingüísticamente por el Departamento de Tecnología de la Real Academia Española (con 103 173 014 registros).

CORDE: El Corpus Diacrónico del Español es un banco de datos de la lengua española gestionado por la Real Academia Española. Contiene unos 250 millones de palabras, y cubre desde los inicios del idioma hasta 1974.

CORPES XXI: El Corpus del Español del Siglo XXI es un corpus de referencia, iniciativa de la Real Academia Española y de la Asociación de Academias de la Lengua Española (ASALE), que aún está en construcción y que contiene textos escritos y orales, procedentes de hispanohablantes, recogidos a partir de 2001.

CREA: El Corpus de Referencia del Español Actual es un banco de datos de la lengua española desarrollado por la Real Academia. Iniciado en 1997, su contenido se incluye de forma estadística escogiendo expresiones de Hispanoamérica y España, de toda clase de textos escritos, y cubre desde 1974 hasta la fecha.

En esta página web tienes a tu disposición 4 corpus lingüísticos: i) Corpus Género / Histórico: El corpus contiene 100 millones de palabras de entre el siglo XIII y el siglo XX, y se puede utilizar para analizar la historia del español. Para el siglo XX, los datos están divididos equitativamente entre textos orales, de ficción, de periódicos y académicos, lo que permite realizar búsquedas para comparar géneros en español; ii) Corpus Dialectos: Contiene casi dos mil millones de palabras de páginas web de 21 diferentes países de habla hispana. Este corpus permite hacer búsquedas en textos en español muy recientes (los textos se recopilaron en 2013 y 2014) y comparar los diferentes dialectos; iii) Corpus NOW (2012-2019): Contiene más de 7,3 mil millones de palabras de 21 diferentes países de habla hispana, desde 2012 hasta 2019 y iv) Corpus Google Books n-grams (BYU): Esta es nuestra interfaz para los datos n-gramas de Google Books. Se basa en 45 mil millones de palabras, en decenas de millones de libros del 1800 al 2000. Los datos de n-gramas no permiten la gama completa de consultas que un corpus normal, pero todavía se puede encontrar la frecuencia de palabras y frases a lo largo del tiempo, así como encontrar los colocados de una palabra dada (incluyendo los colocados a lo largo del tiempo, para ver el cambio semántico). Y debido a que está basado en 45 mil millones de palabras, es una información increíblemente rica.

Corpus específicos

Biblia medieval: El corpus Biblia medieval es un recurso de libre acceso en la red destinado a facilitar el estudio y la difusión de un aspecto singular de la lengua y cultura medievales hispánicas: las traducciones de la Biblia al castellano llevadas a cabo durante la Edad Media.

CHARTA: El corpus CHARTA es un corpus hispano y americano en la red de textos antiguos. Contiene documentos de Europa, América y Asia, entendidos estos en sentido amplio, pues no solo acoge piezas oficiales de la cancillería, la administración civil, la de justicia, la Inquisición o contratos de compraventa, sino cartas particulares y aun billetes y notas sueltas. Por ahora se ofrece una selección amplia de archivos españoles y una breve muestra de documentos americanos, que se ampliará en ediciones sucesivas del corpus.

CODEA: El corpus CODEA (Corpus de Documentos Españoles Anteriores a 1900) es una herramienta imprescindible para los estudiosos de la historia de la lengua, la dialectología diacrónica y la geografía lingüística, para paleógrafos, interesados por la historia general, de la vida privada y las mentalidades, y para todos aquellos que busquen información de carácter local o de cualquier otro tipo sobre el pasado antiguo y reciente. CODEA ofrece en su estado actual 4023 documentos en español de toda la geografía peninsular del español y de diferentes registros (desde la Cancillería a las notas de manos inhábiles).

CORdeMIA: Es una colección de entrevistas a migrantes instalados en la ciudad de La Plata y sus alrededores con el fin de crear un corpus de variedades lingüísticas que conviven, actualmente, en nuestro país. Estos textos han sido obtenidos a partir del trabajo mancomunado de estudiantes y docentes de la cátedra de Lingüística I de la FAHCE y de la colaboración generosa de los individuos entrevistados.

CORDIAM: El Corpus Diacrónico y Diatópico del Español de América reúne tres conjuntos documentales; Cordiam-Documentos, Cordiam-Literatura y Cordiam-Prensa.

El Cordiam contiene solo textos escritos en América. Por su especificidad americana, constituye una base robusta para hacer una gramática histórica comprehensiva del español y, dada su amplia diversidad geográfica, permite investigar la dialectología histórica de la lengua española en América. Por su amplitud cronológica y geográfica y por contener numerosos documentos de diverso tema y naturaleza, posibilita también estudiar o repensar fenómenos sociales, históricos y culturales de Hispanoamérica manifestados a través de la lengua española.

CORHIBER: El Portal de Corpus Históricos Iberorrománicos (CORHIBER) es una herramienta informática que tiene como finalidad ofrecer a sus usuarios el elenco de corpus históricos en lenguas iberorrománicas que actualmente se encuentra a su disposición a través de Internet. Juntamente con el enlace con cada corpus reseñado en el Portal, se aportan una serie de informaciones referentes a su procedencia, a sus parámetros clasificadores y a su estado actual, así como una breve descripción de su historia y de su contenido.

COREC: Es el Corpus Oral de Referencia de Español en situaciones de Contacto Lingüístico y atiende los diferentes requisitos de variación (hablantes bilingües de distinto tipo y hablantes monolingües, así como las diferencias sociolingüísticas de las distintas situaciones de contacto).

CORHIJE – Corpus Histórico Judeoespañol: es un corpus lingüístico accesible en línea, representativo de la evolución de la lengua sefardí, y está concebido tanto para el investigador como para el lector curioso en general por su carácter añadido de colección documental. Desde una interfaz web se pueden efectuar búsquedas lingüísticas complejas sobre un número creciente de ediciones críticas de textos sefardíes de distintos lugares, géneros y épocas, y acceder a los documentos originales. Estos han sido metadescritos según el estándar Dublin-Core, lo que facilita, tanto su filtrado (por autor, título, lugar, tipo de texto, palabras clave, etc.), como el establecimiento de corpus paralelos alineados en ciertos casos.

Corpus de Literatura Oral: Tiene como objetivo prioritario preservar las manifestaciones de la cultura oral difundidas en el ámbito hispanohablante, si bien damos también cabida a muestras de otras procedencias lingüísticas.

El archivo audiovisual contiene grabaciones registradas desde 1970 hasta la actualidad, gracias a las campañas de campo realizadas por numerosos investigadores.

Con el objetivo de radiografiar la diversidad migrante de la ciudad de Sevilla, se ha elaborado el Corpus.migra.sev, constituido por muestras de entrevistas semidirigidas de las diferentes comunidades presentes en la ciudad hispalense, que permitirá obtener resultados sobre las características lingüísticas del español hablado por los migrantes, sobre su acomodación e integración sociolingüística, a la vez que posibilitará la realización de estudios contrastivos, por una parte, con el español de hablantes vernáculos, basados en diferentes corpus con características similares a este, y, por otra parte, con otros materiales ya recogidos sobre la comunidad migrante residente en España.

COSER: El Corpus Oral y Sonoro del Español Rural está formado por grabaciones de la lengua hablada en enclaves rurales de la Península Ibérica. Las entrevistas se obtuvieron con el propósito de ofrecer una muestra representativa de la variedad dialectal, pero también permiten conocer los modos de vida en el campo en la época previa a la mecanización agraria y a la despoblación rural.

HESPERIA: Es un corpus de materiales lingüísticos antiguos relativos a la Península Ibérica (y los relacionados con ella del sur de Francia), con la exclusión de las inscripciones latinas, griegas y fenicias. En concreto, incluye:

Todos los textos en lenguas paleohispánicas (ibérico, celtibérico, lusitano y la del Suroeste).
Las inscripciones monetales paleohispánicas.
La onomástica indígena (antropónimos, topónimos, etnónimos y teónimos de las lenguas mencionadas, así como del vascón o del turdetano) transmitida en fuentes epigráficas o literarias grecolatinas.
Las glosas hispánicas transmitidas por los autores antiguos.

Indexador de Corpus de Aprendices de Español: El Indexador de Corpus de Aprendices de Español es una aplicación web que recopila y centraliza información sobre los corpus de aprendices de español como lengua extranjera y como segunda lengua.

El objetivo de este recurso es el de facilitar la tarea investigadora y docente a aquellas personas que necesiten consultar este tipo de corpus. Se trata de presentar a los profesionales de ELE un solo recurso que permita acceder a toda la información sobre los corpus existentes. De manera que no pasen desapercibidos corpus que pueden resultar de interés para la investigación o la labor docente a la vez que se simplifica la tarea de búsqueda.

En la página web del Instituto de Ingeniería de la Universidad Nacional Autónoma de México (UNAM) tienes a tu disposición 16 corpus lingüísticos, entre los que destacan: i) Corpus del Habla de Sinaloa: contiene transcripciones de entrevistas (2002-2011) en los lugares más recónditos del estado, incluye todos los grupos etarios, análisis en diferentes niveles de la lengua como el fonético, el morfológico, el sintáctico y sobre todo estudios de corte sociolingüístico y dialectológico; ii) Corpus del Derecho Penal Mexicano: El Corpus del Derecho Penal Mexicano (CDPM) es un corpus monolingüe, digital y especializado, que se construyó con el objetivo de proveer acceso a traductores, intérpretes, lingüistas, estudiantes de derecho y público en general. Intenta ser un corpus electrónico que permita desarrollar análisis léxico, fraseológico y terminológico del discurso jurídico en el ámbito del derecho penal; y iii) Corpus del Habla de Baja California: es un repositorio con muestras de registro oral y escrito que reflejan el habla propia del estado de Baja California e incluye muestras representativas de los municipios con mayor población: Mexicali, Tijuana y Ensenada; iv) Corpus Lingüístico en Ingeniería: Incluye 151 documentos del ámbito de la ingeniería.

En esta página web, tenéis acceso al corpus Preseea, un corpus de lengua española hablada representativo del mundo hispánico en su variedad geográfica y social. Incluye materiales que atienden a la diversidad sociolingüística de las comunidades de habla hispanohablantes. Y participan en su elaboración cerca de 40 equipos de investigación sociolingüística.

En esta página del Instituto de Lingüística Aplicada de la Universidad Pompeu Fabra, tenéis acceso a diversos corpus lingüísticos. Entre ellos, destaca el Corpus Técnico de la IULA, que agrupa textos escritos de derecho, economía, genómica, medicina, medioambiente, más un corpus de contraste de prensa. Las lenguas del corpus son catalán, castellano, inglés, francés y alemán. Partes del Corpus Tècnic del IULA se han reelaborado ulteriormente en el marco del proyecto Metanet4U. Se han actualizado los formatos de codificación de acuerdo con los estándares internacionales más recientes y, en algunos casos, se ha ampliado la información lingüística incorporada. Estos subcorpus están disponibles para ser descargados, algunos, previa solicitud de uso y otros directamente desde el e-repisitori de la UPF.

Corpus generales

o de referencia

1975-2000. Conjunto de obras datadas entre 1975 y 2000, con títulos procedentes del CREA (Corpus de Referencia del Español Actual), anotados lingüísticamente por el Departamento de Tecnología de la Real Academia Española (con 103 173 014 registros).

CORDE: El Corpus Diacrónico del Español ​ es un banco de datos de la lengua española gestionado por la Real Academia Española. Contiene unos 250 millones de palabras, y cubre desde los inicios del idioma hasta 1974.

Corpus específicos

Biblia medieval: El corpus Biblia medieval es un recurso de libre acceso en la red destinado a facilitar el estudio y la difusión de un aspecto singular de la lengua y cultura medievales hispánicas: las traducciones de la Biblia al castellano llevadas a cabo durante la Edad Media.

CORDIAM: El Corpus Diacrónico y Diatópico del Español de América reúne tres conjuntos documentales; Cordiam-Documentos, Cordiam-Literatura y Cordiam-Prensa.

COREC: Es el Corpus Oral de Referencia de Español en situaciones de Contacto Lingüístico y atiende los diferentes requisitos de variación (hablantes bilingües de distinto tipo y hablantes monolingües, así como las diferencias sociolingüísticas de las distintas situaciones de contacto).

Corpus de Literatura Oral: Tiene como objetivo prioritario preservar las manifestaciones de la cultura oral difundidas en el ámbito hispanohablante, si bien damos también cabida a muestras de otras procedencias lingüísticas.

El archivo audiovisual contiene grabaciones registradas desde 1970 hasta la actualidad, gracias a las campañas de campo realizadas por numerosos investigadores.

HESPERIA: Es un corpus de materiales lingüísticos antiguos relativos a la Península Ibérica (y los relacionados con ella del sur de Francia), con la exclusión de las inscripciones latinas, griegas y fenicias. En concreto, incluye:

Todos los textos en lenguas paleohispánicas (ibérico, celtibérico, lusitano y la del Suroeste).

Las inscripciones monetales paleohispánicas.

La onomástica indígena (antropónimos, topónimos, etnónimos y teónimos de las lenguas mencionadas, así como del vascón o del turdetano) transmitida en fuentes epigráficas o literarias grecolatinas.

Las glosas hispánicas transmitidas por los autores antiguos.

Indexador de Corpus de Aprendices de Español: El Indexador de Corpus de Aprendices de Español es una aplicación web que recopila y centraliza información sobre los corpus de aprendices de español como lengua extranjera y como segunda lengua.

CORDE: El Corpus Diacrónico del Español es un banco de datos de la lengua española gestionado por la Real Academia Española. Contiene unos 250 millones de palabras, y cubre desde los inicios del idioma hasta 1974.