Uno de los recursos más útiles para la investigación son los corpus língüísticos. Debajo ofrecemos algunos enlaces de los principales corpus lingüísticos de español dispobibles en la Internet junto a una breve descripción de sus características. Para acceder a cada uno de estos corpus tan solo tiene que hacer click encima de cada uno de los iconos al lado del texto explicativo.

En esta página web tienes a tu disposición 4 corpus lingüísticos: i) Corpus Género / Histórico: El corpus contiene 100 millones de palabras de entre el siglo XIII y el siglo XX, y se puede utilizar para analizar la historia del español. Para el siglo XX, los datos están divididos equitativamente entre textos orales, de ficción, de periódicos y académicos, lo que permite realizar búsquedas para comparar géneros en español; ii) Corpus Dialectos: Contiene casi dos mil millones de palabras de páginas web de 21 diferentes países de habla hispana. Este corpus permite hacer búsquedas en textos en español muy recientes (los textos se recopilaron en 2013 y 2014) y comparar los diferentes dialectos; iii) Corpus NOW (2012-2019): Contiene más de 7,3 mil miillones de palabras de 21 diferentes países de habla hispana, desde 2012 hasta 2019 y iv) Corpus Google Books n-grams (BYU): Esta es nuestra interfaz para los datos n-gramas de Google Books. Se basa en 45 mil millones de palabras en decenas de millones de libros del 1800 al 2000. Los datos de n-gramas no permiten la gama completa de consultas que un corpus normal, pero todavía se puede encontrar la frecuencia de palabras y frases a lo largo del tiempo, así como encontrar los colocados de una palabra dada (incluyendo los colocados a lo largo del tiempo, para ver el cambio semántico). Y debido a que está basado en 45 mil millones de palabras, es una información increíblemente rica.

En esta página web de la Real Academia de la Lengua Española (RAE) tienes a tu disposición 3 corpus lingüísticos: i) Corpes XXI: La versión actual es la 0.94, publicada en el mes de julio de 2021. Cuenta con más de 327 000 documentos que suman ya unos 350 millones de formas ortográficas, procedentes de textos escritos y de transcripciones orales. Con respecto a la versión anterior supone un incremento de unos 18 millones de formas. Casi cinco millones de ellas proceden de textos orales y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo de acuerdo con la procedencia del texto fuente.; ii) CREA: cuenta, en su última versión (3.2, junio de 2008), con algo más de ciento sesenta millones de formas. Se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975 hasta 2004. Los textos escritos, seleccionados tanto de libros como de periódicos y revistas, abarcan más de cien materias distintas. La lengua hablada está representada por transcripciones de documentos sonoros, obtenidos, en su mayor parte, de la radio y la televisión y iii) CORDE: Es un corpus textual de todas las épocas y lugares en que se habló español, desde los inicios del idioma hasta el año 1974, en que limita con el Corpus de Referencia del Español Actual (CREA). El CORDE está diseñado para extraer información con la cual estudiar las palabras y sus significados, así como la gramática y su uso a través del tiempo. Cuenta en la actualidad con 250 millones de registros correspondientes a textos escritos de muy diferente género. Se distribuyen estos en prosa y verso y, dentro de cada modalidad, en textos narrativos, líricos, dramáticos, científico-técnicos, históricos, jurídicos, religiosos, periodísticos, etc. Se pretende recoger todas las variedades geográficas, históricas y genéricas para que el conjunto sea suficientemente representativo.

.

En la página web del Instituto de Ingeniería de la Universdad Nacional Autónoma de México (UNAM) tienes a tu disposición 16 corpus lingüísticos, entre los que destacan: i) Corpus del Habla de Sinaloa: contiene transcripciones de entrevistas (2002-2011) en los lugares más recónditos del estado, incluye todos los grupos etarios, análisis en diferentes niveles de la lengua como el fonético, el morfológico, el sintáctico y sobre todo estudios de corte sociolingüístico y dialectológico; ii) Corpus del Derecho Penal Mexicano: El Corpus del Derecho Penal Mexicano (CDPM) es un corpus monolingüe, digital y especializado, que se construyó con el objetivo de proveer acceso a traductores, intérpretes, lingüistas, estudiantes de derecho y público en general. Intenta ser un corpus electrónico que permita desarrollar análisis léxico, fraseológico y terminológico del discurso jurídico en el ámbito del derecho penal;  y iii) Corpus del Habla de Baja California: es un repositorio con muestras de registro oral y escrito que reflejan el habla propia del estado de Baja California e incluye muestras representativas de los municipios con mayor población: Mexicali, Tijuana y Ensenada; iv) Corpus Lingüístico en Ingeniería: Incuye 151 documentos del ámbito de la ingeniería.

.

En esta página web, tenéis acceso al corpus Preseea, un corpus de lengua española hablada representativo del mundo hispánico en su variedad geográfica y social. Incluye  materiales que atienden a la diversidad sociolingüística de las comunidades de habla hispanohablantes. Y participan en su elaboración  cerca de 40 equipos de investigación sociolingüística.

En esta página del Instituto de Lingüística Aplicada de la Universidad Pompeu Fabra, tenéis tenéis acceso a diversos corpus lingüistica. Entre ellos, destaca el Corpus Técnico de la IULA, que agrupa textos escritos de derecho, economía, genómica, medicina, medioambiente, más un corpus de contraste de prensa. Las lenguas del corpus son catalán, castellano, inglés, francés y alemán. Partes del Corpus Tècnic del IULA se han reelaborado ulteriormente en el marco del proyecto Metanet4U. Se han actualizado los formatos de codificación de acuerdo con los estándares internacionales más recientes y, en algunos casos, se ha ampliado la información lingüística incorporada. Estos subcorpus están disponibles para ser descargados, algunos previa solicitud de uso y otros directamente desde el e-repisitori de la UPF.

En esta página web encontramos el corpus CODEA, ofrece en su estado actual 2500 documentos en español de toda la geografía peninsular del español y de diferentes registros (desde la Cancillería a las notas de manos inhábiles). Los textos se presentan en edición triple (facsimilar, paleográfica y crítica). CODEA es un corpus de libre acceso, fiable y citable, con transcripciones rigurosas directamente realizadas por el equipo elaborador. Las lecturas ofrecidas se pueden comprobar en los facsímiles. CODEA permite búsquedas simples y complejas, filtradas por varios parámetros (fechas, lugares, tipologías diversas, género, etc.). Los resultados de las búsquedas pueden exportarse a lista, gráfico y mapa. CODEA+ 2015 se convierte así en un verdadero Atlas Lingüístico Diacrónico y Dinámico del Español.