Acerca de CORMA

Descripción general

Colección de datos

La recopilación de datos se ha realizado durante tres campañas de trabajo de campo llevadas a cabo entre 2016 y 2019. La tabla abajo resume el período en que la recopilación ha tenido lugar, las horas de grabación y el número de conversaciones por cada campaña.

campaña	nombre	fecha	horas de grabación	cantidad de conversaciones
primera	CORMA2016	abril 2016	43	58
segunda	CORMA2.0	enero 2019	8	29
tercera	CORMA2.1	octubre 2019	6	19

Se grabaron conversaciones mantenidas en distintas situaciones, que se pueden subdividir en cuatro ámbitos interactivos generales:

interacciones entre familiares en la esfera privada (FA)
conversaciones entre amigos en la esfera pública o privada (AM)
interacciones en contextos comerciales (atención al cliente = AT)
interacciones regulares entre personas que se (des)conocen en la esfera pública o privada (CON y CO)

En cuanto al parámetro de la coloquialidad, la mayoría de las conversaciones incluidas en el corpus se caracterizan por las cinco características siguientes:

la igualdad entre los participantes
el ámbito discursivo familiar
la temática no especializada
la ausencia de planificación
la finalidad interpersonal del acto comunicativo, de manera que se consideran conversaciones coloquiales prototípicas (Briz, 1998: 41).

De todas formas, cabe señalar que estos rasgos ‘coloquializadores’ se presentan en mayor o menor medida, de modo que conviene distinguir entre diferentes grados de coloquialidad y por consiguiente, entre conversaciones coloquiales prototípicas y periféricas. A modo de ilustración, una conversación entre jóvenes amigos en el parque se considera más coloquial que una transacción entre un farmacéutico y un cliente suyo.

Las grabaciones fueron recopiladas de manera no guiada y flexible, lo que se refleja en el autocontrol sobre la grabación y las circunstancias de la misma por parte del recluta (participante responsable de la grabación). No obstante, este procedimiento implica algunas restricciones en cuanto a las características del corpus, a saber, las grabaciones presentan bastante variación en cuanto a su duración, el número de participantes y la calidad del audio (con más o menos ruido de trasfondo).

Transcripción y composición del corpus

La transcripción de las grabaciones fue realizada por hablantes nativos del español mediante el programa Praat (<www.praat.org>).

Conviene señalar que las transcripciones son de carácter ortográfico, siguiendo las reglas de la ortografía normativa oficial (RAE, 2010), con la excepción de dos rasgos fonéticos típicos de la oralidad, a saber la aspiración de la -s implosiva (González Montero, 1993) y la elisión de consonantes o sílabas (Gómez Molina y Gómez Devís, 2010).

Para más información sobre la transcripción y composición del corpus, se puede consultar el artículo siguiente:

Enghels, R., De Latte, F., & Roels, L. (2020). El Corpus Oral de Madrid (CORMA) : materiales para el estudio (socio)lingüístico del español coloquial actual. ZEITSCHRIFT FUR KATALANISTIK, 33, 45–76.

Metadatos

Descripción de los datos

El corpus oral, conversacional y coloquial se caracteriza por un alto grado de variación situacional y sociolingüística, con un número representativo de participantes de ambos sexos, diferentes generaciones y diferentes niveles socio-culturales.

Para cada conversación, se registró sistemáticamente información sobre las siguientes variables situacionales y sociológicas en una ficha técnica:

información sobre la grabación

fecha
duración
lugar de la grabación: barrio y entorno espacial (p.ej. ‘Embajadores’, ‘en casa’)
investigadora responsable

información sobre la conversación

tema de la conversación (p.ej. viajar, escuela, trabajo, familia)
propósito conversacional: interpersonal – transaccional

información sobre la técnica de grabación

papel del investigador: ausente – presente observador – presente participante
tipo de grabación: (semi)secreta – ordinaria

información sobre los participantes

número de participantes
información sociológica de cada participante (si disponible):
1) sexo: masculino – femenino – na
2) edad: generación 1 (0–11) – generación 2 (12–25) – generación 3 (26–55) – generación 4 (+55)
3) nivel educativo: primario – secundario – enseñanza superior
4) profesión
5) rol (basado en la relación con el responsable de la grabación)
6) observaciones adicionales (p.ej. origen extranjero del hablante)

Códigos de los participantes y conversaciones

A cada hablante se le ha asignado un código que refiere a la situación, el papel o el centro de enseñanza (en caso de jóvenes), la edad, el sexo y la intervención.

Situaciones/papel

AM = amigos

FA = familia

CON = conocidos

CO = colegas

AT = atención al cliente

PEL = peluquería

BAR = bar o cafetería

FAR = farmacia

EST = esteticista

FLOR = floristería

MUEB = empresario en muebles

ROPA = tienda de ropa

ALB = albañil

EL = electricista

PR = profesor

PORT = portero

desc = desconocido

Centros de enseñanza

IIC

L, M, IJ = corresponden a personas de contacto

Edad

GEN1: 0-11 años (niños)

GEN2: 12-25 años (adolescentes/jóvenes)

GEN3: 26-55 años (adultos)

GEN4: > 56 años (gente mayor)

Sexo

M = masculino

F = femenino

Intervención

Así por ejemplo, el hablante con el código de identificación AM2F1 participa en el corpus en cuanto amiga (AM) (= situación), pertenece a la segunda generación (2) (= edad), y es una mujer (F) (= sexo). El 1 final significa que fue la primera en participar en la conversación.

En algunas situaciones se ha añadido algunas especificaciones:

Atención al cliente

C = cliente
P = proveedor
j = jefe
e = empleado
Ejemplo: ROPAj3F1m = Madre (m) de la jefa (j) de la tienda de ropa (ROPA)

Familia

h = hijo
hi = hija
m = madre
p = padre
e = esposo/-a
pr = primo/-a
s = quegro/-a
a = amigo
Ejemplo: AM1M7p = Padre (p) de uno de los amigos (AM) pequeños (1)

Igualmente, se ha creado un código de identificación para cada conversación: AM.GEN3.F.01 constituye la primera conversación (01) grabada entre amigas (AM, F) adultas (GEN3).