Sunteți pe pagina 1din 23

Aspecte ale transcrierii limbii romne vorbite n vederea prelucrrii computerizate DIANA GHIDO

Institutul de Lingvistic Iorgu Iordan Al. Rosetti, Bucureti

Interesul crescnd pentru studiul limbii vorbite se justific prin numeroasele sale aplicaii: reevaluarea gramaticii sau elaborarea unor dicionare de expresii pe baza unor exemple din vorbirea real, spontan (nu preluate din textele literare sau inventate), predarea limbilor strine din perspectiva variantelor stilistice ale limbii, pentru o mai bun adaptare a discursului la situaia de comunicare, studiul diverselor aspecte etnopragmatice etc. n plus, multe studii de limb vorbit au n vedere astzi recunoaterea vocal i perfecionarea interaciunii om main, pornind de la interaciunea verbal interuman. 1. n ultimele dou decenii se constat c numrul de corpusuri de limb vorbit pentru diverse limbi a crescut considerabil. Multe dintre ele sunt specializate, autorii urmrind: particularitile discursului didactic, nvarea limbii materne, limbajul adolescenilor, abordri interculturale ale comunicrii etc. 1.1. Stadiul cercetrilor n aceast direcie difer foarte mult de la o limb la alta. Dac pentru limba englez se publica n 1980 primul corpus oficial de limb vorbit, astzi ea se bucur de numeroase astfel de corpusuri (sau incluznd un subcorpus consistent de acest gen): London-Lund Corpus, The British National Corpus, ICE BG Corpus, Corpus of London Teenage Language, COBUILT Bank of English .a.m.d. n ceea ce privete limbile romanice, amintim, pentru limba francez, GARSESA 6060 al CNRS i Corpus de referin al francezei vorbite, pentru italian, Lessico di frequenza dell'italiano parlato, CHILDES ITALIA, LIR del MURST etc., pentru spaniol, Corpus Oral de Referencia del Espaol Contemporaneo, la care se adaug o serie de alte corpusuri specializate pe studiul lexicului, al dialogului, al discursului public etc.; pentru limba portughez, cel mai semnificativ este Corpus de referentia do portugus contemporaneo. Exist i reele internaionale pentru schimb de corpusuri, cum ar fi The Network of European Reference Corpora sau, dedicat exclusiv limbilor romanice, proiectul C-ORAL-ROM (Corpora for Spoken Romance Languages), n care sunt cuprinse limbile italian, francez, spaniol i portughez. 1.2. n cazul studiilor de limb romn vorbit, destul de reduse la numr, adesea autorii au recurs la abordri pragmatice ale unor texte dialectale (cu limitrile inerente tipului de interaciune pe care l reflectau, i anume ancheta dialectal). Ali autori, cum ar fi Georgeta Ghiga (1999), au realizat studii pe baza unui corpus individual, nepublicat ca atare. Anul 2002 a marcat ns publicarea a 1

dou volume de transcrieri de romn vorbit: Corpus de romn vorbit (CORV). Eantioane (Dasclu Jinga, 2002) i Interaciunea verbal n limba romn. Corpus (selectiv). Schi de tipologie (Ionescu-Ruxndoiu, 2002). n cele ce urmeaz, ne vom referi la cele dou lucrri folosind siglele CORV i, respectiv, IVR. 1.3. Preocuprile noastre legate de transcrierea n vederea prelucrrii computerizate au aprut n urma participrii n 2001 la proiectul Interaciunea verbal n limba romn. Corpus i tipologie, coordonat de prof. univ. dr. Liliana Ionescu-Ruxndoiu. n ianuarie 2002, am avut onoarea de a citi n manuscris textul volumului Corpus de romn vorbit (CORV). Eantioane, prilej cu care am ascultat i nregistrrile corespunztoare textelor transcrise. Lund contact cu dou sisteme de transcriere pentru romna vorbit, am descoperit o serie de aspecte deosebit de interesante legate de pluralitatea opiunilor pentru reprezentarea grafic a materialului nregistrat audio, de problemele practice de limitare a interpretrii n transcriere, de consisten intern i flexibilitate a sistemului de convenii de notare. Suntem de prere c ntrebuinarea unui sistem de transcriere care s permit o ct mai bun prelucrare a datelor cu ajutorul computerului nu vizeaz doar nite aplicaii pe termen lung. Valorificarea optim a unei colecii de transcrieri este posibil deja prin facilitile de cutare complexe existente n cadrul programului Microsoft Word (n versiunea din pachetul Office 97 sau o versiune ulterioar) cu care este familiarizat orice utilizator de computere. Pentru a putea fia materialul n funcie de obiectivul cercetrii (de la statisticile privind frecvena relativ i/sau absolut a unor uniti lexicale i pn la selectarea tuturor ocurenelor unui fenomen surprins n transcrieri, a suprapunerilor, spre exemplu) este necesar ca notaiile definite s fie riguroase, clare i aplicate sistematic. Exigenele cercetrilor similare realizate pentru alte corpusuri de limb vorbit din lume sunt deosebit de mari. Culegerea corpusului, arhivarea i transcrierea sunt numai primii pai n studiul limbii vorbite. Arhivarea nregistrrilor audio pe suport digital (CD) este obligatorie pentru a trece la o treapt superioar de prelucrare a materialului, i anume alinierea textului transcris la secvena sonor corespunztoare (text-to-speech alignment) cu ajutorul unui software conceput n acest scop. n cadrul proiectului C-ORAL-ROM (care se va ncheia la sfritul anului 2003), pentru corpusurile corespunztoare limbilor romanice reprezentate n proiect se realizeaz alinierea transcrierii la sunet (aproximativ 50h de nregistrri pentru fiecare dintre cele patru limbi), cu segmentarea n uniti intonaionale (parsing) a fiecrui text. Mai mult, textul aliniat se eticheteaz pe niveluri de analiz lingvistic (textual tagging) i studiile de limb vorbit incluse n proiect pornesc de la aceste date riguros arhivate (Cresti, 2000). Sinteza i recunoaterea vocal necesare pentru a trece de la interfaa grafic a comunicrii dintre om i inteligena artificial la o interaciune bazat 2

(i) pe comenzi rostite , dar i alte aplicaii extralingvistice de interes larg (v. Huang et al., 2000), depind n mare msur de asemenea corpusuri de limb vorbit i de prelucrarea lor computerizat. Pentru a atinge un asemenea obiectiv este nevoie, pentru fiecare limb, nu numai de existena unui corpus de limb vorbit i de transcrierea lui, ci i de definirea parametrilor acustici specifici sunetelor limbii respective. Ne propunem s analizm inventarul de fenomene lingvistice sau extralingvistice codificate n prezent n transcrierile de romn vorbit, inventarul de semne grafice ntrebuinate (lund n considerare normele pe care le impune obiectivul prelucrrii computerizate ulterioare) i mijloacele tehnice de identificare, cutare i selectare a simbolurilor grafice cu ajutorul programului Microsoft Word. Ne vom opri n prezenta contribuie numai asupra aspectelor privind u t i l i z a r e a p a r a n t e z e l o r n transcrierile existente, i, respectnd opiunea autorilor pentru inventarul de fenomene notate, vom lua n discuie o reorganizare a corespondenelor dintre aceste fenomene i simbolurile ntrebuinate. Prelucrarea computerizat nu a constituit obiectivul nici unuia dintre cele dou volume de transcrieri de romn vorbit, ns considerm c este util ca transcrierile existente s poate fi folosite ct mai curnd i n acest scop. Computerul n general, i editoarele de text curente n special, sunt deja instrumente puternice de analiz, care permit fiarea materialului ntr-un timp mult mai scurt i dup parametri exaci. n elaborarea statisticilor de orice tip, dar i pentru verificarea oricror ipoteze privind corelarea a dou sau mai multe fenomene marcate n transcriere, inteligena artificial este de nenlocuit. 2. Cele dou corpusuri de romn vorbit cuprind, fiecare, zeci de ore de nregistrri audio. Lipsa unor mijloace tehnice corespunztoare pentru realizarea unor nregistrri audio i video, dar i contextul specific romnesc postdecembrist (n care diversitatea interaciunilor verbale surprinse este uneori limitat din cauza suspiciunii fa de nregistrri a multora dintre posibilii subieci) nc i pune amprenta asupra metodologiei culegerii corpusului. Ca urmare, sintaxa mixt corelarea componentei paraverbale i/sau nonverbale cu informaia transmis verbal rmne de cele mai multe ori neconsemnat sistematic. Metodologia culegerii corpusului i cea a prelucrrii lui pot avea, n opinia noastr, influene antagonice asupra sistemului de transcriere: pe de o parte, cu ct aparatele de nregistrare sunt mai performante (prin aceasta nelegnd i flux de informaii complex, audio i video), cu att procesul transcrierii trebuie s filtreze i s sistematizeze mai multe date. Pe de alt parte, tehnologia prelucrrii datelor din transcrieri include, aa cum aminteam mai sus, o serie de programe (software) care permit alinierea textului transcris la nregistrarea audio corespunztoare, sau alinierea textului la imagine (n analiza limbajelor mimico-gestuale), sau alinierea simultan a sunetului, imaginii i transcrierii (v. Linguistic Annotation http://www.ldc.upenn.edu/annotation/). Aceast aliniere ar permite o transcriere 3

simplificat, cum este cazul sistemului folosit de proiectul Lablita (Cresti 2000, 205-225), ntruct cercetrile bazate pe corpus se pot face consultnd simultan transcrierea i nregistrarea. n 1991, Orletti / Testa reproau transcrierilor faptul c urmresc n cea mai mare parte verbalul (n detrimentul paraverbalului i nonverbalului):
La ricerca ha, quindi, pur utilizzando come dati di base interazioni reali, concentrato gli interessi sugli aspetti verbali dell'interazione, stata, diremo, fondamentalmente verbo-centrica, e anche quando si occupata di strategie comunicative, pur affermando la rilevanza di comportamenti comunicativi non verbali, ha descritto soprattutto comportamenti verbali e, all'interno di questi, comportamenti riconducibili alla produzione di materiale lessicale. Conseguentemente, le transcrizioni sono state ugualmente verbo-centriche, mostrando la tendenza a privilegiare i dati verbali nelle transcrizioni dei dati interazionali, a riportare solo sotto forma di commento i comportamenti non verbali e a trascurare i comportamenti verbali non lessicali come varie forme di ehm, uhm, ecc. (Orletti / Testa, 1991, 252)

Astzi facem observaia c sistemele noastre de transcriere nc trebuie s linearizeze discursul complex, ncercnd s noteze i celelalte componente ale comunicrii. Lipsa accesului la tehnologia de prelucrare este nsoit, deocamdat, n cercetrile asupra interaciunii verbale n romna vorbit de lipsa mijloacelor tehnice adecvate pentru culegerea datelor. Astfel, dei ambele sisteme de transcriere analizate prevd convenii de notare a elementelor nonverbale, materialul de acest tip rezultat n transcrieri este relativ redus, iar fluxul de informaii urmrit consecvent rmne cel verbal (paraverbalul este adeseori recuperat). 3. Stocarea unor nregistrri de limb vorbit pe band magnetic sau chiar pe suport digital nu este suficient pentru a putea face studii bazate pe acest material. Caracterul secvenial al comunicrii orale nu permite confruntarea datelor i corelarea diveri;ilor factori care influeneaz desfurarea unei interaciuni verbale. Necesitatea transcrierii este evident, iar sistemul de convenii definit este responsabil pentru consemnarea consecvent i neambigu a fenomenelor vizate de obiectivul cercetrii. Atributele pe care trebuie s le aib un sistem de transcriere funcioneaz de cele mai multe ori antagonic, un exemplu elocvent fiind dezideratul de a nu pierde, n procesul traducerii n scris a coninutului nregistrrilor, informaii posibil relevante, dar de a evita, n acelai timp, ca textele transcrise s fie prea ncrcate i greu de urmrit. Toate aceste aspecte au condus la proliferarea sistemelor de transcriere, la analize permanente i perfecionri numeroase, problema transcrierii fiind considerat fundamental n corpus linguistics: Central to the modern study of spoken discourse is the problem of transcription. (Du Bois et al., 1988, 3) Definirea sistemului este de cele mai multe ori confruntat cu dificultile practice ale realizrii unui numr ct mai mare de transcrieri efective, pe ct posibil 4

diversificate, n limita obiectivelor de cercetare propuse. Procesul transcrierii rmne ns susceptibil de un grad oarecare de subiectivism, fiind orientat ctre premise teoretice explicite sau implicite: The process of discourse transcription is never mechanical, but crucially relies on interpretation within a theoretical frame of reference to arrive at functionally significant categories. (Du Bois, 1991, 72) 3.1. Sistemul de transcriere folosit, fie creat, fie selectat dintre cele existente, depinde n mare msur i de destinatarul unui astfel de text. Exist trei mari tipuri de destinatari: specialiti (lingviti), nespecialiti i... inteligena artificial.1 Am menionat inteligena artificial alturi de receptorii umani, ntruct prelucrarea computerizat ridic o serie de probleme care trebuie avute n vedere nc din faza de elaborare a sistemului de transcriere de pild, n problema inventarului de semne grafice utilizate, pentru care se recomand, n general, codul ASCII. (Du Bois, 1991, 87) Sistemul de transcriere ctre care tindem, prin sugestiile noastre, are n vedere lingvitii i inteligena artificial ca destinatari 3.2. n elaborarea sistemelor de transcriere exist dou aspecte: selectarea inventarului de fenomene lingvistice care vor fi urmrite i codificate n transcriere i stabilirea semnelor grafice prin care vor fi marcate acele fenomene. 3.2.1. Du Bois observ c, n ceea ce privete inventarul de fenomene, cele mai multe sisteme de transcriere noteaz: a) cuvintele rostite, b) identitatea vorbitorului pentru fiecare intervenie (turn), c) succesiunea cronologic enunurilor, c) interveniile i unitile intonaionale, d) conturul intonaional, e) emfaza, f) fluctuaii ale ritmului vorbirii precum tempo-ul, pauza n vorbire sau lungirea unor sunete, g) zgomote nonverbale, h) particulariti deosebite ale vorbirii care definesc o anumit secven, i) evenimente extralingvistice care sunt relevante pentru interaciunea verbal i j) comentarii (sau mijloace de evideniere) privind transcrierea nsi (Du Bois 1991, 76). Opiunea pentru a marca sau nu un anumit fenomen rmne ns legat de obiectivele stabilite de fiecare cercetare n parte (Orletti / Testa, 1991, 250). 3.2.2. Pentru cel de-al doilea aspect al crerii unui sistem de transcriere, inventarul de semne care s codifice fenomenele selectate, Du Bois et al. (1988, 81-87) propun cinci principii generale: definirea clar, explicit a categoriilor codificate n sistem, accesibilitatea transcrierii, robusteea sistemului, economia i adaptabilitatea.2 Principiile enunate de Du Bois (1991) pentru e l a b o r a r e a unui sistem de transcriere se regsesc, n linii mari, n principiile de s e l e c t a r e a unui sistem dintre cele definite deja, aa cum apar n Orletti / Testa (1991, 267-271): compresivit vs specializzazione, attendibilita, leggibilita, consistenza interna, flessibilita, trasversalita, riproducibilita. Interesant este modul n care anumite principii sunt reformulate de-a lungul timpului, n funcie de obiectivele nou aprute. Spre exemplu, problema accesibilitii este discutat de Du Bois din perspectiva scrierii i citirii unui text 5

transcris, autorul recomandnd valorificarea unor sisteme de convenii existente: drawing on existing traditions for representing speech in writing, whenever viable conditions can be found (1991, 81). Tot din perspectiva accesibilitii, s-a invocat i uurina cu care semnele alese pot fi introduse pe calculator (ease of data entry), sau, chiar ca prim obiectiv, posibilitile de utilizare a unor baze de date astfel constituite (usability, not readability). (O'Connell / Kowal, 1994, 102) Precizm c foarte multe dintre principiile enunate mai sus pentru elaborarea unui sistem pornesc de la premisa c inventarul semnelor grafice folosite n transcriere trebuie s fie inclus n sistemul ASCII, care permite transferul datelor (al textelor transcrise, cu toate notaiile incluse) i prelucrarea computerizat. ASCII i Unicode sunt standarde de reprezentare a informaiei textuale n computer. Inventarul Unicode este mult mai mare dect al celuilalt sistem, ns trebuie reinut c nici unul dintre ele nu codific (i nu pstreaz la transferul de date) anumite posibiliti de tehnoredactare care constau n schimbarea unor proprieti ale unor semne grafice, i nu alte semne grafice propriu-zise: One should avoid using notational resources which are not standardly represented across platforms, such as boldface, italics, underlining, special fonts (especially proportional fonts), margin shifts, a.s.o. as the sole marker of crucial contrasts between categories. (Du Bois, 1991, 89) Aadar, nu va putea fi inclus n prelucrarea computerizat un fenomen cruia i corespunde o notaie numai prin sublinierea caracterelor, ngroarea sau schimbarea dimensiunii a corpului de liter etc., pentru c aceasta nu se pstreaz n trecerea de la o platform3 la alta. Notaiile propuse de Du Bois et al. se ncadreaz n inventarul standardului ASCII redus. Dei sugestiile din analiza noastr sunt incluse n inventarul ASCII (cu excepia sistemului IPA), vom avea n vedere standardul Unicode, care l include pe primul, din dou motive principale: a) are un inventar de cteva sute de ori mai mare dect ASCII (permind mai mult flexibilitate n notaii) i b) ambele sisteme de transcriere pentru romna vorbit includ deja semne care fac parte din Unicode i nu fac parte din ASCII (vezi conturul intonaional nonterminal: ascendent, , i, respectiv, descendent, , precum i notaia prevzut n CORV pentru observaiile cercettorului, , dar i diacriticele romneti). Motivul pentru care Du Bois propunea n 1988 (iar apoi n studiul din 1991) folosirea standardului ASCII redus este faptul c Unicode a aprut abia n 1991, fiind ulterior folosit la scar larg. 4. Orletti / Testa (1991) disting dou mari tipuri de sisteme de transcriere, urmnd direciile inaugurate de Jefferson (1974) i, respectiv, Gumperz (1982). 4.1. Sistemul de notaii propus n 1974 de Sacks, Schegloff i Jefferson i perfecionat ulterior de Jefferson (Jefferson, 1978), a avut ca obiectiv analiza conversaiei. Transcrierea era conceput ca parte integrant a procesului de analiz i interpretare a datelor i ca o ncercare de a reprezenta n scris 6

interaciunea verbal. Caracterul secvenial al interaciunii verbale i ilustrarea lui sunt definitorii pentru sistemul Jefferson. n ultimele decenii acest sistem a cunoscut numeroase mbuntiri i adaptri. Sistemele de transcriere folosite pentru limba romn vorbit urmeaz linia propus de Jefferson, Dasclu Jinga preciznd chiar c sistemul utilizat n CORV este jeffersonian (CORV, 32). Aceast filiaie este fireasc, avnd n vedere i similitudinea obiectivelor urmrite n analiza interaciunii verbale. Sistemele de transcriere pentru romna vorbit prezint o serie de diferene n raport cu sistemul lui Jefferson (1978) adaptri, rafinri ale conveniilor cele mai semnificative fiind, n opinia noastr, cele legate de notarea sistematic a unor elemente de prozodie i raportul textelor transcrise cu ortografia standard. 4.2. Setul de convenii propus de Gumperz (1982) are ca principal obiectiv analiza comunicrii interculturale. Sistemul ESF, folosit de Orletti / Testa (1991) ntr-un studiu intercultural (SSLA Spontaneous Second Language Acquisition), urmeaz acest model. n analiza transcrierii romnei vorbite vom reveni la cele dou tipuri de sisteme, propuse de Jefferson i, respectiv, Gumperz, ntruct considerm util rediscutarea unor probleme specifice limbii romne actuale folosind mijloace de reprezentare consacrate n sistemele sus-amintite. 5. Pentru a oferi o vedere de ansamblu asupra claselor de fenomene i tipurilor de paranteze pe care le folosete fiecare dintre cele dou sisteme de transcriere a romnei vorbite, CORV i IVR, am optat pentru prezentarea lor ntrun tabel (v. Tabelul nr. 1). n prima coloan sunt trecute diverse tipuri de paranteze, la care am adugat i barele oblice, folosite ntr-o manier asemntoare parantezelor, ca o structur din dou elemente simetrice (identice, de fapt, n cazul barelor) ce izoleaz o secven grafic de lungime variabil: primul element al acestei structuri este bara precedat de blanc i urmat imediat de caractere grafice, iar ultimul element este aezat imediat dup caracterele grafice i urmat de blanc sau de unul dintre semnele: ?,., , sau # (ce marcheaz conturul intonaional i pauza n rostire). 5.1. n CORV se folosesc: paranteze ptrate, [text], paranteze rotunde, (text), i paranteze unghiulare, <text>. Parantezele ptrate sunt ntrebuinate pentru: 1) transcrierea fonetic (cuprinznd simboluri din inventarul IPA), 2) marcarea suprapunerilor (trecute ntre rnduri, fr caractere grafice n intervalul dintre paranteze), 3) componenta paraverbal: [i drege vocea], 4) componenta nonverbal [gest afirmativ cu capul] i 5) diverse observaii privind nregistrarea i desfurarea interaciunii verbale: [scurt tergere involuntar a nregistrrii] (CORV, 95) sau [Oprirea vorbitorului i ntreruperea nregistrrii, pentru c sun telefonul n ncpere] (CORV, 93). Am precizat care este coninutul parantezelor, pentru a evidenia faptul c nu se pot face confuzii ntre cele trei mari tipuri de utilizri ale parantezelor drepte: cu semne din alfabetul fonetic, (1), 7

cu blancuri, (2), i cu litere din ortografia curent, (3)-(5). Cu toate acestea, suntem de prere c este de dorit s se foloseasc un singur tip de paranteze pentru un tip de informaii. Pluralitatea semnificaiilor pe care le are folosirea parantezelor drepte n transcriere rezult din convergena unor convenii anterioare, preluate din coduri diferite; spre exemplu, sistemul IPA este consacrat, dar i folosirea parantezelor drepte n notarea suprapunerilor este frecvent ntlnit n corpusurile dedicate analizei conversaiei (v. Jefferson 1978, Du Bois et al. 1988 i Du Bois 1991 etc.). Parantezele unghiulare nu se folosesc dect pentru cuvinte care au fost rostite efectiv n interaciunea verbal propriu-zis, fie marcate paralingvistic (5), fie secvene incerte (6) sau indescifrabile (7). Aceast convenie a fost propus de Du Bois et al. (1988, 20-23) pentru a reliefa elemente paralingvistice, considerate, ntr-o prim faz, irelevante n sistemele jeffersoniene. Flexibilitatea notaiei deriv din modul descriptiv i virtual nelimitat n care se pot alege mrcile i prefixul care s le codifice; acest fapt se poate observa i din modul n care a fost valorificat n sistemele romneti. n CORV se noteaz: ritmul vorbirii, (lent <L text L> sau rapid <R text R>), nlimea vocii, (ridicat < text > sau joas <J text J>), intensitatea, (puternic <F text F> sau slab <P text P>), optitul <OP text OP>, imitarea modului de a rosti al altcuiva <IM text IM>, rsul concomitent cu rostirea <@ text @> sau rostirea marcat <MARC text MARC>. n IVR, se marcheaz, n plus, oftatul concomitent cu rostirea <OF text>, i secvenele rostite zmbind <Z text>; la acestea se adaug o informaie privind caracterul planificat, nespontan al unor comunicri orale, i anume lectura unui text: <CIT text>. Considerm c ar fi utile cteva observaii legate de prezentarea mrcilor paralingvistice. Mai nti, relum remarca pe care o fac autorii celor dou sisteme, i anume c mrcile paradiscursive folosite n transcriere au un caracter relativ, raportndu-se la particularitile de rostire ale aceluiai vorbitor n cursul aceleiai nregistrri. Altfel, presupunnd c s-ar putea face transcrierile numai dup msurtori exacte i dup un reper oarecare de rostire, textul transcris ar fi nu numai ncrcat, ci i ineficient. Reducnd la absurd, vocea tuturor participanilor de sex feminin ar avea particularitatea nlime ridicat, sau majoritatea subiecilor foarte n vrst ar prezenta o intensitate slab a vocii, rostire piano.
Tabelul nr. 1
Tip de paranteze CORV Semnificaia Exemple Semnificaia IVR Exemple

[ ]

1) transcriere IPA

vecinic [ve'ti nik] te te-ncurca (163)

2) plasate ntre rnduri, noteaz secvene care se suprapun 3) fenomene paraverbale 4) fenomene nonverbale 5) diverse observaii privind nregistrarea 6) mrci paralingvistice 7) transcriere incert 8) secven indescifrabil 9) scurte explicaii necesare nelegerii textului 10) pauze foarte lungi 11) transcriere pseudofonetic (cuvinte strine i acronime) 12) ntreruperea pasajului transcris 13) notaii specializate: heterocorectare (K), autocorectare (AK) i eroare necorectat (sic!).

GP: Da. De acord [ ] VJ: C acolo diferena era enorm (157) VC: [rde] (251) AB: [gest afirmativ cu capul] (269) [scurt tergere involuntar a nregistrrii] (95) VL: <R preedintele Romniei domnul Emil Constanti < nescu > R> (276) SF1: <? Nu prea tiu.?> (166) CJ: Da <xxxxxxxxxxx> (71) MV: ce (zice) V-au venit nite bani din ar (115) LDJ: Nu era nclzire? Iarna? GD: (3 sec.) (86) GD: La cminul I.O.V. (iove) (86) Heidelberg (haidlberg) (74) (...) plasat ntre rnduri (passim) VJ: (K) Nu Lteti. (56) CJ: n prote- (AK) n procesul lui Ptrcanu. (56) IS: V vor place (sic!) (270)

1) [ marcheaz nceputul suprapunerii unor intervenii succesive. 2) ntreruperea pasajului transcris

A: student la petrol [aici? B: [nu. la bucureti (27) [...]

< >

3) mrci paralingvistice

B: <z io vd aa<@ c toate> problemele s:nt bu:ne:> (191)

( )

4) transcriere incert

A: (ca un fel de invitaie) pentru oameni d-tia (35)

5) secven indescifrabil

A: (xxx) B: nu nc. (38)

(( ))

6) comentariile cercettorului 7) fenomene paraverbale 8) fenomene nonverbale 9) transcriere pseudofonetic (pentru cuvintele n limbi strine i abrevieri)

/ /

((ntre timp sosise n staie un microbuz)) (27) ((rde)) (31) ((i drege vocea)) ((se uit la ceas)) (27) A: am vzut n /vog/ (53) B: firma /secea/ (91)

O a doua observaie se refer la posibilitatea de a nota particulariti izolate cu o convenie asemntoare, fr a risca s ngreuneze asimilarea sistemului de transcriere prin adoptarea unor notaii prea numeroase. Am ntlnit un astfel de caz n transcrierile noastre, cnd unul dintre participani fredoneaz cteva cuvinte dintr-o melodie cunoscut, pentru ca imediat dup aceea s treac la adresarea direct fa de un alt participant. Efectul acestei treceri rapide a fost acela c ultimele cuvinte din melodia respectiv nu au mai fost fredonate, ci rostite. Exemplul nostru vizeaz dou probleme: caracterul imprevizibil al duratei unei astfel de secvene i imprecizia notrii lui cu un gerunziu de tipul ((fredonnd)) plasat naintea textului corespunztor acelei rostiri particulare. Du Bois et al. propun, n astfel de cazuri, ncadrarea ntre paranteze unghiulare a secvenei respective i notarea, dup transcrierea ei, a mrcii, coindexat: < text 1> <fredonat 1>. n fine, din prezentarea anterioar a mrcilor pentru care a optat fiecare dintre sistemele menionate rezult i valorificarea difereniat a opiunilor de redactare computerizat. Dup cum aminteam la punctul 3, nici scrierea cu aldine, nici poziia literei fa de rnd nu constituie informaii valide n prelucrarea computerizat, dar, fiind folosite auxiliar, ambele pot fi utile n nlesnirea lecturii. Diferenierea secvenelor grafice corespunztoare marcrii (care pot fi selectate de utilizator sau, dimpotriv, eliminate, pstrnd doar textul brut al cuvintelor rostite n dialogul transcris) se face definind acel numr limitat de caractere (<, <F, <OP, <@ etc.) care preced textul propriu-zis. Parantezele rotunde sunt folosite pentru a izola de textul transcris comentariile cercettorului (8), dar i n transcrierea pseudofonetic, (9). n plus, parantezele rotunde sunt folosite pentru a semnala ntreruperea pasajului transcris, cu (...), v. pct. (10), precum i pentru a izola nite notaii specializate de tipul (K), (AK), (sic!), v. pct. (11). Ultimul tip de convenie valorific tradiia notrii cu secvena (K) a fenomenului de autocorectare n transcrierile textelor dialectale. 10

5.2. n IVR sunt folosite: parantezele ptrate: [text], parantezele rotunde simple (text) i duble ((text)) i scrierea ntre bare oblice /text/. Paranteza ptrat deschis [text marcheaz nceputul fiecreia dintre secvenele rostite simultan de vorbitori diferii (suprapuneri). ntreruperea interveniei n curs de ctre un alt participant este considerat un caz particular al suprapunerii i se noteaz implicit, atunci cnd semnul [ nu este urmat de nici un text, pe rndul urmtor fiind notat tot cu [text intervenia celui care preia rolul de emitor. ntreruperea pasajului transcris se noteaz cu [...]. Parantezele rotunde simple se folosesc n pentru transcrierea secvenelor incerte (este) sau indescifrabile (xxx) din rostirea unui participant, iar cele duble pentru componenta nonverbal: ((se ridic brusc de pe scaun)), pentru fenomene paraverbale: ((tuete)) i alte obseraii necesare nelegerii textului: ((ntre timp sosise n staie un microbuz)) (IVR, 27). Pe lng paranteze, sistemul prevede i izolarea transcrierilor pseudofonetice cu ajutorul barelor oblice, ca n /edvrtaizing/ (IVR, 37). Utilizarea diferitelor tipuri de paranteze din sistemul IVR este foarte asemntoare cu aceea din sistemul propus de Jefferson n 1978: paranteze rotunde simple pentru transcriere incert i pentru secven indescifrabil (care n Jefferson nu are un ir de x ntre paranteze, ci doar blancuri), paranteze duble pentru componenta nonverbal i cea paraverbal, precum i pentru alte informaii care nu reflect rostirea din dialog, ci comentariile cercettorului. 6. Analiza noastr are la baz cteva deziderate: a) importana consistenei interne a unui sistem de transcriere (att pentru a fi mai uor de urmrit de ctre utilizatori, ct i pentru a putea trece la prelucrarea computerizat a datelor), b) valorificarea unor deprinderi de lectur i evitarea folosirii cu alt sens a unor semne grafice frecvent ntrebuinate n ortografia curent, c) definirea unor norme de redactare (succesiunea caracterelor grafice i non-grafice) astfel nct, pentru orice transcriere n parte, fiecare utilizator s i adapteze sistemul de transcriere: se pot elimina anumite paranteze, cum este cazul mrcilor paralingvistice, pstrndu-se numai textul cuprins ntre paranteze sau, mai mult, se pot elimina complet diverse tipuri de paranteze, corespunznd unor tipuri precise de informaii cum ar fi elementele nonverbale, spre exemplu. Ultima operaiune este necesar n cazul n care dorim s facem analize statistice, precum debitul verbal al participanilor n funcie de situaia de comunicare, rol, sex etc. i trebuie eliminate acele cuvinte care apar n transcriere fr s corespund rostirii din dialogul nregistrat. Ca principiu supraordonat celor sus-menionate, am avut n vedere permanent respectarea fenomenelor pe care autorii au decis s le surprind n textele transcrise, propunnd numai reorganizarea lor n clase care s corespund sistematic unor tipuri de paranteze. 11

6.1. Folosirea unor sisteme de transcriere auxiliare a fost considerat necesar, n cazul limbii romne vorbite, dar i pentru alte limbi, ntruct complexitatea limbii vorbite a evideniat, n numeroase situaii, insuficiena mijloacelor grafice ntrebuinate n ortografia curent. Att n CORV, ct i n IVR, autorii opteaz, spre exemplu, (i) pentru o transcriere pseudofonetic n cazul abrevierilor. Astfel, o secven grafic de tipul RTL poate fi rostit ca er-te-el sau er-te-le. Redarea n scris a cuvintelor strine a fost considerat, la rndul ei, problematic, ortografierea din limba surs oferind indicii insuficiente asupra pronunrii sale (care adesea variaz de la un vorbitor la altul). CORV folosete dou asemenea sisteme auxiliare: IPA i transcrierea pseudofonetic, iar IVR numai pe cel din urm. Cu toate acestea, exist anumite situaii n care, la rndul lor, sistemele auxiliare se dovedesc insuficiente. Dac o secven precum Harun Tazieff (harun tazief) (CORV, 77) nu pare s ridice probleme, n alte situaii aproximarea pronuniei cu ajutorul semnelor din ortografia curent este mai dificil. n dantele de Bruges (briuj), dincolo de faptul c nu se mai poate distinge pronunarea ca n limba surs de orice variant de adaptare fonetic, exist posibilitatea ca unii vorbitori s o rosteasc bisilabic. Considerm c asemenea fenomene ar fi interesante din punctul de vedere al preferinei pentru hiat sau diftong n romna actual, dar i n schiarea unor probleme legate de gradul de instruire a vorbitorilor. n alte cazuri, transcrierea pseudofonetic se face folosind semnele IPA: Jean Francois Revel (j frnsoa revel) (CORV, 75), /uipatr/ (IVR, 89). Uneori se folosesc alte soluii pentru a reda foneme nespecifice limbii romne: /edvrtaizing/ (IVR, 37) sau /paund/ (IVR, 115), rmnnd ns ambiguu dac vorbitorul le-a rostit ca n limba englez, n cazurile prezentate, sau nu. Pe de alt parte, transcrierea pseudofonetic nu d informaii asupra accentului i silabaiei; n /menegimentu/ (IVR, 254) putem avea patru sau cinci silabe. Un caz interesant este transcrierea lui O.K., care este i cuvnt strin, i abreviere (*//ochei//). IPA este folosit n CORV, dar numai n cazuri excepionale, cnd interaciunea verbal vizeaz nsi pronunarea sau necesit sugerarea ct mai precis a acesteia (CORV, 33). Suntem de prere c ar fi util ntrebuinarea alfabetului fonetic i n cazurile n care se folosea transcrierea pseudofonetic, pentru a sugera adaptarea fonetic a unor cuvinte noi sau foarte noi (xenismele), putndu-se astfel analiza n funcie de diferii parametri sociolingvistici. Sistemele jeffersoniene consider, n general, c transcrierea fonetic nu este necesar pentru analiza conversaiei; cele care sunt dedicate studiului achiziionrii unei limbi strine (v. Orletti / Testa, 1991) acord o atenie deosebit redrii ct mai fidele a pronuniei, urmnd linia propus de Gumperz. n cazul limbii romne, exist avantajul major al ortografiei sale fonetice (fa de limba englez, de pild, unde apar o serie de dificulti n redarea unor fenomene frecvente, precum lungirea unui sunet cruia de fapt nu-i corespunde o 12

liter anume n transcriere). n contextul socio-istoric actual ns, limba romn, scris sau vorbit, este invadat de o serie de cuvinte de origine strin (n special din limba englez) i credem c ar fi interesant de notat consecvent pronunia acestor cuvinte la diferii vorbitori, pentru a surprinde dinamica fenomenului. De altfel, i restul transcrierii n ambele volume este pseudofonetic (sau un sistem fonetic neconvenional, aa cum este numit n Orletti/Testa, 1991, 260), n sensul c nu corespunde ortografiei standard, ci ncearc s redea rostirea: am crezt c e aceiai atmosfer (IVR, 73), sau notarea frecvent a rostirilor de tipul d ('de'), dn/dn ('din') etc. Un alt aspect care ar putea prezenta interes n studiul dinamicii limbii romne actuale este notarea semivocalelor i pseudovocalelor, interesante din punct de vedere morfonologic. Semnalm c acestea pot fi notate n transcrieri folosind conveniile curente pentru aceste sunete, care se pot traduce pentru calculator n secvene grafice care s permit prelucrarea datelor. Eliminarea literei x din transcrierea rostirii ar putea aduce, la rndul su, un plus de informaie n analiza grupurilor [ks] i [gz], n condiiile n care se constat rostirea unuia n locul celuilalt la diveri vorbitori. n plus, aceasta ar permite evitarea inexactitii n marcarea emfazei (se scrie eXACT, EXtraordinar, dar cele dou consoane codificate prin x aparin unor silabe diferite) i ar permite ca x s apar numai pentru redarea unei secvene indescifrabile. 6.2. Notarea suprapunerilor cu paranteze coindexate, plasate n text, este propus n 1988 de Du Bois et al. Considerm c ar fi o mbuntire a acestei convenii dac s-ar folosi acoladele (pstrnd parantezele drepte pentru IPA, o convenie cu caracter mai general) i indexarea s-ar face cu un ir de numere cresctoare, constant, pn la sfritul transcrierii respective. Du Bois et al. (1988) propuneau coindexarea numai n cazul unor suprapuneri numeroase ntr-o anumit poriune, iar dup ce nu ar mai exista ambiguitate n privina secvenelor rostite simultan, s se reia numrtoarea de la 1. Avantajul numerotrii pn la sfrit este evident n cazul prelucrrii computerizate: se pot extrage automat toate secvenele cuprinse ntre paranteze i pot fi analizate precis, n funcie de conturul intonaional, mrcile paralingvistice (n suprapunerile mai lungi este posibil ca cel puin unul dintre vorbitori ridic vocea), sau relaiile dintre participani. ntreruperile se pot nota ca un caz particular, n care primul element este {i} (i fiind indicele numeric: 1, 2, 3...i,...n) i se va nota la sfritul rndului corespunztor interveniei ntrerupte, iar al doilea este {i}, notat la nceputul rndului, dup sigla participantului care preia rolul de emitor (A; ieri de CE te-ai suprat i-ai ple- {4} B; {4} ba n-am plecat suprat, spre exemplu). 6.3. Mrcile paradiscursive au fost propuse de Du Bois et al. n 1988 (2023), care ofer i sugestii de notare a lor. Marcarea nceputului i sfritului unei secvene rostite cu anumite particulariti cu ajutorul parantezelor unghiulare 13

plasate n text a fost preluat att n CORV, ct i n IVR. Aa cum semnalam, nici convenia grafic a ngrorii literelor, nici scrierea unei secvene mai sus sau mai jos fa de restul caracterelor din rnd nu constituie un mijloc suficient de identificare a fenomenului urmrit. n ambele sisteme ns identificarea computerizat se poate face prin respectarea secvenei: parantez unghiular urmat de o liter sau un grup de litere dintr-un inventar definit n convenii. Din pcate, opiuni de transcriere mai economice sau mai simple, precum cele folosite n IVR (<OP, P text> text>) care pot fi citite relativ uor de un receptor uman, prezint dificulti majore n prelucrarea cu ajutorul inteligenei artificiale. Combinaiile de mrci (la care se adaug ordinea permisiv de tipul: <i,j text> text> sau <j,i text> text>, pentru dou mrci <i> i <j> care ar caracteriza o anumit secven) sunt foarte numeroase i nu permit statistici exacte. Am putut urmri, spre exemplu, n CORV numrul de ocurene al fiecreia dintre mrcile definite n sistem i am obinut urmtoarele date: 236 de apariii pentru marca < text >, 93 pentru <R text R>, 60 pentru <MARC text MARC>, 54 pentru <J text J>, 43 pentru <@ text @>, 35 pentru <F text F>, 30 pentru <P text P>, 7 pentru <L text L>, 5 pentru <CIT text CIT>, 3 pentru <OP text OP>. Menionm, cu aceast ocazie, cteva probleme de redactare. Pentru a permite prelucrarea computerizat, este necesar s se noteze simbolul mrcii respective la nceputul i s f r i t u l secvenei, cu semnul <, i, respectiv, > pentru fiecare marc n parte. Pentru a pstra unitatea grafic a cuvntului, n cazul n care apar dou mrci succesive de tipul: <J Transilvania propriu- J>< zis > (CORV, 89), se impune notarea fr blanc ntre marca paradiscursiv i textul corespunztor rostirii, la nceputul i la sfritul marcrii. Scopul de a nu ngreuna lectura, urmrit n ambele volume romneti, poate fi realizat prin combinarea celor dou mijloace grafice folosite: ngroarea <J text J> i, respectiv, poziia fa de rnd <J text>: <JtextJ>. Secvena incert din transcriere considerm c este preferabil s fie marcat ca n CORV, ntruct astfel parantezele unghiulare ar ncadra ntotdeauna un text corespunztor rostirii. Semnalm, cu aceast ocazie, existena unor mijloace moderne de prelucrare a sunetului n format digital, care permit reducerea zgomotului de fond i/sau amplificarea artificial a undei sonore pentru a limita, pe ct posibil, numrul transcrierilor incerte. Aceeai operaie poate reprezenta o soluie i pentru unele dintre secvenele indescifrabile. Cu toate acestea, n cazul n care informaia nu se poate recupera, merit menionat c se poate nota, de cele mai multe ori, conturul intonaional i pentru aceste secvene. Sugestia noastr ar fi adoptarea conveniei folosite de Du Bois et al. (1988) i, ulterior, de Du Bois (1991), potrivit creia fiecare semn x ar nota o silab din poriunea indescifrabil, iar nu un sunet. Segmentarea n cuvinte este aproape imposibil n absena semnificatului, dat fiind fluxul continuu al vorbirii. n cazul n care, pentru 14

nlesnirea lecturii sau cnd se urmresc alte obiective n analiza materialului transcris, se dorete eliminarea parantezelor rotunde simple i se pstreaz transcrierea incert i semnalarea cu x a fiecrei silabe indescifrabile, acest lucru este posibil. 6.4. n cadrul reorganizrii unor elemente definite i a unor notaii pentru acestea, considerm c ar fi un ctig dac am exploata obinuinele de lectur ale utilizatorului, i anume folosirea parantezelor. Folosirea parantezelor rotunde pentru secvene de text nesigure sau indescifrabile ca n IVR prezint cteva inconveniente, ntruct aceste paranteze reflect n general n ortografia curent raportul informaie principal informaie secundar. Acele cuvinte care nu au putut fi transcrise cu certitudine nu sunt mai puin importante pentru construirea enunului, ci doar accidental au ajuns s fie o informaie nesigur. Optm, n acest caz, pentru notaiile din CORV, unde parantezele unghiulare noteaz numai cuvinte rostite n interaciunea verbal (deci informaie obiectiv, nu metatranscriere), putndu-se marca suplimentar orice calitate vocii. Spre exemplu, o transcriere de tipul <P<xxx> textP>, n care o rostire piano mpiedic distingerea unei secvene, este probabil. Suntem de prere c ar contribui la o mai bun organizare a transcrierii i la o asimilare mai uoar a conveniilor de transcriere dac s-ar nota diferit elementele nonverbale fa de cele paraverbale. Pentru cele din urm propunem parantezele simple (marcarea calitii vocii pstrnd paranteze unghiulare simple), iar pentru nonverbal parantezele duble. n acest fel, atenia acordat de utilizator informaiilor din interiorul parantezelor poate fi de acelai tip cu extragerea informaiei la o lectur obinuit: textul astfel izolat este parte integrant din textul per ansamblu, dar de ordin secundar. Nonverbalul i paraverbalul nu sunt notate deocamdat n transcrierile de romn vorbit dect cu rol secundar. Legat de problema utilizrii parantezelor n transcriere, propunem ca, n cazul n care se va opta pentru notarea n text a unor fenomene precum trasul aerului n piept sau expiraia audibil, s se foloseasc conveniile lansate de Du Bois (1991): (H) pentru inspir adnc, (Hx) pentru expir, ntruct acestea izoleaz fenomenele vocale nonverbale de transcrierea rostirii propriu-zise (i anume folosind constant acelai tip de paranteze, cele rotunde simple). Semnificaia unor fenomene de acest gen este discutat n cadrul multor sisteme de transcriere: The reason for distinguishing vocal tract noises made by speech event participants as a special category is that participants often use this channel to give each other subtle cues about aspects of the on-going linguistic interaction, e.g. breathing in to signal the purpose to speak next. Crickets chirping and microphones rustling do not consistently carry such interpersonal meanings for humans. (Du Bois et al., 1988, 25) n sistemele din CORV i IVR, fenomenele paraverbale discutate mai sus se noteaz astfel: inspir adnc ntre paranteze 15

ptrate i, respectiv, paranteze rotunde duble (dar astfel vor fi trecute laolalt cu observaii precum defectarea microfonului etc.). Pledm aadar pentru surprinderea acestor fenomene n transcriere, dar cu ajutorul unor convenii ct mai simple, care s ocupe puin spaiu grafic i s fie n concordan cu notaiile pentru fenomene similare. Propunem, de asemenea, notarea rsului ca n sistemele Du Bois et al. (1988) i Du Bois (1991), adic inserarea cte unui semn @ pentru fiecare silab de rs. Acest lucru ne va permite s marcm durata relativ a secvenei respective (fa de notaia din CORV, unde trecerea ntre paranteze, n text, a cuvntului rde nu oferea informaii de acest tip), dar fr a introduce noi cuvinte grafice (adic nite uniti care nu corespund de fapt cuvintelor din rostirea participanilor). Se permite astfel ca n cazul n care un subiect ar rosti efectiv, ironic, ha-ha, s nu se confunde cu rsul propriu-zis, mesajul su fiind cu totul diferit. n IVR s-a recurs n general la transcrierea rsului: hh (IVR, 41), hhh (IVR, 44) i chiar <@ h h h> (IVR, 172). 6.5. Notarea paraverbalului cu paranteze duble, ca n IVR, ar permite, ca i n cazul utilizrii altor paranteze pentru un singur tip de fenomene, fiarea materialului lingvistic pe baza transcrierii n format electronic sau, dimpotriv, eliminarea sistematic a acestui tip de informaii. Un caz aparte l reprezint tcerea. n prezent, este marcat sub diferite forme, ca pauz lung (folosind semnul pentru pauz de dou sau mai multe ori): ### n IVR,... n CORV, sau ntre paranteze simple, preciznd durata n secunde: (3 sec.) (CORV, 86), ori paranteze duble: ((tace)) (IVR, 27, 102), ((pauz)) (IVR, 27). Suntem de prere c ar fi o soluie notarea tcerii prin repetarea semnului # sau, pentru pauze foarte lungi, mpreun cu tipul de paranteze folosit pentru componenta nonverbal: #((5s)). Un element suplimentar ar putea fi precedarea unei paranteze care specific durata pauzei de semnul stabilit pentru marcarea pauzei n rostire (optm pentru #, ca n IVR, pentru c semnul ntrebuinat n CORV este, n prelucrarea computerizat, identic cu simbolul pentru contur descendent terminal; diferena dintre. i. este aldin ~ alb, inoperant pentru inteligena artificial). n acest caz, este important ca ntre # i ((Xs)) s nu fie introdus blancul. O alt problem este plasarea notaiei pentru pauz n interiorul interveniei unui participant sau ntre intervenii (ntre rnduri). Uneori distincia ntre goluri, discontinuiti i tceri semnificative (Ionescu-Ruxndoiu, 1999, 36) nu este uor de aplicat (v. Orletti / Testa, 1991, 273). Soluia propus de Jefferson (1978, xiii) pentru asemenea situaii este, n opinia noastr, preferabil, ntruct limiteaz interpretrile din etapa transcrierii.

16

6.6. n ceea ce privete comentariile cercettorului (glosri, observaii privind nregistrarea etc.), dar i marcarea ntreruperii pasajului transcris, considerm c soluia folosirii barelor oblice /text/ este preferabil aceleia de a combina tipuri de paranteze: ([, {[ etc. De asemenea, folosirea notaiilor specializate care includ litere sic!, AK, K ar putea fi izolat cu acelai tip de semne, /text/, permind o lectur mai uoar, dar i excluderea lor, n funcie de interesele celui care utilizeaz transcrierea. Menionm c exist i alte aa-numite notaii specializate, pentru fenomene precum false start, semnul , sau latching, notat cu =, dar simbolurile nu sunt caractere alfanumerice (litere sau cifre) i nu a fost necesar izolarea lor n text cu ajutorul parantezelor. 6.7. n cele dou sisteme de transcriere pentru romna vorbit notarea numelor proprii n transcrierile de limb vorbit este abordat diferit. n CORV autoarea opteaz pentru marcarea n text a numelor proprii, folosind convenia din ortografia standard (majuscula). n IVR numele proprii nu sunt marcate. Pe de-o parte, transcrierea urmrete redarea rostirii i din acest punct de vedere nu se justific simboluri suplimentare pentru semnalarea numelor proprii. n plus, convenia din ortografia curent se suprapune cu notarea emfazei (care se face folosind majusculele), ducnd uneori la ambiguitate, n cazul vocalelor iniiale (v. procesul de integrare-n Uniunea EuroPEAn, CORV, 228). Pe de alt parte, nemarcarea numelor proprii poate crea dificulti n nelegerea textului. Un exemplu ar fi secvena: o s vd codru (IVR, 177), n care nu este vorba de o excursie n pdure, ci de o persoan (O s vd, Codru[a].), fapt care reiese din lectura atent a textului transcris: nu tiu codru oricum mai m hotrsc i: ((bip)) te sun da:? Marcarea numelor proprii este, n opinia noastr, important, din mai multe motive. Din punct de vedere pragmatic, acestea trimit obligatoriu la cunotine comune locutorului i interlocutorului (Bidu-Vrnceanu et al., 2001, 415). Este vorba, n acest caz, de alt act de comunicare dect dialogul transcris; emitorul este autorul transcrierii, iar receptorul este cel care citete i, eventual, utilizeaz transcrierile. Aadar este greu de anticipat care dintre informaii sunt cunoscute, mai ales atunci cnd nu este un antroponim, ci un titlu de lucrare, numele unei instituii etc. Nemarcarea numelor proprii n text ar face necesar o list de note explicative pentru fiecare dintre transcrieri, n timp ce autorii volumelor de acest tip prefer o linearizare a informaiei din comunicarea oral. Din punct de vedere gramatical, clasa numelor proprii prezint o serie de particulariti, iar posibilitatea de a le analiza sistematic n limba vorbit este un argument demn de luat n calcul. Propunerea noastr este ca acestea s se marcheze, dar nu cu majuscul, din considerente de consisten intern a sistemului de transcriere, ci cu ncadrarea ntre bare oblice (backslash) a numelui: 17

CE legtur avem noi cu \ua interzis\. n plus, nemarcat n transcriere, un nume propriu la singular, precedat de articolul hotrt, ar face dificil decodarea corect a enunului n cazul utilizrilor metaforice ale numelor proprii. Notorietatea referentului iniial al numelui propriu metaforizat, condiie a metaforizrii (MironFulea, 2002, 346), se poate aplica n cazul participanilor la dialogul nregistrat, dar nu n cazul utilizatorilor transcrierii. Autorul nregistrrii/transcrierii are, de cele mai multe ori, informaii suplimentare n raport cu receptorul textului transcris, ntruct n antologiile de acest tip se public, n general, numai fragmente din interaciunea verbal propriu-zis. 7. n cele ce urmeaz, vom prezenta succint cteva funcii de cutare automat n textul transcrierii. Accesul la text n format electronic ne permite s folosim funcii de cutare prevzute n editoarele de text. n Microsoft Word, spre exemplu, selectnd succesiv urmtoarele opiuni: Edit, (Find and) Replace, More, Use Wildcards vom putea defini oricare dintre irurile de caractere (i, implicit, fenomenele astfel codificate), pentru a le identifica n text, numra sau exclude din transcrieri. Dup ce selectm opiunea Use Wildcards, n Special putem afla mai multe despre codul folosit de calculator pentru a identifica irul de caractere dorit. Nu este suficient s copiem exact secvena grafic din text i s o inserm n Find, ci trebuie s respectm sintaxa impus de calculator. Astfel, secvena [a-z] nseamn orice liter de la a la z, @ - repetarea unitii anterioare de oricte ori, iar prin combinarea lor, [a-z]@, vom obine orice cuvnt, de orice dimensiune, dar fr alte semne n interiorul su, cum ar fi : pentru lungirea silabei. Dac dorim s includem i aceast variant n funcia de cutare apelm la secvena ?@, unde semnul ? nseamn orice caracter (unul i numai unul). n Special vom gsi o list de astfel de corespondene; semnalm ns faptul c o serie de simboluri grafice: <, >, !, @, ?, [, ] etc. au alte semnificaii n Use Wildcards. Pentru a le include totui n irurile de caractere pe care dorim s le identificm n text, trebuie ca n csua de la Find fiecare semn din Special folosit cu alt valoare dect n lista data s fie precedat de \ (backslash).
Tabelul nr. 2
Tip de paranteze 1 [ ] i IPA Tip de paranteze 2 {} Clas de fenomene rostirea strine Exemple Avantaje precizia notaiei valorificarea unei convenii anterioare i de larg circulaie Avantaje precizia notaiei eliminarea dificultilor tehnice n transferul de date prelucrare computerizat

cuvintelor ['dvtaizi]

Clas de fenomene suprapuneri (eventual i ntreruperi)

Exemple A; unde# {am fost 1} eu vara trecut. B; {ai fost 1}

18

3 <>

secven grafic corespunztoare rostirii: (1)mrci paradiscursive, (2) secven neclar i transcriere incert i (3) secven indescifrabil (fiecare x corespunde unei silabe rostite)

(1) \transil<vania>\ (2) <?acolo?> (3) <xx>

4 ()

5 (( ))

elemente paraverbale: (1) descrierea n cuvinte a fenomenului i (2) convenii pentru fenomenele mai frecvente: (@@), (H), (Hx) etc. elemente nonverbale; tcerea, cu #((durata n secunde)) metatranscriere: (1) comentariile cercettorului, (2) notaii specializate: /K/, /AK/, /sic!/, (3) ntreruperea pasajului transcris marcarea numelor proprii

(1) A; cred c noi (tuete) (2) A; (H) domnule \pleu\

eficient pstrarea unitii grafice a cuvntului precizia notaiei n cazul marcrii a dou sau mai multe mrci pentru aceeai secven rostit posibilitatea realizrii unor statistici computerizate posibilitatea selectrii automate a uneia sau mai multor secvene marcate posibilitatea eliminrii automate a parantezelor de acest tip, pstrdu-se doar textul corespunztor rostirii. nlesnirea lecturii posibilitatea eliminrii automate a notaiilor respective dac nu corespund obiectivelor utilizatorului posibilitatea realizrii unor statistici nlesnirea lecturii posibilitatea eliminrii automate a notaiilor respective posibilitatea realizrii unor statistici nlesnirea lecturii posibilitatea eliminrii automate a notaiilor respective posibilitatea realizrii unor statistici nlesnirea lecturii

A; ((se apropie de microfon)) <Fstimai colegiF> #((3s)) (1) A; convieuirea a fost posibil /sun telefonul/ /.../ A; regele lor \tefan\ i-a cretinat. /14,5 sec./ (2) A; v-ar place (sic!) A; CE legtur avem noi cu \ua interzis\.

6 //

7 \\

notarea unei informaii importante fr a periclita consistena intern a sistemului (v. utilizarea majusculelor pentru emfaz)

Vom oferi o list de expresii corespunztoare celor din Tabelul nr. 2, astfel nct, inserndu-le n Find what din Find and Replace, s fie identificate corect n textul transcrierii. Completnd csua corespunztoare lui Find cu irul de caractere indicat, putem face dou operaii: numrarea ocurenelor fenomenului respectiv n transcriere (se trece toat expresia de la Find what ntre paranteze 19

rotunde, iar la Replace with se scrie numai \1, adic orice expresie rezultat n urma cutrii automate va fi nlocuit cu ea nsi) i excluderea unor fenomene care nu prezint interes pentru o anumit cercetare bazat pe transcriere (se tasteaz un blanc n Replace with), cum ar fi elementele nonerbale, spre exemplu. 7.1. Pentru a cuta n text numai cuvintele strine, notate cu IPA, folosim secvena \[?@\]. 7.2. Suprapunerile i ntreruperile notate ca n tabel pot fi cutate cu \{?@\}. 7.3. Pentru a iniia o cutare automat a mrcilor paralingvistice folosim \<?@\> sau, pentru fiecare marc n parte, de exemplu, cu \<OP?@OP\>. Secvena OP va fi nlocuit, la fiecare cutare, cu prefixul corespunztor tipului de marc: , J, F, P, R etc. Transcrierea incert este codificat n Find what astfel: \<\??@\?\>, iar secvenele indescifrabile cu \<x@\>. 7.4. Elementele paraverbale notate n transcriere pot fi identificate cu [!\(]\([!\(]@\). Pentru acestea am avut n vedere excluderea posibilitii ca n urma cutrii automate s obinem i parantezele simple incluse n notarea celor duble. 7.5. Identificarea elementele nonverbale se poate face cu \(\(?@\)\). 7.6. Comentariile cercettorului pot fi gsite n text cu \/?@\/, notaiile specializate cu \/K\/, \/AK\/ i, respectiv, \/sic\!\/, iar ntreruperea pasajului transcris cu \/...\/. 7.7. n cazul n care analizm numele proprii care apar n transcrieri, scriem n Find what secvena \\?@\\. 8. Concluzii. Faptul c prelucrarea computerizat poate constitui un instrument de lucru puternic i eficient, inclusiv n domeniul tiinelor umaniste, este un loc comun astzi. Fiarea materialului dup parametri bine stabilii (eventual corelai) i realizarea statisticilor pot prelua deja o parte migloas i consumatoare de timp din munca specialitilor. Pentru aceasta este necesar, ns, ca datele introduse n calculator s fie compatibile cu inteligena artificial, neglijarea sau nerespectarea unor reguli minore de redactare putnd mpiedica o bun colaborare om main. Ar fi util, n opinia noastr, ca efortul cercettorilor de a surprinde n scris complexitatea comunicrii orale, prin intermediul transcrierilor, s fie contrabalansat de o sistematizare automat a datelor din corpus. n ceea ce privete reorganizarea simbolurilor folosite pentru a codifica diferite fenomene ce apar n interaciunea verbal, n contribuia de fa am propus mai multe clase de elemente pentru care s se foloseasc diferite tipuri de paranteze: 1) informaie neverbal, care ine de interaciunea propriu-zis: paraverbal (tuete), b) nonverbal ((se ridic de pe scaun)); 2) informaie verbal, 20

care ine de interaciunea propriu-zis: a) transcriere IPA pentru cuvinte strine, b) mrci paraverbale <FtextF>, c) secvene incerte <?text?>, d) secvene indescifrabile <xxxx>; 3) observaiile cercettorului: a) /comentariu/, b) ntreruperea secvenei transcrise /.../, c) unele notaii specializate: /K/, /AK/, /sic!/; 4) fenomene interacionale: suprapunerile {text n} i ntreruperile {n}.
NOTE:

21

Linguistic Annotation http://www.ldc.upenn.edu/annotation MIRON-FULEA, Mihaela, Numele proprii metaforice n limba romn actual, n Gabriela PAN DINDELEGAN (coord.), Aspecte ale dinamicii limbii romne actuale, Bucureti, Editura Universitii din Bucureti, 2002, p. 337-348. O'CONNELL, Daniel C. i Sabine KOWAL, Some Current Transcription Systems for Spoken Discourse: A Critical Analysis, n Pragmatics, 1994, 4, p. 81-107. ORLETTI, Franca i Renata TESTA 1991. La transcrizione di un corpus di interlingua: aspetti teorici e metodologici n Studi italiani di linguistica teorica e applicata, XX, 1991, 2, p. 243-283. ASPECTS OF SPOKEN ROMANIAN TRANSCRIPTION. A COMPUTERIZED ANALYSIS PERSPECTIVE
The aim of our study is to approach the process of transcription from the perspective of computerized analysis, which enables researchers to make a virtually infinite number of statistics, to correlate various linguistic elements or just check their hypotheses on the correlation of specific phenomena. Our analysis is focused on the use of brackets, square brackets, braces a.s.o. in the transcription of spoken Romanian, corresponding to the categories of phenomena encoded. We have defined a number of types of information given in a transcription: information corresponding to the actual verbal interaction which is transcribed (verbal, vocal nonverbal sounds or nonverbal elements) and to the transcriber's perspective, respectively. Also, the study provides tools for a computerized analysis, if the conventions used in the transcriptions do not flout internal consistency and they are written correctly (see the misuse of space, the order of symbols, etc.).

Du Bois detaliaz primele dou categorii: Who will use the transcriptions? Discourse researchers, of course, in all their variety. But these days their interest in discourse is shared by an everwidening circle. Grammarians and general linguists use transcriptions as sources of linguistic data on a range of topics, and to follow the action in theories grounded in discourse; computational linguists use them to test speech recognition protocols against actual language use; language teachers use them to illustrate realistic uses of spoken language; social scientists use them for understanding the nature of social interaction; curious folks find it intrigued to look closely at how people really talk; and the students of any of these may use transcriptions to learn more about their field of study. And, as we shall see, one of the most important groups of users is the transcribers themselves. A good transcription system should be flexible enough to accommodate the needs of all these kinds of users. (1991, 74) 2 DEFINE GOOD CATEGORIES: 1. Define transcriptional categories which make the necessary distinctions among discourse phenomena., 2. Define sufficiently explicit categories., 3. Define sufficiently general categories., 4. Contrast data types. MAKE THE SYSTEM ACCESSIBLE: 5. Use familiar notations., 6. Use motivated notations (iconicity and internal consistency)., 7. Use easily learned notations., 8. Segregate unfamiliar notations., 9. Use notations which maximize data access., 10. Maintain consistent appearance across modes of access. MAKE REPRESENTATIONS ROBUST: 11. Use widely available characters., 12. Avoid invisible contrasts., 13. Avoid fragile contrasts. MAKE REPRESENTATIONS ECONOMICAL: 14. Avoid verbose notations., 15. Use short notations for high frequency phenomena., 16. Use discriminable notations for word-internal phenomena., 17. Minimize word-internal notations.,18. Use space meaningfully. MAKE THE SYSTEM ADAPTABLE: 19. Allow for seamless transition between degrees of delicacy., 20. Allow for seamless integration of user-defined transcription categories., 21. Allow for seamless integration of presentation features., 22. Allow for seamless integration of indexing information., 23. Allow for seamless integration of user-defined coding information. (Du Bois et al. 1988, 81-97) 3 ASCII i Unicode, standarde de reprezentare a informaiei textuale, permit transferul datelor n computer, indiferent de platform. Prin platform se nelege orice combinaie posibil de sisteme de operare (cum ar

22

fi Windows 98, Windows 2000, Linux, Mac-OS etc.) i tipul de computer (IBM-PC, Macintosh etc.). ASCII are un inventar de 256 (28) uniti. 128 dintre acestea (ASCII redus) codific alfabetul englez i un set limitat de semne de punctuaie: a) valorile numerice cuprinse n intervalul 0-31 i 127 codific semne non-grafice (cum ar fi trecerea pe un rnd nou, de pild), b) 32 - pauza dintre cuvinte sau blancul i c) valorile de la 33 la 126 codific semne grafice: semnele de punctuaie, cifrele i literele (minuscule i majuscule). Valorile cuprinse n intervalul 128-255 sunt folosite, pentru fiecare limb n parte, pentru a codifica semnele grafice specifice. Aceasta nseamn c atribuirea unui cod numeric (128-255) se face diferit pentru celelalte semne care nu sunt incluse n alfabetul englez, iar -ul romnesc nu va fi recunoscut de un editor de text suedez, spre exemplu. Unicode are un inventar de 65.536 (216) uniti i fiecare simbol are o valoare numeric unic (deci poate fi transferat i recunoscut de la o platform la alta, dar i de la o limb la alta). Dat fiind numrul foarte mare de uniti, Unicode include literele specifice ortografiei standard a majoritii limbilor (n cazul romnei, i diacriticele), inclusiv ideografe. Toate simbolurile incluse de Microsoft Word (folosind comanda Insert, opiunea Symbol i fontul Times New Roman) ntr-un inventar foarte accesibil fac parte din Unicode. Singurul dezavantaj posibil al standardului Unicode fa de ASCII este faptul c ocup, comparativ, mai mult spaiu de stocare (ceea ce este firesc n raport cu inventarul su), ns nesemnificativ pentru tehnologia actual.

Bibliografie:
BIDU-VRNCEANU, Angela, Cristina CLRAU, Liliana IONESCU-RUXNDOIU, Mihaela Manca, Gabriela PAN DINDELEGAN, Dicionar de tiine ale limbii, Bucureti, Nemira, 2001. CRESTI, Emanuela, Corpus di italiano parlato. Vol. I, II, Firenze, 2000. DASCLU JINGA, Laurenia, Corpus de romn vorbit (CORV). Eantioane, Bucureti, Oscar Print, 2002. DU BOIS, John W., Susanne CUMMING, Stephan SCHUETZE COBURN, Discourse Transcription, n S. A. Thompson (ed.) Discourse and Grammar (Santa Barbara Papers in Linguistics, 2), p. 1-71, 1988. DU BOIS, John. W., Transcription Design Principles for Spoken Discourse Research, n Pragmatics, 1991, 1, p. 71-106. GHIGA, Georgeta, Elemente fatice ale comunicrii n romna vorbit, Bucureti, Editura Alcris, 1999. HUANG, Xuedong, Alexandro ACERO i Hsiao-Wuen HON, Speech Processing, www.clsp.jhu.edu/courses/zilla, 2000. IONESCU-RUXNDOIU, Liliana, Conversaia: structuri i strategii. Sugestii pentru o pragmatic a romnei vorbite, ediia a II-a, Bucureti, ALL, 1999. IONESCU-RUXNDOIU, Liliana (coord.) Interaciunea verbal n limba romn actual. Corpus (selectiv). Schi de tipologie, Bucureti, Editura Universitii din Bucureti, 2002.

JEFFERSON, Gail 1978. Explanation of transcript notation, n J. SCHENKEIN (ed.) Studies in the Organization of Conversational Interaction, New York /San Francisco /London, 1978, p. XI-XVI.

23

S-ar putea să vă placă și