Sunteți pe pagina 1din 235

PARTEA I

Acolo, totul nu e dect ordine i frumusee, Lux, calm i voluptate Baudelaire 1 Relaiile funcionale 1.1 Ipotezele statistice, erorile i riscul gen I i II 1.2 Riscul respingerii ipotezei nule 1.3 Testul asocierii, 2 (Chi, Hi sau X2 , teoretic) t

Relaiile statistice puternice, ascunse, false i iluzorii

Relaiile funcionale

1.1 Ipotezele statistice, erorile i riscul gen I i II Trinicia relaiilor funcionale este dat de repetabilitatea lor. Un scop major n tiin este acela de a permite prognoza fenomenelor naturale. Atingerea acestui obiectiv se face prin descoperirea relaiilor sistematice ntre variabilele predictive (independente, exogene, extrinseci, cauzale, stimuli) i variabilele de ieire, rezultative (dependente, endogene, intrinseci, efect, reacie). Dac variaia datelor variabilei predictive corespunde n acelai mod sau simultan cu variaia datelor variabilei rezultative, atunci avem o relaie funcional potenial i putem prognoza rezultatul pe care nc nu l-am aflat (observat) cunoscnd doar valoarea variabilei independente. Din pcate, ne confruntm cu surse variate de eroare ce provin din mediul din care am extras datele, din greelile legate de identificarea unor relaii ntmpltoare, din greeli de calcul sau rotunjire, din existena i neluarea n calcul a mai multe surse de influen simultan i altele. Cteodat se realizeaz o relaie sistematic ntre dou variabile pur i simplu din ntmplare, cnd nimic, cu excepia Erorii, nu opereaz. Din aceast cauz, trebuie s fim permanent n poziia de a distinge ntre rezultatele experimentelor care se produc doar datorit ansei sau erorilor provenite din mediu i acelea care indic prin repetabilitate o relaie sistematic ntre variabile. ncrederea n datele furnizate de o relaie este dat de repetabilitate, aa nct trinicia unei relaii este repetabilitatea ei. Dac exist cu adevrat o relaie sistematic ntre variabile, atunci una dintre ele va prezice cu regularitate valorile celeilalte. Dac aceast relaie se datoreaz mai degrab Erorii sau ntmplrii, ori mediului care conine alte relaii ce se ntreptrund,

Relaiile statistice puternice, ascunse, false i iluzorii

ascund, accelereaz ori reduc sau falsific unele relaii asociate, atunci nu ne putem baza pe ea i nu ne este de folos n prognoze. Dar ce facem cu fenomenul socio-economic, unde sunt miriade de relaii ntre variabile, funcii compuse i compuneri de funcii? Cercettorul ori experimentatorul care caut s deslueasc aceaste fenomene trebuie s tind, poate, pentru nelegere ctre poetica lumii lui Eminescu. Acesta avnd o lume a lui, personal, secret, destinat unei experiene solitare. Plin de fulguraii i umbre, de strbateri uluitoare i de ciudate fracturi i stagnri, de struine i de renateri a cror lege interioar uneori se las regndit, alteori nu. Un labirint de miraje, ecouri i oglinzi, de uitri i de anamneze, de masive construcii i de paragini, n care i-au lsat urmele i clipele i eonii, i timpul din lume i cellalt.7 Sunt deja civa ani buni de cnd Luceafrul lui Eminescu ne-a incitat dintr-un cu totul alt unghi dect a fcut-o cu pasionaii de literatur, de istorie a culturii, cu filosofii sau cu absolvenii de liceu. Ne-a uimit ce surprinztoare simetrie luntric posed, echilibrul dintre individual i general, dintre analitic i holistic structura sa aprndu-ne ca un model cruia i se poate aplica instrumentaia statistic cu cele mai subtile experimente posibile. Poemul a aprut n prima ediie a poeziilor lui Eminescu n decembrie 1883, ediie tiprit de Titu Maiorescu, dup ce n aprilie acelai an fusese publicat n Almanahul Societii academice social-literare Romnia Jun din Viena. n timp a suferit modificri, unele datorate nsui poetului, altele puse pe seama lui Titu Maiorescu despre care se spune c ar fi scos prin voia lui patru strofe din discursul Demiurgului. Subiectul poemului poate fi interpretat fie ca o reluare a mitului Sfntului Soare, o dezvoltare a temei folclorice a Zburtorului, care se arat fetei de mprat, o determin s se ndrgosteasc de el i apoi dispare, fie ca drama omului de geniu, fie ca o poveste de dragoste n care este pus n valoare tema incompatibilitii. Poemul n sine este o sintez de inspiraie: basmul popular romnesc Fata n grdina de aur, cules de germanul Richard Kunisch n cltoria sa prin Oltenia i publicat la Berlin n anul 1861, motivul amintit al zburtorului din folclorul romnesc, filozofia lui Arthur Shopenhauer legat de problema geniului, izvoare mitologice etc.

Petru Creia, Testamentul unui eminescolog, Editura Humanitas, 1998, pag.36

Relaiile statistice puternice, ascunse, false i iluzorii

Mersul ideilor Demiurgului ctre Luceafr este pentru Petru Creia8 urmtorul: mi ceri s-i iau eternitatea ca s poi muri, ca s te poi ntoarce n vecinicul repaos dup care, cuprins de ispita iubirii, atta nsetezi. Dar eu: a) Nu pot s-i dau condiia de muritor pentru c, noi fiind cosubstaniali, ar nsemna s m neg pe mine nsumi, s tgduiesc adevrul care ne cuprinde pe amndoi n venicia lui b) Chiar dac te-a face muritor, te-a integra ntr-o lume n care moartea la care aspiri este pur aparen, de vreme ce entitile pieritoare din care este fcut umplu nite tipare, nite Forme inalterabile, pe veci nepieritoare, sustrase timpului i devenirii; i-ai pierde doar identitatea, fr s te poi stinge n repaos, pierind i renscndu-te mereu n neodihna venic a naterilor i pierderilor care se perind prin eternitatea formelor. Mai mult, pentru a-i face i mai evident teza aceasta, vorbete cu el ca i cum a devenit deja, sau pur i simplu ar fi, o fiin pieritoare. Petru Creia subliniaz juxtapoziia a dou teze exprimate n prima parte a vorbirii Demiurgului: a) cea a diferenei i incompatibilitii dintre ordinea eternului i cea a efemerului i b) cea a eternitii formelor sau a tiparelor efemerului. Avnd la ndemn acest gen de comentarii, fascinaia argumentrii induce n orice cititor dorina de a contribui cu argumente la acel ceva ce ntrete i succit noi abordri. De aceea Experimentatorul propune abordarea prin metode cantitative, fie de statistic, fie de probabiliti, algebr sau analiz matematic. Dar cum putem recunoate c relaia observat este datorat sau nu ntmplrii (erorii)? De cele mai multe ori, metoda pe care oamenii de tiin o ntrebuineaz este o versiune mai organizat a bunului sim. S ne reamintim poezia Luceafrul creat de genialul Mihai Eminescu. Ctlina: l vede azi, l vede mni/Astfel dorina-i gata/ El iar privind de sptmni,/i cade drag fata. (repetabilitatea ce justific trinicia relaiei). Cauza genereaz efectele, rezultatele, reacia: M dor de crudul tu amor/A pieptului meu coarde,/ i ochii mari i grei m dor,/Privirea ta m arde.

Petru Creia, op.cit., pag.126

Relaiile statistice puternice, ascunse, false i iluzorii

Consecina este cererea: Dar dac vrei cu crezmnt/S te-ndrgesc pe tine, / Tu te coboar pe pmnt, /Fii muritor ca mine. Situaia grea n care se afl Hyperion este aceea a unui experimentator. Ambii doresc s afle dac ceea ce s-a ntmplat (chemrile repetate, oaptele) se datoreaz unui ceva important. n ambele cazuri, ei trebuie s se ngrijoreze dac reaciile obinute (datele) sunt produse de fluctuaiile necontrolate ale unor factori neinteresani. Ar trebui s se ntrebe pe ei nii: Am primit un mesaj important sau acesta este datorat zgomotului din mediu ? (variabilitii mediului). Hyperion nu tie dac toate aceste chemri nu au fost alarme false, adic ceea ce experimentatorul va numi erori de tip I, eroarea lui fiind n acest caz renunarea la nemurire, cnd de fapt nu exist dragoste. Cu alte cuvinte, crede n existena variabilei independente (amor), cnd aceasta nu exist. Dar mai exist un tip de eroare. Ce se ntmpl dac El nu renun la nemurire i dragostea exist? Experimentatorul tie c este eroarea de tip II9. Prin impunerea interveniei Demiurgului i evidenierea comportamentului Ctlinei, Eminescu ne convinge c Hyperion iubete i noi tim c Luceafrul cade n primul tip de eroare. - Tu-mi cei chiar nemurirea mea /n schimb pe-o srutare,/ Dar voi s tii asemenea/Ct te iubesc de tare. Ctlina face eroarea de tip II, ea fiind convins c Hyperion nu va renuna la nemurire: Lucete c-un amor nespus /Durerea s-mi alunge,/ Dar se nal tot mai sus/Ca s nu-l pot ajunge. Eroarea de tip I este corectat, acel ceva important nu exist, se pare c reaciile obinute sunt produse de fluctuaiile necontrolate ale unor factori neinteresani (muritorii Ctlin i Ctlina). Prin urmare, El tremur ca alte di/n codri i pe dealuri,/Cluzind singurti/De mictoare valuri;, Dar nu mai cade ca-n trecut / n mri din tot naltul;/- Ce-i pas ie, chip de lut,/Dac-oi fi eu sau altul ?

9 Mihi N.V., Eseu privind incertitudinea i comunicarea, Sesiunea tiinific a cadrelor didactice, Univ.George Bariiu, Braov, mai, 2000.

Relaiile statistice puternice, ascunse, false i iluzorii

n analiza cazului de mai sus, ipotezele H0 i H1 pentru Luceafr, respectiv Ctlina, sunt urmtoarele: Luceafr H0 nu exist diferene semnificative n comportament la diferitele ntlniri, nu m iubete, decizia: voi rmne nemuritor; H1 exist diferene de la ntlnire la ntlnire, m iubete, renun la nemurire. Ctlina H0 nu exist diferene n comportamentul Luceafrului (se deprteaz constant), decizia va fi c voi accepta flirtul lui Ctlin; H1 exist diferene, vrea s fie muritor ca i mine, m iubete i face sacrificiul suprem. Cum am apreciat anterior, eroarea Luceafrului este de genul nti, respinge ipoteza Ho, dei n realitate ea este adevrat, n timp ce Ctlina face, o eroare de genul al doilea, accept Ho, cnd ipoteza e fals.
Reacie \ Ipotez Resping Ho-Luceafrul Accept Ho - Ctlina H0 adevrat Eroare gen I 1- H0 fals 1- Eroare gen II

Probabilitatea erorii de genul 1 se numete risc de genul I, reprezint un prag de semnificaie notat cu (alfa) , iar probabilitatea erorii de genul doi se numete risc de genul 2 i se noteaz cu (beta). Notm P(eroare tip I) = (alfa) = P(H1/dac Ho adevrat); P(eroare tip II) = (beta) = P(Ho/dac H1 adevrat). O decizie just este luat pe baza seleciei de date (sau observaii ori informaii) atunci cnd: (1) acceptm Ho cnd este adevrat, evitnd eroarea de genul 1 cu probabilitatea 1- i (2) respingem Ho cnd este fals i astfel nu comitem o eroare de genul 2, cu probabilitatea 1- . Dac judecm n continuare la rece, statistic, reaciile celor doi, atunci ajungem la un punct fundamental din punct de vedere experimental i anume ncercarea de a detecta un semnal n prezena unui mediu zgomotos. oaptele naturii, mrii, pdurii, vntului trebuie difereniate de oaptele iubitei;

Relaiile statistice puternice, ascunse, false i iluzorii

apariiile misteriosului Luceafr trebuie discriminate (separate) de apariiile altor nbdioi tineri (Ctlin). Decidentul dorete s afle dac rezultatele obinute cu un tratament experimental difer destul de mult de ceea ce se ntmpl n lipsa acestuia, pentru a decide dac variabila experimental este eficient. n mod natural, avem ncredere n date dac variabilele independente produc reacii previzibile. Vom decide acest fapt prin compararea nivelului de zgomot, variaie, analiznd datele n i fr prezena tratamentului. Trebuie s discriminm ntre zgomotul de fond i cel produs atunci cnd semnalul este prezent. Trebuie s deosebim combinaia zgomot+semnal de zgomotul n sine, ntrebndu-ne ct de probabil este s se produc evenimentul dac este doar zgomot. Hyperion auzea un zgomot, la un nivel acceptat al larmei provenit de pe pmnt. Unele zgomote ori oapte puteau fi o chemare. oaptele ca zgomote erau puin peste zgomotul de fond i puteau fi chemri. Ne putem imagina ce s-ar fi putut ntmpla cnd Ctlina i-ar fi spus Tu eti iubirea mea. Atunci, cu mari anse, s-ar fi produs evenimentul dragoste, dar i eroarea, prezumtiv, de tip II: odat ajuns muritor, relaia acceptat de ctre Ctlina cea uuratic s fie temporar. Tehnic, suntem interesai de un raport algebric ntre oaptele auzite i fonetele naturale. Dac oaptele se confund sau au acelai nivel cu larma obinuit, atunci raportul este, algebric, 1. Dac zgomotul este altfel dect larma obinuit, raportul este mai mare, caz n care, dac depete un anumit nivel de contientizare, produce reacia, deci apariia frumosului Luceafr. Pentru experimentator raportul este observaie / eroarea estimat. Rezult o privire asupra diferenei ntre tratament i condiiile de control n contrast cu diferenele ce se observ fr tratament. Dac raportul (semnal + zgomot) / zgomot este destul de mare fa de raportul zgomot/zgomot, atunci exist acel ceva, semnalul. n cazul nostru oapte+larm. n practic, cum pot decide experimentatorii c rezultatele sunt de ncredere? n primul rnd prin observarea acestora. Uneori este att de evident distorsionarea datelor, nct este clar intervenia variabilei tratament doar prin analiza experimental a comportamentului acesteia. Alternativa tiinific presupune ns analiza statistic deoarece ochiul i judecata obinuit sunt relativ insensibile n identificarea pragului de ncredere. Nu trebuie uitat c rezolvm cu greutate, fr creion sau calculator, dou ecuaii cu dou necunoscute. Cu att mai mult dac lum n experiment mai multe variabile independente. Poate ajuta doar reducerea nivelului de

Relaiile statistice puternice, ascunse, false i iluzorii

zgomot prin mrirea gradat a controlului experimentului, ceea ce nseamn intervenie i artificializare. De aceea este preferat analiza statistic modern. Ideea fundamental n cadrul aplicaiilor statistice moderne este aceea c acestea amplific abilitatea de a discrimina efectele tratamentelor experimentale. 1.2 Riscul respingerii ipotezei nule Analiza tabelar bivariat este una dintre multele tehnici de determinare a asocierii ntre dou variabile. Procentele trebuie calculate n cadrul categoriilor variabilei independente. Ele trebuie comparate ntre categoriile variabilei independente. Nu se construiesc i nu se calculeaz tabele cu date lips dect n circumstane agreate de statistician. Tabele bivariate de procente pentru variabile ordinale sau interval (ratio) sugereaz direcia pozitiv ori negativ sau forma liniar ori neliniar a relaiei. Sunt opinii care relev c procentele nu pot fi calculate pentru un numr (N) mai mic de 30 de cazuri, iar dup unii autori acest numr este 50 de cazuri sau chiar 100. O asociere statistic ntre dou variabile nu nseamn c ele sunt legate cauzal, aa nct asocierea nu implic cauzalitate. Dac lum n calcul probabilitatea de 0.05 (o ncercare din douzeci), aceasta reprezint o probabilitate destul de mic pentru a gsi o relaie ntr-un eantion, dac ea nu exist n rndul populaiei din care am extras eantionul, aa c putem respinge ipoteza nul ce presupune c acea relaie nu exist. Faptul c semnificaia statistic se bazeaz pe o probabilitate nseamn c niciodat nu putem fi siguri dac avem dreptate cnd respingem sau greim c nu respingem ipoteza nul. Erori se pot ntmpla. Cnd respingem ipoteza nul i este adevrat, comitem ceea ce statisticienii numesc Tipul I de eroare. Nivelul de semnificaie este probabilitatea de a comite o eroare de Tip I dac respingem ipoteza nul. La nivelul de 5% vom grei o dat din douzeci. Dac nu respingem o ipotez nul cnd este fals, comitem Tipul II de eroare. Ce se ntmpl cnd dorim s aflm dac variabila independent are influen? Spre exemplu, Hyperion poate raiona astfel: independent de el, exist o mulime de zgomote pe Pmnt. Unul dintre ele, variabil independent, este oapta Ctlinei: Cobori. Statistica ncearc s rezolve acest dubiu, decizia de a rspunde la apel, prin cuantificarea probabilitii evenimentului ca parte a zgomotului de fond. S presupunem c Luceafrul

Relaiile statistice puternice, ascunse, false i iluzorii

are o baz de date cu toate sunetele, zgomotele, fonetele, chemrile ntmplate sear de sear. Pentru simplificare, s lum numrul de date egal cu 1000. Teoretic, orice nou sunet, chemare, oapt, le poate compara cu cele 1000. Dac chemarea Cobori s-a ntmplat s spunem de mai mult de 200 de ori, el poate conchide c este ceva normal, se ntmpl tot timpul i deci nu este o oapt de dragoste, pe care de altfel o dorete. S nu uitm c l vede azi, l vede mni, /Astfel dorina-i gata,/El iar, privind de sptmni, /i cade drag fata. . Cum nu s-a mai ntmplat s-l cheme, ansele s fie din mediu sunt de 1/1000 i aceasta poate presupune altceva (dorina ateptat). n experimente, aceasta nseamn s comparm descoperirile cu ateptrile (cunoaterea) provenite din fluctuaiile aleatoare sau erori. Pentru o bucat de vreme, presupunem c totul se produce dintr-o ntmplare, eroare, i cutm s aflm ct de des ne putem atepta ca evenimentul s se produc dac supoziia noastr este adevrat. Acest fapt este identic cu a presupune c variabila independent nu are efect, ceea ce n statistic se numete ipoteza nul. n secolul al XVII-lea, Blaise Pascal (1623-1662) a creat un model matematic pentru situaii de joc pentru a nu fi nevoii s repetm experimentul de 1000 de ori, cazul nostru ipotetic. Modelul se cheam distribuie binomial. Testul, pentru o valoare specificat po a parametrului legii binomiale10 ca test exact, are urmtorii pai:
PROCEDURA BINOMIAL 1) Se consider un eantion de volum n obinut din n probe independente, n care se obin X = r realizri (succese). n fiecare prob probabilitatea de a obine un succeseste p. Proporia observat de succese este r/n; 2) X are legea binomial Bi (n, p) ; 3) Ho : p = po (valoarea specificat a proporiei), H1 : p po (test bilateral) ; 4) Se alege pragul de semnificaie al testului statistic: = 0,05, de exemplu; 5) Se calculeaz statistica: P = Cr p0 (1 p 0 ) n
n r r=x n r

(1)
r n r

Probabilitile binomiale: P(X = r / n, p0) = Cr p0 (1 p 0 ) n

se determin prin

calcul direct sau folosind tabele ale legii binomiale, iar P se obine prin adunarea acestora; 6) Se respinge ipoteza nul Ho cu pragul de semnificaie, dac: P < .

10

Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emilia Urseanu, Mic enciclopedie de statistic, Editura tiinific i Enciclopedic, Bucureti, 1985, pag.480.

Relaiile statistice puternice, ascunse, false i iluzorii

Presupunnd c Luceafrul coboar de 7 ori din cele 10 chemri, netiind dac este iubit sau nu, atunci probabilitatea este 0,172. Aceasta nseamn c ne putem atepta s coboare la orice oapt n 17% din cazuri fr s tie dac este realmente dorit sau nu. Considerm c sunt cam riscante att de multe teleportri fr efect. Calculul poate fi efectuat n trei variante astfel: a) cum Luceafrul nu cunoate rezultatul chemrii (Cobori n jos, luceafr blnd /Alunecnd pe-o raz, /Ptrunde-n cas i n gnd, /i viaa-mi lumineaz! ), ipoteza nul va fi: Ho : p = 1/2 (nedeterminare maxim) fa de alternana H1 : p 1/2. Se calculeaz:
1 P = C r =7 2
10 r 10 r

1 2

10 r

1 2
10

(120 + 45 + 10 + 1) = 0,172

b) Utiliznd tabelele binomiale11 avem: 1 1 1 1 P = P X = 7 / 10, + P X = 8 / 10, +P X = 9 / 10, + P X = 10 / 10, = 2 2 2 2 = 0,117 + 0,044 + 0,010 + 0,001 = 0,172.
Probabiliti binomiale pentru n = 10 r 0 1 2 3 4 5 6 7 8 9 10 0.1 0.349 0.387 0.194 0.057 0.011 0.002 0 0 0 0 0 0.2 0.107 0.268 0.302 0.201 0.088 0.026 0.006 0.001 0 0 0 0.3 0.028 0.121 0.234 0.267 0.200 0.103 0.037 0.009 0.001 0 0 p 0.4 0.006 0.040 0.121 0.215 0.251 0.201 0.112 0.043 0.011 0.002 0 0.5 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001 0.6 0 0.002 0.011 0.043 0.112 0.201 0.251 0.215 0.121 0.040 0.006

11

Keller Gerald, Warrack, Essentials of Business Statistics A systematic approach, Wadsworth Publishing Company, 1991, pag.A11

Relaiile statistice puternice, ascunse, false i iluzorii

c) Calculul se poate face utiliznd pachetul de programe MicrosoftEXCEL, urmnd procedura urmtoare: 1) Selecteaz csua din foaia de calcul unde va aprea rezultatul, 2) Selecteaz din meniul afiat iconia funciilor f x , 3) Alege categoria de funcie Statistical, 4) Selecteaz numele funciei BINOMDIST i 5) Introdu argumentele numrul de succese ateptate, numrul de ncercri, probabilitatea de succes, un argument logic FALSE/TRUE pentru verificarea ipotezelor. Rezultatele vor fi nsumate i literal vor arta astfel: =BINOMDISTR(7,10,0.5,FALSE)+BINOMDISTR(8,10,0.5,FALSE)+ BINOMDISTR(9,10,0.5,FALSE) +BINOMDISTR(10,10,0.5,FALSE), rezultatul fiind P cu valoarea 0,172, nesemnificativ de vreme ce este mai mare dect pragul de semnificaie de 0,01 i dect cel de 0,05, acceptndu-se ipoteza nul, adic rezultatul este nc nebulos la oricare coborre a Lucreafrului pe Pmnt. Dar care este probabilitatea de acceptat pentru ca evenimentele cercetate s se produc doar datorit ansei? Din punct de vedere logic, decizia este arbitrar, dar n practic se accept 5% sau mai puin. Aceasta este probabilitatea de a respinge ipoteza nul i este cunoscut ca nivel (alfa). Mrimea acestei variabile ne spune proporia n care ne ateptm s greim n respingerea ipotezei nule. La nivelul de 5% ne ateptm s respingem, n mod fals (incorect), ipoteza nul n 5% din cazuri sau o dat n douzeci de experimente. Respingerea incorect a ipotezei nule este eroarea de gen I. Pentru muli decideni, a gndi att de des eronat este inacceptabil. Ei vor dori s aeze pragul probabilitii mai jos (3%, 1%), deci 3 n 100 de experimente ori chiar o dat n 1000 de experimente (nivel 0,001). Dar, cu ct se micoreaz nivelul alfa, cu att crete riscul de a identifica o variabil independent care lucreaz. Aceasta este eroarea de genul II. Probabilitatea acesteia este denumit beta i nu este un singur numr, ci un set de numere. Valoarea ei depinde de proprietile populaiei examinate pe care de obicei nu le cunoatem.

Relaiile statistice puternice, ascunse, false i iluzorii

1.3 Testul asocierii, 2 (Chi, Hi sau X2 , teoretic)12 t Testul a fost introdus de Karl Pearson (1857-1936) n anul 1900 i de cele mai multe ori presupune verificarea ipotezei de asociere ntre: (1) rspunsurile obinute ntr-un chestionar la alternativele unei ntrebri i (2), verificarea unui set particular de date ce pot urma o distribuie statistic cunoscut. n problemele domeniilor socio-economice se aplic dup alctuirea unor tabele de contingen n care datele sunt clasificate dup una, dou sau mai multe variabile de segmentare. Acest test permite punerea n eviden a existenei/inexistenei unei legturi de asociere ntre subcolectivitile create de variabilele de segmentare studiate. Spre exemplu, cnd analizm rezultatele intervievrii prin chestionar, primul pas este acela de a afla ct de multe rspunsuri exist pentru fiecare alternativ a unei ntrebri. Se pot obine apoi proporiile sau procentele celor care au anumite puncte de vedere sau dein informaii legate de scopul construirii chestionarului. n faza a doua, se produc tabele de contingen a rezultatelor prin ncruciarea rspunsurilor la dou ntrebri X cu alternativele Xi, unde i = 1,.., r aezate ca rnduri (r) ale tabelului, i Y cu alternativele Yj, cu j = 1,, c aezate n coloanele ( c ) ale aceluiai tabel. n mod obinuit, ntrebrile considerate variabile de segmentare (atribute independente, cauzale, extrinseci, exogene, stimuli) sunt aezate n coloanele tabelului. nsumrile la captul liniei presupun neluarea n considerare a variabilei din coloane sau a altor variabile-ntrebri reprezentnd ct de multe rspunsuri exist pentru fiecare alternativ i a unei ntrebri X ce depinde de respondent (atribut sau caracteristic dependent, efect, intrinsec, endogen); de aceea totalul parial este notat cu Ti., unde punctul este simbolul indiferenei.

12

Deoarece expresia testului 2 este obinut pe baza observaiilor, rezult c este o statistic i deci nu este un parametru. mai este numit i test statistic neparametric sau test liber de repartiie, adic un test care nu depinde de forma legii iniiale de baz. (Mic enciclopedie de statistic, pag.382).

Relaiile statistice puternice, ascunse, false i iluzorii

Yj
1.j.. c 1 . . Ti.

Xi

i . . r

x ij

Ti.=

x ij
j=1

(2)

T.j . T.j . T..

n acelai fel, T.. reprezint totalul (numrul ) celor ce rspund la cele dou ntrebri X, Y (i poate fi mai mic sau egal cu cel al colectivitii intervievate), indiferent de alternativele de rspuns i sau j :
T.j
r

= x ij
i =1
c

(3) (4)

T..= x ij x ij
i =1
j=1

Etapele care trebuie parcurse sunt urmtoarele:


PROCEDURA IDENTIFICRII RELAIEI POTENIALE 1. Formularea ipotezei nule H0, care afirm c ntre cele dou variabile-ntrebri de segmentare nu exist legtur cauzal sau asociere; 2. Alegerea nivelului ori pragului de semnificaie i calcularea numrului de grade de libertate al tabelului dup formula (r-1)(c-1); pe baza acestor date, se preia din tabelul repartiiei 2 valoarea lui 2 , teoretic (indicele t); t 3. Se calculeaz frecvenele teoretice ateptate (sperate, n cazul unui test de omogenitate), ij , dup urmtoarea formul:

ij =

( total linia i x total coloana j ) Ti. * T . j ; = total general T ..

(5)

2 4. Calcularea lui c (indicele c) cu ajutorul formulei:

2 c =

( xij - ij )2 ij

i =1 j=1

(6)

Relaiile statistice puternice, ascunse, false i iluzorii


2 5. Se compar c cu 2 obinut din tabelul repartiiei 2 astfel: t
2 dac c > 2 , se respinge ipoteza nul i deci exist o asociere ori relaie t potenial ntre variabilele de segmentare studiate; 2 dac c 2 , se admite ipoteza nul i deci nu exist o asociere ori relaie t potenial ntre variabilele de segmentare studiate.

Pentru cazurile dihotomice (dicotomice, dichotomice), se prefer formula calculrii rapide, robuste a lui 2 r Spre exemplificare considerm c avem matricea de mai jos:
Atribute x1 x2 Total y1 x11 x21 T.1 y2 x12 x22 T.2 Total T1. T2. T..
2

T..(x11 x 22 x 21 x12 ) (7) T.1 T.2 T1. T2 . Dac se stabilete c exist asociere ntre cele dou variabile de segmentare, se pune problema ct de corelate sunt acestea. Pentru a verifica acest lucru, se va calcula coeficientul de contingen C, pentru a msura gradul de asociere ntre variabilele tabelului de contingen. El se calculeaz indiferent de natura variabilelor (continue sau discrete) i indiferent de natura repartiiei acestora (normal sau nu) n cadrul populaiei supus cercetrii, dup modelul matematic propus de 2 statisticianul Karl Pearson pentru a ajusta c :
2 Atunci c =

2 c [0,1] (8) 2 N + c Cu ct valoarea lui C este mai aproape de 1 (dar nu ajunge niciodat s fie egal cu 1), cu att variabilele sunt mai strns corelate. Trebuie reinut faptul c valoarea lui C depinde de numrul de rnduri i coloane, deci doi coeficieni de contingen nu pot fi comparai dect dac provin din tabele de contingen de aceeai mrime. De altfel, C nu poate fi niciodat mai mare ca valoarea calculat prin: (9) Cmax = Min(r 1, c 1)

C=

Min(r, c)

unde r i c sunt numrul de linii i coloane ale tabelului de contingen, iar Min semnific alegerea celei mai mici valori dup calcul.

Relaiile statistice puternice, ascunse, false i iluzorii

n cele ce urmeaz, vom exemplifica pe tabele de dou linii i dou coloane, valoarea maxim va fi 0,707 provenind din radical de 2, adic SQRT[Min (1,1)/Min(2,2)], unde SQRT nseamn funcia utilizat ca radical de ordin doi (acronim, square root engl.). Vom utiliza n exemplele urmtoare versiunea lui Cramer, cunoscut sub forma Cramrs V, prescurtat V. V= ( N)Min ( r 1, c 1)
2

(10)

Evident, pentru tabele de contingen cu dou linii i dou coloane, sub radical se va afla doar raportul dintre Chi ptrat i numrul de observaii (frecvene), iar acest nou coeficent este cunoscut ca msura de asociere . IF ( < 10 relaia nu exist; IF ( < 30, slab spre modest, IF( < 50, moderat spre puternic, puternic spre foarte puternic))). n cazul utilizrii pachetului de programe MicrosoftEXCEL, procedura este urmtoarea: 1. Construiete tabelul de contingen cu frecvenele ori datele reale xij la care se ataeaz datele ateptate (estimate) ij , n ipoteza independenei caracteristicilor (atributelor) din linii i coloane, Alege csua din foaia de calcul unde va aprea un rezultat intermediar, Selecteaz din meniul afiat iconia funciilor f x , Alege categoria de funcie Statistical, Selecteaz numele funciei CHIINV care are nevoie de probabilitatea de risc obinut ca rezultat al cererii CHITEST(valori reale x ij , valori ateptate, estimate, ij ) i drept urmare n csua rezervat rezultatului final se scrie = CHIINV (CHITEST (col NV-col SE valori reale, idem valori ateptate, numr grade de libertate) 6. Alege csua pentru coeficientul de contingen V, 7. mparte sub radical (SQRT) valoarea calculat la pct.5 la totalul general T..=N multiplicat de min (r-1), (c-1) ori Pentru tabelele de contingen dihotomice este de preferat calculul robust deoarece elimin o parte din etapele de mai sus, iar valorile ntoarse de MicrosoftEXCEL nu sunt adesea ilustrate sau sunt sub

2. 3. 4. 5.

Relaiile statistice puternice, ascunse, false i iluzorii

forma #NUM!, mai ales atunci cnd, n mod evident, se accept ipoteza H1 , deci sunt influene puternice. (Pentru valori > 30) Aa cum am subliniat, pentru c msura depinde de N, numrul de observaii sau Totalul general al tabelului, se calculeaz msura de asociere (fi).

PREMIRE PARTIE
L, tout nest quordre et beaut, Luxe, calme et volupt Baudelaire 1 Relations fonctionnelles 1.1 Les hypothses statistiques, les erreurs et le risque genre I et II 1.2 Le risque du rejet de lhypothse nulle 1.3 Le test de lassociation, 2 (Chi, Hi OU X2 , thorique) t

Relations statistiques fortes, caches, fausses et illusoires

Relations fonctionnelles

1.1 Les hypothses statistiques, les erreurs et le risque genre I et II La solidit des relations fonctionnelles est donne par leur rptabilit. Un but majeur de la science est de permettre la prvision des phnomnes naturels. Pour atteindre ce but il faut dcouvrir les relations systmatiques entre les variables prdictives (indpendantes, exognes, causales, stimulus) et les variables de clture, rsultatives (dpendantes,endognes, intrinsques, effet, raction). Si la variation des donnes de la variable prdictive correspond de la mme manire et simultanment la variation des donnes de la variable rsultative, alors on a une relation fonctionnelle potentielle et on peut prvoir le rsultat quon na pas encore appris (observ) connaissant seulement la valeur de la variable indpendante. Malheureusement, on est confront des sources varies derreurs qui proviennent de lenvironnement do on a extrait les donnes, des erreurs rattaches lidentification des relations occasionnelles, des erreurs de calcul ou dapproximation, de lexistence et de lignorance dans le calcul de plusieurs sources dinfluence simultanne et al. Parfois on ralise une relation systmatique entre deux variables tout fait par hasard, au moment o rien, sauf lerreur ne fonctionne. Vu cela il faut toujours faire la distinction entre les rsultats des expriments qui se produisent seulement par hasard ou cause des erreurs dues lenvironnement et les rsultats qui indiquent par la rptabilit, une relation systmatique entre les variables. La confiance dans les donnes fournies par une relation est donne par la rptabilit, la solidit dune relation est donne par la rptabilit. Sil y a vraiment une relation systmatique entre les variables, alors une delles va prdire rgulirement les valeurs de lautre. Si cette relation est due plutt lErreur ou au hasard, ou lenvironnement qui contient ces

Relations statistiques fortes, caches, fausses et illusoires

relations qui sentrecroisent, cachent, accelrent ou rduisent, falsifient des relations associes, alors on ne peut pas compter sur cette relation et on ne peut pas lemployer dans des prvisions. Mais quoi faire avec le phnomne socio-conomique, o il y a des myriades de relations entre les variables, fonctions composes et compositions de fonctions? Le chercheur ou lexprimentateur qui cherchent dchiffrer ces phnomnes doivent, peut-tre, esprer comprendre la potique du monde de Mihai Eminescu. Celui-ci ayant un monde lui, personnel, secret, destin une exprience solaire. Plein de fulgurations et dombres, de parcours surprenants et dtranges fractures et stagnations, dinsistances et de renaissances dont la loi interne se laisse tantt remodele, tantt non. Un labyrinthe de mirages, dchos, de miroirs, doublis et danamnses, dnormes constructions et des constructions dlabres, o ont laiss leurs traces et instants et ons, le temps dici et celui dailleurs .7 Il y a dj quelques annes depuis que le clebre pome Luceafrul (LAstre/Gnie) de Mihai Eminescu nous a incit dun autre point de vue que celui des gens passionns par la littrature, la philosophie, ou les simples bacheliers obligs de linterprter devant les commissions dexamen. Nous avons t surpris par sa symtrie inhrente, lquilibre entre individuel et gnral, analytique et cholistique, sa structure nous apparaissant comme un modle auquel on peut appliquer linstrumentation statistique avec les expriments les plus subtiles. Le pome a paru dans la premire dition des posies de M. Eminescu en dcembre 1883, dition publie par Titu Maiorescu, aprs avoir t publi au mois davril de la mme anne dans lAlmanach de la Socit acadmique socio-littraire Romnia Jun de Vienne. Le pome a subi des modifications attribues soit Eminescu mme, soit Maiorescu auquel on attribue lenlvement de quatre strophes du discours du Dmiurge. Le sujet du pome peut tre interprt comme une reprise du mythe du Saint Soleil, un dveloppement du thme du Voleur duquel tombe amoureuse la fille du roi et qui disparat ensuite, ou bien le drame du gnie, ou lhistoire dun amour incompatible. Le pome en soi porte lempreinte de plusieurs sources dinspiration: le conte populaire roumain La jeune fille dans le jardin dor, recueilli par lallemand Richard Kunish lors de son voyage en Oltnie (le sud de la Roumanie) et publi Berlin en 1861, le thme folklorique roumain du Voleur, la philosophie de Shopenhauer concernant le Gnie, des sources mythologiques, etc.
7

Petru Creia, Testamentul unui eminescolog, Editura Humanitas, 1998, pag.36.

Relations statistiques fortes, caches, fausses et illusoires

Lvolution des ides du Dmiurge vers lAstre/Gnie est pour Petru Creia8 la suivante: tu me demandes de tenlever lternit pour pouvoir mourir, pour pouvoir retourner dans lternel repos que tu, sduit par lamour, dsires ardamment. Mais moi: a) Je ne peux pas te rendre la condition de mortel parce que, tant cosubstanciels tous les deux, cela signifierait me nier moi-mme, nier la vrit qui nous comprend les deux dans son ternit... b) Mme si je te faisais mortel, je tintgrerais dans un monde o la mort laquelle tu aspires est pure apparence, puisque les entits mortelles qui la forment remplissent des moules, des Formes inaltrables, ternelles, soustraites au temps et au devenir; tu perdrais ainsi seulement ton identit, sans pouvoir mourir en paix, disparaissant et renaissant toujours dans le non-repos perptuel des naissances et des pertes qui se succdent par lternit des formes. Plus, pour lui faire mieux comprendre cette thse, il lui parle comme sil est dj ou comme sil avait dj t un tre mortel. Petru Creia souligne la juxtaposition de deux thses exprimes dans la premire partie du discours du Dmiurge: a) celle de la diffrence et de lincompatibilit entre lordre de lternel et celui de lphmre et b) celle de lternit des formes ou des moules de lphmre. Ayant la disposition ce genre de commentaires, la fascination de largumentation transmet au lecteur le dsir de contribuer avec ce qui renforce et suscite de nouvelles approches. Cest pourquoi lExprimentateur propose une approche par des mthodes quantitatives de statistique, de probabilits, dalgbre ou danalyse mathmatique. Mais comment peut-on voir si la relation observe est due ou non au hasard (erreur)? La plupart des fois la mthode utilise par les hommes de science est une version plus organise du bon sens. Rappelons-nous la posie Luceafrul (lAstre/Gnie)* cre par le grand pote Mihai Eminescu. Ctlina: Et le dsir, en elle, du jour/ Au lendemain, naquit/ de longues semaines aprs, lamour/ Pour elle sveille en lui. (la rptition qui justifie la solidit de la relation)**. La cause gnre les effets, les resultats, la raction: Car sans piti est ton amour,/ Met la douleur lme,/ Font mal tes yeux si grands et lourds,/ et ton regard est flamme.
8

Petru Creia, op.cit., pag.126 * dans le texte, on appellera le pome de Mihai Eminescu Luceafrul (comme en roumain) et le hros principal du pome lAstre/Gnie ** la traduction en franais des vers est prise du volume Mihai Eminescu Poezii/Posies traduction Elisabeta Isanos, Editura Libra, Bucarest, 1994

Relations statistiques fortes, caches, fausses et illusoires

La consquence est la demande: Mais si tu veux que pour de vrai/ Je taime de toute ma foi,/ Descends sur terre, jamais,/ Sois mortel, comme moi. La situation difficile dans laquelle se trouve Hyprion est celle dun exprimentateur. Les deux dsirent apprendre si ce qui sest pass ( les appels rpts, les murmures) est d quelque chose dimportant. Dans les deux cas ils doivent sinquiter si les ractions obtenues (les donnes) sont produites par les fluctuations noncontroles de certains facteurs sans intrt. Ils devraient se demander eux-mmes Jai reu un message important, ou bien il est d au bruit de lenvironnement ( la variabilit de lenvironnement)? Hyprion ne sait pas si tous ces appels/messages nont pas t de fausses alarmes, cest--dire ce que lexprimentateur appellera erreurs de type l, son erreur tant dans ce cas le renoncement limmortalit quand en fait il ny a pas damour. Autrement dit il croit dans lexistence de la variable indpendante (amour), quand lamour nexiste pas. Mais il y a encore un autre type derreur. Quest-ce qui se passe sil ne renonce pas limmortalit, mais lamour existe? Lexprimentateur sait que cest une erreur de type ll9. Par lintervention du Dmiurge et la mise en vidence du comportement de Ctlina, Eminescu nous convainc que Hyprion aime et nous savons que lAstre/Gnie commet une erreur de type l. -Pour un baiser, en guise de prix,/Lternit elle-mme.../ Je te ferai savoir, aussi,/ Combien fort je taime Ctlina fait une erreur de type ll, convaincue que Hyperion ne renoncera pas limmortalit: Il brille avec amour, au moins/ Pour apaiser ma peine/ Mais je serai toujours loin/ De sa lumire hautaine. Lerreur de type l est corrige, ce quelque chose dimportant nexiste pas, et les ractions obtenues sont produites par les fluctuations incontroles de certains facteurs sans intrt (les mortels Ctlin et Ctlina). Par consquent, Il tremble comme auparavant,/ Au bois, sur les collines,/ Et guide les dserts mouvants/ Des vagues qui se ruinent; Mais, vers la mer, de la nuit,/ Maintenant, rien ne porte/ Son corps: - Si cest moi ou lui./ Argile, cela timporte ?
9

Mihi N.V., Eseu privind incertitudinea i comunicarea, Sesiunea tiinific a cadrelor didactice, Univ.George Bariiu, Braov, mai, 2000.

Relations statistiques fortes, caches, fausses et illusoires

Dans lanalyse du cas ci-dessus, les hypothses H0 et H1 pour lAstre/Gnie et pour Ctlina sont les suivantes: LAstre/Gnie H0 il ny a pas de diffrences significatives dans le comportement aux diffrentes rencontres, elle ne maime pas, la dcision: je resterai immortel; H1 il y a des diffrences chaque rencontre, elle maime, je renonce limmortalit Ctlina H0 il ny a pas de diffrences dans le comportement de LAstre/Gnie (il sloigne constamment), la dcision sera que jaccepterai le flirt de Ctlin; H1 il y a des diffrences, il veut tre mortel comme moi, il maime et fait le sacrifice suprme. Comme nous lavons dj dit, lerreur de lAstre/Gnie est de premier genre, rejette lhypothse H0. bien quen ralit elle soit vraie tandis que Ctlina fait une erreur de deuxime genre, accepte H0 quand lhypothse est fausse.
Reaction \ Hypothse Rejette Ho-Astre/Gnie Accepte Ho - Ctlina H0 vraie Erreur genre I 1- H0 fausse 1- Erreur genre II

La probabilit de lerreur de genre 1 sappelle risque de genre I, reprsente un un seuil de signification not avec (alfa) , et la probabilit de lerreur de genre deux sappelle risque de genre 2 et est not avec (beta). Notons P(erreur type I) = (alfa) = P(H1/si Ho vraie); P(erreurtip II) = (beta) = P(Ho/si H1 vraie). Une dcision juste est prise sur la base de la slection des donnes (observations ou informations) lorsque: (1) nous acceptons Ho comme vraie, vitant lerreur de genre l probabilit 1- , et (2) nous rejetons Ho quand elle st fausse et nous ne commettons pas ainsi une erreur de genre 2, probabilit 1- . Statistiquement, les ractions des deux nous mnent un lment fondamental du point de vue exprimental, cest--dire la tentative de trouver dans le signal la prsence d un environnement bruyant. Les bruits de la nature, de la mer, de la fort, du vent, doivent tre spars/diffrencis des

Relations statistiques fortes, caches, fausses et illusoires

chuchotements de la bien-aime; les apparitions du mystrieux Astre doivent tre spares des apparitions des autres jeunes foltres (Ctlin). Le dcideur dsire savoir si les rsultats obtenus par un traitement exprimental diffrent beaucoup de ce qui se passe en son absence pour dcider si la variable exprimentale est efficace. Dhabitude on a confiance dans les donnes si les variables indpendantes produisent des ractions prvisibles. Nous dcidons cela par la comparaison du niveau de bruit, variation, analysant les donnes en et sans la prsence du traitement. Il faut faire la diffrence entre le bruit de fond et celui produit en prsence du signal. Il faut diffrencier la combinaison bruit+signal du bruit en soi nous demandant quelle est la probabilit que cet vnement se produise sil y a seulement du bruit. Hyprion entendait un niveau prcis du vacarme du monde den bas. Certains bruits ou murmures pouvaient tre des appels. Les murmures comme bruitstaient un peu plus forts que le bruit de fond et pouvaient tre des appels. Nous pouvons nous imaginer ce qui pouvait se passer quand Ctlina aurait dit tu es mon amour. Il y a beaucoup de chances que lvnement amour se produise, mais aussi lerreur prsomptive, de type ll: une fois devenu mortel, la relation accepte par Ctlina la frivole serait temporaire. Techniquement parlant, nous sommes intresss par un rapport algbrique entre les murmures entendus et les bruits naturels. Si les murmures se confondent ou ont le mme niveau que le vacarme habituel, alors le rapport est, algbriquement, 1. Si le bruit est diffrent du vacarme habituel, le rapport est plus grand, et sil dpasse un certain niveau de conscientisation, produit la raction, donc lapparition du bel Astre/Gnie. Pour lexprimentateur, le rapport est observation/erreur estime. Il en rsulte une observation de la diffrence entre traitement et conditions de contrle en contraste avec les diffrences observables sans traitement. Si le rapport (signal+bruit) / bruit est assez grand en rapport avec bruit/bruit, alors il y a ce quelque chose, le signal. Dans notre cas, murmures+vacarme. Comment les exprimentateurs peuvent-ils dcider sur la validit des rsultats? Premirement en passant en revue ceux-ci. Parfois la distorsion des donnes est si vidente que lintervention de la variable traitement est saisissable seulement par lanalyse exprimentale du comportement de celleci. Lalternative scientifique suppose cependant lanalyse statistique car loeil et le raisonnement habituel sont relativement insaisissables dans lidentification du seuil de confiance. Il ne faut pas oublier aussi quon rsoud difficilement sans crayon ou ordinateur deux quations deux inconnues. Et encore plus difficilement si lexpriment a plusieurs variables indpendantes.

Relations statistiques fortes, caches, fausses et illusoires

Ce qui peut nous aider cest la rduction du niveau de bruit par la croissance graduelle du contrle de lexpriment, ce qui signifie intervention et artifice. Cest pourquoi lanalyse statistique moderne est prfrable. Lide fondamentale dans le cadre des applications statistiques modernes est quelle amplifie labilit de diffrencier les effets des traitements exprimentaux. 1.2 Le risque du rejet de lhypothse nulle Lanalyse tabulaire bivalente est une des multiples techniques de dtermination de lassociation entre deux variables. Les pourcentages doivent tre calculs dans le cadre des catgories de la variable indpendante. Ils doivent tre compars dans le cadre des catgories de la variable indpendante. On ne construit et on ne calcule des tableaux qui manquent de donnes que dans des circonstances agres par le statisticien. Les tableaux bivaris de pourcentages pour les variables ordinales ou intervalle (ratio) suggrent la direction positive ou ngative ou la forme lineaire ou non-linaire de la relation. Il y a des opinions selon lesquelles les pourcentages ne peuvent pas tre calculs pour un nombre (N) infrieur 30 cas, ou, daprs autres auteurs, pour moins de 50 ou 100. Une association statistique entre deux variables ne signifie pas quil y a une relation causale entre elles, donc lassociation nimplique pas la causalit. Si on prend en considration la probabilit de 0,05 (un sur vingt), celleci reprsente une probabilit assez rduite pour trouver une relation dans un chantillon si elle nexiste pas dans la population de laquelle on a extrait, donc on peut rejeter lhypothse nulle qui suppose que cette relation nexiste pas. Le fait que la signification statistique est base sur une probabilit signifie quon ne peut jamais tre sr davoir ou non raison quand on rejette ou quand on se trompe et on ne rejette pas lhypothse nulle. Des erreurs apparaissent. Quand nous rejetons lhypothse nulle et elle est vraie, nous commettons ce que les statisticiens appellent le Type l derreur. Le niveau de signification est la probabilit de commettre une erreur de type l si nous rejetons lhypothse nule. Au niveau de 5% nous allons nous tromper une fois sur vingt. Si nous ne rejetons pas une lhypothse nule quand elle est fausse, nous commettons le Type ll derreur. Quest-ce qui se passe quand nous dsirons savoir si la variable indpendante a une influence? Par exemple, Hyprion peut raisonner ainsi: indpendamment de lui il y a beaucoup de bruits sur la Terre. Une des variables indpendantes est le murmure de Ctlina: Descends.... La statistique essaie de rsoudre ce doute, la dcision de rpondre lappel, par la quantification de la probabilit de lvnement comme partie du bruit de fond.

Relations statistiques fortes, caches, fausses et illusoires

Supposons que lAstre/Gnie a une base de donnes avec tous les bruits, les sons, les bruissements, les appels faits soir aprs soir. Pour simplifier, prenons le nombre de donnes gal 1000. Thoriquement, tout nouveau son, appel, murmure peut tre compar avec les 1000 autres. Si lappel Descends...a t fait plus de 200 fois, il peut conclure que cest quelque chose de normal, que cela arrive toujours et que par consequent ce nest pas un mot damour, quil dsire dailleurs. Noublions pas que: Et le dsir, en elle, du jour/ Au lendemain, naquit/ de longues semaines aprs, lamour/ Pour elle sveille en lui. Comme elle ne la plus appel, les chances que ce soit quelque chose de lenvironnement sont de 1/1000 et il peut croire autre chose ( le dsir attendu). Dans les expriments, cela signifie comparer les dcouvertes avec les attentes (le savoir) provenues des fluctuations alatoires ou des erreurs. Pour quelque temps, nous supposons que tout se produit par hasard, erreur, et nous cherchons voir quelle frquence lobservation se produit si notre supposition est vraie. Cest la mme chose avec la supposition que la variable indpendante na pas deffet, appele dans la statistique lhypothse nulle. Au XVII-ime sicle, Blaise Pascal (1623-1662) a cr un modle mathmatique pour des situations de jeu pour ne pas tre obligs de rpter lexpriment 1000 fois, notre cas hypothtique. Le modle sappelle distribution binomiale. Le test pour une valeur spcifie p du paramtre de la loi binomiale10 comme test a les pas suivants:
o

PROCEDURE BINOMIALE 1). On considre un chantillon de volume n obtenu de n preuves indpendantes, dans lesquelles on obtient X = r ralisations (succs). Dans chaque preuve la probabilit dobtenir un succsest p. La proportion observe de succs est r/n; 2) X a la loi binomiale Bi (n, p) ; 3) Ho : p = po (valeur specifie de la proportion, H1 : p po (test bilatral) ; 4) On choisit le seuil de signification du test statistique: = 0,05, par exemple; 5) On calcule la statistique: P = Cr p0 (1p0) n
r r=x n n r

.
n r

(1)
on dtermine par

Probabilits binomiales:

r P (X = r / n , p0) = Crn p0 (1 p 0)

calcul direct ou en employant des tableaux de la loi binomiale et P sobtient par laddition de ceux-ci. 6) On rejte lhypothse nulle Ho avec le seuil de signification, si: P < .

10

Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emilia Urseanu, Mic enciclopedie de statistic, Editura tiinific i Enciclopedic, Bucureti, 1985, pag.480.

Relations statistiques fortes, caches, fausses et illusoires

Supposant que lAstre/Gnie descend 7 fois des 10 appels, ne sachant pas sil est aim ou non, alors la probabilit est de 0,172. Cela signifie quil pourrait descendre nimporte quel appel en 17 des cas sans savoir sil est rellement dsir ou non. Nous considrons que tellement de tlportations sans effet sont un peu trop risques. Le calcul peut tre effectu en trois variantes: a) comme lAstre/Gnie ne connat pas le rsultat de lappel (Par un rayon, doucement, tu puis/ Descendre de lespace,/ Viens illuminer ma vie,/Comme tu claires ma place!), lhypothse nulle sera: : p = 1/2 (nondtermination maximale) par rapport l alternance Ho
H1 : p
10

1/2. On calcule:
r 10 r r 10

1 1 P = C r =7 2 2

1 2
10

(120 + 45 + 10 + 1) = 0,172 .

b) Utilisant les tableaux binomiales11 on a: 1 1 1 1 P = P X = 7 / 10, + P X = 8 / 10, +P X = 9 / 10, + P X = 10 / 10, = 2 2 2 2


= 0,117 + 0,044 + 0,010 + 0,001 = 0,172.
Probabilits binomiales pour n = 10 r 0 1 2 3 4 5 6 7 8 9 10 0.1 0.349 0.387 0.194 0.057 0.011 0.002 0 0 0 0 0 0.2 0.107 0.268 0.302 0.201 0.088 0.026 0.006 0.001 0 0 0 0.3 0.028 0.121 0.234 0.267 0.200 0.103 0.037 0.009 0.001 0 0 p 0.4 0.006 0.040 0.121 0.215 0.251 0.201 0.112 0.043 0.011 0.002 0 0.5 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001 0.6 0 0.002 0.011 0.043 0.112 0.201 0.251 0.215 0.121 0.040 0.006

11

Keller Gerald, Warrack, Essentials of Business Statistics A systematic approach, Wadsworth Publishing Company, 1991,pag.A11

Relations statistiques fortes, caches, fausses et illusoires

c) Le calcul peut se faire utilisant le paquet de logiciels MicrosoftEXCEL suivant la procduresuivante: 1) Slecter la case de la fiche du calcul o apparatra le rsultat, 2) Slecter du menu affich licne des fonctions f x , 3) Choisir la catgorie de fonction Statistical, 4) Slecter le nom fonction BINOMDIST et 5) Introduire les arguments nombre de succs attendus, nombre dessais, probabilit de succs, un argument logique FALSE/TRUE pour vrifier les hypothses. Les rsultats seront additionns et littralement elles seront comme a: =BINOMDISTR(7,10,0.5,FALSE)+ BINOMDISTR(8,10,0.5,FALSE) +BINOMDISTR(9,10,0.5,FALSE) +BINOMDISTR(10,10,0.5,FALSE), le rsultat tant P valeur 0,172, pas significative tant quelle est plus grande que le seuil de signification de 0,01 de mme que de celui de 0,05 en acceptant lhypothse nulle, cest--dire le rsultat est encore nbuleux pour chaque descente de lAstre/Gnie sur Terre. Mais quelle est la probabilit accepter pour que les vnements tudis se produisent seulement par hasard? Du point de vue logique, la dcision est arbitaire, mais en pratique on accepte 5% ou moins. Celle-ci est la probabilit de rejeter lhypothse nulle et elle est connue comme niveau (alfa). La valeur de cette variable nous dit la proportion dans laquelle on attend faire une erreur quand on rejette lhypothse nulle. Au niveau de 5% nous attendons rejeter, incorrectement, lhypothse nulle en 5% des cas ou une fois sur vingt expriments. Rejeter incorrectement lhypothse nulle est lerreur de genre l. Pour beaucoup de dcideurs, faire si souvent cette erreur est inacceptable. Ils voudront placer le seuilde probabilit plus en bas (3%), donc 3 fois sur cent, sinon sur mille expriments (niveau 0,001). Mais plus ils rduisent le niveau alfa, plus grandit le risque didentifier une variable indpendante qui fonctionne. Cest lerreur de genre ll. Sa probabilit est appele beta et ce nest pas un seul nombre, mais un set de nombres. Sa valeur dpend des proprits de la population tudie que nous connaissons dhabitude.

Relations statistiques fortes, caches, fausses et illusoires

1.3 Le test de lassociation 2 (Chi, Hi ou X2 thorique) 12 t Le test a t introduit par Karl Pearson (1857-1936) en 1900 et pour la plupart des cas il suppose la vrification de lhypothse dassociation entre (1) les rponses obtenues dans un questionnaire aux alternatives dune question et (2), la vrification dun set particulier de donnes qui peuvent admettre une distribution statistique connue. Dans nos problmes il sapplique aprs la cration des tableaux de contingence dans lesquels les donnes sont classifies selon une, deux ou plusieurs variables de segmentation. Ce test permet la mise en vidence de lexistence/inexistence dun lien dassociation entre les sous-collectivits cres par les variables de segmentation tudies. Par exemple, lorsquon analyse les rsultats dun questionnaire, le premier pas est dapprendre combien de rponses existent pour chaque alternative dune question. On peut obtenir ainsi les proportions ou les pourcentages de ceux qui ont certains points de vue ou dtiennent des informations concernant le but de la cration du questionnaire. Dans la deuxime tape, on produit les tableaux de contingence des rsultats par le croisement des rponses deux questions X avec les alternatives Xi o i = 1,.., r places comme rangs (r) du tableau et Y aves les alternatives Yj, avec j = 1,, c places en colonnes ( c ) du mme tableau. Dhabitude, les questions considres variables de segmentation (attributs indpendants, de cause, extrinsques, exognes, stimulus) sont places en colonne dans le tableau. Les sommes du bout de la ligne supposent quon ne prend pas en considration la variable des colonne ou dautres variables-questions reprsentant combien de rponses existent pour chaque alternative i dune question X qui dpend du rpondant (attribut ou caractristique dpendante, effet, intrinsque, endogne), cest pourquoi le total partiel est not Ti., o le point est le symbole de lindiffrence.

12

Puisque lexpression du test est obtenue sur la base des observations, il rsulte que cest une statistique et donc pas un paramtre. Il est aussi appel test statistique nonparametrique, ou test libre de rpartition, cest--dire un test qui ne dpend pas de la forme de la loi initiale de base. (Mic enciclopedie de statistic, pag.382.).

Relations statistiques fortes, caches, fausses et illusoires

Yj
1.j.. c 1 . .
c

Ti.

Xi

i . . r

x ij

Ti.=

x ij
j=1

(2)

T.j . T.j . T..

De la mme manire, T.. reprsente le total (nombre) de ceux qui rpondent aux deux questions X,Y ( et peut tre plus petit ou gal celui de la collctivite interroge), quelles que soient les alternatives de rponses i ou j.
T.j
r

= x ij
i =1
c

(3) (4)

T..= x ij x ij
i =1
j=1

Etapes parcourir:
PROCEDURES D IDENTIFICATION DE LA RELATION POTENTIELLE 1. Enonciation de lhypothse nulle H0, qui affirme quentre les deux variablesquestions de segmentation il ny a pas de lien causal, ou association; 2. Choix du niveau ou du seuil de signification et calcul du nombre de degrs de libert du tableau selon la formule (r-1)(c-1); vu ces donnes on prend du tableau de la rpartition 2 la valeur du 2 , thorique (indice t); t 3. On calcule les frquences thoriques attendues (espres, dans le cas dun test dhomognit), ij , selon la formule suivante:

( total ligne i x total colonne j ) Ti. T. j = ; total general T.. 2 4. Calcul du c calcul (indic c) par la formule: ij =
2 c = r c

(5)

( xij - ij )2 ij

i =1 j=1

(6)

Relations statistiques fortes, caches, fausses et illusoires


2 5. On compare c avec 2 obtenu du tableau de la rpartition 2 ainsi: t

2 si c > 2 on rejte lhypothse nulle et donc il existe une association ou une t relation potentielle entre les variables de segmentation tudies; 2 si c 2 on admet lhypothse nulle et donc il nexiste pas une association t ou une relation potentielle entre les variables de segmentation tudies.

Pour les cas dichotomiques, on prfre la formule du calcul rapid, robuste 2 r Comme exemple, considrons le tableau ci-dessous
Attributs x1 x2 Total
2 Alors c =

y1 y1 x11 x21

y2 y2 x12 x22

Total Total T1. T2.


2

T..(x11 x 22 x 21 x12 ) T.1 T.2 T1. T2 .

(7)

Si on tablit quil y a une association entre les deux variables de segmentation, on se demande quelle corrlation existe entre elles. Pour vrifier cela, on va calculer le coefficient de contingence C, pour mesurer le degr dassociation entre les variables du tableau de contingence. Il se calcule quelle que soit la nature des variables (continues ou discrtes) et la nature de la rpartition de celles-ci (normale ou non) dans le cadre de la population implique dans la recherche selon le modle mathmatique 2 propos par le statisticien Karl Pearson pour ajuster c :
2 c [0,1] (8) 2 N + c Plus la valeur du C est proche de 1 (mais narrive pas tre gale 1), plus les variables sont en corrlation. Il faut retenir le fait que la valeur du C dpend du nombre de lignes et de colonnes, donc deux coefficients de contingence peuvent tre compars seulement sils proviennent des tableaux de contingence dune mme valeur. Dailleurs, C ne peut jamais tre plus grand que (9) Cmax = Min(r 1, c 1)

C=

Min(r, c)

o r et c sont le nombre de lignes et de colonnes du tableau de contingence, et Min (minimum) signifie le choix de la valeur la plus petite aprs le calcul.

Relations statistiques fortes, caches, fausses et illusoires

Comme on va lexemplifier sur des tableaux deux lignes et deux colonnes, la valeur maximale sera de 0,707, radical de 2, soit SQRT[Min(1,1)/Min(2,2)], o SQRT signifie la fonction utilise comme radical dordre deux(square root, angl). On va utiliser dans les exemples suivants la version de Cramer, connue sous la forme de Cramers V, abrg V.
V= ( N)Min ( r 1, c 1)
2

(10)

Evidemment, pour les tableaux de contingence deux lignes et deux colonnes, sous le radical se trouvera seulement le rapport entre Chi carr et le nombre dobservations (frquences), et ce nouveau coefficient est connu comme mesure dassociation association . IF ( < 10 la relation nexiste pas; IF ( < 30, rduite vers modre, IF( < 50, mo0064re vers forte, forte vers trs forte))). Dans le cas de lutilisation du paquet de logiciels Microsoft EXCEL la procdure est la suivante: 1. Construisez le tableau de contingence avec les frquences ou les donnes relles x ij auxquelles on attache les donnes attendues ij dans lhypothse de lindpendance des caractristiques (attributs) des lignes et des colonnes, 2. Choisissez la case de la feuille de calcul ou va apparatre un rsultat intermdiaire, 3. Slectez du menu affich l icne des fonctions f x , 4. Choisissez la catgorie de fonction Statistical, 5. Slectez le nom de la fonction CHIINV qui a besoin de la probabilit de risque obtenue comme rsultat de la demande CHITEST(valeurs relle x ij , valeurs attendues, estimes, ij ) et par la suite dans la case rserve au rsultat final scrit = CHIINV (CHITEST (coin NV-coin SE valeur relle, idem valeur attendue), nombre de degrs de libert) 6. Choisissez la case pour le coefficient de contingence V, 7. Divisez sous sub radical (SQRT) la valeur calcule du point 5 par le total gnral T..=N multipli de min (r-1), (c-1) fois. Pour les tableaux de contingence dichotomiques il est prfrable le calcul robuste car il limine une partie des tapes ci-dessus et les valeurs renverses de MicrosoftEXCEL ne sont pas toujours illustres, ou sont

Relations statistiques fortes, caches, fausses et illusoires

sous la forme #NUM!, surtout quand, videmment, on accepte lhypothse H1 , donc, il y a de fortes influences. (Pour valours > 30) Comme nous lavons dj soulign, parce que la mesure dpend de N, le nombre dobservations ou le Total gnral du tableau, on calcule la mesure dassociation (fi).

PARTEA a II-a
Iubii deci raiunea i pentru a voastre lire Din ea luai i frumosul i-a ei strlucire Boileau 2 Instrumentaia statistic a procentelor 2.1 Analiza statistic i probabilitile compuse, condiionate, marginale 2.2 Experimente utiliznd statistica bayesian 2.3 Analize statistice tabelare bivariate pentru un singur factor de influen 2.4 Instrumentaia statistic a procentelor pentru identificarea relaiilor false, ascunse, iluzorii 2.5 Instrumentaia statistic a procentelor pentru identificarea relaiilor poteniale

Relaiile statistice puternice, ascunse, false i iluzorii

Instrumentaia statistic a procentelor

2.1 Analiza statistic i probabilitile compuse, condiionate, marginale Vom utiliza n cele ce urmeaz aceeai abordare robust, spre exemplu frecvena relativ realizat dintr-un numr mare de observaii (evaluare statistic) drept probabilitate. De altfel13, se apreciaz c abordarea probabilitii ca un concept experimental i are temeiul n una din nsuirile fenomenelor aleatoare, anume stabilitatea frecvenelor relative la captul unei lungi serii de repetri ale probei; n acest mod este practic sigur c frecvena relativ a evenimentului va fi egal cu probabilitatea. Precursor al conceptului de probabilitate statistic acum numit inferena bayesian, trebuie considerat Thomas Bayes (1702-1761). Dar s revenim la poemul LUCEAFRUL care, n varianta iniial, eminescian, are 98 de strofe, iar Maiorescu public n alte apariii editoriale o versiune cu patru strofe mai puin (din discursul Demiurgului) i cu unele modificri pe versuri. Pentru construciile statistice i matematice de mai jos, vom utiliza urmtorul concept dintr-o nou paradigm14 i anume distih fiecare din paragrafele numerotate, ce conin cupluri de dou versuri cu structur metric deosebit, n care mprim poemul i care mpreun au un sens de sine stttor. Spre exemplu, distihurile cu numerele 25 i 26 sunt 25 Cobori n jos, luceafr blnd /Alunecnd pe-o raz, / 26 Ptrunde-n cas i n gnd, /i viaa-mi lumineaz!

13 14

Marius Iosifescu, op.cit. pag.33-34. Paradigm = totalitate a formelor flexionare ale unui cuvnt, sistem de concepte acceptat de un grup de specialiti pentru utilizare rapid, codat, tablou al formelor unui cuvnt, dat ca model pentru flexiunea unei pri de vorbire sau a unei clase din cadrul unei pri de vorbire, Dicionarul explicativ al limbii romne, Editura Academiei, 1975.

Relaiile statistice puternice, ascunse, false i iluzorii

Dac lum n calcul versurile, avem n varianta eminescian 392 de versuri, deci 196 de distihuri, o colectivitate reprezentativ att ca numr, ct i ca mulime de evenimente i posibile interpretri. nti se creeaz o baz de informaii n care se codific apariia unor evenimente, att n strofe, ct i n versurile geniale din Luceafrul. Experimentatorul poate codifica dicotomic existena n distih a personajelor principale sau secundare, a luminii ori comunicrii, precum i alte evenimente botezate Ei . Spre exemplu, el realizeaz tabelul 1 cu sinteza existenei sau nu n cadrul distihurilor din Luceafrul a celor dou personaje centrale n primele 49 de strofe, deci 98 de distihuri. Vom transforma frecvenele apariiilor ntr-un distih n probabiliti ce caracterizeaz gradul de posibilitate a producerii evenimentului n condiii bine determinate. Sinteza ntlnirilor din distih n prima parte a poemului Tabelul 1
Primele 49 de strofe Luceafrul este Luceafrul nu este n distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

43 26 69

18 11 29

61 37 98

Prin realizarea unor combinaii, cum sunt cele din tabelul 1, se pot calcula att probabilitile ca evenimentele (E1, E2, E3Ei) s apar (Luceafrul, Ctlina, Demiurgul, Ctlin, lumina, comunicarea dinamica, direcia), ct i probabilitile condiionate; spre exemplu P(E1/E2) probabilitatea ca evenimentul E1 (apariia n distih a Luceafrului) s apar este dat de apariia evenimentului E2 (apariia n distih a Catlinei). Din nmulirea probabilitii condiionate cu probabilitatea necondiionat (marginal) rezult probabilitatea compus15: (11) P (E1E2) = P (E1/E2)*P(E2) Aici, P (E1E2) arat probabilitatea ca E1 s apar mpreun cu E2 (Luceafrul i Ctlina n acelai distih).

15

M.C.Demetrescu, Metode cantitative n marketing, Editura tiinific, Bucureti, 1971, pag.72.

Relaiile statistice puternice, ascunse, false i iluzorii

n cazul special cnd evenimentele sunt independente, probabilitatea apariiei lor comune este: P (E1E2) = P (E1)*P(E2) (12) iar probabilitile condiionate sunt (13) P (E1/E2) = P (E1) iar P (E2/E1) = P(E2) Este exact ceea ce se ntmpl n prima parte a poemului, unde n procente, fa de variabila independent, apariia evenimentului E1 devine dependent de numrul de versuri scrise de Poet. Experimentatorul calculeaz: Probabilitile condiionate ale existenei/inexistenei n distih a Ctlinei de existena/inexistena n distih a Luceafrului n primele 49 de strofe Tabelul 2
Luceafrul este Luceafrul nu este Primele 49 de strofe n distih n distih Ctlina este n distih 0.623 = P(E1/E2) 0.621 Ctlina nu este n distih 0.377 0.378 Total 1 1 total 0.622 = P(E2) 0.378 1

n cazul probabilitilor estimate pe baza frecvenelor distihurilor ce conin cele dou caracteristici, evident c n prima parte se reflect independena evenimentelor. Spre exemplu, Luceafrul rspunde chemrilor Ctlinei, dar versurile reflect un echilibru, structura fiind astfel interpretat: este evident verificarea relaiei (13), de independen a evenimentelor. Probabilitatea de a fi Ctlina n distih cnd n distih este i Luceafrul este de 0,623, cu diferene nesemnificative statistic fa de probabilitatea de fi n distih cnd nu este Luceafrul (0,621) i fa de probabilitatea marginal (0,622) care semnific existena Ctlinei n prima parte a poemului, indiferent c este sau nu altcineva n distih. Aceeai concluzie se trage i din calculele fcute n tabelul 3, i apelnd la MicrosoftEXCEL . Imaginea 1 este realizat n conformitate cu detalierile fcute n paragraful 1.3 TESTUL ASOCIERII, etapele descrise n
PROCEDURA IDENTIFICRII RELAIEI POTENIALE.

Relaiile statistice puternice, ascunse, false i iluzorii

Rezultate oferite de MicrosoftEXCEL Imaginea 1


Distihuri Ctlina este n distih nu este Total LUCEAFRUL este n distih 43 26 69 nu este 18 11 29 total 61 37 98
Estimri

ij
18.1 10.9

42.9 26.1

Probabilitatea de risc Valoarea Hi, robust Calculata prin CHIINV Exist

0.981 Calculata prin fx CHITEST 0.001 Valoarea Hi teoretica 3.841 0.001 Coef.conting.CramerV 0.002353 Relaia: nu este influen? Ho

Probabilitile condiionate ale existenei/inexistenei n distih a Luceafrului de existena/inexistena n distih a Ctlinei n primele 49 de strofe Tabelul 3
Primele 49 de strofe Luceafrul este n Luceafrul nu este distih n distih total

Ctlina este n distih 0.71= P(E2/E1) Ctlina nu este n distih 0.69 Total 0.70 = P(E1)

0.29 0.31 0.30

1 1 1

Probabilitile compuse din tabelul 4, nmulite cu 100, sunt aproape identice ca numere cu cele ale distribuiilor frecvenelor distihurilor din tabelul 1, totalul de distihuri fiind 98. Probabilitile compuse ale existenei/inexistenei n distih a Luceafrului i existenei/inexistenei n distih a Ctlinei Tabelul 4
Primele 49 de strofe Luceafrul este n Luceafrul nu este distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.45 0.26 0.70

0.18 0.11 0.29

0.63 0.37 1

Relaiile statistice puternice, ascunse, false i iluzorii

Situaia se schimb n partea a doua a poemului. Tabelul 5 arat distribuii direcionate n sens contrar. Spre exemplu, Luceafrul este n 44 de distihuri fr prezena Ctlinei n acele distihuri, iar Ctlina are fr Luceafr 31 de prezene. Sinteza ntlnirilor din distih n ultima parte a poemului Tabelul 5
Ultimele 49 de strofe Luceafrul este n Luceafrul nu este n distih distih total

Ctlina este n distih Ctlina nu este n distih Total

14 44 58

31 9 40

45 53 98

Situaia este mult schimbat i datorit faptului c doar n 9 distihuri nu figureaz n aceast a doua parte a poemului nici unul, nici altul. n prima parte, erau n distih de 44 de ori, iar n a doua parte, doar de 14 ori. Din punct de vedere al instrumentaiei statistice a procentelor, (i remarcnd c 98 ca numr este natural, aproape de 100), diferena de 30 de distihuri (pseudoprocente16, 44/98 =0,449 iar 14/98 = 0,143, aa c avem 44,9%-14,3% = 30,6%) semnaleaz o relaie puternic. Sunt violate i relaiile (2) i (3), dup cum se evideniaz n tabelele 6 i 7. Probabilitile condiionate ale existenei/inexistenei n distih a Ctlinei de existena/inexistena n distih a Luceafrului n ultimele 49 de strofe Tabelul 6
Ultimele 49 de strofe Luceafrul este n distih Luceafrul nu este n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.241 0.759 1

0.775 0.225 1

0.459 0.541 1

Este evident verificarea relaiei puternice ntre evenimente. Probabilitatea de a fi Ctlina n distih cnd n distih este i Luceafrul este de 0,241, cu diferene semnificative statistic fa de probabilitatea de fi n distih cnd nu este Luceafrul (o,775) i fa de probabilitatea marginal
16

pentru a fi considerate procente trebuie s provin dintr-o populaie mai mare de 100 uniti, ca baz de raportare.

Relaiile statistice puternice, ascunse, false i iluzorii

(0,459) care semnific existena Ctlinei n ultima parte a poemului, indiferent c este sau nu altcineva n vers. n conformitate cu instrumentaia statistic a procentelor, diferena de 53,4% (din 77,4%-24,1%), impune existena unei puternice relaii. Aceeai concluzie se trage i din calculele fcute n tabelul 7 (83%-31%=52%, ori 69%-17%=52%). Probabilitile condiionate ale existenei/inexistenei n distih a Luceafrului de existena/inexistena n distih a Ctlinei n ultimele 49 de strofe Tabelul 7
Ultimele 49 de strofe Luceafrul este n Luceafrul nu este distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.311 0.830 0.592

0.689 0.170 0.408

1 1 1

Probabilitile compuse din tabelul 8 sunt de aceast dat, ca numere, puternic difereniate de cele ale distribuiilor frecvenelor distihurilor din tabelul 41; comparaia poate fi realizat att datorit totalurilor egale de distihuri, 98, ct i normalizrii ca probabiliti. Rezultate oferite de MicrosoftEXCEL Imaginea 2
Versuri LUCEAFRUL total 45 53 98
Estimri

este n distih nu este Ctlina este n distih 14 31 nu este 44 9 Total 58 40 Probabilitatea de risc Valoarea Hi, robust Calculat prin CHIINV Exist

ij

26.6 31.4

18.4 21.6

0.000 calculat Prin fx 27.145 Valoarea Hi teoretic #NUM! Coef.conting.CramerV influen?LUCEAFRUL Relaie:

CHITEST 3.841 0.526299 puternic

Relaiile statistice puternice, ascunse, false i iluzorii

Probabilitile compuse ale existenei/inexistenei n distih a Luceafrului i existenei/inexistenei n distih a Ctlinei Tabelul 8
Ultimele 49 de strofe Luceafrul este n Luceafrul nu este distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.143 0.449 0.592

0.316 0.092 0.408

0.459 0.541 1

Experimentatorul ncearc s verifice existena relaiei dintre evenimente pe ntregul poem, contient fiind de faptul c inversul detalierii, globalul, va ascunde ori estompa unele relaii semnificative. Tabelele 9-12 ilustreaz aceast impresie. Sinteza ntlnirilor din distih n ntregul poem Tabelul 9
ntregul poem Luceafrul este n distih Luceafrul nu este n distih total

Ctlina este n distih Ctlina nu este n distih Total

57 70 127

49 20 69

106 90 196

Spre exemplu, tabelul 10 are probabiliti condiionate mai puin difereniate. Probabilitile condiionate ale existenei/inexistenei n distih a Ctlinei de existena/inexistena n distih a Luceafrului n 98 de strofe Tabelul 10
ntregul poem de 98 strofe Luceafrul este Luceafrul nu este n distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.449 0.551 1

0.710 0.290 1

0.541 0.459 1

Este evident verificarea relaiei moderate ntre evenimente. Probabilitatea de a fi a Ctlina n distih cnd n distih este i Luceafrul este de 0,449, cu unele diferene de probabilitatea de fi n distih cnd nu este Luceafrul (o,710) i fa de probabilitatea marginal (0,541) care semnific existena Ctlinei n ntregul poem, indiferent c este sau nu i altcineva n distih. n conformitate cu instrumentaia statistic a procentelor, diferena de 26,1% (din 71%-44,9%) impune existena unei relaii moderate.

Relaiile statistice puternice, ascunse, false i iluzorii

Aceeai concluzie se trage i din calculele fcute n tabelul 11 (77,8%-53,8%=24%, ori 46,2%-22,2%=24%). Probabilitile condiionate ale existenei/inexistenei n distih a Luceafrului de existena/inexistena n distih a Ctlinei n ntregul poem Tabelul 11
ntregul poem Luceafrul este Luceafrul nu este n distih n distih Total

Ctlina este n distih Ctlina nu este n distih Total

0.538 0.778 0.648

0.462 0.222 0.352

1 1 1

Probabilitile compuse ale existenei/inexistenei n distih a Luceafrului i existenei/inexistenei n distih a Ctlinei n ntregul poem Tabelul 12
ntregul poem Luceafrul este Luceafrul nu este n distih n distih Total

Ctlina este n distih Ctlina nu este n distih Total

0.291 0.357 0.648

0.250 0.102 0.352

0.541 0.459 1

Relaia moderat este reflectat i de ctre probabilitile compuse din tabelul 12 care variaz ntre minimum 0,102 i maximum 0,357 n tabelul 12 fa de cea mai mic valoare i cea mai mare valoare din tabelul 8, 0,092 i respectiv 0,449. Rezultate oferite de MicrosoftEXCEL Imaginea 3
Distihuri Ctlina este n distih nu este Total LUCEAFRUL este n distih nu este 57 49 70 20 127 69 total 106 90 196
Estimri

ij

68.7 58.3

37.3 31.7

Probabilitatea de risc Valoarea Hi, robust calculat prin CHIINV Exist

0.000 calculat prin fx 12.295 Valoarea Hi teoretic 12.294 Coef.conting.CramerV influen? LUCEAFRUL Relaia:

CHITEST 3.841 0.250458 moderat

Imaginea 3 reflect aceeai relaie moderat rezultat din calculele conforme paragrafului 1.3.TESTUL ASOCIERII.

Relaiile statistice puternice, ascunse, false i iluzorii

2.2 Experimente utiliznd statistica bayesian Formularea unei decizii privind analiza statistic a poeziei poate lua n considerare att informaia aprioric (anterioar, intrinsec), ct i informaia suplimentar (posterioar, extrinsec). Avnd aceste combinaii, se pot calcula att probabilitile ca evenimentele (E1, E2, E3) s apar (Luceafrul, Ctlina, comunicarea), ct i probabilitile condiionate spre exemplu P(E1/E2) probabilitatea ca evenimentul E1 (apariia n distih a Luceafrului) s existe, dat fiind apariia evenimentului E2 (apariia n distih a Ctlinei)17. Informaia suplimentar provine din studierea celor 196 de distihuri grupate dup trei caracteristici: c1 existena n distih a Luceafrului; c2 existena n distih a Ctlinei; c3 existena n distih a relaiei prin comunicare. n partea I a poeziei Luceafrul (primele 49 de strofe), Experimentatorul a estimat c sunt 11 distihuri, iar n partea a doua (ultimele 49 de strofe), 9 distihuri n care cei doi (Luceafrul i Ctlina) comunic (primul rnd din tabelul 13, comb.1, combinaia DA, DA, DA a caracteristicilor c1, c2, c3). Unele distihuri conin referiri doar la Luceafr sau Ctlina, n altele este prezent doar unul dintre ei n procesul de comunicare (cu cellalt, Demiurgul ori Ctlin), iar n altele nu este prezent nici una dintre caracteristicile considerate (existena n distih a Luceafrului, a Ctlinei ori a comunicrii). Experimentatorul constat c nu exist nici un distih n care s fie simultan cele dou personaje principale i s nu comunice (rndul 2 din tabelul 13, comb.2, combinaia DA, DA, NU a caracteristicilor c1, c2, c3). Deoarece fiecare caracteristic posed doar dou stri (exist-nu exist n distih), numrul de combinaii posibile este 8 (dou alternative, trei caracteristici, 2 la puterea a 3-a) i sunt redate n tabelul de mai jos (Comb.i, i = 1.8).

17

pentru informaii privind constituirea bazei de informaii i calcul al probabilitilor, sunt date explicaii n Partea a III-a, paragraful 3.1.

Relaiile statistice puternice, ascunse, false i iluzorii

Distribuiile distihurilor n cele dou pri ale poeziei Luceafrul n care apar (DA) sau nu apar (NU) personajele principale i relaia de comunicare din poem Tabelul 13
n distih Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8 Luceafar DA DA DA DA NU NU NU NU Catalina Comunicare Partea I Partea a II-a Total DA DA 37 13 50 DA NU 7 1 8 NU DA 0 30 30 NU NU 25 14 39 DA DA 3 25 28 DA NU 15 6 21 NU DA 1 0 1 NU NU 10 9 19 98 98 196

Pe baza tabelului 13, experimentatorul poate calcula probabilitatea ca un distih s posede una dintre cele opt combinaii ale caracteristicilor. Spre exemplu, n acelai distih Ctlina s comunice cu Luceafrul, deci informaia primei linii din tabel, n prima parte a poeziei. Aceasta este o probabilitate compus : P (n distih comb. 1partea I) = P (n distih comb. 1/ partea I)*P(partea I) (14) Experimentatorul calculeaz partea stng a egalitii (14) sub forma 37 distihuri care sunt pe linia 1 a tabelului i n prima parte a poeziei, raportate la total numr de distihuri n poem, 196. El ajunge la rezultatul 0,189. Calculul n partea dreapt presupune produsul dintre P (n distih comb. 1/ partea I) = 37/98 = 0,378 i P(partea I) = 98 /196 = 0,5. Multiplicarea nseamn exact 0,189. Probabilitatea marginal P(partea I) este numit necondiional deoarece nu ine seama de existena caracteristicilor c1, c2 i c3, iar P(Comb. i) nu ia n considerare locul n poem. Probabilitile marginale P(partea j) se calculeaz prin nsumarea coloanelor i P(Comb.i) prin nsumarea rndurilor: P(partea j) = P (partea j n distih comb. i), nsumare dup i=1..8 (15) P(n distih comb.i) = P(n distih comb.i partea j), nsumare dup j=1,2 (16) Suma probabilitilor marginale din total rnduri i coloane este egal cu unitatea.

Relaiile statistice puternice, ascunse, false i iluzorii

n exemplul de mai sus, P(partea I) = 98/196=37/196+.10/196=0,5. Avnd noile informaii obinute prin prelucrarea celor 196 de distihuri eminesciene, se poate calcula probabilitatea ca un distih clasificat ntr-una din categoriile Ci s fac parte din prima parte sau din a doua parte a poeziei. Pentru a rspunde la aceast provocare, trebuie calculate probabilitile revizuite, deduse din noile informaii ale analizei probabilitilor posterioare.18 Probabiliti posterioare sunt probabiliti condiionate (un eveniment va aprea fiind dat apariia altui eveniment), n cazul de mai sus, odat clasificat un distih, care este probabilitatea ncadrrii lui n prima sau n a doua parte a poemului. Calculul utiliznd teorema lui Bayes este urmtorul: P(partea1) P(comb1/ partea1) . . . P(partea1/ comb1) = 2 . . . . . P(partea j) P(comb1/ partea j)
j=1

(0,5) (0,378) 0,189 = = 0,744 (0,5) (0,378) + (0,5) (0,13) 0,254

(17)

Altfel, obinem acest rezultat din calculul direct P(partea 1/Comb.1)=37/50=0,74 iar P(partea 2/Comb.1)=13/50=0,26. n tabelul 14 este redat calculul probabilitilor posterioare pentru toate combinaiile 1-8. Calculul probabilitilor posterioare Tabelul 14
n distih Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7 Luceafar Catalina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.38 0.07 0.00 0.26 0.03 0.15 0.01 0.10 0.50

0.13 0.01 0.31 0.14 0.26 0.06 0.00 0.09 0.50

0.19 0.04 0.00 0.13 0.02 0.08 0.01 0.05 0.50

0.07 0.01 0.15 0.07 0.13 0.03 0.00 0.05 0.50

0.26 0.04 0.15 0.20 0.14 0.11 0.01 0.10 1

0.74 0.26 0.88 0.13 0.00 1.00 0.64 0.36 0.11 0.89 0.71 0.29 1.00 0.00 0.53 0.47

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

18

M.C.Demetrescu, op.cit., pag 74

Relaiile statistice puternice, ascunse, false i iluzorii

LEGENDA
Coloana CONTINE PROBABILITILE

Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7

P(Comb.i/partea I) P(Comb.i/partea II) P(Comb.i/partea I)* P(partea I) P(Comb.i/partea II)*P(partea II) P(Comb.i) P(partea I/Comb.i) P(partea II/Comb.i)

Experimentatorul posed acum informaii asupra caracteristicilor care trebuie avute n vedere pentru analiza poemului, avnd flexibil noiunea de parte a poeziei n sensul numrului de strofe (distihuri). Dac experimentatorul decide s nu utilizeze informaia obinut, el va estima c un nou distih are anse egale s intre n prima sau a doua parte a poemului, altfel va presupune c probabilitile estimate din eantionul de distihuri iniial se vor aplica i unor noi distihuri acum sosite. Desfurarea coloanelor din tabelul 1419 arat cum poate fi ameliorat aceast informaie veche prin utilizarea informaiei suplimentare privind caracteristicile distihurilor nou sosite. Experimentatorul tie c nsui Eminescu a suprimat un numr de distihuri i a schimbat unul dintre ele n poemul tiprit n diferite publicaii. Teorema lui Bayes este un alt mod de a privi probabilitatea condiionat, n cazul de fa probabilitatea condiionat a unei stri a naturii (pri ale poemului), dat fiind o informaie sau o serie de informaii, caracteristicile distihului. Aceste probabiliti condiionate sunt:
P(partea1/ comb1) = . .
P(partea2 / comb1) = . .

P(partea1) P(comb1/ partea1) 0,189 . . . = = 0,744 (18) P(comb1) . 0,254


P(partea2) P(comb1/ partea2) 0,065 . . . = = 0,256 (19) P(comb1) . 0,254

Acum experimentatorul are probabilitile revizuite. n tabelul 14, n ultimele dou coloane au fost calculate probabilitile posterioare care schimb probabilitile apriorice (0,5 att pentru prima ct i pentru a doua parte, abordare subiectiv deoarece se dorea o repetiie perfect i o potenial simetrie a poemului).
19

n tabel rezultatele calculelor au doar dou zecimale din motivele amintite (baza de calcul pentru prile poemului este de 98 de distihuri, dar i din motive grafice), procedndu-se n acest sens la rotunjiri.

Relaiile statistice puternice, ascunse, false i iluzorii

Calculul probabilitilor posterioare n varianta unui Luceafr nc pe pmnt Tabelul 15


n distih Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7. Luceafr Ctlina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.38 0.07 0.00 0.26 0.03 0.15 0.01 0.10 0.65

0.13 0.01 0.31 0.14 0.26 0.06 0.00 0.09 0.35

0.25 0.05 0.00 0.17 0.02 0.10 0.01 0.07 0.65

0.05 0.29 0.00 0.05 0.11 0.11 0.05 0.22 0.09 0.11 0.02 0.12 0.00 0.01 0.03 0.10 0.35 1

0.84 0.93 0.00 0.77 0.18 0.82 1.00 0.67

0.26 0.13 1.00 0.36 0.89 0.29 0.00 0.47

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

Experimentatorul se ntoarce la poemul eminescian i identific realitatea n sensul numrului de distihuri ce conin cele 8 combinaii. Acum prima parte, cu Luceafrul nc pe pmnt, are 127 distihuri, iar partea a doua, 69 de distihuri. Distribuia distihurilor n varianta unui Luceafr pe pmnt Tabelul 16
n distih Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8 Luceafr DA DA DA DA NU NU NU NU Ctlina DA DA NU NU DA DA NU NU Comunicare Partea I Partea a II-a Total DA 44 6 50 NU 7 1 8 DA 0 30 30 NU 25 14 39 DA 22 6 28 NU 17 4 21 DA 1 0 1 NU 11 8 19 127 69 196

Calculele arat diferenele semnificative experimentatorul i realitatea eminescian.

ntre

ce

atepta

Relaiile statistice puternice, ascunse, false i iluzorii

Calculul probabilitilor posterioare n varianta pe pmnt Tabelul 17


n vers Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7. Luceafr Ctlina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.35 0.06 0.00 0.20 0.17 0.13 0.01 0.09 0.65

0.09 0.01 0.43 0.20 0.09 0.06 0.00 0.12 0.35

0.22 0.04 0.00 0.13 0.11 0.09 0.01 0.06 0.65

0.03 0.01 0.15 0.07 0.03 0.02 0.00 0.04 0.35

0.26 0.04 0.15 0.20 0.14 0.11 0.01 0.10 1

0.88 0.88 0.00 0.64 0.79 0.81 1.00 0.58

0.12 0.13 1.00 0.36 0.21 0.19 0.00 0.42

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

Experimentatorul ia n calcul o alternativ: ignorarea complet a existenei lui Ctlin n prima parte a poemului i ajunge la situaia de mai jos. Pentru aceasta schimb probabilitile apriorice calculate ca pri egale i rezult tabelul de mai jos: Calculul probabilitilor posterioare n varianta fr Ctlin Tabelul 18
n distih Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7. Luceafar Catalina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.38 0.13 0.07 0.01 0.00 0.31 0.26 0.14 0.03 0.26 0.15 0.06 0.01 0.00 0.10 0.09 0.43 0.57

0.16 0.03 0.00 0.11 0.01 0.07 0.00 0.04 0.43

0.08 0.24 0.01 0.04 0.17 0.17 0.08 0.19 0.15 0.16 0.03 0.10 0.00 0.00 0.05 0.10 0.57 1

0.68 0.84 0.00 0.57 0.08 0.65 1.00 0.46

0.32 0.16 1.00 0.43 0.92 0.35 0.00 0.54

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

Relaiile statistice puternice, ascunse, false i iluzorii

Recalculat n varianta eminescian: Distribuia distihurilor n varianta eminescian


n distih Luceafr Ctlina

Tabelul 19
Total

Comunicare Partea I Partea a II-a

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

37 7 0 24 0 11 1 5 85

13 1 30 15 28 10 0 14 111

50 8 30 39 28 21 1 19 196

Calculele arat diferenele semnificative experimentatorul i realitatea Eminescian.

ntre

ce

atepta

Calculul probabilitilor posterioare n varianta schimbrii probabilitilor apriorice Tabelul 20


n distih Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7 Luceafr Ctlina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.44 0.08 0.00 0.28 0.00 0.13 0.01 0.06 0.43

0.12 0.01 0.27 0.14 0.25 0.09 0.00 0.13 0.57

0.19 0.04 0.00 0.12 0.00 0.06 0.01 0.03 0.43

0.07 0.01 0.15 0.08 0.14 0.05 0.00 0.07 0.57

0.26 0.04 0.15 0.20 0.14 0.11 0.01 0.10 1

0.74 0.88 0.00 0.62 0.00 0.52 1.00 0.26

0.26 0.13 1.00 0.38 1.00 0.48 0.00 0.74

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

La fel ca exemplul de mai sus, cele alte cteva exemple de aplicaie statistic ce vor fi ilustrate n aceast carte, prea puine pentru ceea ce dorim s artm c pot face att clasicele, dar mai ales modernele instrumente statistice, incitante totui pentru un cititor avizat i pasionat de literatur (vom continua cu o abordare statistic dup o idee oferit de Cpcunii anonimi de Pascal Bruckner aprut la Editura Trei), dar i de tiin (exemple clasice date de William Fox n Social Statistics Using Microcase20), poart n ele promisiunea c, ntr-o zi, rspunsurile la
20

William Fox, Social Statistics Using MicroCase, MicroCase Corporation, Bellevue, Washington, 1992.

Relaiile statistice puternice, ascunse, false i iluzorii

ntrebri, nu doar de natur statistic, vor fi, dac nu elucidate, cel puin puse ntr-o manier prietenoas la dispoziia experimentatorului.

2.3 Analize statistice tabelare bivariate pentru un singur factor de influen S lum un exemplu banal. Ne intereseaz dac relurile de programe la posturile de televiziune sunt influenate de apartenena acestora la categoriile Televiziune de stat, Televiziune independent n reea, Televiziune independent. Experimentatorul valorific informaia publicat a celor mai cunoscute zece posturi TV i relurile lor din data de luni, 30 iunie 2003 spre mari i extrage urmtoarele date: 1. Romnia 1 (de stat): Surprize, surprize (ora 11.00), Teleenciclopedia (ora 13.00), Jurnal (ora 2.10). 2. TVR 2 (de stat): Miracole (ora 8.00), Film Puzzle (ora 10.00), Televiziunea, dragostea mea (ora 16.00), Saint Tropez Serial (ora 1.15), n jurul lumii (doc.ora 2.10), Cultura misterioas (doc.ora 2.40). 3. PRO TV (televiziune particular cu dou posturi): Teo (ora 7.00), Tnr i nelinitit (ora 9.00), Bundy (ora 22.30), nva engleza cu Victor (ora 2.45). 4. Acas (aparine PRO TV): Luz Maria (ora 6.00), Reeta de acas (ora 7.30), nva franceza cu Victor (ora 8.00), nva engleza cu Victor (ora 9.00), Pisica slbatic (ora 10.15), Rzbunarea (ora 12.15), Poveti adevrate (ora 0.00), nva franceza cu Victor (ora 0.30), Salome (ora 0.45), De 3 x femeie (ora 3.00). 5. Antena 1 (independent): MacGyver (ora 8.00), Calea misterelor (ora 10.00), Jur s te cuceresc (ora 12.00), Observator (ora 1.00), Milagros (ora 2.00), Yago (ora 4.00). 6. Prima (independent): Dog Show (ora 7.30), Clip Art (ora 0.25), Cltorii n lumi paralele (ora 1.00), Focus Plus (ora 1.30). 7. Tele 7abc (independent): Auto Motor Sport (ora 11.30), Cu farfuria plin (ora 12.00), Jurnal european (ora 12.30), Cenureasa (ora 13.00), Pe urmele lui Cordoba (ora 14.00), Info pescar (ora 16.00), Istoria artei (ora 17.00), Vacane de pomin (ora 22.30). 8. B1 TV (independent): Beverly Hills (ora 11.30), Duminica la prnz (ora 13.00), Documentar (ora 15.00), Vara etern (ora 16.30), Gala (ora

Relaiile statistice puternice, ascunse, false i iluzorii

20.30), Beverly Hills 90210 (ora 23.30), La Strada (ora 0.30), tirile naionale B1 TV (ora 1.00). 9. Atomic (independent): Haihui (ora 10.30), Romanian Top 100 (ora 16.00), File de poveste (ora 22.30). 10. Eurosport (independent): Motociclism (ora 9.30), Raliuri (ora 11.00), Fotbal: Cupa Confederaiilor, n Frana (ora 12.00), Rugby: Cupa Mondial U-21, n Anglia (ora 14.00), Snooker: CE, n Germania (ora 17.30), Fotbal: Cupa Confederaiilor, n Frana (ora 19.00), Fotbal (ora 21.00), K1 Marele Premiu Mondial, la Paris-Bercy (ora 22.00). Ipoteza nul, aa-numita ipotez Ho, presupune c Nu sunt diferene ntre posturile TV cu privire la reluri. Ipoteza alternativ, H1 susine c sunt diferene i vom avea cazul numrului diferit de reluri la diferite categorii de posturi. Analiza tabelar bivariat care implic teste i analize precum testul de omogenitate 2 ca test de semnificaie statistic, msurarea asocierii ntre datele tabelate, analiza varianei, regresia i corelaia, rspunde la urmtoarele ntrebri legate de relaia ntre dou variabile: Exist o relaie ntre dou variabile ale cror date le analizm? Ct de puternic este relaia? Care este direcia (pozitiv, negativ) i forma (liniar, neliniar) a relaiei? Dac exist o relaie i datele noastre provin dintr-un eantion, putem generaliza relaia pentru populaia din care provine eantionul? n cazul de mai sus, existena relaiei va fi confirmat de verificarea ipotezei H1, adic prezumia c apartenena la stat, ntr-o companie puternic sau ca post independent, duce la diferene semnificative ntre relurile de programe televizate. Pentru aceasta experimentatorul trece la realizarea unei sinteze a datelor cazului analizat din care rezult tabelul 21.

Relaiile statistice puternice, ascunse, false i iluzorii

Numr de reluri pe posturi TV i apartenen Tabelul 21


Grupare Tv de stat Tv de stat Reea Reea Independent Independent Independent Independent Independent Independent Post TV Romnia 1 TVR 2 PRO TV Acas Antena 1 Prima Tele 7abc B1 TV Atomic Eurosport Reluri 3 6 4 11 6 4 8 8 3 8

Acum el poate construi un tabel de contingen unde n coloane vor exista categoriile n care a plasat apartenena televiziunilor, iar n linii frecvenele relurilor (numr de reluri n perioada de luni spre mari, specificat mai sus). Distribuia relurilor pe categorii de apartenen a posturilor de televiziune Tabelul 22
Tv de stat Reea(2 posturi) 3 6 4 11 Independent 6 4 8 8 3 8 37

15

Dac posturile ar avea, spre exemplu, cnd 6 cnd 7 reluri (numrul total de reluri este 61, deci media la cele 10 posturi ar fi 6,1 reluri, aa numita medie a colectivitii generale), dispersia valorilor, diferenele fa de medie ar fi nesemnificative i concluzia ar fi una singur, se accept ipoteza Ho: nici o legtur ntre apartenena la o categorie i numrul de reluri. Dar este vizibil o dispersie (mprtiere) a valorilor att pe ntregul tabel ct i n cadrul fiecrei categorii (coloane) a tabelului.

Relaiile statistice puternice, ascunse, false i iluzorii

Analiza dispersiei (varianei) sparge dispersia total a valorilor (note, scoruri, frecvente n cazul de mai sus) variabilei independente n dou pri: dispersia n cadrul fiecrui grup (categorii) de variabile independente (acronim DnGr) i dispersia ntre grupurile de variabile independente (acronim DntreGr). Dac variabilele sunt asociate, deci apartenena la o categorie contribuie la discriminarea NUMRULUI DE RELURI, dispersia ntre grupuri este mai mare (ilustrat i de mediile diferite ale relurilor pe categorii de apartenen) dect dispersia n cadrul grupului (fa de media pe grup). Raportul (ratio) dintre dispersia ntre grupuri i dispersia n cadrul grupului este coeficientul Fisher calculat (Fcalculat = DntreGr / DnGr). Testul Fisher va da garania statistic a existenei sau nu a asocierii prin eliminarea unei ipoteze din dou. Asocierea utiliznd analiza varianei nu nseamn n mod obligatoriu cauzalitate. Asocierea poate fi rezultatul altor variabile care afecteaz simultan variabilele iniial luate n calcul n analiza bivariat. Analiza varianei detaliaz diferenele dintre medii prin descompunerea dispersiei totale a variabilei dependente n dispersia datorat varianei din cadrul gruprilor variabilei independente, DnGr i dispersia varianei ivit ntre gruprile variabilei independente, DntreGr. n mod obinuit, analiza varianei evalueaz relaia dintre categoriile (alternativele, nivelurile) unei variabile independente i variabila dependent tip interval sau proporional. Suma total a ptratelor (STP, suma tuturor ptratelor) diferenelor dintre valori i media colectivitii generale este necesar pentru calculul dispersiei valorilor variabilei dependente n jurul mediei ntregii colectiviti. Suma ptratelor ntre grupri (SPntreGr) msoar devierea mediilor grupului n jurul mediei generale i ajut la calculul dispersiei ntre grupuri (DntreGr). Suma ptratelor n cadrul gruprilor (SPnGr) msoar devierea valorilor n jurul mediilor categoriilor din care fac parte i ajut la calcularea dispersiei n grupri (DnGr). Calculul necesar testului Fisher, F, este raportul dintre dispersia ntre grupri (DntreGr)i dispersia n cadrul gruprilor (DnGr).

Relaiile statistice puternice, ascunse, false i iluzorii

ntr-un excelent tratat de analiz statistic, n capitolul 3, subpunctul 3.5. MODELUL UNIFACTORIAL DE ANALIZ DISPERSIONAL21, cele dou sume de ptrate se numesc suma ptratelor erorilor dintre grupuri i respectiv suma ptratelor erorilor din interiorul grupurilor, utile pentru construcia testului Fisher. n mod firesc, STP este suma total a ptratelor erorilor i se poate obine i prin nsumarea celorlalte dou sume de ptrate. Avem urmtoarele trei situaii: 1. (DntreGr) mare i (DnGr) mic: aceasta presupune o relaie (influen) puternic ntre variabilele cercetate; 2. (DntreGr) medie i (DnGr) medie: aceasta presupune o relaie moderat; 3. (DntreGr) mic i (DnGr) mare: aceasta presupune o relaie slab sau inexistent. Pentru efectuarea calculelor cerute de metodologia de calcul pentru testul Fisher, sistematizm astfel informaiile i datele problemei n tabelul 21. Dup regruparea datelor, putem face apel la MicrosoftEXCEL n procedura de mai jos i obinem Imaginea 4: Procedur:
Se apeleaz din meniul Tools, Data Analysis i se alege : Anova: Single Factor In ecranul aprut se introduce: Input Range $A$1:$C$7 se bifeaz: Label, Output Range $A$9 Grou ped by Columns

21

pag.204, Gheorghe Mihoc, Veniamin Urseanu, Emiliana Ursianu, Modele de analiz statistic, Editura tiinific i Enciclopedic, Bucureti, 1982.

Relaiile statistice puternice, ascunse, false i iluzorii

Rezultate oferite de MicrosoftEXCEL


A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Tv de stat

Imaginea 4
F G

B
Reea

C
Independent

3 6

4 11

6 4 8 8 3 8

Anova: Single Factor SUMMARY Groups Tv de stat Retea Independent

Count 2 2 6

Sum 9 15 37

Average Variance 4.5 4.5 7.5 24.5 6.17 4.97

ANOVA Source of Variation Between Groups Within Groups Total

SS 9.07 53.83 62.9

df 2 7 9

MS 4.53 7.69

F 0.59

Pvalue 0.58

F crit 4.737

Pentru detalierea unor calcule ce nu se vd n Imaginea 4 este necesar tabelul 23. Obinerea i comentarea rezultatelor ilustrate n Imaginea 4 i Tabelul 23 presupun urmtorul algoritm de calcul: 1. Se calculeaz media general prin mprirea numrului total de Reluri (vezi coloana Sume din Tabelul 23), (61) la numrul de posturi TV (10) i rezult media 6,1. 2. Coloana Ptrate 1 a tabelului 23 conine ptratul diferenei ntre fiecare numr de reluri ale posturilor i media general. Totalul rezultat din nsumarea elementelor acestei coloane reprezint suma devierilor relurilor de la media general, STP = 62.9, coloana B23 din Imaginea 4 cu rezultatele MicrosoftEXCEL.

Relaiile statistice puternice, ascunse, false i iluzorii

3. Mediile i dispersiile pe gruprile posturilor TV (de stat, reea, independent cu un post) sunt ilustrate n SUMMARY (coloana A, rnd 11) din Imaginea 4, iar baza de calcul este coloana Ptrate 2 din tabelul 23. Suma de 53.83 a acestei coloane reprezint suma ptratelor n jurul mediei de grup, SPnGr, coloana B21 din Imaginea 4. Calculul ptratelor devierilor fa de media general i mediile de grupare Tabelul 23
Grupare Tv de stat Tv de stat Reea Retea Independent Independent Independent Independent Independent Independent post TV Romnia 1 TVR 2 PRO TV Acas Antena 1 Prima Tele 7abc B1 TV Atomic Eurosport Sume = Reluri 3 6 4 11 6 4 8 8 3 8 61 Ptrate 1 9.61 0.01 4.41 24.01 0.01 4.41 3.61 3.61 9.61 3.61 62.9 Ptrate 2 2.25 2.25 12.25 12.25 0.03 4.71 3.35 3.35 10.05 3.35 53.83

4. Se introduc atributele de lucru n tabelul 24 i se calculeaz suma ponderat (ponderile fiind numrul de posturi TV din fiecare categorie) a ptratelor diferenelor dintre mediile gruprilor (coloana Average din SUMMARY) i media general, SPntreGr = 9,07, regsibil i n coloana B20 din Imaginea 4. Calcularea devierii mediilor de grup de la media general Tabelul 24
Reluri Medii grup Ptrate 3 Ponderare La stat (2 posturi) n reea(2 posturi) 4.5 2.56 5.12 7.5 1.96 3.92 Indep.(6 posturi) 6.17 0.0044 0.03 media general 6.1 9.07

Linia tabelului 24 cu Ptrate 3 conine ptratele mediilor de grup (linia Medii grup) i media general 6,1.

Relaiile statistice puternice, ascunse, false i iluzorii

Pentru explicarea celorlalte componente din Imaginea 4, procedm la un rezumat i o explicitare a calculelor n Imaginea 5: Obinerea i interpretarea rezultatelor oferite de MicrosoftEXCEL Imaginea 5
STP Devierea fr.var.dep.de la media general = 62.90 B23 SPnGr Devierea fr.var.dep.de la media pe grup + 53.83 B21 SPntreGr Devierea mediilor pe grup de la media general 9.07 B20 Grade (gr.) de libertate (df) C19 Conversia sumelor de ptrate n dispersii ine seama de gr.de (df) libertate N1=9 nr.gr. de libertate pentru suma ptratelor fa de media C23 general Nk=7 nr.gr. de libertate pentru suma ptratelor fa de mediile C21 grupelor k1=2 (df) pentru suma ptratelor mediilor de grup fa de media general C20 Unde N = 10, numr total de observaii, k = 3, numrul de grupri ale variabilei independente Dispersia general = Dispersia n cadrul gruprilor = Dispersia ntre grupri = Testul Fisher, F = DntreGr/ F(2,7) = 4,74 STP/(N-1) SPnGr/(N-k)=DnGr SPntreGr/(k-1)=DntreGr DnGr = 0.5897 val.mic 6.99 sondaj 7.69 D21 4.53 D20

E20 Relaie nesemnificativ (statistic) ntre posturi TV i reluri. P-value ??

F20 G20

Se observ c ultima coloan din Imaginea 5 conine adresele codificate ale componentelor din Imaginea 4 tip (Liter)(numr) unde (Liter) este coloana standard EXCEL i (numr), rndul standard din oricare pagin EXCEL. Dar de ce este nevoie de STP i ce rol joac P-value din Imaginea 4? 1. STP ajut la calculul pentru obinerea unei msuri de asociere (n procente), care arat ct de puternic (potenial) sunt legate variabilele, cunoscut n literatura de specialitate ca ptratul Eta. n cazul studiat, 14% din variaia relurilor sunt datorate clasificrilor (gruprilor) date posturilor TV. Aceasta rezult din raportul SPntreGr/Total, deci valorile din csua B20 raportate la B23, 9,07 raportat la 62,9 este 0,144. Deci,

Relaiile statistice puternice, ascunse, false i iluzorii

indiferent c este de stat sau particular, grila de programe ce conine reluri este acceptat dup alte criterii dect cele de apartenen la stat sau nu, pe care le-am pus n discuie. Altfel spus, forma de proprietate i dezvoltare (reea) explic doar 14% din variaia relurilor n grila de programe a televiziunilor, n cazul celor 10 cazuri ipotetice. Pe de alt parte, este necesar, aa cum subliniaz ultima referire din ultima coloan a Imaginei 5, la calculul volumului de sondaj (numr de elemente intervievate) pentru obinerea unor informaii privind modificrile poteniale n caracteristica cercetat, adic numrul de posturi TV de la care se pot cere informaii n legtur cu o schimbare a grilei. Dac dispersia caracteristicii cercetate e mare (relurile), numrul de posturi ce trebuie intervievate este mare, dac numrul de reluri este aproape acelai cu diferene de 1-2 reluri, atunci numrul va fi foarte mic i informaia poate fi extrapolat pentru o perioad acceptabil. 2. P-value reprezint probabilitatea c dispersiile coloanelor nu difer semnificativ statistic! Deci avem o siguran de aproape 60% c relurile nu depind de forma de proprietate. Dar aici este o mare problem! Dac identificm 14% reluri dintr-o gril de programe la televiziunile de stat i tot 14% la cele independente, e firesc s spunem c, indiferent de forma de proprietate, proporia de reluri este aceeai. Dispersiile la un calcul pentru 14% cu 86% sunt, firesc identice. Dar dac proporiile se inverseaz i, caz complet ipotetic, televiziunile de stat au reluri n proporie de 86% n timp ce televiziunile particulare de doar 14%! Dispersia este aceeai! i nu apare deloc vreun tip de cauzalitate, spre exemplu, n cazul nostru, televiziunile de stat reiau emisiuni i particularele nu, sau invers. n tratatul citat22, sursele de variaie (SPntreGr) i (SPnGr) sunt Regresie, respectiv sursa Rezidual, erorile fiind considerate erori reziduale, abateri. Dar s nu uitm c experimentatorul aplic tehnici ROBUSTE. i totui, ce se ntmpl cu mediile calculate care nu sunt totui medii aritmetice (suma notelor mprit la numrul lor, media algebric)? Gradul de libertate, mpritorul, reprezint posibilitatea alegerii. Dintre trei monede, este aleas cea mai valoroas (prima alegere), din cele dou rmase, este iar aleas cea mai valoroas (a doua alegere) i att. DOU alegeri, dou grade de libertate. De aceea df1, csua C19 din Imaginea 4, este k-1 = 2 (vezi valoarea csuei C20, Imaginea 4).

22 pag.146, Gheorghe Mihoc, Veniamin Urseanu, Emiliana Ursianu, Modele de analiz statistic, Editura tiinific i Enciclopedic, Bucureti, 1982.

Relaiile statistice puternice, ascunse, false i iluzorii

Metodologia de determinare a raportului Fisher pentru un ntreprinztor care dorete s nu foloseasc facilitile pachetului de programe EXCEL: 1. Se scrie modelul matematic innd seama de existena presupus a unui singur factor de influen i de ipotezele Ho i H1 ce urmeaz a fi testate; 2. Se calculeaz numrul de grade de libertate pentru factorul de influen (apartenena la o categorie), k-1 pentru factorul din coloane i pentru ntregul tabel [datorit datelor incomplete pentru un tabel de contingen clasic, n locul produsului (numr linii-1)*(numr coloane-1) se ine seama de numrul de observaii, N-k] i se stabilete nivelul de semnificaie ; pe baza acestora se preia valoarea raportului Fisher din tabelul distribuiei F, n cazul de mai sus 5% (este acceptat ca eroare posibil un caz la 20 de ncercri); 3. Se calculeaz suma datelor din ntregul tabel, tabelul 23, Sume= Reluri; nu avem acum nevoie, dar prin mprirea acestei valori la numrul de observaii (nr.posturi TV) obinem media general. 4. Se calculeaz factorul de corecie D, ca un fel de dispersie egal distribuit pe cele N uniti observate, deci ptratul lui Sume= Reluri distribuit pe cele 10 posturi TV; 5. Se calculeaz suma ptratelor SP factorul de influen din coloan, deci SPC ca nsumarea raporturilor ntre ptratul subtotalurilor aferente fiecrei categorii (coloane) i numrul de date observate pe fiecare categorie (coloan) redus cu factorul de corecie D; 6. Se calculeaz suma ptratelor datelor STP din ntregul tabel i se determin suma ptratelor datorate erorilor experimentale SPE, scznd din suma ptratelor pe tabel STP suma ptratelor aferent factorului de influen din coloan, SPC; 7. Se determin media ptratelor MPC a factorului de influen raportnd suma ptratelor SPC la numrul de grade de libertate corespunztor, df1 = k-1; 8. Se calculeaz media ptratelor erorilor experimentale MPE ca raport ntre suma ptratelor erorilor experimentale SPE i numrul de grade de libertate al ntregului tabel N-k; 9. Se determin F calculat, Fc ca raport ntre media ptratelor (MPC) factorului de influen i media ptratelor pe eroarea experimental, MPE provenit din mediu, greeli de calcul sau interpretare iniial fr bune ipoteze de lucru (spre ex. alegerea greit a factorului de influen);

Relaiile statistice puternice, ascunse, false i iluzorii

10. Se compar valorile calculate cu cele tabelate astfel: Fc > Ft se respinge ipoteza nul, deci factorul respectiv are influen asupra datelor din tabel; Fc < Ft se admite ipoteza nul, deci diferenele se datoreaz variaiilor de eantionare ntmpltoare. Aici Fc reprezint coeficientul calculat al testului Fisher, iar Ft, reprezint coeficientul Fisher stabilit n tabele statistice sau calculat n EXCEL conform modelelor matematice agreate. Reamintim c numerele din interiorul tabelului de contingen 21 reprezint relurile programelor a 10 posturi TV n parcusul unei emisiuni de luni pn mari dimineaa. Modelul statistico-matematic este urmtorul:

x i j = + j + i

(20)

n care fiecare dat din tabel xij, este egal cu media populaiei , dar poate s se abat de la aceasta datorit influenei coloanei j, j i a unei erori experimentale ij. Se presupun seturile de ipoteze statistice: H0 numrul de reluri nu este influenat de apartenena operatorului de televiziune; aadar

( ) j , j = 0

sau, oricare ar fi media pe coloana j, j, ele sunt egale: 1 = 2= 3= .j= . = k (21) H1 numrul de reluri este influenat de apartenena operatorului de televiziune i exist diferene semnificative ntre operatori.

( ) j , j 0

sau cel puin dou medii dintre cele calculate pe coloan nu sunt semnificativ egale. 1 .j (22) Se calculeaz numrul de grade de libertate df1 (degree of freedom) factorul de influen (n cazul de fa, categoriile din coloanele tabelului 22 din exemplul studiat) i numrul de grade de libertate df2 pentru ntregul tabel. df1 = k - 1 = 2 df2 = N - k = 10 - 3 = 7 = 0,05 Ft (2, 7) = 4,74

Relaiile statistice puternice, ascunse, false i iluzorii

Se determin factorul de corecie D:


2 Total = 61 = 372 ,1 (23) N 10 n care Total reprezint totalul general (n cazul de fa numrul de reluri), iar N reprezint numrul de posturi TV observate (numr de csue completate n tabelul 22). Se determin suma ptratelor SP pentru factorul de influen, apartenena la o categorie din coloan (n acest exemplu, conform ipotezei i modelului matematic, avem doar un factor de influen, coloana j, unde j = 1,k): 2 k T 9 2 15 2 37 2 .j SPC = D = + + 372,1 = 9,07 (24) j=1 n j 2 2 6 2

D=

n care T.j reprezint totalurile din fiecare coloan j ale factorului observat, iar nj numrul de date observate din factorul respectiv (numrul de csue completate din coloan, tot attea posturi de televiziune). Se determin suma ptratelor pe ntregul tabel, indiferent de valoarea din fiecare rnd i, pn la numrul total de rnduri r i coloane j:
2 STP = x ij D = 32 + 6 2 + 4 2... + 8 2 372,1 = 62,9 i =1 j=1 r k

(25)

Se determin suma ptratelor pe eroarea experimental: SPE = STP - SPC = 62,9 9,07 = 53,83 (26)

Se determin media ptratelor factorului de influen, coloana:

MPC =

SPC 9,07 = = 4,53 2 df 1

(27)

Se determin media ptratelor pe eroarea experimental: SPE 53,83 MPE = = = 7,69 (28) 7 df 2 Se determin valoarea Fisher calculat pentru factorul de influen: MPC 4,53 (29) = = 0,59 Fc = MPE 7,69

Relaiile statistice puternice, ascunse, false i iluzorii

Se compar valoarea tabelar cu valoarea calculat: Dac Fc < Ft, se accept ipoteza nul Ho, deci relurile operatorilor de televiziune sunt diferite nu datorit apartenenei la categoriile amintite n coloanele tabelelor ci din alte cauze. Aceasta nseamn c diferenele nu sunt semnificative statistic pentru ipoteza apartenenei ca o cauz. Reamintim c (alfa), probabilitatea erorii de genul 1 care se numete i risc de genul I, reprezint un prag de semnificaie necesar pentru aflarea valorii F (Fisher) din tabele statistice, n cazul de mai sus de 5%. De altfel P-value calculat n EXCEL, csua F20 din Imaginea 4, are valoarea 0,59, aa nct cu o probabilitate de aproape 60% este garantat c dispersiile valorilor din coloane (tip de apartenen) nu difer semnificativ statistic. 2.4 Instrumentaia statistic a procentelor pentru identificarea relaiilor false, ascunse, iluzorii O provocare la adresa cercetrilor exploratorii sau descriptive este aceea de a stabili relaiile de natur cauzal. Informaiile i gradul de cunoatere a realitii cercetate sporesc dac se identific variabilele care pot constitui cauza variaiei unui anumit fenomen i dac se identific forma funcional a dependenei fenomenului de variabilele explicative / stimuli / criterii considerate. Putem obine informaii asupra structurilor sistemelor, prin calcule elementare asupra frecvenelor cu care sunt repartizate elementele caracteristice ntre componentele-sistem. n laboratorul de Statistic Informaional, experimentatorul gsete un exemplu interesant de relaie fals n cartea lui William Fox, Social Statistics Using Microcase23, pag.229. Acesta imagineaz urmtorul exemplu pe care l calific ridicol i anume o legtur ntre numrul de berze i rata naterilor. El ia n considerare 200 de districte dintr-o ar european imaginar. Se poate observa ambiguitatea nu doar a relaiei presupuse, dar i a faptului c nu se specific ce nseamn berze puine sau multe ntr-un district sau o rat a naterilor nalt ori joas. Aa apar tabelul 25 i cele consecutive, concepute pentru verificarea ipotezei c berzele aduc copii pe lume.

23

William Fox, Social Statistics Using MicroCase,MicroCase Corporation, Bellevue, Washington, 1992.

Relaiile statistice puternice, ascunse, false i iluzorii

Rata naterilor pe numr de berze (n frecvene) Tabelul 25


Berze Frecvente reale Rata naterilor
Puine Multe Total

nalt Joas Total

44 56 100

62 38 100

106 94 200

Pentru tabelele bivariate procentele egalizeaz distribuiile prin atribuirea, pentru fiecare variabil independent a aceluiai total i anume 100 (procente). Pe de alt parte ne spun ct de multe cazuri ar fi ntr-o celul, dac am studia 100 de cazuri ale variabilei independente. O regul de aur este aceea c procentele se calculeaz n cadrul categoriilor variabilei independente, n cazul nostru apariia berzelor n districte. Mrimile relative se pot exprima prin proporii fa de unitate, procente, promile etc. Rata naterilor pe numr de berze (n procente) Tabelul 26
Mrimi relative Rata naterilor nalt Joas Total Berze Puine 44.0 56.0 100.0 Multe 62.0 38.0 100.0 Total 62.0 38.0 100.0

Fiind vorba de procente, pentru diferene mai mici de 10 procente ntre categoriile variabilei independente, interpretarea este c nu apar diferene semnificative i relaia bnuit este slab. Ele devin moderate ntre 10 i 30, iar peste 30 sunt reale i mari, implicnd existena unei relaii semnificative. Tabelul 26 arat o legtur moderat ntre berze i numrul de nateri deoarece doar 44% dintre districtele cu puine berze au o rat ridicat a naterilor, n comparaie cu valoarea 62% a districtelor cu mai multe berze. Diferena de 18% impune categoria de relaie moderat. William Fox tie ns c nu berzele aduc copiii, aa nct el bnuiete c berze mai multe se gsesc n zonele rurale care au i o rat mai ridicat a naterilor, n timp ce n orae exist un numr mai mic de berze i totodat o rat a naterilor joas. El de fapt pune pariu c, dac se ine seama de localizare (variabil independent), relaia dintre berze i rata naterilor dispare. Pentru verificare se construiete tabelul 27.

Relaiile statistice puternice, ascunse, false i iluzorii

Rata naterilor n zonele rurale, pe numr de berze n frecvene i procente fa de caracteristica independent (numrul relativ de berze) Tabelul 27
Districte rurale Frecvene (%) Rata naterilor nalt Joas Total Districte urbane Frecvene (%) Rata naterilor Berze Puine Multe 32 (80%) 56 (80%) 8 (20%) 14 (20%) Total 88 (80%) 22 (20%)

nalt Joas Total

40 (100%) 70(100%)110 (100%) Berze Puine Multe Total 12 (20%) 6 (20%) 18 (20%) 48 (80%) 24 (80%) 72 (80%) 60 (100%) 30 (100%) 90 (100%)

n cazul districtelor rurale, nu exist diferene ntre procentele celor cu rata nalt a naterilor (20%) i celor cu rat joas a naterilor (80%) , indiferent de numrul de berze, deci nu datorit berzelor. Acelai fapt se constat i n cazul oraelor: indiferent c sunt multe sau puine berze, rata naterilor este de 20%, nu avem nici o diferen, nici urm de relaie. Tabelul 27 este o compunere de dou tabele bivariate n care nu se realizeaz relaia presupus. Ele sunt condiionate de localizare, deci sunt tabele condiionate, aduc mai mult ordine, organizare, structurare, informaie. Puteam ajunge la acest rezultat i aplicnd testul de omogenitate 2 robust24. Pentru aceasta avem nevoie de estimrile ce sigur reprezint situaia cnd nu avem nici o relaie ntre caracteristicile ori variabilele luate n considerare. Dac nu avem la ndemn dect un calculator de buzunar i innd seama de existena a doar dou categorii din fiecare variabil, putem calcula valorile lui 2 cu urmtoarea procedur, innd seama de notaiile tabelului de contingen de mai jos. Astfel A, B, C, D sunt frecvenele combinate ale liniilor i coloanelor, spre exemplu A numrul de apariii ale subiecilor avnd simultan alternativele caracteristicilor X1 i Y1.

24

vezi paragraful 1.3, TESTUL ASOCIERII.

Relaiile statistice puternice, ascunse, false i iluzorii

Tabel de contingen cu dou linii i dou coloane Tabelul 28


Tabel de Contingen Variabila Y Y1 Y2 Total Variabila X1 A C A+C X X2 B D B+D Total A+B C+D N=A+B+C+D

Frecvenele estimate n cazul independenei variabilelor (omogen, tern, fr legtur) sunt calculate conform: A estimat la intersecia X1 i Y1 este dat de raportul (A+C)x( A+B)/N; B estimat = (B+D)x(A+B)/N; C estimat = (A+C)x(C+D)/N; D estimat = (B+D)x(C+D)/N. n acest caz, valoarea lui 2 robust este dat de calculul de mai jos: N (AD CB)2 (30) (A + C) (B + D) (A + B) (C + D) Rezultatele acestui calcul sunt n Imaginea 6 n celula Y13. Avnd MicrosoftEXCEL la ndemn, vom apela testul 2 n modul urmtor: - se cere din meniul MicrosoftEXCEL fie Insert, Function, fie fx dintre iconiele meniului; - selectm Function category: Statistical, iar din Function name: CHITEST, - deoarece funcia cere ca argumente irul de date real i cel cu estimri, am pregtit n prealabil tabelul 29, dup metoda de mai sus pentru estimrile lui A, B, C, D. Rata naterilor pe numr de berze (estimri) Tabelul 29
Estimri pentru Rata naterilor nalt Joas Total Berze Puine 53.0 47.0 100 Multe 53.0 47.0 100 Total 106 94 200

- se introduc n cele dou ecrane aprute n urma acceptrii prelucrrii cu CHITEST adresele unde se regsesc datele reale i cele estimate, spre exemplu W3:X4 i respectiv W7:X8 (imaginea din pagina urmtoare). Locaia unde dorim s avem valoarea probabilitii de risc calculate pentru test: = CHITEST (W3:X4,W7:X8), n Imaginea 6 celula W10;

Relaiile statistice puternice, ascunse, false i iluzorii

- se repet cerina din meniu, funcia fx, Function category: Statistical, iar din Function name: CHIINV cu argumentele = CHIINV(W10,1), unde W10 este locaia calculat anterior i 1 numrul de grade de libertate necesare pentru calcul. n cazul de mai sus, valoarea este ntoars n locaia W12 i este calculat cu valoarea teoretic din locaia W11 care este 3,841. n Imaginea 6 se observ n locaiile amintite valorile 0,011 ale probabilitii de risc i 6,503 pentru valoarea calculat. Cum aceast valoare este mai mare dect cea teoretic, rezult legtura cauzal amintit, DA, este o legtur ntre numrul de berze i rata naterilor. Dac procedm n acelai fel pentru tabelele de contingen condiionate de localizarea RURAL, URBAN, avem surpriza plcut s descoperim c aceast presupunere era fals, iar datorit aezrii inverse a procentelor 80% i respectiv 20% pentru cele dou categorii de alternative independente, avem sigurana c adevrata cauz, att pentru existena unui numr diferit de berze, ct i pentru o rat diferit a natalitii, este LOCALIZAREA geografic. Imaginea 6

Relaiile statistice puternice, ascunse, false i iluzorii

O ilustrare a celor de mai sus, completat cu procente privind contribuiile informaionale ale variabilelor i alternativelor lor, o oferim sub forma ideogramei 1, pentru a incita la citirea ntregii lucrri.

35 %

9%
Relaie ntre Loc i

Nr.berze confirmat de Interaciune aport inform. prin Rata nalt = 3%

Relaie

ntre Loc i Rat

39%

confirmat de Interaciune aport inform prin Berze- puine = 17 % Tmulte = 15% ?

T 36 % 9%

Relaie fals ntre Nr.berze i Rat identificat de Interaciune aport inform prin rural = 0 % urban = 0 %

36%

9%

0%. 0 %

Ideograma 1. Schema legturilor ntre variabile datorate prelucrrilor cu metodologia ONICESCU pentru interaciunile de prim ordin

Relaiile statistice puternice, ascunse, false i iluzorii

2.5 Instrumentaia statistic a procentelor pentru identificarea relaiilor poteniale S rmnem n domeniul fantasticului, dar s lum un alt exemplu din manualul de Statistic social25. Ne propunem s testm o relaie potenial descoperit n povetile adevrate i nu versiunile siropoase tip Disney, i anume dac mulimea de copii mncai de Cpcuni i Vrjitoare creeaz indigestie acestor montri. De altfel, din cartea Cpcunii anonimi de Pascal Bruckner aprut la Editura Trei ntr-o excelent traducere, la paginile destinate de editur publicitii altor cri se exemplific urmtoarele: Atunci Maryne fcu semnul cabalisic: un deget n gur urmat de un plescit din limb n timp ce mna stng mngie stomacul i buzele murmur: mm, mm. Semnul de recunoatere, parola! Asta nu putea s nsemne dect un singur lucru: Marylne era cpcun! Lui Balthus nu-i venea s cread. Ea confirm cu ochi strlucitori, ntredeschise buzele dezvelind nite coli de filde ascuii ca lama. nelese de ce fusese att de tulburat vzndu-i fotografia. Nemaiputnd de bucurie i se arunc n brae. Achit nota de plat i se grbi s o duc n Montmartre n ascunztoarea lui. Diavolia se descurc de minune i se dovedi pe msura iubitului ei: ntr-o clipit nfulec doi glumei, nelsnd din ei dect cteva oase. Nebun de dragoste, Balthus i imagina deja ce pereche vor face mpreun. Despre ei se va spune mai trziu: i trir fericii i mncar muli copii. S presupunem chestionarea prin INTERNET a 500 de astfel de montri, n legtur cu obiceiurile de consum i consecinele lor.
Stimate() cpcun/vrjitoare, cnd mncai copii, indigestia este: 1) Mare 2) Mic Dar altfel de mncare: 1) Mare 2) Mic

Imaginea 7 conine segmentarea colectivitii n cele patru categorii i apelarea n MicrosoftEXCEL a PROCEDURII DE IDENTIFICARE A
RELAIEI POTENIALE.

25

William Fox, Social Statistics using Microcase, MicroCase Corporation, Bellevue, Washington, 1992, pag.238.

Relaiile statistice puternice, ascunse, false i iluzorii

Imaginea 7
Date reale Mncare Indigestie diferit copii total Estimri Mare 150 100 250 150.0 Mic 150 100 250 150.0 Total 300 200 500 Probabilitatea de risc 1.000calculat prin fx Valoarea Hi, robust 0.000Valoarea Hi teoretic calculat prin CHIINV 0.000Coef.conting.CramerV Relaie: Exist influen? Ho

ij

100.0 100.0 CHITEST 3.841 0 nu este

Se observ c nu exist nici o legtur ntre preferinele consumatorilor i indigestiile cauzate de tipul de hran. Ultima linie, explicativ a sintezei de mai sus, accept ipoteza Ho, lipsa influenei, iar V a lui Cramer indic lipsa relaiei. De obicei, colectivitile ascund diferenele precum media aritmetic a datelor pentru care este calculat, aa c putem presupune c s-ar cuveni s nu-i considerm o ap i un pmnt pe toi demonii, vrcolacii, cpcunii, vrjitoarele, montrii, drcuorii, nprcile i alte lighioane. Drept urmare, vom analiza separat rspunsurile date de cpcuni i vrjitoare. Rezult urmtoarele situaii: Imaginea 8
Date reale Indigestie Mare Mic Total Mncare diferit 60 140 200 pentru Vrjitoare copii total 140 80 20 160 100 300 Estimri 93.3 106.7

ij

46.7 53.3

Probabilitatea de risc Valoarea Hi, robust Calculat prin CHIINV Exist

0.000calculata prin fx 66.964Valoarea Hi teoretic #NUM! Coef.conting.CramerV Relaie: influen? Mncare

CHITEST 3.841 0.472456 moderat

Este clar c, referitor la apetitul pentru copii al Vrjitoarelor, indigestia este mai mare dect la alte feluri de mncare, influena meselor asupra digestiei fiind moderat.

Relaiile statistice puternice, ascunse, false i iluzorii

S vedem n cazul Cpcunilor: Imaginea 9


Date reale Indigestie Mare Mic total Mncare Diferit 90 10 100 pentru Cpcuni Copii Total 20 110 90 80 100 200 Estimri 55.0 45.0

ij

55.0 45.0

Probabilitatea de risc Valoarea Hi, robust calculat prin CHIINV Exist

0.000calculata prin fx 98.990Valoarea Hi teoretic #NUM! Coef.conting.CramerV Relaie: influen? Mncare

CHITEST 3.841 0.703526 puternic

Valorile calculate pentru Hi ptrat sunt mult mai mari i, cum aminteam anterior, n acest context #NUM arat c este acceptat ipoteza H1, n timp ce ultima linie (rnd) confirm, pe baza comparaiei dintre valoarea calculat, 98,99 i cea teoretic 3,841, existena relaiei puternice ntre tipul de mncare i indigestie, iar testul V, chiar o relaie puternic. Este firesc deoarece Cpcunii nu au indigestie sau au o indigestie uoar cnd mnnc copii i puternic la alte tipuri de mncare. n acest exemplu, tipul de monstru a acionat ca o variabil de reprimare, de ascundere, de reducere a relaiei real existente. n statistic este denumit iniial variabil de control ce devine, datorit influenei realizate, variabil de intervenie. Dac o relaie de prim ordin pe care o suspectm c exist nu este verificat statistic, atunci trebuie s existe un factor care s nu fi fost luat n considerare. Cu ct segmentarea este mai multipl, mai frmiat, cu att surprizele pot fi mai mari. Privii cum preferinele pentru mncare i discrimineaz pe demoni, indiferent c au sau nu indigestie: Imaginea 10
Date reale Montri Vrjitoare Cpcuni Total Mncare diferit 200 100 300 copii 100 100 200 total 300 200 500 Estimri 180.0 120.0

ij

120.0 80.0

Probabilitatea de risc Valoarea Hi, robust calculat prin CHIINV Exist

0.000calculat prin fx 13.889Valoarea Hi teoretic 13.887Coef.conting.CramerV Relaie: influen? Mncare

CHITEST 3.841 0.166667 slab

Relaiile statistice puternice, ascunse, false i iluzorii

Discriminarea este slab, iar Cpcunii par c nu tiu ce s aleag, n timp ce vrjitoarele mnnc tot ce le cade n mn. Indiferena fa de mncare, lipsa de preferine, independena ntre variabilele tabelului sunt redate n estimri. Normal era ca doar 80 de cpcuni s prefere mncare din copii, iar vrjitoarele trebuia s fie cu 20 mai multe. Avem de verificat urmtoarea ipotez: cpcunii fur din mncarea vrjitoarelor. Dar dac segmentm populaia de fameni dup rezultat indigestia: Imaginea 11
Indigestie mare Vrjitoare Cpcuni Total Mncare diferit 60 90 150 copii 80 20 100 total 140 110 250 Estimri 84.0 66.0

ij

56.0 44.0

Probabilitatea de risc Valoarea Hi, robust Calculat prin CHIINV Exist

0.000calculat prin fx 38.961Valoarea Hi teoretic #NUM! Coef.conting.CramerV Relaie: influen? Mncare

CHITEST 3.841 0.394771 moderat

Este acum evident, cpcunii nu au mari probleme cu mncarea preferat (copii). Imaginea 12
Indigestie mic Vrjitoare Cpcuni Total Mncare Diferit 140 10 150 copii 20 80 100 total 160 90 250 Estimri 96.0 54.0 64.0 36.0

Probabilitatea de risc Valoarea Hi, robust calculat prin CHIINV Exist

0.000calculata prin fx 140.046Valoarea Hi teoretic #NUM! Coef.conting.CramerV Relaie: influen? Mncare

CHITEST 3.841 0.748455 puternic

i iar este clar c totui vrjitoarele nu regret cnd copiii fug (Hansel i Grethel au fugit), deoarece o altfel de mncare este mai convenabil din punct de vedere al digestiei.

Relaiile statistice puternice, ascunse, false i iluzorii

1%

3%
Legtur ntre Montri i Mncare confirmat Interaciune aport inform. prin Indigestie mare = 8%

Legtur

ntre Montri i

34%

Indigestie ascuns de Relaie aport inform prin Alt mncare = 16 % copii = 18% T ?

T 34 %
Legtur ntre Mncare

34 %
i

Indigestie, ascuns de Interaciune aport inform prin vrjitoare = 11 % cpcun = 25 %

1%

4%

0%. 0 %

Ideograma 2

Schema ctigurilor informaionale ntre variabile datorate prelucrrilor cu metodologia ONICESCU pentru interaciunea de ordin doi

Vom ncheia cu aceeai incitare pentru a citi mai departe i descifra semnificaia informaional a relaiilor construind Ideograma 2.

DEUXIEME PARTIE
Aimez donc la raison: que toujours vos crits Empruntent delle seule et leur lustre et leur prix Boileau 2 Instrumentation statistique des pourcentages 2.1 Lanalyse statistique et les probabilits composes, conditionnes, marginales 2.2 Les experiments utilisant la statistique bayesienne 2.3 Les analyses statistiques tabulaires bivaries pour un facteur unique dinfluence 2.4 Linstrumentation statistique des pourcentages pour lidentification des relations fausses, caches, illusoires 2.5 Linstrumentation statistique des pourcentages pour lidentification des relations potentielles

Relations statistiques fortes, caches, fausses et illusoires

Instrumentation statistique des pourcentages

2.1

Lanalyse statistique et conditionnes, marginales

les

probabilits

composes,

Nous allons utiliser dans ce qui suit la mme approche robuste, par exemple la frquence relative ralise par un grand nombre dobservations (valuation statique) comme probabilit. Dailleurs13 on apprcie que lapproche de la probabilit comme concept exprimental est due une des proprit des phnomnes alatoires, la stabilit des frquences relatives: au bout dune longue srie de rptitions de la preuve, il est pratiquement sr que la frquence relative de lvnement sera presqugale la probabilit. On doit considrer Thomas Bayes(1702-1761) comme prcurseur du concept de probabilit statique qu on appelle de nos jours infrence bayesienne. Mais revenons au pome LAstre/Gnie (Luceafrul) qui, dans la variante initiale, a 98 strophes et dont Maiorescu publie dans dautres ditions, 94 (moins quatre strophes du discours du Dmiurge), tout en modifiant aussi des vers. Pour les constructions statiques et mathmatiques ci-dessous, nous allons utiliser le concept suivant dun nouveau paradigme14-le Distique : chacun des paragraphes numrots qui contiennent des couples de deux vers structure mtrique diffrente et qui ont ensemble un sens. Par exemple les distiques 25 et 26: 25 Par un rayon, doucement, tu puis/ Descendre de lespace,/ 26 Viens illuminer ma vie,/ Comme tu claires ma place!

13 14

Marius Iosifescu, op.cit. pag.33-34. Paradigme = totalit des formes flexionnaires dun mot, systme de concepts accept par un groupe de spcialistes pour lutilisation rapide, code, tableau des formes dun mot donn comme modle pour la flexion dun lment du langage ou dune classe dlements du langage, Dictionnaire explicatif de la langue roumaine, Maison ddition de lAcadmie, 1975.

Relations statistiques fortes, caches, fausses et illusoires

Dans la variante dEminescu on a 392 vers donc 196 distiques, ce qui constitue une collectivit reprsentative comme nombre et comme multitude dvnements tout comme de possibles interprtations. On cre premirement une base dinformations o on codifie lapparition de certains vnements dans les strophes et aussi dans les vers du gnial pote que fut Mihail Eminescu. Lexprimentateur peut codifier dune manire dichotomique lexistence dans le distique des personnages principaux ou secondaires, lexistence dans ce distique de la lumire ou de la communication ou dautres vnements appels Ei . Il ralise par exemple le tableau l avec la synthse de lexistence dans les distiques des deux personnages principaux dans les premires 49 stophes, donc dans 98 distiques. On va transformer les frquences des apparitions dans un distique en probabilits qui caractrisent le degr de possibilit de production de cet vnement dans des conditions bien dtermines. Synthse des rencontres dans le distique (premire partie du pome) Tableau 1
Premires 49 strophes LAstre/Gnie est LAstre/Gnie nest dans le distique pas dans le distique total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

43 26 69

18 11 29

61 37 98

Par la ralisation de combinaisons telles celles du tableau l, on peut calculer les probabilits que les vnements (E1, E2, E3Ei) apparaissent (lAstre/Gnie, Ctlina, Le Dmiurge, Ctlin, la lumire, la communication, la dynamique, la direction), ou les probabilits conditionnes, par exemple P(E1/E2) la probabilit que lvnement E1 (apparition dans le distique de lAstre/Gnie) apparaisse, tant donne lapparition de lvnement E2 (apparition dans le distique de Catlina). De la multiplication des probabilits conditionnes avec la probabilit nonconditionne (marginale), rsulte la probabilit compose15: (11) P (E1E2) = P (E1/E2)*P(E2) Ici, P (E1E2) montre la probabilit que E1 apparaisse avec E2 (lAstre/Gnie et Ctlina dans le mme distique).

15

M.C.Demetrescu, Metode cantitative n marketing, Editura tiinific, Bucureti, 1971, pag.72.

Relations statistiques fortes, caches, fausses et illusoires

Dans le cas spcial quand les vnements sont indpendants, la probabilit de leur apparition commune est: P (E1E2) = P (E1)*P(E2) (12) et les probabilits conditionnes sont P (E1/E2) = P (E1) iar P (E2/E1) = P(E2) (13) Cest justement ce qui se passe dans la premire partie du pome o lExprimentateur calcule en porcentages, par rapport la variable indpendante, lapparition de lvnement E1 (dpendante du pote comme nombre de vers): Les probabilits conditionnes de lexistence/nonexistence dans le distique de Ctlina de lexistence/nonexistence dans le distique de lAstre/Gnie dans les premiers 49 strophes Tableau 2
LAstre/Gnie est LAstre/Gnie nest Premires 49 strophes Total dans le distique pas dans le distique Ctlina est dans le distique 0.623 = P(E1/E2) 0.621 0.622 = P(E2) Ctlina nest pas dans le distique 0.377 0.378 0.378 Total 1 1 1

Dans le cas des probabilits estimes sur la base des frquences des distiques qui contiennent les deux caractristiques, il est vident que dans la premire partie elles refltent lindpendance des vnements. Par exemple, lAstre/Gnie rpond aux appels de Ctlina, mais les vers refltent un quilibre, la structure tant interprte ainsi: la relation (13) dindpendance des vnements se vrifie totalement. La probabilit que Ctlina apparaisse dans le distique quand lAstre/Gnie est aussi dans le distique est de 0,623, avec des diffrences pas significatives statistiquement par rapport la probabilit quelle soit dans le distique quand lAstre/Gnie ny est pas - 0,621 et avec la probabilit marginale 0,622 qui signifie son existence dans la premire partie du pome, quil y ait ou quil ny ait pas quelquun dautre dans le distique. La mme conclusion rsulte des calculs faits dans le tableau 3, soit utilisant la MicrosoftEXCEL. Limage 1 est ralise en conformit avec les indications du paragraphe 1.3. LE TEST DE LASSOCIATION, les tapes dcrites dans LA PROCDURE DIDENTIFICATION DE LA RELATION POTENTIELLE.

Relations statistiques fortes, caches, fausses et illusoires

Rsultats offerts par MicrosoftEXCEL Image 1


Distiques
Ctlina est dans le distique Ny est pas Total Probabilit de risque Valeur Hi, robuste Calcule par CHIINV Y a-t-il

lAstre/Gnie
est dans le distique Ny est pas 43 18 26 11 69 29 0.981 0.001 0.001 influence? total 61 37 98 Estimations 42.9 26.1

ij
18.1 10.9

Calcule par fx CHITEST Valeur Hi thorique 3.841 Coef.conting.CramerV 0.002353 Ho Relation: Nest pas

Les probabilits conditionnes de lexistence/nonexistence dans le distique de lAstre/Gnie par lexistence/nonexistence dans le distique de Ctlina dans les premires 49 strophes. Tableau 3
Premires 49 strophes LAstre/Gnie est dans LAstre/Gnie nest pas le distique dans le distique Total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

0.71= P(E2/E1) 0.69 0.70 = P(E1)

0.29 0.31 0.30

1 1 1

Les probabilits composes du tableau 4, multiplies par 100, sont presque identiques comme chiffres avec celles des distributions des frquences des distiques du tableau 1, le total de distiques tant 98. Les probabilits composes de lexistence/nonexistence dans le distique de lAstre/Gnie et lexistence/nonexistence dans le distique de Ctlina Tableau 4
Premires 49 strophes LAstre/Gnie est dans le distique LAstre/Gnie nest pas dans le distique Total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

0.45 0.26 0.70

0.18 0.11 0.29

0.63 0.37 1

Relations statistiques fortes, caches, fausses et illusoires

La situation change dans la deuxime partie du pome. Le tableau 5 montre des distributions directionnes dans le sens contraire. Par exemple lAstre/Gnie est dans 44 de distiques sans la prsence de Ctlina dans ces distiques, et Ctlina a sans lAstre/Gnie 31 de prsences. Synthse des rencontres dans le distique dans la dernire partie du pome Tableau 5
Dernires 49 strophes LAstre/Gnie est dans le distique LAstre/Gnie nest pas dans le distique total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

14 44 58

31 9 40

45 53 98

La situation change beaucoup aussi cause du fait que seulement dans 9 distiques ni lun ni lautre napparaissent dans cette deuxime partie du pome. Dans la premire partie ils apparaissaient dans le distique 44 fois, dans la deuxime partie seulement 14 fois. Du point de vue de linstrumentation statistique des pourcentages, (remarquez que 98 comme nombre est naturel, tout prs de 100), la diffrence de 30 distiques (pseudoprourcentages16, 44/98 =0,449 et 14/98 = 0,143 donc on a 44,9%14,3% = 30,6%) prouvent une relation forte. Les relations (2) et (3) sont violes aussi, comme on peut le voir dans les tableaux 6 et 7. Les probabilits conditionnes de lexistence/nonexistence de Ctlina dans le distique par lexistence/nonexistence dans le distique de lAstre/Gnie dans les dernires 49 strophes Tableau 6
Dernires 49 strophes LAstre/Gnie est LAstre/Gnie nest dans le distique pas dans le distique total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

0.241 0.759 1

0.775 0.225 1

0.459 0.541 1

La vrification de la relation forte entre les vnements est vidente. La probabilit de lapparition de Ctlina dans le distique quand dans le distique apparat aussi lAstre/Gnie est de 0,241, avec des diffrences statistiques significatives de la probabilit dapparatre dans le distique quand lAstre/Gnie ny apparat pas, o,775 et avec une probabilit
16

pour tre considrs pourcentages ils doivent provenir dune population plus grande de 100 units, comme base de rapportation.

Relations statistiques fortes, caches, fausses et illusoires

marginale de 0,459 qui signifie son existence dans la dernire partie du pome, quil y ait ou non quelquun dautre dans le vers. En conformit avec linstrumentation statistique des pourcentages, la diffrence de 54,3% (de 77,4% - 24,1%), impose lexistence dune relation forte. Les calculs du tableau 7 mnent la mme conclusion (83% - 31% = 52%, ou 69% -17% = 52%). Les probabilits conditionnes de lexistence/nonexistence de lAstre/Gnie dans le distique par lexistence/nonexistence dans le distique de Ctlina dans les dernires 49 strophes Tableau 7
Dernires 49 strophes LAstre/Gnie est LAstre/Gnie nest dans le distique pas dans le distique total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

0.311 0.830 0.592

0.689 0.170 0.408

1 1 1

Les probabilits composes du tableau 8, sont cette fois-ci, comme nombre, trs diffrentes des distributions des frquences des distiques du tableau 41, la comparaison peut tre faite par les totaux gaux de distiques, 98, tout comme par la normalisation comme probabilit. Rsultats offerts par MicrosoftEXCEL Image 2
Vers Ctlina est dans le distique Nest pas Total
L LLAstre/GnieAstre/Gnie

LAstre/Gnie est dans le distique 14 44 58

Nest pas 31 9 40

total 45 53 98

Estimati ons 26.6 31.4 18.4 21.6

Probabilit de risque Valeur Hi, robuste Calcule prin CHIINV Y a-t-il

0.000 27.145 #NUM! influence?

calcule par fx Valeur Hi thorique Coef.conting.CramerV LAstre/Gnie

CHI TEST 3.841 0.526 relation : forte

Relations statistiques fortes, caches, fausses et illusoires

Les probabilits composes de lexistence/nonexistence de lAstre/Gnie dans le distique et lexistence/nonexistence de Ctlina dans le distique Tableau 8
Dernires 49 strophes LAstre/Gnie est LAstre/Gnie nest dans le distique pas dans le distique total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

0.143 0.449 0.592

0.316 0.092 0.408

0.459 0.541 1

Lexprimentateur essaie de vrifier lexistence de la relation entre les vnements tout le long du pome, conscient du fait que linverse du dtail, le global va cacher ou estomper certaines relations significatives. Les tableaux 9-12 illustrent cette ide. Synthse des rencontres dans le pome entier Tableau 9
Le pome en entier LAstre/Gnie est LAstre/Gnie nest dans le distique pas dans le distique total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

57 70 127

49 20 69

106 90 196

Par exemple, le tableau 10 a des probabilites conditionnes moins diffrencies. Les probabilits conditionnes de lexistence/nonexistence de Ctlina dans le distique de lexistence/nonexistence de lAstre/Gnie en 98 de strophes. Tableau 10
Le pome en entier LAstre/Gnie est LAstre/Gnie n est dans le distique pas dans le distique total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

0.449 0.551 1

0.710 0.290 1

0.541 0.459 1

La vrification de la relation modres entre les vnements est vidente. La probabilit de lapparition de Ctlina dans le distique quand dans le distique apparat aussi lAstre/Gnie est de 0,449, avec quelques diffrences de probabilit dtre dans le distique quand lAstre/Gnie ny apparat pas, o,710 et avec la probabilit marginale 0,541 qui signifie son existence dans tout le pome, que quelquun dautre apparaisse ou non dans le distique. En conformit avec linstrumentation statistique des pourcentages, la diffrence de 26,1% (de 71%-44,9%), impose lexistence dune relation modre. Les calculs du tableau 11 mnent la mme conclusion (77,8%53,8%=24%, ori 46,2%-22,2%=24%).

Relations statistiques fortes, caches, fausses et illusoires

Les probabilits conditionnes de lexistence/nonexistence de lAstre/Gnie dans le distique par lexistence/nonexistence dans le distique de Ctlina dans le pome entier Tableau 11
Le pome en entier LAstre/Gnie est dans le distique LAstre/Gnie n est pas dans le distique total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

0.538 0.778 0.648

0.462 0.222 0.352

1 1 1

Les probabilits composes de lexistence/nonexistence de lAstre/Gnie dans le distique par lexistence/nonexistence dans le distique de Ctlina dans le pome entier Tableau 12
Le pome en entier LAstre/Gnie est LAstre/Gnie n est dans le distique pas dans le distique total

Ctlina est dans le distique Ctlina nest pas dans le distique Total

0.291 0.357 0.648

0.250 0.102 0.352

0.541 0.459 1

La relation modre est reflte aussi par les probabilits composes du tableau 12 qui varient entre minimum 0,102 et maximum 0,357 dans le tableau 12 par rapport la valeur la plus petite et la valeur la plus grande du tableau 8 0,092 et respectivement 0,449. Rsultats offerts par MicrosoftEXCEL
Distiques Ctlina Est dans le distique Nest pas Total LAstre/Gnie est dans le distique Nest pas 57 70 127 49 20 69

Image 3

total 106 90 196

Estimations 68.7 58.3 37.3 31.7

Probabilit de risque Valeur Hi, robuste calcule par CHIINV Y a-t-il

0.000calcule par fx 12.295Valeur Hi thorique 12.294Coef.conting.CramerV influence? LAstre/Gnie Relation:

CHITEST 3.841 0.250458 modre

Limage 3 reflte la mme relation modre rsulte des calculs conformes au paragraphe 1.3. LE TEST DE LASSOCIATION.

Relations statistiques fortes, caches, fausses et illusoires

2.2 Les expriments utilisant la statistique bayesienne La prise dune dcision en ce qui concerne lanalyse statistique de la posie peut prendre en considration linformation apriori (antrieure) tout comme linformation supplmentaire. Avec ces combinaisons on peut calculer les probabilits que des vnements (E1, E2, E3) apparaissent (lAstre/Gnie, Ctlina, la communication), ou que les probabilits conditionne par exemple P(E1/E2) la probabilit que lvnement E1 (apparition dans le distique de lAstre/Gnie) existe, tant donn lapparition de lvnement E2 ( apparition dans le distique de Ctlina)17. Linformation supplmentaire rsulte de ltude des 196 distiques groups en fonction de trois caractristiques: c1- existence dans le distique de lAstre/Gnie; c2- existence dans le distique de Ctlina; c3- existence dans le distique de la relation de communication. Dans la premire partie du pome Luceafrul (les premires 49 strophes), lExprimentateur a estim quil y a 11 distiques et dans la deuxime partie (les dernires 49 strophes), 9 distiques dans lesquels les deux lAstre/Gnie et Ctlina communiquent (premire ligne du tableau 1, comb.1, combinaison Da, Da, Da des caractristiques c1, c2, c3). Certains distiques contiennent des rfrences concernant seulement lAstre/Gnie ou Ctlina, dans dautres est prsent un dans le processus de communication (avec le Dmiurge, ou avec Ctlin) et dans dautres nest prsente aucune des caractristiques considres (existence dans le distique de lAstre/Gnie, de Ctlina ou de la communication). Lexprimentateur constate quil ny a aucun distique dans lequel il y aient simultanment les deux personnages principaux qui ne communiquent pas (ligne 2 du tableau1, comb.2, combinaison Oui, Oui, Non des caractristiques c1, c2, c3). Comme chaque caractristique possde seulement deux tats dans un distique (existe-nexiste pas), le nombre de combinaisons possibles est 8 (deux alternatives, trois caractristiques, 2 puissance 3) et sont prsentes dans le tableau ci-dessous (Comb.i,i=1....8).

17

Pour des informations concernant la cration de la base dinformations et calcul des possibilits, les explications se trouvent dans la troisime partie, paragraphe 3.1.

Relations statistiques fortes, caches, fausses et illusoires

Les distributions des distiques dans les deux parties du pome Luceafrul dans la prsence (OUI) ou (NON) des personnages principaux et de la relation de communication Tableau 13
Dans le distique LAstre/Gnie Catalina communication Oui Oui Oui Comb. 1 Oui Oui Non Comb. 2 Oui Non Oui Comb. 3 Oui Non Non Comb. 4 Non Oui Oui Comb. 5 Non Oui Non Comb. 6 Non Non Oui Comb. 7 Non Non Non Comb. 8 partie l partie II Total 37 13 50 7 1 8 0 30 30 25 14 39 3 25 28 15 6 21 1 0 1 10 9 19 98 98 196

Sur la base du tableau 13 lexprimentateur peut calculer la probabilt quun distique possde une des huit caractristiques Par exemple dans le mme distique Ctlina communique avec lAstre/Gnie, donc linformation de la premire ligne du tableau, dans la premire partie de la posie. Celle-ci est une probabilit compose; P(dans le distique comb.1partie I) = P(dans le distique comb.1partie I) I)*P(partie I) (14) Lexprimentateur calcule la partie gauche de lgalit (14) sous la forme 37 distiques qui sont sur la ligne 1 du tableau et dans la premire partie de la posie, rapports au nombre total de distiques dans le pome, 196. Il arrive au rsultat 0,189. Le calcul de la partie droite suppose la multiplication entre P (dans le distique comb.1/partie l)=37/98=0,378 et P (partiel)=98/196=0,5. La multiplication a comme rsultat 0,189. La probabilit marginale P(partiel) est appele nonconditionne car elle ne tient pas compte de lexistence des caractristiques c1, c2 i c3 et P(Comb.i) ne prend pas en considration la place dans le pome. Les probabilits marginales P(partie j) se calculent par laddition des colonnes et P(comb i)par laddition des lignes. P(partie j) = P (partie j dans le distique comb. i), addition aprs i=1..8 (15) P(dans le distique comb.i) = P(dans le distique comb.ipartie j), addition aprs j=1,2 (16) La somme des probabilits marginales du total des lignes et des colonnes est gale avec lunit.

Relations statistiques fortes, caches, fausses et illusoires

Dans lexemple ci-dessus, P(partie I) = 98/196=37/196+.10/196=0,5. Avec les nouvelles informations obtenues par le traitement des 196 distiques de Mihai Eminescu on peut calculer la probabilit quun distique classifi dans une des catgories Ci fasse partie de la premire partie ou de la deuxime partie de la posie. Pour rpondre cette provocation il faut calculer les probabilits revues, dduites des nouvelles informations de lanalyse des probabilits postrieures18. Les probabilits postrieures sont des probabilits conditionnes (un vnement va apparatre tant donne lapparition dun autre vnement), dans le cas ci-dessus, une fois classifi un distique, quelle est la probabilit de sa classification dans la premire ou la deuxime partie du pome. Le calcul utilisant le thorme de Bayes est le suivant: P(partie1) P(comb 1/ partie1) P(partie1/ comb1) = 2 P(partie j) P(comb1/ partie j)
j=1

(0,5) (0,378) 0,189 = = 0,744 (0,5) (0,378) + (0,5) (0,13) 0,254

(17)

Ainsi on obtient ce rsultat du calcul direct P(partie 1/Comb.1)=37/50=0,74 et P(partie 2/Comb.1)=13/50=0,26. Dans le tableau 14 est prsent le calcul des probabilits postrieures pour toutes les combinaisons 1-8. Calcul des probabilits postrieures Tableau 14
Dans le dist. LAstre/ Col.1 col.2 col.3 col.4 col.5 col.6 col.7. Gnie Catalina Communication

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.38 0.07 0.00 0.26 0.03 0.15 0.01 0.10 0.50

0.13 0.01 0.31 0.14 0.26 0.06 0.00 0.09 0.50

0.19 0.04 0.00 0.13 0.02 0.08 0.01 0.05 0.50

0.07 0.01 0.15 0.07 0.13 0.03 0.00 0.05 0.50

0.26 0.04 0.15 0.20 0.14 0.11 0.01 0.10 1

0.74 0.88 0.00 0.64 0.11 0.71 1.00 0.53

0.26 0.13 1.00 0.36 0.89 0.29 0.00 0.47

oui oui oui oui Non Non Non Non

oui oui Non Non oui oui Non Non

oui Non oui Non oui Non oui Non

18

M.C.Demetrescu, op.cit., pag 74

Relations statistiques fortes, caches, fausses et illusoires

LEGENDE
Colonne CONTIENT Col.1 P(Ci/partie I) Col.2 P(Ci/partie II) Col.3 P(Ci/partie I)*P(Partie I) Col.4 P(Ci/partie II)*P(partie II) Col.5 P(Ci) Col.6 P(partie I/Ci) Col.7 P(partie II/Ci)

LExprimentateur possde maintenant des informations sur les caractristiques dont on doit tenir compte pour lanalyse du pome, ayant la notion de partie du pome flexible dans le sens de nombre de strophes (distiques). Si ldcide de ne pas employer linformation obtenue, il va estimer quun nouveau distique a des chances gales dentrer dans la premire ou la deuxime partie du pome, ainsi il va supposer que les probabilits estimes de lchantillon de distiques initial sappliqueront aussi de nouveaux distiques. Les colonnes du tableau 1419 nous montre comment on peut amliorer cette information ancienne par lutilisation de linformation supplmentaire concernant les caractristiques des distiques nouvellement apparus. LExprimentateur sait que mme Eminescu a supprim un nombre de distiques et a chang un dentre eux dans le pome paru dans diffrentes publications. Le thorme de Bayes est une autre modalit denvisager la probabilit conditionne, dans ce cas la probabilit conditionne dun tat de la nature (parties du pome), tant donn une information ou une srie dinformations, les caractristiques du distique. Ces probabilits conditionnes sont: P(partie1) P(comb1/ partie1) 0,189 P(partie1/ comb1) = = = 0,744 (18) P(comb1) 0,254
P(partie2) P(comb1/ partie2) 0,065 = = 0,256 (19) P(comb1) 0,254 Maintenant lExprimentateur a les probabilits revues. Dans le tableau 14, dans les dernires deux colonnes ont t calcules les probabilits posterieures qui changent les probabilits apriori, (0,5 pour la premire comme pour la deuxime partie, approche subjective, puisquon voulait une relation parfaite et une potentielle symtrie du pome). P(partie2 / comb1) =
19

dans le tableau les rsultats des calculs ont seulement deux dcimales pour des raisons connues (la base de calcul pour les parties du pome est de 98 de distiques mais aussi pour des raisons graphiques)

Relations statistiques fortes, caches, fausses et illusoires

Le calcul des probabilits postrieures dans la variante dun Astre/Gnie encore sur Terre Tableau 15
Dans le distique Col.1 col.2 col.3 col.4 col.5 col.6 col.7. Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8 0.38 0.07 0.00 0.26 0.03 0.15 0.01 0.10 0.65 0.13 0.01 0.31 0.14 0.26 0.06 0.00 0.09 0.35 0.25 0.05 0.00 0.17 0.02 0.10 0.01 0.07 0.65 0.05 0.00 0.11 0.05 0.09 0.02 0.00 0.03 0.35 0.29 0.05 0.11 0.22 0.11 0.12 0.01 0.10 1 0.84 0.93 0.00 0.77 0.18 0.82 1.00 0.67 0.26 0.13 1.00 0.36 0.89 0.29 0.00 0.47 Luceafar Oui Oui Oui Oui Non Non Non Non Catalina Oui Oui Non Non Oui Oui Non Non Communication Oui Non Oui Non Oui Non Oui Non

LExprimentateur revient au pome de M.Eminescu et identifie la ralit dans le sens du nombre de distiques qui contiennent les 8 combinaisons. Maintenant la premire partie, avec lAstre/Gnie sur Terre, a 127 distiques, et la deuxime partie, 69 distiques. La distribution des distiques dans la variante LAstre/Gnie sur terre Tableau 16
Dans le distique Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8 Luceafar oui oui oui oui non non non non Catalina communication partie I partie II Total oui oui 44 6 50 oui oui 7 1 8 non oui 0 30 30 non non 25 14 39 oui oui 22 6 28 oui non 17 4 21 non oui 1 0 1 non non 11 8 19 127 69 196

Les calculs montrent les diffrences significatives entre ce que l Experimentatorul attendait et la ralit du pome.

Relations statistiques fortes, caches, fausses et illusoires

Calcul des probabilits postrieures dans la variante sur terre Tableau 17


Dans le Communivers Col.1 col.2 col.3 col.4 col.5 col.6 col.7. Luceafar Catalina cation Comb. 1 0.35 0.09 0.22 0.03 0.26 0.88 0.12 oui oui oui Comb. 2 0.06 0.01 0.04 0.01 0.04 0.88 0.13 oui oui Non Comb. 3 0.00 0.43 0.00 0.15 0.15 0.00 1.00 oui Non oui oui Non Non Comb. 4 0.20 0.20 0.13 0.07 0.20 0.64 0.36 oui oui Comb. 5 0.17 0.09 0.11 0.03 0.14 0.79 0.21 Non oui Non Comb. 6 0.13 0.06 0.09 0.02 0.11 0.81 0.19 Non Non oui Comb. 7 0.01 0.00 0.01 0.00 0.01 1.00 0.00 Non Comb. 8 0.09 0.12 0.06 0.04 0.10 0.58 0.42 Non Non Non 0.65 0.35 0.65 0.35 1

LExprimentateur prend en considration une alternative: ignorer compltement lexistence de Ctlin dans la premire partie du pome et arriver la situation prsente ci-dessous. Pour cela il change les probabilits apriori du calcul en parties gales et il en rsulte le tableau cidessous: Calcul des probabilits postrieures dans la variante sans Ctlin Tableau 18
Dans le dstique Col.1 col.2 col.3 col.4 col.5 col.6 col.7. Luceafar Catalina Communication

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.38 0.07 0.00 0.26 0.03 0.15 0.01 0.10 0.43

0.13 0.01 0.31 0.14 0.26 0.06 0.00 0.09 0.57

0.16 0.03 0.00 0.11 0.01 0.07 0.00 0.04 0.43

0.08 0.01 0.17 0.08 0.15 0.03 0.00 0.05 0.57

0.24 0.04 0.17 0.19 0.16 0.10 0.00 0.10 1

0.68 0.84 0.00 0.57 0.08 0.65 1.00 0.46

0.32 0.16 1.00 0.43 0.92 0.35 0.00 0.54

oui oui oui oui Non Non Non Non

oui oui Non Non oui oui Non Non

oui Non oui Non oui Non oui Non

Relations statistiques fortes, caches, fausses et illusoires

Recalcul dans la variante du pome: Distribution des distiques dans la variante de Mihail Eminescu Tableau 19
Dans le distique Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8 Luceafar oui oui oui oui Non Non Non Non Catalina oui oui Non Non oui oui Non Non communication partie I partie II Total oui 37 13 50 Non 7 1 8 oui 0 30 30 Non 24 15 39 oui 0 28 28 Non 11 10 21 oui 1 0 1 Non 5 14 19 85 111 196

Les calculs montrent des diffrences significatives entre ce que lExprimentateur attendait et la ralit du pome. Calcul des probabilits postrieures dans la variante du changement des probabilits apriori Tableau 20
Dans le Communidistique Col.1 col.2 col.3 col.4 col.5 col.6 col.7 Astre/Gnie Catalina cation Comb. 1 0.44 0.12 0.19 0.07 0.26 0.74 0.26 oui oui oui Comb. 2 0.08 0.01 0.04 0.01 0.04 0.88 0.13 oui oui non Comb. 3 0.00 0.27 0.00 0.15 0.15 0.00 1.00 oui non oui oui non non Comb. 4 0.28 0.14 0.12 0.08 0.20 0.62 0.38 non oui oui Comb. 5 0.00 0.25 0.00 0.14 0.14 0.00 1.00 non oui non Comb. 6 0.13 0.09 0.06 0.05 0.11 0.52 0.48 non non oui Comb. 7 0.01 0.00 0.01 0.00 0.01 1.00 0.00 Comb. 8 0.06 0.13 0.03 0.07 0.10 0.26 0.74 non non non 0.43 0.57 0.43 0.57 1

Tout comme dans lexemple ci-dessus, les quelques exemples dapplication statistique qui seront illustrs dans ce livre, trop peu nombreux malheureusement pour illustrer ce que les nouveaux instruments statistiques peuvent faire, incitants pourtant pour un lecteur avis et passionn par la littrature (nous allons continuer avec une approche statistique inspire dune ide offerte par le livre Les Ogres anonymes de Pascal Bruckner), mais aussi par la science (des exemples classiques donns par William Fox20
20

William Fox, Social Statistics Using Microcase, Microcase Corporation, Bellevue, Washington, 1992.

Relations statistiques fortes, caches, fausses et illusoires

dans Social Statistics Using Microcase) portent en eux la promesse quun jour les rponses aux questions pas seulement statistiques seront sinon lucids, au moins mises dune manire amicale la disposition de lExprimentateur.

2.3 Les analyses statistiques tabulaires bivaries pour un facteur unique dinfluence Prenons un exemple banal. Nous sommes intresss de savoir si les reprises des programmes des chanes de tlvision sont influences par leur appartenance aux catgories tlvision dEtat, rseau indpendant, tlvision indpendante. LExprimentateur utilise linformation publie des dix plus importantes chanes et leurs reprises de lundi (le 30 juin 2003) et mardi matin, et il en extrait les donnes suivantes: 1. Romnia 1 (dEtat): Surprises, surprises (11.00), Tlencyclopedie (13.00), Journal (2.10). 2. TVR 2 (dEtat): Miracles (8.00), Film Puzzle (10.00), Tlvision, mon amour (16.00), Saint Tropez Serie (ora 1.15), Autour du monde (doc.ora 2.10), Culture mystrieuse (doc.ora 2.40). 3. PRO TV (tlvision prive deux chanes): Teo (ora 7.00), Young and restless (ora 9.00), Bundy (ora 20.30), Apprenez langlais avec Victor (ora 2.45). 4. Acas (appartenant PRO TV): Luz Maria (ora 6.00), Recette de la maison (ora 7.30), Apprenez l franais avec Victor (ora 8.00), Apprenez langlais avec Victor (ora 9.00), Chat sauvage (ora 10.15), Vengeance (ora 12.15), Contes vrais (ora 0.00), Apprenez le franais avec Victor (ora 0.30), Salome (ora 0.45), 3 x femme (ora 3.00). 5. Antena 1 (indpendant): MacGyver (ora 8.00), Route des miracles (ora 10.00), Je jure te conqurir (ora 12.00), Observateur (ora 1.00), Milagros (ora 2.00), Yago (ora 4.00). 6. Prima (indpendant): Dog Show (ora 7.30),Clip Art (ora 0.25), Voyages dans des mondes parallles (ora 1.00), Focus Plus (ora 1.30). 7. Tele 7abc (indpendant): Auto Motor Sport (ora 11.30), Assiette pleine (ora 12.00), Journal europen (ora 12.30), Cendrillon (ora 13.00), Sur les traces de Cordoba (ora 14.00), Info pecheur (ora 16.00), Histoire de lart (ora 17.00), Vacances inoubliables (ora 22.30). 8. B1 TV (indpendant): Beverly Hills (ora 11.30), Dimanche midi (ora 13.00), Documentaire (ora 15.00), Et ternel (ora 16.30), Gala (ora

Relations statistiques fortes, caches, fausses et illusoires

20.30), Beverly Hills 90210 (ora 23.30), La Strada (ora 0.30), Nouvelles nationales B1 TV (ora 1.00). 9. Atomic(indpendant):Flneur (ora 10.30), Romanian Top 100 (ora 16.00), Contes de fes (ora 22.30). 10. Eurosport (indpendant): Motocyclisme (ora 9.30), Rallys (ora 11.00), Football: Coupe des Confederations, en France(ora 12.00), Rugby: Coupe Mondiale U-21, en Angleterre (ora 14.00), Snooker: CE, en Allemagne (ora 17.30), Football: Coupe des Confederations, en France (ora 19.00), Football (ora 21.00), K1 Grand Prix Mondial, Paris-Bercy (ora 22.00). Lhypothse nulle, appele lhypothse Ho, suppose quil ny a pas de diffrences entre les chanes tl en ce qui concerne les reprises. Lhypothse alternative, H1 soutient quil y a des diffrences et quon aura le cas du nombre diffrent de reprises aux diffrentes catgories de chanes. Lanalyse tabulaire bivarie qui implique des tests et des analyses tel le test dhomognit 2 comme test de signification statistique la mesure de lassociation entre les donnes des tableaux, lanalyse de la variabilit, la regression et la corrlation, rpond aux questions suivantes concernant la relation entre deux variables: Y a-t-il une relation entre les deux variables dont on analyse les donnes? Combien la relation est-elle forte? Quelle est la direction (positive ou ngative) et la forme (linaire, nonlinaire) de la relation? Sil y a une relation et nos donnes proviennent dun chantillon, peut-on gnraliser la relation pour la population dont on a extrait lchantillon? Dans le cas ci-dessus, lexistence de la relation sera confirme par la vrification de lhypothse H1, cest--dire la supposition que, appartenir lEtat, une grande compagnie ou tre une chane indpendante mne des diffrences significatives entre la reprise des programmes tlviss. Pour cela, lExprimentateur passe la ralisation dune synthse des donnes du cas en question, do en rsulte le tableau 21.

Relations statistiques fortes, caches, fausses et illusoires

Nombre de reprises sur les chanes TV et appartenance Tableau 21


Groupement Tl dEtat Tl dEtat Rseau Rseau Indpendant Indpendant Indpendant Indpendant Indpendant Indpendant Chane tl Romnia 1 TVR 2 PRO TV Acas Antena 1 Prima Tele 7abc B1 TV Atomic Eurosport Reprises 3 6 4 11 6 4 8 8 3 8

Maintenant il peut construire un tableau de contingence o sur les colonnes vont exister les catgories dappartenance des tlvisions et sur les lignes les frquences des reprises (nombre de reprises dans le dlai lundi mardi, mentionne ci-dessus). Distribution des reprises en fonction des catgories dappartenance des tlvisions Tableau 22
Tl dEtat Rseau ( 2 chanes) Indpendant 3 6 4 11 6 4 8 8 3 8 37

15

Si les chanes avaient, par exemple, 6 ou 7 reprises (le nombre total de reprises est de 61, donc la moyenne des dix chanes serait de 6,1 reprises, appele la moyenne de la collectivit gnrale), la dispersion des valeurs, les diffrences par rapport la moyenne ne seraient pas significatives et la conclusion serait une seule, on accepte lhypothse Ho, aucun lien entre lappartenance une catgorie et le nombre de reprises. Cependant on observe une dispersion visible des valeurs sur tout le tableau et lintrieur de chaque catgorie (colonnes) du tableau.

Relations statistiques fortes, caches, fausses et illusoires

Lanalyse de la dispersion (variabilit) divise la dispersion totale des valeurs (notes, scores, frquences dans le cas ci-dessus) de la variable indpendante en deux parties: dispersion lintrieur de chaque groupe (catgories) de variables indpendantes (achronyme DenGr), et dispersion entre les groupes de variables indpendantes (achronyme DentreGr). Si les variables sont associes, donc lappartenance une catgorie contribue la discrimination du NOMBRE DE REPRISES, la dispersion entre groupes est plus grande (illustre aussi par les moyennes diffrentes des reprises en fonction des catgories dappartenence) que la dispersion lintrieur du groupe (par rapport la moyenne du groupe). Le rapport (ratio) entre la dispersion entre les groupes et la dispersion lintrieur du groupe est le coefficient Fisher calcul (Fcalcul = DentreGr / DenGr). Le test Fisher va donner la garantie statistique de lexistence ou de linexistence de lassociation par limination dune hypothse sur deux. Lassociation utilisant lanalyse de la variabilit ne signifie pas obligatoirement causalit. Lassociation peut tre le rsultat des variables qui affectent simunltanment les variables prises en considration pour le calcul dans lanalyse bivarie. Lanalyse de la variation dtaille les diffrences entre les moyennes par la dcomposition de la dispertion totale de la variable dpendante dans la dispersion due la variabilit dans les groupements de la variable indpendante, DenGr et la variabilit apparue entre les goupements de la variable indpendante, DentreGr. Dhabitude, lanalyse de la variabilit value la relation entre les catgories (alternatives, niveaux) dune variable indpendante et la variable dpendante type intervale ou proportionnelle. La somme totale des carrs (STP, la somme de tous les carrs) des diffrences entre les valeurs et la moyenne de la variable dpendante autour de la moyenne de toute la collectivit. La somme des carrs entre les groupements (SPentreGr) mesure la dviation des moyennes du groupe autour de la moyenne gnrale et aide au calcul de la dispersion entre groupements (Dentre Gr). La somme des carrs pour les groupements (SPenGr) mesure la dviation des valeurs autour des moyennes des catgories dont elles font partie et aide au calcul de la dispersion dans les groupements (DenGr). Le calcul ncessaire au test Ficher, F est le rapport entre la dispersion entre groupements (DentreGr) et la dispersion dans les groupements (DenGr).

Relations statistiques fortes, caches, fausses et illusoires

Dans un excellent trait danalyse statistique, au chapitre 3, souspoint 3.5. LE MODELE UNIFACTORIEL DANALYSE DISPERSIONNELLE 21 les deux sommes des carrs sappellent la somme des carrs des erreurs entre les groupes et respectivement la somme des carrs des erreurs dans les groupes, utiles pour la construction du test Fisher. Logiquement STP est la somme totale des carrs des erreurs et peut sobtenir par laddition des deux autres sommes des carrs. On a les suivantes trois situations: 1. (DentreGr) grande et (DenGr) petite suppose une relation (influence) forte entre les variables analyses 2. (DentreGr) moyenne et (DenGr) moyenne suppose une relation modre 3. (DentreGr) petite et (DenGr) grande suppose une relation faible ou inexistente. Pour effectuer les calculs demands par la mthdologie de calcul pour le test Fisher, nous systmatisons les informations et les donnes du problme comme dans le tableau 21. Aprs le regroupement des donnes on peut faire appel MicrosoftEXCEL dans la procdure ci-dessous et on obtient lImage 4: Procdure:
On ouvre Tools, Data Analysis et on choisit : Anova: Single Factor Dans lcran apparu on introduit: Input Range $A$1:$C$7 cochez: Label, Output Range $A$9 Grou ped by Columns

21

pag.204, Gheorghe Mihoc, Veniamin Urseanu, Emiliana Ursianu, Modele de analiz statistic, Editura tiinific i Enciclopedic, Bucureti, 1982.

Relations statistiques fortes, caches, fausses et illusoires

Rsultats oferts par MicrosoftEXCEL


A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Tl dEtat

B
Rseau

C
Indpendant

Image 4
G

3 6

4 11

6 4 8 8 3 8

Anova: Single Factor SUMMARY Groups Tl dEtat Rseau Indpendant

Count 2 2 6

Sum 9 15 37

Average 4.5 7.5 6.17

Variance 4.5 24.5 4.97

ANOVA Source of Variation 20 Between Groups 21 Within Groups 22 23 Total

SS 9.07 53.83 62.9

df 2 7 9

MS 4.53 7.69

F 0.59

PF crit value 0.58 4.73

Pour dtailler des calculs qui ne se voient pas sur lImage 4, est ncessaire le tableau 23. Obtenir et commenter les rsultats illustrs dans lImage 4 et le Tableau 23 supposent le suivant algorithme de calcul: 1. On calcule la moyenne gnrale par la division du nombre total de Reprises (voir la colonne Sommes du Tableau 23), (61) au nombre de chanes tl(10) et il en rsulte la moyenne 6,1. 2. La colonne Carrs 1 du tableau 23 contient le carr de la diffrence entre chaque nombre de reprises des chanes et la moyenne gnrale. Le total rsult de laddition des lments de cette colonne reprsente la somme des dviations des reprises de la moyenne gnrale, STP = 62.9, colonne B23 de l Image 4 avec les rsultats MicrosoftEXCEL.

Relations statistiques fortes, caches, fausses et illusoires

3. Les moyennes et les dispersions dans les groupements des chanes tl (dEtat, rseau, indpendant avec une chane) sont illustres dans lImage 4 dans le tableau SUMMARY (colonne A, ligne11) et la base de calcul est la colonne Carrs 2 du tableau 23. La somme de 53,83 de cette colonne reprsente la somme des carrs autour de la moyenne de groupe, SPenGr, colonne B21 de lImage l. Calcul des canes des deviations par rapport la moyenne genrale et les moyennes de groupement Tabelul 23
Grupement Tt dEtat Tt dEtat Rseau Rseau Independant Independant Independant Independant Independant Independant Chane tl Romnia 1 TVR 2 PRO TV Acas Antena 1 Prima Tele 7abc B1 TV Atomic Eurosport Sommes = Repises 3 6 4 11 6 4 8 8 3 8 61 Carrs 1 9.61 0.01 4.41 24.01 0.01 4.41 3.61 3.61 9.61 3.61 62.9 Carrs 2 2.25 2.25 12.25 12.25 0.03 4.71 3.35 3.35 10.05 3.35 53.83

4. On introduit les attributs de travail dans le tableau 1.4 et on calcule la somme pondre (les pondrations tant le nombre de chanes tl de chaque catgorie) des carrs des diffrences entre les moyennes des groupements (colenne Average de SUMMARY) et la moyenne gnerale, SPentreGr=9,07 retrouvable dans la colonne B20 de lImage 4. Calcul de la dviation des moyennes de groupe de la moyenne gnrale Tableau 24
Reprises Moyennes de groupe Carrs 3 Pondration Etat (2 chanes) 4.5 2.56 5.12 En rseau 2 chanes) 7.5 1.96 3.92 Indp. (6 chanes) 6.17 0.0044 0.03 Moyenne gnrale 6.1

9.07

La ligne du tableau 24 avec Carrs 3 contient les carrs de groupe (ligne Moyennes de groupe) et la moyenne gnrale 6,1.

Relations statistiques fortes, caches, fausses et illusoires

Pour expliquer les autres composantes de lImage 4 on rsume et on explicite les calculs de lImage 5: Obtention et interprtation des rsultats offerts par MicrosoftEXCEL Image 5
STP dviation fr.var.dp.de la moyenne gnerale = 62.90 B23 SPenGr dviation fr.var.dp.de la moyenne du groupe+ 53.83 B21 SPentreGr dviation des moyennes de groupe de la moyenne 9.07 B20 generale Degrs De libert (df) C19 (gr.) Conversion des sommes des carrs en dispersion tiennent (df) compte du gr. de libert N 1 = 9 nr.degrs. de libert pour la somme des carrs par rapport C23 la moyenne gnrale N k = 7 nr.degrs. de libert pour la somme des carrs par rapport C21 aux moyennes gnrales k1=2 (df) pour la somme des carrs des moyennes de groupepar rapport la moyenne gnrale C20 o N = 10, nombre total dobservations, k = 3, nombre de groupements de la variable indpendante Dispersion gnerale = Dispersion dans les groupements = Dispersion entre les groupements = Test Fisher, F = DentreGr/ F(2,7) = 4,74 STP/(N-1) 6.99 sondage SPenGr/(N-k)=DenGr 7.69 D21 SPentreGr/(k4.53 D20 1)=DentreGr DenGr = 0.5897 val.petite E20 Relation nonsignificative (statistiquement) entre F20 le chanes tl et les reprises P-value ?? G20

On observe que la dernire colonne de lImage 5 contient lea adresses codifies des composantes de lImage 4 type (Lettre)(nombre) o (Lettre) est la colonne standard EXCEL et (nombre), la ligne standard de toute page EXCEL. Mais pourquoi a-t-on besoin de STP et quel rle joue P-value de lImage 4!!! 1. STP aide au calcul pour obtenir une mesure dassociation (en pourcentages), qui montre combien fort (potentiellement) sont lies les variables, tant connu dansla littrature de specialit comme le carr Eta. Dans le cas tudi, 14% des variations des reprises sont dues aux classifications (groupements) donnes aux chanes tl. Cela rsulte du rapport SPentreGr/Total, donc les valeurs de la case B20

Relations statistiques fortes, caches, fausses et illusoires

rapportes B23, 9,07 rapporte 62,9 est de 0,144. Donc dEtat ou prive, la grille de programmes qui contient les reprises est accepte selon dautres critre que celle de lappartenance. Autrement dit, la forme de proprit et de dveloppement (rseau), expliquent seulement 14% de la variation des reprises dans la grille de programmes des tlvisions, dans le cas des 10 cas hypothtiques. Dautre part il est ncessaire, comme le montre la dernire colonne de lImage 5, au calcul du volume de sondage (nombre de sujets interrogs) pour obtenir des informations sur les modifications potentielles dans la caractristique analyse, cest--dire le nombre de chaines tl auxquelles on peut demander des informations propos du changement de programmes. Si la dispersion de la caractristique analyse est grande (les reprises), le nombre de chanes qui doivent tre interroges est grand, si le nombre de reprises est presque le mme, avec une ou deux reprise de diffrence, alors le nombre sera trs petit et linformation peut tre extrapole pour une priode acceptable. 2. P-value reprsente la probabilit que les dispersions des colonnes ne diffrent pas significativement du point de vue statistique! On a donc une certitude de presque 60% que les reprises ne dpendent pas de la forme de proprit. Mais il y a un gros problme! Si on identifie 14% des reprises dans une grille de programmes des tlvisions dEtat et 14% pour les indpendantes, il este normal de dire que quelle que soit la forme de proprit la proportion des reprises est la mme. Les dispersions un calcul pour 14% avec 86% sont, naturellement, identiques . Mais si on inverse les proportions et, hypothtiquement, les tlvisions dEtat ont des reprises en proportion de 86% tandis que les tlvisions prives seulement 14%. La dispersion este la mme! Et il ny a aucun type de causalit; par exemple dans notre cas, les tlvisions dEtat reprennent des missions et les prives non, on inversement. Dans le trait cit22, les sources de variation (SPentreGr) et (SPenGr) sont Regression, respectivement sourse Rsiduelle, les erreurs tant considres des erreurs rsiduelles, des dviations. Noublions pas que lExperimentateur applique des techniques ROBUSTES. Et pourtant, parfois, les moyennes calcules ne sont pas les moyennes arithmtiques (algbriques). Le degr de libert, le diviseur, reprsente la possibilit de choix. Des trois monnaies est choisie la plus valeureuse (premier choix), des deux restes est choisie la plus valeureuse (deuxime choix), et cest tout. Deux choix, deux degrs de libert. Cest pourquoi df1, la case C19 de lImage 4 est k-1=2 (voir la valeur de la case C20, Image 4).
22

pag.146, Gheorghe Mihoc, Veniamin Urseanu, Emiliana Ursianu, Modele de analiz statistic, Editura tiinific i Enciclopedic, Bucureti, 1982.

Relations statistiques fortes, caches, fausses et illusoires

La mthodologie de dtermination du rapport Ficher pour un utilisateur qui ne veut pas employer les facilits du paquet de logiciels EXCEL: 1. On crit le modle mathmatique tenant compte de lexistence suppose dun seul facteur dinfluence et les hypothses Ho i H1 qui doivent tre testes; 2. On calcule le nombre de degrs de libert pour le facteur dinfluence lappartenance une catgorie), k-1 pour le facteur des colonnes et pour lensemble du tableau[ cause des donnes incompl etes pour un tableau de contingence classique, la place de la multiplication (nombre de lignes-1}*(nombre de colonnes) on tient compte des observations, N-k] et on tablit le niveau de significations ; on prend ensuite la valeur du rapport Ficher du tableau de la distribution F, dans le cas ci-dessus 5% (on accepte comme possible une errreur sur vingt); 3. On calcule la somme des donnes de tout le tableau, le tableau 2.3., Sommes=Reprises; on na pas encore besoin, mais par la division de cette valeur au nombre dobservations (nombre de chanes tl) on obtient la moyenne gnrale; 4. On calcule le facteur le correction D, comme une sorte de dispersion galement distribue sur le N units observes, donc le carr de Sommes=Reprises distribu sur les 10 chanes; 5. On calcule la somme des carrs SP facteur dinfluence de la colonne, donc SPC comme somme des rapports entre le carr des sous-totaux correspondants chaque catgorie (colonne) et le nombre de donnes observes pour chaque catgorie (colonne) rduite avec les facteur de correction D; 6. On calcule la somme des carrs des donnes STP de tout le tableau et on dtermine la somme des carrs ds aux erreurs exprimentales SPE, soustrayant de la somme des carrs du tableau STP la somme des carrs correspondants au facteur dinfluence de colonne, SPC; 7. On dtermine la moyenne des carrs MPC du facteur dinfluence rapportant la somme des carrs SPC au nombre de degrs de libert correspondant, df1=k-1; 8. On calcule la moyenne des carrs des erreurs exprimentales MPE comme rapport entre la somme des carrs des erreurs exprrimentales SPE et la nombre de degrs de libert de tout le tableau N-k; 9. On dtermine F calcul, Fc comme rapport entre la moyenne des carrs MPC du facteur dinfluence et la moyenne des carrs sur lerreur exprimentale, MPE provenue de lenvironnement, erreurs de calcul ou interprtation initiale sans de bonnes hypothses de travail (choix erron du facteur dinfluence);

Relations statistiques fortes, caches, fausses et illusoires

10. On compare les valeurs calcules avec celles des tableaux ainsi: Fc > Ft on rejette lhypothse nulle, donc le facteur respectif a une influence sur les donnes du tableau; Fc < Ft on admet lhypothse nulle, donc les diffrences sont dues aux variations dchantillonage accidentelles. Ici Fc reprsente le coefficient calcul du test Ficher et Ft le coefficient Ficher tabli dans les tableaux statistiques ou calcul en EXCEL, conformment aux modles mathmatiques agrs. Nous rappelons que les chiffres du tableau de contingence 1.1 reprsente la reprise des programmes de 10 chanes tl pendant un jour et demi (de lundi mardi matin). Le modle statistico-mathmatique est le suivant: (20) x i j = + j + i j et chaque donne du tableau xij, est gale avec la moyenne de la population mais peut sen abattre grce linfuence de la colonne j, j et une erreur exprimentale ij. On suppose les sets des hypothses statistiques:: H0 le nombre de reprises nest pas influenc par lappartenance de loprateur de tlvision; par consquent

( ) j , j = 0

ou, quelle que soit la moyenne sur la colonne j, j elee sont gales, 1 = 2= 3= .j= . = k (21) H1 le nombre de reprises est influenc par lappartenance de loprateur de tlvision et il y a des diffrences significatives entre les oprateurs. ( ) j , j 0 ou au moins deux moyennes de celles calcules sur une colonne ne sont pas significativement gales. 1 .j (22) On calcule le nombre de degrs de libert df1 (degree of freedom engl.) le facteur dinfluence (dans ce cas, les catgories des colonnes du tableau 22 de lexemple tudi) et le nombre de degrs de libert df2 pour tout le tableau. df1 = k - 1 = 2 df2 = N - k = 10 - 3 = 7 = 0,05 Ft (2, 7) = 4,74

Relations statistiques fortes, caches, fausses et illusoires

On dtermine le facteur de correction D: 2 2 Total D= = 61 = 372 ,1 (23) N 10 dans lequel Total reprsente le total gnral (dans ce cas le nombre de reprises) et N reprsente le nombre de chanes tl observes (nombre de cases completes dans le tableau 2). On dtermine la somme des carrs SP pour le facteur dinfluence, lappartenence une catgorie de la colonne (dans cet exemple, conformment lhypothse et au modle mathmatique, on a seulement un facteur dinfluence, colonne j, o j = 1,k): 2 k T SPC = . j - D (24) j = 1 n j o T.j reprsente le total de chaque colonne j du facteur observ, et nj le nombre de donnes observes du facteur respectif (le nombre de cases compltes de la colonne, autant de chanes tl).

9 15 37 + + - 372 ,1 = 9 , 07 2 2 6 On dtermine la somme des carrs dans tout le tableau, quelle que soit la valeur de chaque ligne, jusquau nombre total de lignes r i colonnes j: =

STP = x i2 j - D =
i =1j=1

(25)

2 2 2 2 = 3 + 6 + 4 ... + 8 - 372 ,1 = 62 , 9

On dtermine la somme des carrs par erreur exprimentale: (26) SPE = STP - SPC = 62,9 9,07 = 53,83 On dtermine la moyenne des carrs du facteur dinfluence, colonne:

MPC =

On dtermine la moyenne des carrs par erreur exprimentale

SPC 9,07 = = 4,53 2 df 1

(27)

SPE 53,83 = = 7,69 (28) 7 df 2 On dtermine la valeur Fisher calcul pour le facteur dinfluence: MPC 4,53 = = 0,59 (29) Fc= MPE 7,69 MPE =

Relations statistiques fortes, caches, fausses et illusoires

On compare la valeur tabulaire avec la valeur calcule: Si Fc < Ft, on accepte lhypothse nulle Ho, donc les reprises des oprateurs de telvision sont diffrentes non pas cause de lappartenance aux catgories mentionnes dans les colonnes des tableaux mais pour dautres raisons. Cela signifie que les diffrences ne sont pas significatives statistiquement pour lhypothse de lappartenance une cause. Rappelons que (alfa), la probabilit de lerreur de genre 1 qui sappelle aussi risque de genre I, reprsente un seuil de signification ncessaire pour connatre la valeur F (Fisher) des tableaux statistiques, dans le cas ci-dessus de 5%. Dailleurs P-value calcul en EXCEL, case F20 de l Image 4 a la valeur 0,59 de sorte quavec une probabilit de presque 60% cest sr que les dispersions des valeurs des colonnes (type dappartenance) ne diffrent pas significativement du point de vue statistique. 2.4 Linstrumentation statistique des pourcentages pour lidentification des relations fausses, caches, illusoires

Une provocation adresse aux recherches exploratoires ou descriptives est celle dtablir les relations de nature causale. Les informations et le degr de connaissance de la ralit analyse se multiplient si on identifie les variables qui peuvent constituer la cause de la variation dun certain vnement et si on identifie la forme fonctionnelle de la dpendance du phnomne des variables explicatives/stimules/critres considers. On peut obtenir des informations sur les structures des systmes, par des calculs lmentaires sur les frquences avec lesquelles sont rpartis les lments caractristiques entre les composantes-systme. Dans le laboratoire de Statistique Informationnelle, lExperimentateur trouve un exemple intressant de relation fausse dans le livre de William Fox, Social Statistics Using Microcase23, page 229. Celui-ci imagine lexemple suivant quil qualifie de ridicule. Il sagit dune certaine relation entre le nombre de cigognes et le taux de naissances. Il prend en considration 200 districts dun pays europen imaginaire. On peut observer lambigut non seulement de la relation suppose, mais aussi du fait quon ne spcifie pas ce que signifie peu de cigognes ou beaucoup de cigognes dans un district ou un taux de naissances lv ou bas. Ainsi apparat le tableau 25 et les suivants conus pour vrifier lhypothse que les cigognes apportent les bbs au monde.

23

William Fox, Social Statistics Using MicroCase, MicroCase Corporation, Bellevue, Washington, 1992.

Relations statistiques fortes, caches, fausses et illusoires

Le taux de naissances rapportes au nombre de cigognes (en frquences) Tableau 25


Frquences relles Taux de naissances Elev Bas total cigognes Peu Beaucoup 44 62 56 100 38 100 total 106 94 200

Pour les tableaux bivaris les pourcentages galisent les distributions par lattribution pour chaque variable indpendante du mme total cest-dire 100 (pourcent). Dautre part ils nous disent combien de cas il y aurait dans une cellule si on tudiait 100 cas de la variable indpendante. Une rgle dor est celle que les pourcentages se calculent dans le cadre des catgories de la variable indpendante, dans notre cas lapparition des cigognes dans les districts. Les mesures relatives peuvent tre exprimes par des proportions rapportes lunit, pourcentages, etc. Le taux de naissances rapportes au nombre de cigognes (en pourcentages) Tableau 26
Mesures relatives Taux de naissances Elev Bas total Cigognes Peu 44.0 56.0 100.0 Beaucoup 62.0 38.0 100.0 total 62.0 38.0 100.0

Sagissant des pourcentages, pour des diffrences plus petites de 10% entre les catgories de la variable indpendante, on conclue quil ny a pas de diffrences significatives et la relation suppose est faible. Elles deviennent modres entre 10 et 30 et au dessus de 30 sont relles et grandes, impliquant lexistence dune relation significative. Le tableau 26 montre une relation modre entre les cigognes et le nombre des naissances puisque seulement 44% des districts avec peu de cigognes ont un taux lev de naissances. La diffrence de 18% impose la catgorie de relation modre. Mais William Fox sait que les cigognes napportent pas les enfants, ainsi il suppose que beaucoup de cigognes se trouvent dans les zones rurales qui ont un taux plus lev de naissances, tandis que dans les villes il y a un nombre plus petit de cigognes et en mme temps un taux de naissances. Il

Relations statistiques fortes, caches, fausses et illusoires

parie en fait sur la prise en considration de lemplacement (variable indpendante), relation entre les cigognes et le taux de naissances. Taux des naissances dans les zones rurales, sur le nombre de cigognes en frquences et pourcentages rapports la caractristique indpendante (nombre relatif de cigognes) Tableau 27
Districts ruraux Frquences (%) Taux de naissances Elev Bas total Districts urbains Frquences (%) Taux de naissances Elev Bas total Cigognes Peu Beaucoup 32 (80%) 56 (80%) 8 (20%) 14 (20%) total 88 (80%) 22 (20%)

40 (100%) 70(100%)110 (100%) Cigognes Peu Beaucoup 12 (20%) 6 (20%) 48 (80%) 24 (80%) total 18 (20%) 72 (80%)

60 (100%) 30 (100%) 90 (100%)

Dans le cas des districts ruraux il ny a pas de diffrences entre les pourcentages de ceux avec un taux de naissances lev, quel que soit le nombre de cigognes, donc 80%, pas cause des cigognes. La mme chose dans le cas des villes o il ny a ni diffrences ni relations, le taux de naissances tant 20%. Le tableau 27. est une composition de deux tableaux bivaris o ne se ralise pas la relation suppose. Ils sont conditionns par la localisation, donc des tableaux conditionns. Nous pouvons arriver ce rsultat appliquant aussi le test dhomognit 2. Pour cela nous avons besoin destimations qui reprsentent srement la situation quand on na aucune relation entre les caractristiques ou les variables prises en compte. Si on na pas notre porte une calculette mais on tient compte de lexistence de seulement deux catgories de chaque variable, nouspouvons calculer les valeurs de 2 tenant compte des notations du tableaux de contingence24 ci-dessous. A,B,C,D sont les frquences combines des lignes et des colonnes, par exemple A le nombre dapparitions des sujets ayant simultanment les alternatives des caractristiques X1 et Y1.

24

par.1.3, LE TEST DASSOCIATION

Relations statistiques fortes, caches, fausses et illusoires

Tableau de contingence avec deux lignes et deux colonnes Tableau. 28


Tableau de contingence Variable Y Y1 Y2 Total Variable X1 A C A+C X X2 B D B+D total A+B C+D N=A+B+C+D

Les frquences estimes dans le cas de lindpendance des variables (homognit, terne, manque de lien) sont calcules conformment : A estim de l intersection X1 et Y1 est donn par le rapport (A+C)x( A+B)/N; B estim = (B+D)x(A+B)/N; C estim = (A+C)x(C+D)/N; D estim = = (B+D)x(C+D)/N. Dans ce cas, la valeur de 2 robuste est donne par le calcul cidessous: N (AD CB)2 (30) (A + C) (B + D) (A + B) (C + D) Les rsultats du calcul sont dans l Image 6 dans la cellule Y13. Utilisant MicrosoftEXCEL nous faisons appel au test 2 ainsi: - on clique sur le menu MicrosoftEXCEL soit sur Insert, Function, soit sur fx, - on slecte Function category: Statistical et des Function name: CHITEST, - puisque la fonction demande comme arguments la range des donnes relle et celle des estimations, nous avons prpar lavance le tableau 29, selon la mthode ci-dessus pour les estimations de A,B,C,D. Taux de naissances pour nombre de cigognes (estimations) Tableau. 29
Estimations pour le taux de naissances Cigognes Peu Beaucoup Elev Bas Total 53.0 47.0 100 53.0 47.0 100 total 106 94 200

- on introduit dans les deux ecrans apparus suite lacceptation du traitement avec CHITEST les adresses o on retrouve les donnes relles et celles estimes, par exemple dans le cas apparu dans lImage 6 ci-dessous, W3:X4 et respectivement W7:X8 la raction tant que dans la case o nous dsirons avoir la valeur de la probabilit de risque calcule pour le test: = CHITEST(W3:X4,W7:X8), Dans limage 6 cellule W10,

Relations statistiques fortes, caches, fausses et illusoires

- on rpte la demande du menu, fonction fx, Function category: Statistical et de Function name: CHIINV avec les arguments =CHIINV(W10,1), oW10 est lemplacement tabli antrieurement et 1 le nombre de degrs de libert ncessaires pour le calcul. Dans le cas ci-dessus on la renverse dans la case W12 et elle est calcule vec la valeur thorique de la case W11 qui est 3,841. Dans lImage 6 on observe dans les cases mentionnes les valeurs 0,011 des probabilites de risque et 6,503 pour la valeur calcule. Comme cette valeur est plus grande que celle thorique, il en rsulte la relation causale mentionne, OUI, il y a une relation entre le nombre de cigognes et le taux de naissances. Si on procde de la mme manire pour les tableaux de contingence conditionns de lemplacement RURAL, URBAIN nous avons lagrable surprise de dcouvrir que cette supposition est fausse mais cause de lemplacement inverse des pourcentages 80% et respectivement 20% pour les deux catgories dalternatives indpendantes, nous avons la certitude que la vraie cause pour lexistence dun nombre diffrent de cigognes tout comme du taux de naissances, est lEMPLACEMENT gographique. Image 6

Relations statistiques fortes, caches, fausses et illusoires

Une illustration de tout cela complte avec des pourcentages informationnels des variables et de leurs alternatives, est offerte sous la forme de lidogramme 1, pour vous inciter la lecture de tout notre ouvrage.
35 % 9%
Relation entre Empl. et No.cigog. confirme par Interaction apport inform. par Taux lev = 3% bas = 3%

Relation entre Emplacement et Taux confirme par Interaction apport inform. par Cigognes peu?= 17 % T beaucoup = 15%

39%

T 9%

36 %

Relation fausse entre X et Y confirme par Interaction apport infor..par rural = 0 % urbain = 0 %

36 %

9%

0%. 0 %

Idogramme 1. Le schma des relations entre les variables dues aux traitements selon la mthode ONICESCU pour linteraction dordre deux

Relations statistiques fortes, caches, fausses et illusoires

2.5

Linstrumentation statistique des pourcentages lidentification des relations potentielles

pour

Restons dans le domaine du fantastique mais prenons un autre exemple du manuel de Statistique sociale25. Nous nous proposons de tester une relation potentielle dcouverte dans les vrais contes de fes et nous pas dans les versions type Disney, et de voir ainsi si la multitude denfants mangs par les Ogres et les Sorcires cre de lindigestion ces monstres. Dailleurs, dans le livre Les Ogres anonymes de Pascal Bruckner on trouve le passage de la rencontre de logre Balthus avec une ogresse dont il tombe brusquement amoureux. Fou damour, Balthus simagine la fin de leur histoire damour:et ils vcurent heureux et mangrent beaucoup denfants. Supposons un questionnaire par INTERNET adress 500 monstres, concernant les coutumes de consommation et leurs consquences

Cher ogre/chre sorcire, quand vous mangez des enfants, lindigestion est: 1) Grande Mais une autre nourriture: 1) Grande 2) Petite 2) Petite

Limage 7 contient la segmentation de la collectivit dans les quatre PROCEDURE catgories et laccs MicrosoftEXCEL pour la
DIDENTIFICATION DE LA RELATION POTENTIELLE.

25

William Fox, Social Statistics using Microcase, MicroCase Corporation, Bellevue, Washington, 1992, pag.238.

Relations statistiques fortes, caches, fausses et illusoires

Image 7
Donnes Nourriture relles Indigestion diffrente Grande 150 Petite 150 total 300 Probabilit de risque Valeur Hi, robuste calcule par CHIINV Y a-t-il enfants 100 100 200 total 250 250 500 Estimations 150.0 150.0

ij

100.0 100.0

1.000calcule par fx CHITEST 0.000Valeur Hi thorique 3.841 0.000Coef.conting.CramerV 0 Relation: Nexiste pas influence? Ho

On observe quil ny a pas une relation entre les prfrences des consommateurs et les indigestions causes par le type de nourriture. La dernire ligne, explicative, du tableau ci-dessus, accepte lhypothse Ho, le manque de linfluence et V de Cramer indique le manque de relation Dhabitude les collectivits cachent des diffrences telles la moyenne arithmtique et les donnes pour lesquelles elle est calcule, donc on peut supposer quil faudrait ne pas cosidrer tous les dmons pareils, les vampires, les ogres, les monstres, les diables et autres cratures. Par la suite nous allons analyser sparment les rponses donnes par les ogres et les sorcires. Il en rsulte que: Image 8
Donnes relles Nourriture Indigestion diffrente Grande 60 petite 140 total 200 Probabilit de risque Valeur Hi, robuste Calcule par CHIINV Y a-t-il Pour sorcire enfants total 140 80 20 160 100 300 Estimations 93.3 106.7

ij

46.7 53.3

0.000calcule par fx 66.964Valeur Hi thorique #NUM! Coef.conting.CramerV influence? Nourriture Relation:

CHITEST 3.841 0.472456 modre

Cest clair quen ce qui concerne lapptit des Sorcires pour les enfants, lindigestion est plus grande par rapport aux autres plats, linfluence des repas digestion tant modre sur la.

Relations statistiques fortes, caches, fausses et illusoires

Voyons le cas des Ogres: Image 9


Donnes relles Indigestion Grande Petite total Nourriture diffrente 90 10 100 pour Ogres Enfants Total 20 110 90 80 100 200 Estimations 55.0 45.0

ij

55.0 45.0

Probabilit de risque Valeur Hi, robuste calcule par CHIINV Y a-t-il

0.000calcule par fx 98.990Valeur Hi thorique #NUM! Coef.conting.CramerV influence? Nourriture Relation:

CHITEST 3.841 0.703526 forte

Les valeurs calcules pour Hi carr sont beaucoup plus grandes et comme nous lavons dj dit, dans ce contexte #NUM montre quon accepte lhypothse H1, tandis que la dernire ligne confirme sur la base de la comparaison entre la valeur calcule, 98,99 et celle thorique 3,841 lexistence de la relation forte entre le type de nourriture et lindigestion, et le test V, mme une relation forte. Cest normal puisque les Ogres nont pas dindigestion ou ont une indigestion lgre quand ils mangent des enfants et une indigestion forte quand ils mangent dautres plats. Dans cet exemple le type de monstre a agi comme une variable pour rprimer, cacher, rduire la relation existant rellement. Dans la statistique, on lappelle initialement variable de contrle, devenant cause de linfluence ralisee, une variable dintervention. Si une relation de premier ordre que nous suspectons exister nest pas vrifie statistiquement, alors il faut quil y ait un facteur qui na pas tait pris en compte. Plus la segmentation est multiple, miette, plus les surprises sont grandes. Voyez comment les prfrences pour la nourriture favorise la discrimination des dmons, quils aient ou non une indigestion: Image 10
Donnes relles Monstres Sorcires Ogres Total Nourriture diffrente 200 100 300 enfants 100 100 200 total 300 200 500 Estimations 180.0 120.0

ij

120.0 80.0

Probabilit de risque Valeur Hi, robuste calcule par CHIINV Y a-t-il

0.000calcule par fx 13.889Valeur Hi thorique 13.887Coef.conting.CramerV influence? Nourriture Relation:

CHITEST 3.841 0.166667 faible

Relations statistiques fortes, caches, fausses et illusoires

La discrimination est faible, et les ogres semblent ne pas savoir quoi choisir, tandis que les sorcires mangent tout ce quelles trouvent. Lindiffrence en ce concerne la nourriture, le manque de prfrences, lindpendance entre les variables du tableau est exprime en estimations. Il aurait t normal que seulement 80 ogres et 100 sorcires prfrent manger des enfants. Nous devons vrifier lhypothse suivante: les ogres volent la nourriture des sorcires. Mais si on segmente la population de monstres en foction du rsultat-indigestion: Image 11
Indigestion Nourriture diffrente Grande Sorcires 60 Ogres 90 total 150 Probabilit de risque Valeur Hi, robuste Calcule par CHIINV Y a-t-il enfants 80 20 100 total 140 110 250 Estimations 84.0 66.0

ij

56.0 44.0

0.000calcule Par fx 38.961Valeur Hi thorique #NUM! Coef.conting.CramerV influence? Nourriture Relation:

CHITEST 3.841 0.394771 modre

Il est vident maintenant que les ogres nont pas de gros problmes avec la nourriture prfre (enfants). Image 12
Indigestion Nourriture diffrente Petite Sorcire 140 Ogres 10 Total 150 Probabilit de risque Valeur Hi, robuste Calcule par CHIINV Y a-t-il enfants 20 80 100 total 160 90 250 Estimations 96.0 54.0 64.0 36.0

0.000calcule par fx 140.046Valeur Hi thorique #NUM! Coef.conting.CramerV influence? Nourriture Relation:

CHITEST 3.841 0.748 forte

Et il est de nouveau clair que les Sorcires ne regrettent pas quand les enfants partent (Hansel et Grethel se sont enfouis), car une telle nourriture est plus convenable du point de vue de la digestion.

Relations statistiques fortes, caches, fausses et illusoires

1%

3%
Relation entre Monstres i Nourr. confirme par Interaction apport inform. par Indigestion grande = 8% petite = 27%

Relation

entre Monstre et

34%

Indigestion cache par Relation apport infor. par Autre nourriture = 16 % T enfants = 18% ?

T 34 % 34 %
et

Relation entre Nourriture Indigestion cachee par Interaction apport infor..par sorcire = 11 % ogre = 25 %

1% 0%. 0 %

4%

Idogramme 2. Le schma des relations entre les variables dues aux traitements selon la mthode ONICESCU pour linteraction dordre deux. Nous allons terminer avec la mme invitation de continuer lire et dchiffrer la signification informationnelle des relations, en construisant lidogramme 2.

PARTEA a III-a
i din a haosului vi, Jur mprejur de sine, Vedea, ca-n ziua cea dinti, Cum izvorau lumine. 3 Proiectarea experimentelor factoriale i statistica informaional 3.1 Identificarea interaciunilor prin experimente factoriale 3.2 Experimente lipsite de garanii statistice 3.3 Importane intrinseci, extrinseci n teoria informaiei

Relaiile statistice puternice, ascunse, false i iluzorii

Proiectarea experimentelor factoriale i statistica informaional

3.1 Identificarea interaciunilor prin experimente factoriale Dac relum aplicaiile statisticii bayesiene n cazul studiat anterior, totul se preteaz pentru aplicarea unui plan experimental cu trei factori la dou niveluri, care poate utiliza instrumentele statistice din anexele Atelierului de Statistic Informaional26. Experimentele factoriale au la baz studierea influenei factorilor asupra datelor observate, n condiiile n care factorii acioneaz simultan, independent i apoi n interaciune cte doi, trei etc. Pentru a realiza acest fapt, se iau n calcul nivelurile factorilor n comparaii aritmetice. Cele mai utilizate experimente de acest fel sunt: experimentul 22 (doi factori cu dou niveluri), experimentul 23 (trei factori cu dou niveluri) i experimentul 32 (doi factori cu trei niveluri). Din baza de date (imaginea 13) din foile de calcul MicrosoftEXCEL, unde apar codificate caracteristicile identificate n fiecare distih al poemului Luceafrul, experimentatorul construiete un tabel cu trei intrri i repetiia dat de cele dou pri de 98 de distihuri, respectiv ultimele 98 de strofe. Procedura este urmtoarea: Pasul 1. Se codific, n cifre arabe sau literal, alternativele evenimentelor ori caracteristicilor sau atributelor studiate, ce vor fi situate n coloanele Imaginei 13 de pe pagina urmtoare. Spre exemplu, coloana A din foaia de calcul MicrosoftEXCEL din Imaginea 13 conine numrul curent al distihului, iar coloana B are codurile: 1 dac Luceafrul este n distih, 2 dac el comunic (indiferent cu cine), 3 dac se vorbete despre el i csua rmne goal dac el lipsete din distih.

26

Niculae V.MIHI, Metode cantitative n studiul pieei, Editura Economic, vol.I-III, 1996-2001.

Relaiile statistice puternice, ascunse, false i iluzorii

Pasul 2. Se construiete o foaie de calcul cu Baza de Informaii ce conine pe linii Distihurile, iar pe coloane, Evenimentele descrise mai sus (prezena unui atribut, personaj, caracteristic). De menionat c prima linie trebuie s conin fie acronimul, fie numele sau codul unui atribut ori caracteristici, niciodat acelai pe parcursul liniei. Spre exemplu B1 conine Luce, D1 Demi. S examinm spre exemplu locaia A14 ce conine distihul 13 unde constatm prezena Luceafrului, fapt pentru care experimentatorul introduce un 1 n locaia B14, constat prezena Luminii i ct de viu s-aprinde el /n fiecare sar,/i introduce un 1 n F14, un NU n locaia G14 deoarece Luceafrul NU comunic, nici Ctlina (H14), dar comunicarea exist datorit faptului c suntem informai despre aciunile Luceafrului care este prezent n distih. n acest mod apare codificarea primar pentru evenimentele legate de Luceafr, Ctlina, Demiurg, Ctlin, Lumin, Micare. .a.(coloanele B, C, D, E, F, S din Imaginea 13). Imaginea 13

Relaiile statistice puternice, ascunse, false i iluzorii

Un exemplu de codificare rapid a urmtoarelor rubrici (coloane) este urmtorul: selectm csua G2 i scriem comanda: =IF(B2=2,Luceafrul i vorbete Ctlinei, NU) Se aaz indicatorul mouse-ului n colul dreapta-jos pn apare un semn + (plus) i se apas partea stng a mouse-ului conducndu-l de-a lungul coloanei G, rezultatul fiind cel din tabel, prezent ncepnd cu distihul 6; Luceafrul nu comunic deoarece coloana B nu conine n aceast parte ilustrat a tabelului nici un cod = 2. Idem pentru coloana H, unde la distihul 24 Ctlina i vorbete Luceafrului i apare n H25 aceast informaie. selectm csua I2 i scriem comanda = IF(B2=1,prezent, IF(B2=2,comunic, NU)) Se aaz indicatorul mouse-ului n colul dreapta-jos pn apare un semn + (plus) i se apas partea stng a mouse-ului conducndu-l de-a lungul coloanei I. Astfel de prelucrri sunt necesare, dac dorim construirea unor noi variabile cu alte alternative, din datele iniiale, de obicei prin concatenare sau dup o alt logic. Coloana J a fost rezervat pentru variabila de control de care avem nevoie n comanda Pivot Table pentru construirea unor tabele cu intrri multiple. i aici se poate proceda rapid prin completarea csuei J1 cu 1 i se repet identificarea cu mouse-ul a semnului + (plus), conducerea acestuia cu mouse-ul de-a lungul coloanei J pn la distihul final. Urmtoarele dou coloane, K i L, sunt completate cu informaii referitoare la natura par ori impar a strofei, respectiv distihului, date ce vor fi utile pentru experimentele urmtoare. Coloana M conine informaii despre CINE comunic i se obine prin utilizarea comenzii: =IF(B2=2,"Luceafrul",IF(C2=2,"Ctlina",IF(D2=2,
"Demiurgul",IF(E2=2,"Ctlin")))).

n cazul nerealizrii unui IF condiional (dac), informaia csuelor M este legat de o FALS comunicare (nu ntre personajele poemului, ci cu cititorul). Coloana N este completat automat prin comanda pe care o gsim n rubrica de dialog deasupra coloanelor identificate ale Bazei de Informaii i anume: =IF(M2=FALSE, "NU","DA"). Rezult o nou variabil dihotomic privind prezena sau nu a comunicrii, indiferent cine comunic.

Relaiile statistice puternice, ascunse, false i iluzorii

La fel se procedeaz pentru a obine informaia ESTE n distih, NU ESTE n distih din coloanele O, P, Q, R, corespondente ale evenimentelor parial analizate mai nainte. Pasul 3. Se selecteaz baza creat, n acest caz $A$1:$U$197. Se apeleaz la comenzile MicrosoftEXCEL n secvena Data, Pivot Table and Pivot Chart Report i se rspunde la ntrebrile: - Where is the data that you want to analyse? Cu rspunsul Microsoft Excel or Data base, - What kind of report do you want to create? Cu rspunsul Pivot Table, Next - Where is the data that you want to use? Range $A$1:$U$197, Next - Where do you want to put the Pivot Table?, locul n care se nregistreaz rezultatul (foaie de lucru nou sau una existent), Layout - n acest moment pe ecran apare n stnga schia unui table cu elementele de identificare: COLUMN, DATA, ROW i PAGE. Se selecteaz variabila pentru coloan, Luceafrul i se trage butonul cu aceast etichet peste COLUMN, butonul cu 1 peste DATA, Comunicare i apoi Ctlina peste ROW, Baza peste PAGE. Coloana Baza conine cifra 1 pentru primele 98 de distihuri (prima parte a poemului) i cifra 2 pentru repetiia din ultima parte a poemului (urmtoarele 98 de distihuri). Va apre n locaia dorit tabelul de mai jos, cu excepia urmtoare: n loc de Experiment cu 3 factori va exista mesajul Sum of 1. Imaginea 14
Sum of 1 PAGE
Baza ROW
COLUMN Luceafrul n distih nu este Total rnd

Comunicare Ctlina
Total DATA 1 coloan Coloana 1 Coloana 2

rnd 1 rnd 2 TOTAL

Relaiile statistice puternice, ascunse, false i iluzorii

Experiment cu 3 factori Baza Comunicare Catalina


n distih nu este se com. in distih nu este nu se com. in distih nu este se com. in distih nu este nu se com. prima 1/2se com. TOTAL nu se com. TOTAL 1 Total TOTAL repetitia se com. ultima1/2 TOTAL nu se com. TOTAL 2 Total Total general

LUCEAFARUL n distih nu este Total gl.

37 0 37 7 25 32 69 13 30 43 1 14 15 58 127

3 1 3 15 10 26 29 25 0 25 6 9 15 40 69

40 1 40 22 35 58 98 38 30 68 7 23 30 98 196

Pentru o explicitare rapid redm urmtoarea imagine, unde cifrele 1 i 2 reprezint baza i repetiia iar # indiferena. Imaginea 15
Experiment cu 3 factori Baza Comunicare Catalina
n distih nu este se com. in distih nu este nu se com. in distih nu este se com. in distih nu este nu se com. prima 1/2se com. TOTAL nu se com. TOTAL 1 Total TOTAL Repetitia se com. ultima1/2 TOTAL nu se com. TOTAL 2 Total Total general
LUCEAFARUL n distih nu este Total gl.

Pentrupp TABELUL 5

1 DaDaDa 1 NuDaDa 1 # Da Da 1 DaDaNu 1 NuDaNu 1 # DaNu 1 # Da # 2 DaDaDa 2 NuDaDa 2 # DaDa 2 DaDaNu 2 NuDaNu 2 # DaNu 2 # Da # # # Da #

1 DaNuDa 1 NuNuDa 1 # Nu Da 1 DaNuNu 1 NuNuNu 1 # NuNu 1 # Nu # 2 DaNuDa 2 NuNuDa 2 # Nu Da 2 DaNuNu 2 NuNuNu 2 # NuNu 2 # Nu # # # Nu #

1 Da # Da 1 Nu # Da 1 # # Da 1 Da # Nu 1 Nu # Nu 1 # # Nu 1# # # 2 Da # Da 2 Nu # Da 2 # # Da 2 Da # Nu 2 Nu # Nu 2 # # Nu 2# # # TOTAL

Relaiile statistice puternice, ascunse, false i iluzorii

Spre exemplu: (1 # DA DA) nseamn n primele 98 de distihuri, indiferent dac este sau nu n distih Ctlina, c Luceafrul comunic. Sau (1 # # DA), indiferent de prezena sau absena protagonitilor poemului, n cte distihuri din prima parte se comunic. Luceafrul este prezent ntr-un numr de distihuri redat de csua ce conine (# # DA #) indiferent de partea poemului, de prezena sau a Ctlinei sau a comunicrii. Evident c (1 # # #) reunit cu (2 # # #), numrul distihurilor din prima i a doua parte, reprezint TOTAL, numrul total al distihurilor. Cifrele reprezint numrul de distihuri care conin factorii i combinaiile lor. Explicitarea este urmtoarea:
Factorul A: Niveluri: 1 Factorul B: Niveluri: 1 Factorul C: Niveluri: 1 CTLINA DA este n Distih LUCEAFRUL DA este n Distih COMUNICAREA DA este n Distih 0 0 0 NU este n Distih NU este n Distih NU este n Distih

Interaciunile de prim ordin sunt date de combinarea factorilor: AB, AC, i BC, iar de ordin secund, ABC. Figura 1 de mai jos arat cele 23 combinaii n care nivelurile A, B, C, sunt succesiv i alternativ la nivel 1 i 0, ilustrarea fcndu-se cnd cu litere mici, cnd cu litere mari.

Relaiile statistice puternice, ascunse, false i iluzorii

AbC 101 Abc 100 (a) Abc ABc 110 (ab)

111 ABC

abC 001 (c) 001 abc

aBC O11 (bc)

000

(1) abc (1)

O1O (b) aBc

Figura 1

Modelul matematic este urmtorul:

xi

j k l

= + i + j + k + i j + i k + j k + i

j k

+ i

j k l

(31)

unde i = 0,1 sunt nivelurile factorului A, j = 0,1 nivelurile factorului B, k = 0,1 nivelurile factorului C, l = 0,1 nivelurile factorului Repetiie, iar xijkl = fiecare dat observat supus influenei celor trei factori independeni, efectelor combinrii lor, repetiiei ct i erorilor experimentale. Cum sunt puse n eviden combinrile factorilor i nivelurile acestora? Explicitarea este fcut n Imaginea 16. Imaginea 16
Efecte pariale i combinate 1 1 1 37 13 50 T1 Frecvenele reprezint numrul de distihuri n urma identificrii relaiei de comunicare ntre Luceafr i Ctlina n prima i a doua parte a poemului, n aceste distihuri. 1 1 0 0 30 30 ta Luceafrul comunic dar NU n prezena Ctlinei. n prima parte el comunic doar cu ea, deci frecvena este 0, iar n a doua parte, comunicarea este fcut ctre Demiurg,, fr prezena Ctlinei, n 30 de distihuri. Nivelul factorilor C B A Repetiie: partea I a II-a Total Parial

Relaiile statistice puternice, ascunse, false i iluzorii

Nivelul factorilor

Repetiie: partea

Total

Efecte

1 0 1 3 25 28 tb Ctlina comunic dar NU n prezena Luceafrului, ceea ce nseamn 3 distihuri n care respondentul este Ctlin n prima parte i tot el, n 25 de distihuri n a doua parte a poemului. 0 1 1 7 1 8 tc Luceafrul i Ctlina sunt n distihuri, dar nu comunic (doar descrieri ale lor sau aciunilor lor) 1 0 0 1 0 1 tab Comunicare fr prezena celor doi, din partea povestitorului, primul distih A fost odat ca-n poveti, /A fost ca niciodat, / 0 1 0 25 14 39 tac Prezena Luceafrului, fr a comunica i fr prezena Ctlinei n distih, n prima i a doua parte a poemului. 1 0 0 15 6 21 tbc Comunicarea altora, fr prezena n distih simultan a celor dou principale personaje. 0 0 0 10 9 19 tabc Numrul de distihuri din prima i a doua parte a poemului fr prezena Ctlinei, Luceafrului ori comunicrii.

Se alctuiesc seturile de ipoteze statistice pentru fiecare factor de influen i combinaiile de dou i trei influene reciproce. Ilustrm n pagina urmtoare efectele directe i de dou combinaii folosind cubul influenelor. Combinarea factorilor pentru evidenierea interaciunilor Tabelul 30
Combinatia factorilor 1 A-Ctlina B-Luceafrul C-comunic AB AC BC ABC Total Partea n care s-a identificat combinaia I-a II-a 37 13 0 30 3 25 7 1 1 0 25 14 15 6 10 9 98 98 Total 50 30 28 8 1 39 21 19 196 Efect simplu i combinat t1 ta tb tc tab tac tbc tabc Total

Relaiile statistice puternice, ascunse, false i iluzorii

Avnd n vedere c factorul A ctig influennd patru subtotaluri i anume ta, tab, tac, tabc, pentru a obine efectul lui A, simplu i combinat, vom scdea din suma ctigului contribuiile altora fr factorul A, i anume ali factori din mediu (1), ctigul lui B fr A, ctigul lui C fr A, i ctigul combinaiei ntre B i C, fr A. Situaia se repet i pentru factorii B i C. Vom organiza datele n tabel astfel nct s obinem aceste noi totaluri. Semnele aritmetice pentru evidenierea interaciunilor Tabelul 31
1 + + + + a + + + + b + + + + c + + + + ab + + + + ac + + + + bc + + + + abc + + + + + + + + Total 196 (-18) (-58) (-20) (-40) 78 46 (-24) T1 Ta Tb Tc Tab Tac Tbc Tabc

Sumele s-au obinut prin adunarea , acolo unde este semnul "+" i prin scderea, acolo unde este semnul "-", a subtotalurilor efectelor pariale i combinate obinute n urma cercetrii i ilustrate n Imaginea 16. Spre exemplu: Ta=-t1+ta-tb-tc+tab+tac-tbc+tabc= -50+30-28-8+1+39-21+19 = -18 (32) Se calculeaz numrul de grade de libertate df1 pentru fiecare factor de influen i combinaia lor i numrul de grade de libertate df2 pentru ntregul tabel. df1 = nr. niveluri - 1 = 2 - 1 = 1 (2, deoarece fiecare factor este determinat de cele dou niveluri ale sale mai puin 1 din raiuni amintite anterior) (33) df2 = [23 (nr. repetiii - 1)] - 1 = 7 pentru = 0,05 avem Ft (1,7) = 5,59 Se determin factorul de corecie C:
C= 196 T1 = = 2401 3 nr. repetitii 23 x 2 2
2 2

(34)

Se determin suma ptratelor SP pe fiecare factor de influen i combinaiile lor: Imaginea 17

Tb = (58) = 210,25 (18) = 20,25 SPB = 3 SPA = 3Ta = 16 16 2 x2 2 x2 2 2 2 2 Tc = (20) = 25 SPAB = Ta b = ( - 40 ) = 100 SPC = 3 3 16 16 2 x2 2 x2
2 2

Relaiile statistice puternice, ascunse, false i iluzorii

( 78 ) 46 = 132,25 SPAC = Ta c = = 380,25 SPBC = Tb c = 3 3 16 2 x2 2 x 2 16


2 2 2 (24) + 2 SPABC = Ta b c = = 36 SPRep = Trep - C = 98 3 98 - 2401 = 0 3 3 16 k =1 2 2 x2 2 Se determin suma ptratelor pe ntregul tabel:

SPT =

i=0 j =0k =0l =1

2 i j k l

- C = 372 + 132 + ... + 92 - 2401= 2005

(35)

Se determin suma ptratelor pentru eroarea experimental:


SPE = SPT-SPA-SPB-SPC-SPAB-SPAC-SPBC-SPABC-SPRepetiie=1101

Se determin media ptratelor MP pentru fiecare factor de influen i combinaiile lui. Deoarece df1 = 1, rezult c media ptratelor va fi egal cu suma ptratelor, SP: MPA = SPA MPB = SPB

MPC = SPC MPAB = SPAB MPAC = SPAC MPBC = SPBC MPABC = SPABC Se determin media ptratelor pentru eroarea experimental:
MPE = SPE 1101 = = 157,2857 7 df 2

(36)

Se determin raportul Fisher calculat pentru fiecare factor de influen i combinaiile lui: 0 MP Re p MPA 20,25 = = 0 < Ft F a = = = 0,13 < F t F Re p = 157 ,29 MPE MPE 157 ,29 25 MPB 210,25 MPC = 1,34 < F t = 0,16 < F t = = F b= Fc= MPE 157 ,29 MPE 157 ,29 MPAB 100,0 MPAC 380,25 = 0,64 < F t = 2,42 < F t (37) = = F ab = F ac = MPE 157 ,29 MPE 157 ,29 MPBC 132,25 MPABC 36 ,0 = 0,84 < F t F abc = = 0,23 < F t = = F bc = MPE 157 ,28 MPE 157 ,29

Relaiile statistice puternice, ascunse, false i iluzorii

De vreme ce Fisher tabelat are valoarea 5,59, ipoteza nul este acceptat n toate testele. Imaginea 18
Repebaza titia prima ultima 1/2 1/2 t(otal) T(otal) Mediul Ctlina LUCEAFR Comunicare AB AC BC ABC T.rep 37 0 3 7 0 25 15 11 98 13 30 25 1 0 14 6 9 98 50 30 28 8 0 39 21 20 196 196 -18 -58 -20 -40 78 46 -24 2401 corecie Sp al variabilei 2401 20.25 210.25 25 100 380.25 132.25 36 0 2005 1101 157.28 Testul Corecie Fisher SPA 0.13 Fa SPB 1.34 Fb SPC 0.16 Fc SPAB 0.64 Fab SPAC 2.42 Fac SPBC 0.84 Fbc SPABC 0.23 Fabc SPRep 0.00 Frep SPT Ftab=5,5 9 SPE MPE

LEGENDA
Notaia presupune

A B C AB AC BC ABC

Ctlina Luceafrul Existena comunicrii Interaciune de prim ordin Interaciune de prim ordin Interaciune de prim ordin Interaciune de ordin secund

Dar s examinm cu mai mult atenie aceste rezultate care se bat cap n cap cu prelucrrile anterioare, care au artat interaciuni (relaii) ntre personajele centrale, Luceafrul i Ctlina. Instrumentaia statistic a procentelor, efectuat pentru a doua jumtate a poemului, a artat chiar o relaie puternic sau, pentru ntregul poem, moderat. Ce se ntmpl?

Relaiile statistice puternice, ascunse, false i iluzorii

3.2 Experimente lipsite de garanii statistice

n literatura de specialitate27 se analizeaz existena unor experimente care nu ndeplinesc cerinele statistice ale proiectrilor experimentale, dar care pot reprezenta cea mai bun abordare n mprejurrile date, producnd o mare cantitate de informaie util. Experimentele care ofer garaniile sunt bazate pe manipularea direct a variabilei experimentale de ctre experimentator, pe atribuirea aleatoare a subiecilor la grupele de control i experimentale i pe controlul asupra variabilelor exterioare care pot opera n cursul experimentului. Manipularea direct, brutal a fost, spre exemplu, mprirea poemului n pri egale, fr acordul autorului care a creat o istorie temporal, un conflict, situaii contrastante plasate special n anumite pri ale poeziei. Acest fenomen s-a observat i n analiza bayesian, cu rezultate semnificativ diferite de abordarea eminescian a introducerii de noi versuri. O analiz mai corect poate fi mprirea poemului n cele dou pri o dat cu dou personaje (Luceafrul, Ctlina) i apoi cu existena tuturor celor patru personaje, unde intervine ordinea n timp i apariia unor noi situaii, contrastante, fa de prima parte a poemului. Sfatul profesorului Mihai C. Demetrescu este acela c n ceea ce privete atribuirea aleatoare a subiecilor la grupele de control i experimentale, un prim substitut al acestei condiii se realizeaz atunci cnd investigatorul poate dovedi c grupele experimentale i de control erau iniial comparabile, naintea nceperii experimentului. O alt cale de nlocuire a condiiei aleatoare este oferit de compararea unor subgrupe. Cercettorul poate selecta din grupul total subeantioane mperecheate din punctul de vedere al asemnrii unor caracteristici, dar care au nregistrat experiene contrastante. De asemenea este posibil restrngerea eantionului, reinndu-se numai acele persoane care au anumite caracteristici ce intereseaz.28 Pentru controlul direct asupra variabilelor exterioare, o recomandare a Profesorului era aceea de a testa ipotezele, de a cuta situaii similare, dar diferite n timp i spaiu, ale problematicii studiate. i totui, ce s-a ntmplat de nu este relevant mcar interaciunea puternic ori moderat ntre distihurile n care figureaz protagonitii poemului? S privim nc o dat calculele efectuate manual i s ne
27 28

M.C.Demetrescu, op.cit., pag.214 M.C.Demetrescu, op.cit., pag.217

Relaiile statistice puternice, ascunse, false i iluzorii

reamintim c decidentul dorete s afle dac rezultatele obinute cu un tratament experimental difer destul de mult de ceea ce se ntmpl n lipsa acestuia, pentru a preciza dac variabila experimental este eficient. El decide acest fapt prin compararea nivelului de zgomot, variaie, analiznd datele n i fr prezena tratamentului, discriminnd ntre zgomotul de fond i cel produs atunci cnd semnalul este prezent, aadar combinaia de zgomot+semnal de zgomot n sine, ntrebndu-se ct de probabil este s se produc evenimentul dac este doar zgomot. Tehnic, suntem interesai de un raport algebric ntre semnal plus zgomot i semnal. Dac semnalul (diferena amplificat) se confund sau are acelai nivel cu zgomotul obinuit, atunci raportul este, algebric, 1. Pentru experimentator raportul este observaie / eroarea estimat. S aruncm o privire asupra diferenei ntre tratament i condiiile de control n contrast cu diferenele care se observ fr tratament. Dac raportul (semnal + zgomot) / zgomot este destul de mare n raport cu zgomot/zgomot, atunci exist acel ceva, semnalul. Raportul Fisher se obine n cazul de mai sus prin raportarea Mediei Ptratelor Variabilei Independente (MPVariabil care n cazul a dou niveluri este identic cu cea a Sumei Ptratelor Variabilei Independente) la Media Ptratelor Erorii (MPE), eroare provenit din mediul de calcul, dar n principal din neluarea n considerare a adevratelor variabile ce introduc variaia datelor. Ea provine tot din amplificarea (ridicarea la ptrat) a datelor examinate conform modelului: SPE = SPT-SPA-SPB-SPC-SPAB-SPAC-SPBC-SPABC-SPRepetiie unde:

SPT =

i=0 j=0k =0l =1

2 i j k l

-C

(38)

Din calcule se vede c SPT este egal cu 2005 cu toat corecia (C=2401) fcut, o valoare foarte mare care face ca intervenia mediului, zgomotul, eroarea s fie foarte mare i anume SPE =1101, deci o dispersie MPE a erorii de 157,28. Cum cea mai mare valoare este MPAC=380,25, raportul dintre MPAC i MPE nu depete valoarea teoretic Fisher pentru modelul de mai sus, 5,59. Este evident c, n structurile reflectate de frecvenele distihurilor pe combinaiile caracteristicilor analizate pentru partea I i a II-a, sunt importante alte asocieri ori relaii dect cele bnuite. Dar s refacem calculele i n grupul de control s punem distihurile impare, iar n grupul experimental, distihurile pare adic n baz i repetiie conform ilustrrii anterioare.

Relaiile statistice puternice, ascunse, false i iluzorii

Avem: Imaginea 19
Experiment cu 3 factori i rep.
distih impar se com. TOTAL nu se com. TOTAL Grand Total se com. TOTAL nu se com. TOTAL 2 Total Grand Total Factori i baza Repetiia distih Combinaii impar distih par 1 23 26 CTLINA 15 16 LUCEAFR 15 13 comunicare 3 5 AB 0 0 AC 20 19 BC 12 9 ABC 10 10 T.rep 98 98 n distih nu este se com. n distih nu este nu se com. n distih nu este se com. n distih nu este nu se com.
LUCEAFR nu este Total gl.

Baza Comunicare CTLINA este in distih


23 15 38 3 20 23 61 26 16 42 5 19 24 66 127

1 Total repetitia distih par

15 0 15 12 10 22 37 13 0 13 9 10 19 32 69

38 15 53 15 30 45 98 39 16 55 14 29 43 98 196

t(otal) 49 31 28 8 0 39 21 20 196

T(otal) Spvariabilei Valori Fisher 196 2401 Corect -16 16 SPA 8.00 Fa -58 210.25 SPB 105.13 Fb -20 25 SPC 12.50 Fc -42 110.25 SPAB 55.13 Fab 76 361 SPAC 180.50 Fac 46 132.25 SPBC 66.13 Fbc -22 30.25 SPABC 15.13 Fabc 2401 0 SPRep 0.00 Frep Corecie 899 SPT 14 SPE Ftab=5,59 2 MPE

De aceast dat, SPT = 899, ce duce la o dispersie a erorii egal cu 2. Distribuirea distihurilor aparine autorului Luceafrului i putem admira armonia structurilor izomorfe, fr diferene semnificative statistic, cu Frep nul.

Relaiile statistice puternice, ascunse, false i iluzorii

n urma calculelor se obin diferene semnificative eseniale att la nivelul factorilor ct i al combinaiilor lor, toate valorile Fisher fiind mai mari ca 5,59. Cea mai important interaciune, n cazul analizat, este Fac=180,5, cea mai nalt cot obinut de vorbreaa Ctlina (a=Ctlina, b=comunic). Imaginea 20
Distihuri Ctlina Comunicare este n distih nu este este n distih 77 31 nu este 29 59 Total 106 90 total 108 88 196
Estimri

58.4 47.6

49.6 40.4

Probabilitatea de risc 0.000 calculata prin fx Valoarea Hi, robust 28.705 Valoarea Hi teoretic Calculata prin CHIINV #NUM! Coef.conting.CramerV Relaia: Exist influen? Ctlina

CHITEST 3.841 0.382693 Moderat

i interaciunea cutat, Fab, este statistic semnificativ, verificat i prin testele clasice din tabelul de mai jos: Imaginea 21
Distihuri CTLINA n distih nu este Total LUCEAFAR este n distih nu este 57 70 127 49 20 69 Total 106 90 196 prin fx CHITEST 3.841 0.250458 slab
Estimri

68.7 58.3

37.3 31.7

Probabilitatea de risc Valoarea Hi, robust calculat prin CHIINV Exist

0.000Calculata

12.295Valoarea Hi teoretic 12.294Coef.conting.CramerV Influen?LUCEAFR Relaia:

Dac reanalizm prima i a doua parte a poemului avnd noua paradigm (distih impar-par drept grup de control i experimental), avem situaiile urmtoare din Imaginea 22.

Relaiile statistice puternice, ascunse, false i iluzorii

NR.DISTIHURI din prima jumatate a poeziei LUCEAFRUL

Imaginea 22
Experiment cu 3 factori i rep. baza distih impar Comunicare se com. TOTAL nu se com. TOTAL Grand Total se com. TOTAL nu se com. TOTAL 2 Total CTLINA n distih nu este se com. n distih nu este nu se com. n distih nu este se com. n distih nu este nu se com. LUCEAFR Este in distih 18 0 18 2 12 14 32 18 1 19 5 13 18 37 nu este Total gl. 1 0 1 10 6 16 17 2 0 2 5 5 10 12 19 0 19 12 18 30 49 20 1 21 10 18 28 49

1 Total repetiia distih par

baza distih impar Mediul Ctlina LUCEAFR comunicare AB AC BC ABC T.rep 18 0 1 2 0 12 10 6 49

repetiia distih par t(otal) 18 1 2 5 0 13 5 5 49 36 1 3 7 0 25 15 11 98 98 -24 -40 18 10 52 28 -54 600.25 Corecie Sp variabilei Testul 600.3Corecie Fisher 36SPA 13.26Fa 100SPB 36.84Fb 20.25SPC 7.46Fc 6.25SPAB 2.30Fab 169SPAC 62.26Fac 49SPBC 18.05Fbc 182.3SPABC 67.14Fabc 0SPRep 0.00Frep 581.8SPT 19SPE 2.714MPE Ftab=5, 59

Surpriz: interaciune de ordin doi, de valoare maxim, Fabc=67,14, mult mai mare dect Ftab=5,59. Interaciunea rezult din combinaia Luceafr n distih i combinaia comunicare, Ctlina, dup cum se observ din imaginea de mai jos, cu frecvene ale distihurilor condiionate de prezena n distih a Luceafrului.

Relaiile statistice puternice, ascunse, false i iluzorii

Luceafrul este n toate cele 69 distihuri

Imaginea 23
Comunicare

Ctlina
n distih nu este Total

se com.

nu se com.

total 43 26 69

Estimri

36 1 37

7 25 32

23.1 13.9

19.9 12.1

Probabilitatea de risc 0.000 Valoarea Hi, robust 41.568 Calculata prin CHIINV #NUM! Exist influen?

calculat prin fx CHITEST Valoarea Hi teoretic 3.841 Coef.conting.CramerV 0.776166 Puternic comunicareRelaia:

Luceafrul nu este n 29 distihuri

Imaginea 24
comunicare

Ctlina
n distih nu este total

se com.

nu se com.

total 18 11 29

Estimri

3 0 3

15 11 26 0.153 2.045 2.045 influen?

1.9 1.1

16.1 9.9

Probabilitatea de risc Valoarea Hi, robust Calculata prin CHIINV Exist

calculat prin fx CHITEST Valoarea Hi teoretic 3.841 Coef.conting.CramerV 0.265543 Relaia: nu este Ho

Verificarea cutat, Fab, este ca mrime statistic nesemnificativ, cu valoarea 2,3 i exprim independena, aa cum primele teste au relevat, mai devreme, lipsa unei poteniale legturi, mai mult, omogenitate, deci independena evenimentelor (Luceafrul, Ctlina prezeni n distih sau nu). S reamintim cum s-a calculat SPAB respectiv MPAB, necesare pentru identificarea interaciunii prin testul Fisher: Tab = t1 t a t b + t c + t ab t ac t bc + t abc =36-1-3+7+0-25-15+11=10 (39)
2 2 Ta b = ( 10 ) = 6,25 SPAB = 3 16 2 x2 MPAB 6,25 = = 2,3 < Ft Fab = MPE 2,714

(40) (41)

Relaiile statistice puternice, ascunse, false i iluzorii

n a doua jumtate a poemului, situaia experimentului statistic cu trei factori la cte dou niveluri este prezentat n imaginea de jos:
NR.DISTIHURI din a doua jumatate a poeziei LUCEAFRUL

Imaginea 25
Experiment cu 3 factori i rep. LUCEAFAR Baza comunicareCTLINA este in distih
distih impar se com. TOTAL nu se com. n distih nu este se com. n distih nu este nu se com. 5 15 20 1 8 9 29 8 15 23 0 6 6 29 58

nu este Total gl.

1 Total repetiia distih par

TOTAL Grand Total se com. n distih nu este TOTAL Se com. nu se com. n distih nu este TOTAL nu se com.

2 Total Grand Total baza repetiia distih distih impar par t(otal) Mediul Ctlina LUCEAFARUL comunicare AB AC BC ABC Total repetiie 5 15 14 1 0 8 2 4 49 8 15 11 0 0 6 4 5 49 13 30 25 1 0 14 6 9 98

14 0 14 2 4 6 20 11 0 11 4 5 9 20 40

19 15 34 3 12 15 49 19 15 34 4 11 15 49 98

Sp variabilei Testul 98 600.25Corecie Fisher 8 4SPA 2.00Fa -18 20.25SPB 10.13Fb -38 90.25SPC 45.13Fc -52 169SPAB 84.50Fab 24 36SPAC 18.00Fac 18 20.25SPBC 10.13Fbc 32 64SPABC 32.00Fabc 600.25 0SPRep 0.00Frep corecie 417.75SPT 14SPE Ftab=5,59 2MPE

Relaiile statistice puternice, ascunse, false i iluzorii

Cea mai mare valoare pentru semnalarea interaciunii ntre Luceafr i Ctlina este 84,5 obinut conform calculelor de mai jos: Tab = t1 t a t b + tc + t ab tac t bc + t abc =13-30-25+1+0-14-6+9=-52 (42)
2 2 Ta b = ( 52 ) = 169 SPAB = 3 16 2 x2

(43)

Fab =

MPAB 169 = = 85,5 > Ftab MPE 2


(44) Imaginea 26

Nivelul factorilor C B A

Repetiie: distih impar par

Total parial

Efecte pariale i combinate

1 1 1 5 8 13 T1 Frecvenele reprezint numrul de distihuri n urma identificrii relaiei de comunicare ntre Luceafr i Ctlina n prima i a doua parte a strofei, n aceste distihuri impare i pare. 1 1 0 15 15 30 ta Luceafrul comunic, dar NU n prezena Ctlinei. n aceast a doua parte el comunic cu Demiurgul,, fr prezena Ctlinei, n 30 de distihuri. 1 0 1 14 11 25 tb Ctlina comunic, dar NU n prezena Luceafrului, ceea ce nseamn 14 distihuri impare n care respondentul este Ctlin i tot cu el, n 11 distihuri pare n a doua parte a poemului. 0 1 1 0 1 1 tc Luceafrul i Ctlina sunt ntr-un singur distih par, dar nu comunic (doar descrieri ale lor sau ale aciunilor lor) 1 0 0 0 0 0 tab n partea a II-a a poemului nu exist comunicare fr prezena unuia dintre personajele centrale. 0 1 0 8 6 14 tac Prezena Luceafrului, fr a comunica i fr prezena Ctlinei n distihurile impare i pare. 1 0 0 2 4 6 tbc Comunicarea altora, fr prezena n distih, simultan, a celor dou principale personaje. 0 0 0 4 5 9 tabc Numrul de distihuri impare i pare din a doua parte a poemului, fr prezena Ctlinei, a Luceafrului ori comunicrii.

Relaiile statistice puternice, ascunse, false i iluzorii

Reamintim c cele 392 de versuri ale Luceafrului, distribuite n 98 de catrene (din ediia maiorescian), le-am distribuit n 196 de distihuri, un numr acceptat statistic ca o colectivitate ce merit analizat cu mai multe categorii de instrumente statistice. Dup cum vom vedea, ntrebri incitante se nasc n urma aplicrii modelelor energetice, utiliznd entropia i energia informaional, concepte de baz n Teoria informaiei pentru evidenierea ctigului informaional, care ne vorbesc prin limbajul numerelor i semnelor. Acum, n toat dizarmonia faptelor se intuiete undeva ordinea, o ordine care nu vrea s se extind i n lumea concretului de azi. Este la Eminescu legea interioar care uneori se las regndit, alteori nu. Un labirint de miraje, ecouri i oglinzi, de uitri i de anamneze, de masive construcii i de paragini, n care i-au lsat urmele i clipele i eonii, i timpul din lume i cellalt.29 i tocmai de aceea munca cu noi modele merit s fie perfecionate, are un rost. Ai vrea ca ele s aduc ordinea i informaia acolo unde se vede doar dezordinea. i deodat cuvintele lui Constantin Noica i descifreaz sensul, dndu-i cumva o certitudine a demersului ntreprins, i totui, trecerea geniului prin lume, ca i trecerea lui Hyperion pedeasupra mergtorul las n urm-i o dr de lumin i un zvon al ordinii. Te ntrebi ct de important e ncrctura informaional n demersul faptelor, n ce direcii, bnuite sau nebnuite, ne arunc dihotomia a ti-a nu ti. Ctlin nu tie i rmne senin. Ctlina tie i totui nu e zbuciumat de dileme, cci ceea ce tie nu-i permite (prin nelegerea lucrurilor) s se ridice la nivelul lurii unei decizii care i-ar schimba crucial existena. Hyperion tie cel mai mult i poate lua, n consecin, decizia fundamental, care, interacionnd cu deciziile celorlali, nu poate fi aplicat. Iat marea lecie a Luceafrului, nu trebuie s privim lucrurile doar n general (global), determinaiile individuale ale elementelor dau dinamism i de aceea trebuie cutat sensul din lucruri, fapte, fenomene, evenimente, ce este n sinea modelelor propuse mai jos. n final, Luceafrul ne arat ce nseamn un potenial de schimbare. Este o tem de reflecie profund pentru ziua de azi, aceea de a nu privi lucrurile (sistemele) rigid, ci a gndi tot timpul c, n mod firesc, sub un regim uor schimbat (ceea ce e oricnd posibil) ar aprea un sistem cu totul nou. Lucrurile sunt perfect valabile n ordinea culturii sau spiritului, a economicului sau socialului.

29

Petru Creia, Testamentul unui eminescolog, Editura HUMANITAS, 1998, pag.36.

Relaiile statistice puternice, ascunse, false i iluzorii

De fapt, Luceafrul ne nva ce nseamn devenirea, raportul dintre dorin i timp, dintre voin i micare, ce nseamn ntreptrunderile cu influenele lor, micare-nemicare, sus-jos, ntuneric-lumin etc. Dar, oare, nu cumva adevrata provocare a Luceafrului e aceea de a gsi acea cumpn a ordinii i echilibrului prin care individualul s se regseasc n general, iar generalul s aib ca model individualul?
3.3 Importane intrinseci, extrinseci n teoria informaiei

ndeletnicirile zilnice ne fac s utilizm, fr s ne dm seama, conceptul de informaie ntr-o varietate imens de situaii deoarece, fr o informare precis i proaspt - la zi, greim i judecm eronat. Spre exemplu cutm firme, bnci sau societi comerciale dup ora nchiderii deoarece nu le cunoatem orarul, sau ajungem la gar dup plecarea trenului, pentru c am avut acas vechiul mers al trenurilor. n Echilibrul spiritual. Studii i eseuri, 1929-1947, lucrare editat de Humanitas n 1998, Constantin Noica30 spunea n conferina cu titlul Form, formare, informare, inut la radio n noiembrie 1943, urmtoarele: Nimeni nu tie destul astzi. Toi vrem s fim informai. Cu privire la ce? Nu tim exact. Dar am vrea s tim, s aflm, s putem spune ntr-o lume n care n fiecare clip avem impresia c se ntmpl ceva, fr ca noi s fim la curent. Exist, n vremuri de mare densitate, cum sunt cele de azi, o suprem valoare, din care omul i face hrana zilnic: informaia. S tii ceva, chiar inexact, dar s tii. E aproape un narcotic. Clasificrile informaiilor sunt multiple. Spre exemplu, privim posturile TV Animal Planet sau Discovery i obinem informaii despre fauna i flora din lume sau despre ultimele descoperiri tiinifice. Urmrind telenovele obinem informaii despre personaje i caractere fictive, situaii de via i posibile soluii preambalate informaional. Ziarele conin informaii despre argumente politice, evenimente sportive, tiri de ultim or. Discuia cu un prieten te informeaz despre cunotinele comune. Din ce n ce mai mult, conceptul de informaie este asociat cu ideea de valoare a surprizei. Aa cum argumentau n 1982 Tsichritzis i Lochovsky31, informaie este ceea ce obinem cnd nu tiam ceva nainte,
30 31

Constantin Noica, Echilibrul spiritual. Studii i eseuri, 1929-1947, Bucureti, Editura Humanitas, 1998 Tsichritzis, D.,Lochovsky, F., Data Models, Prentice-Hall Englewood Cliffs, NJ, 1982

Relaiile statistice puternice, ascunse, false i iluzorii

este acum un increment al cunoaterii. Se poate considera o similitudine cu acel concept de mrime din fizic. Mrimea poate nsemna lungimea, greutatea, volumul sau masa n funcie de aspectul care l preocup pe observator. n mod similar, informaia are mai multe nelesuri, semnificaii, depinznd de modul cum este msurat. Shannon i Weaver32 n anul 1949 considerau informaia ca msur a frecvenelor relative ale semnalelor ce vin de la o surs. Claude Shannon i Warren Weaver, ingineri ai laboratoarelor Bell din SUA, i-au nscris cercetrile n linia fizicienilor Carnot i Boltzmann, n sensul trecerii de la entropie la informaie (entropia n cretere ireversibil n orice sistem nchis, o msur a gradului de complexitate sau de dezordine). Spre exemplu, emiterea de semnale, mesaje, semne, anuleaz sau reduce entropia, iar informaia ntr-un sistem deschis este msura reducerii incertitudinii i dezordinei (negentropia). n fapt, accentueaz Bernard Mige33, msurarea informaiei se ntemeiaz pe o idee de baz foarte simpl: suntem informai ncepnd din momentul n care ni se adreseaz un mesaj pe care nu-l cunoatem sau care cuprinde multe elemente noi i imprevizibile. Valoarea acestui mesaj se msoar printr-o anumit mrime, definit ca fiind informaia i care poate fi neleas ca o cantitate de noutate transmis receptorului. n acelai context Jean Meyriat34 scrie: Informaia nu este un lucru dobndit, un obiect constituit, ci o modificare, prin adugare sau transformare, a strii de cunoatere a celui care o primete. Alte variante iau n considerare modele cibernetice, ori abordri empirico-funcionale ale mijloacelor de informare n mas sau metode structurale n aplicaii lingvistice, spre exemplu semantica n ideea de neles, care deriv din semiotic, din teoria semnelor. Semiotica este preocupat de tot felul de semne, spre exemplu cum sunt ele folosite n literatur, teoria comunicrii, antropologie i mai ales modul n care oamenii pot obine nelesuri din aceste semne diferite. Este, n general, acceptat examinarea acestor semne n trei etape: (1) analiza sintaxei deci a structurii i regulilor crora li se subordoneaz (vezi sintaxa limbajelor naturale i formale - matematica i limbajele de programare a calculatoarelor),
32 33 34

Shannon, C., Weaver, W., The Mathematical Theory of Communication, University of Illinois Press, 1949 Bernard Mige, Gndirea comunicaional, Cartea Romneasc, Colecia Syracuza, 1998 Meyriat J., Information vs Communication?, n Laulan A.-M., Lespace social de la communication. Concepts et thories, Retz/CNRS, Paris, 1986, p. 65

Relaiile statistice puternice, ascunse, false i iluzorii

(2) analiza semanticii care guverneaz relaiile ntre ceea ce ele sunt i ceea ce semnific; (3) analiza utilizrii lor n practic, convenabilitatea, perceperea lor, .a.m.d.
3.3.1 Entropia i Energia Informaional, msuri ale importanei atributelor

Procesul dificil, contradictoriu i fascinant, prin care elementele universului informaional sondat de ctre decident sunt legate prin relaii, interacioneaz n mod multiplu i se despart n adevrate i false legturi iluzorii, puternice, moderate sau slabe ori inexistente, se regsete ntr-o organizare superioar, de sistem de sisteme. n literatura de specialitate, conceptul de importan a atributului sau variabilei ori caracteristicii este legat de cantitatea de informaie care poate fi transmis decidentului. Aceast cantitate de informaie este determinat de adaptarea convenabil a msurii entropiei.35 n acest fel este calculat ponderea respectiv a importanei utiliznd entropia, ilustrnd cum importana atributului este intrinsec legat de un set dat, particular, de alternative de decizie. Orice schimbare n setul de alternative duce inevitabil la o schimbare a ponderilor importanei. n lucrarea Legea entropiei i procesul economic, Nicholas Georgescu ROEGEN arat c: .... Legea Entropiei nsi apare drept cea mai economic dintre toate legile naturale... Faptul c o lege natural se mpletete cu fiecare aspect al comportamentului omenesc este att de obinuit, nct nu ne-am atepta ca studierea influenei Legii Entropiei asupra aciunilor economice ale omului s prezinte vreo complicaie neobinuit... Oricrui cercettor i va veni greu s nchid ochii n faa unei perspective att de atrgtoare i s-i vad netulburat de treburile obinuite... Totui proiectul (de a te aventura n astfel de domenii) merit s fie ntreprins. El scoate la lumin faptul c relaia dintre procesul economic i Legea Entropiei nu este dect un aspect al unui fapt general, anume c aceast lege constituie baza economiei vieii la toate nivelurile...Gradul de ignoran are n comun aceleai dificulti analitice cu noiunile de ordine (sau dezordine) din termodinamica statistic sau cu cele ale nivelurilor preurilor sau ale produsului naional din economia politic. Toate aceste variabile nu sunt msurabile nici mcar n sens ordinal. Li se aplic relaiile: mai mult sau mai puin, dar numai dac aceste relaii sunt interpretate dialectic. Ca urmare, tot ce putem face este s stabilim pseudomsuri pentru
35

Zeleny M.: Multiple Criteria Decision Making, McGraw Hill Book Company, 1982.

Relaiile statistice puternice, ascunse, false i iluzorii

fiecare din ele. Din cauza naturii dialectice a pseudomsurilor, nu exist nici o cale de a elimina acele cazuri n care dou pseudomsuri ale aceleiai variabile duc la ordonri cu totul diferite. O ilustrare instructiv pentru aceste din urm observaii o constituie propunerea lui Octav Onicescu de a msura ordinea (ori informaia) prin ceea ce el numete energie informaional36: s s (45) <<energie informaional>>: ( Ni )2 = f i2 , 1 1 N n care fi = fi/N. Aceasta constituie desigur o pseudomsur a ordinii tot att de bun ca i ceea ce numim n prezent negentropia per particul: s s (46) H = ( N1 ) ln ( N1 ) = f i ln (f i ) .u 1 1 N N n concepia lui Zeleny, ponderea importanei Ii proprie atributului i, ca o msur a importanei lui relative ntr-o situaie decizional dat, este direct legat de informaia medie intrinsec generat de ctre setul dat, de altenative posibile prin atributul i i n paralel mai este legat de Wi, o msur subiectiv a acestei importane, ca un produs al personalitii profesionale, culturale, psihologice a decidentului. Sunt deci dou componente care intr n calculul lui Ii: un concept relativ stabil al importanei Wi, aprioric determinat, reflectnd scorurile conferite de cunotinele i experiena decidentului i un concept relativ instabil, dependent de context, al importanei informaionale, Ri, bazat pe un set particular de alternative posibile ntr-o situaie decizional dat. Aceast definiie a importanei atributului devine operaional numai dac valoarea medie a informaiei intrinseci, transmis decidentului prin oricare atribut i, poate fi msurat. Cu ct sunt mai distincte frecvenele, scorurile, ori nivelurile atribuite unei caracteristici mai difereniate, cu att mai mare este informaia decizional coninut i transmis de ctre atribut. Deci putem spune ca n exemplul anterior, cu ct sunt mai distincte scorurile, ori nivelurile atribuite unei caracteristici de sistem, cu att mai mare sunt nu numai intensitatea contrastant a unui atribut, dar i energia lui informaional, deci informaia pentru decizie transmis de atribut.

36

Nicholas Georgescu Roegen, Legea entropiei i procesul economic, Editura Politic, Bucureti, 1979

Relaiile statistice puternice, ascunse, false i iluzorii

Fie vectorul Xi = (xi1, xi2, ...., xim) ce caracterizeaz setul X n termenii atributului i. S privim figura de mai jos, o imagine EXCEL n care celulele (csuele ptrate din jocul de AH) ce conin date i informaii sunt la intersecia liniilor numerotate pe marginea stng a ecranului cu numerele naturale n ordine cresctoare, ncepnd cu 1, 2 etc. i coloanele codificate n ordine alfabetic, adugnd mereu o liter de baz, A, B etc. n partea de sus a ecranului Imaginea 27

Spre exemplu, prezena Luceafrului (vectorul coloan X1) n primele 98 distihuri (vezi E5) este semnalat de 43 ori n prezena Ctlinei (x11 n C3) i de 26 de ori n lipsa ei (x12 n C4) Avem totalul n csua C5: Xi = xik , i = 1,..., n.
k =1 m

(47)

Aici n este egal cu numrul de stri (prezena/absena n distih a Ctlinei) n cazul nostru, dou.

Relaiile statistice puternice, ascunse, false i iluzorii

stare 1 p( x 1) (48)
X :

stare 2 .... stare i p( x 2 ) .... p( x i )

stare r p( x r )

CinDistih nuinDistih LinDistih : 0.623 0.377

n cazul apariiei Luceafrului n prima parte a poemului, logica spune c este important prezena acestuia dac Poetul l caracterizeaz n ct mai multe distihuri (importana extrinsec, Wi). Importana instrinsec, din interiorul setului de alternative, este realizat de existena Ctlinei n distih ori inexistena (dou niveluri). Dac frecvena distihurilor este relativ egal pe cele dou stri, nu avem nici o informaie util n legtur cu aportul Ctlinei la punerea n valoare a Luceafrului. Dac distihurile n care figureaz mpreun sunt multe, importana ntlnirilor este mare i poemul se mbogete datorit dialogului lor. Dar dac numrul mare de distihuri este dominant n absena Ctlinei n distih? Atunci importana global (extrinsec, dat de Poet i intrinsec, dat de structura amintit) a Luceafrului este aceeai, n schimb interpretarea este diferit deoarece absena Ctlinei las loc altor factori, caracteristici care amplific informaia necesar pentru a-l cunoate mai bine pe Hyperion. Media informaiei intrinseci (din interiorul setului de alternative necesare deciziei), ce ajut studiului datelor i procesului de decizie, este calculat clasic, nsumnd produsele ntre stare i probabilitatea ei de apariie p(x1) (frecvena relativ). Dac, n cazul unor banale note colare, pentru calculul mediei am considera starea, nota, ce trebuie nmulit cu frecvena ei de apariie, prin nsumarea produselor ntre note i frecvene i raportarea la numrul total al notelor se afl media acestora. n cazul probabilitilor rezultate din frecvene (vezi comentariul laureatului Nobel, Nicholas Georgescu ROEGEN) nu se mai face raportul (deoarece probabilitile nsumate dau unitatea). n cazul entropiei, starea este redat de logaritmul probabilitii ei, iar entropia este media distribuiei: (49) ln p ( x 1) ln p ( x 2 ) .... ln p ( x i ) ln p ( x r ) X : p( x 1) p( x 2 ) .... p( x i ) p( x r ) H(X) = M1 (X) = p( xi) * ln p(xi )
i=1 r

(50)

Relaiile statistice puternice, ascunse, false i iluzorii

n acest caz, msura energetic informaional (negentropic) a atributului i este: (51) p ( x 1) p(x 2 ) .... p(x i ) p(x r ) X : p( x 1) p( x 2 ) .... p( x i ) p( x r ) Pentru energie, starea este redat de probabilitatea de apariie a ei, iar energia informaional este o medie:
E(X)= M2 (X) = p( xi) p(xi )
i=1 r

(52)

0.623 0.377 2 2 X1 : 0.623 0.377 , E(X1) = 0.623 + 0.377 = 0.53 Se observ c, pentru cele m niveluri, energia informaional va fi

x E(Xi ) = ( ik ) k =1 Xi unde: o <=( xik /Xi)<= 1; i


m

(53)
1/m <= E(Xi) <= 1.

Dac toi xik sunt identici pentru i dat, atunci xik/Xi = 1/m i E(Xi) i atinge valoarea minim, deci Emin = 1/m. Pentru cazul a dou stri, 0.5. Din cele de mai sus rezult c informaiile obinute pot fi modificate prin scoaterea sau adugarea unui nou atribut. Pentru comparabilitatea sistemelor cu numr diferit de niveluri, este nevoie de normalizare, adic aducerea valorilor n intervalul [0, 1]. Putem calcula msura entropic a intensitii contrastante a atributului i: m x H( X i ) = -K xik ln( ik ) (54) Xi k =1 X i unde K > 0, i o <=( xik /Xi)<= 1; iar H(Xi) => 0. Dac toi xik sunt identici pentru un i dat, avem xik/Xi = 1/m, iar H(Xi) i atinge valoarea maxim, deci Hmax = ln m. Atunci, prin atribuirea unei valori lui K = 1/Hmax obinem: 0 <= H(Xi) pentru toi Xi , (55) H(Xi) <= 1.

Relaiile statistice puternice, ascunse, false i iluzorii

xi = (xi1 , xi2 , ..., xim ) Wi i = 1, ..., n


X
i

k = 1

ik

i = 1, . . . , n

ENTROPIA Hmax = ln(m) K = 1/Hmax


H (x i) = K

ENERGIA Emin = 1/m


m

k =1

x x ik l n ik x i x i

x E (x ) = x
m ik i k =1 i

K > 0, 0 x ik 1 H (x i) 0
EN T R OPY =

0 x 1
ik

1 / m E (x ) 1 = E
i

max

H (x
1

Ea ( xi ) =

E ( xi ) E min = Ri ( xi ) Emax E min

R =
i

1 n Entropy

(1 H ( x ))
i

E n e rg y =

i=1

( x

R i = E a ( x i ) / Energy
0 Ri 1

R
i =1

=1

Ii = Ri Wi

Ii =

R i Wi
i =1

R i Wi

Relaiile statistice puternice, ascunse, false i iluzorii

Figura 2

Aceast normalizare este necesar pentru scopuri comparative. S recapitulm: csuele C7 i C8 conin probabilitile (frecvenele relative) ale existenei sau nu a Ctlinei, condiionate de prezena Luceafrului n acelai distih, iar D7 i D8 probabilitile condiionate de inexistena lui. n acest caz, E7 i E8 reprezint strile Ctlinei, indiferent de ali factori de influen, cu excepia Poetului care a surprins-o n distih. Csuele F7 i F8 respectiv G7 i G8 arat modul de prelucrare prin utilizarea EXCEL a probabilitilor amintite. Pe aceast baz se calculeaz energiile informaionale conform modelului (4), n csuele C18 i D18. Importana extrinsec este considerat n acest caz aceea dat de Poet, care descrie aciunile Luceafrului n prima parte n proporie de 70% (csua C10 avnd ca rezultat raportul numerelor din csuele C5/E5) i nu l surprinde n proporie de 30% (csua D10 avnd ca rezultat raportul a 29 de distihuri din 98, n prima parte a poemului) Entropia, conform modelului de mai sus (2), este negativ datorit logaritmului din numere subunitare (raportul prii pe ntreg) i nu este comparabil cu alte structuri cu numr diferit de componente, aa c vom proceda la amintita normalizare, iar n csuele C11 i C12 vom avea rezultate ale calculelor conform modelului (6) i respectiv exemplul din csua F11 unde obinem H(Xi) = - (C7*LN(C7)+C8*LN(C8))/LN(2) Entropia total a setului X (existena sau nu a Luceafrului)este definit prin relaia:

ENTROPIA = H( X i ). ,
i=1

(56)

Se observ c, dac H(Xi) este din ce n ce mai mare, cu att mai mic este informaia transmis de ctre atributul i (haos prelnic). n cazul de mai sus, ENTROPIA este calculat n csua E11 prin nsumarea valorilor din C11 cu D11. Spre exemplu, dac H(Xi)= Hmax = ln m, atributul i nu va transmite nici o informaie folositoare (haos total). El poate fi eliminat n acest moment din viitoarele situaii decizionale. Deoarece ponderile Ri ale importanei sunt contrar legate de H(Xi), se folosete 1 - H(Xi) (negentropia) n locul lui H(Xi); se normalizeaz pentru a fi siguri c 0<= Ri <= 1.

Relaiile statistice puternice, ascunse, false i iluzorii

i =1

Ri = 1
1 (1 - H( Xi )) n - ENTROPIA

Ri =

(57)

Avem aadar n csua C13 rezultatul calculelor din (1-C11)/(2-E11). n cazul energiei informaionale, relaia de mai jos normalizeaz aceeai situaie, normalizare fcut nu numai cu scopuri comparative, de altfel reale, pentru sisteme cu diferite niveluri: E( X i ) - E min (58) ; E0 ( X i ) = E max - E min aa nct 0 <= En <= 1. Energia minim Emin n cazul celor dou stri este , iar energia maxim, Emax=1, atunci n csua C12 avem rezultatul calculelor 2*(C7^2+C8^2) 1. Energia total a setului X (nsumarea csuelor C12 i D12) este definit prin relaia:

ENERGIA = E( X i ).
i=1

(59)

Cu ct E(Xi) este mai mare, cu att este mai mare informaia transmis de ctre atributul i (pentru care H(Xi) este minim). Dac energia informaional ajustat este zero (proporii egale), atributul i nu ofer nici o informaie folositoare i n unele cazuri poate fi eliminat din viitoarele situaii decizionale: Ri (csuele C14 i D14) este chiar En(Xi), energia informaional ajustat normalizat pentru atributul i. Restul de comentariu din calculul entropiei rmne valabil i n acest caz. Informaiile obinute pot fi modificate prin scoaterea sau adugarea unui nou atribut sau adugarea unei noi stri ori a unei noi alternative de decizie. Cu ct sunt mai puin divergente scorurile, nivelurile (frecvenele, ponderile) xik, cu att mai mici sunt Ri i deci cu att mai puin importante sunt i devin atributele i. Dac scorurile (nivelurile) tuturor atributelor sunt egale, atunci Ri = 0, importana atributului este nesemnificativ (nul). n mod similar, dac Ri = 0, atunci, chiar dac Wi =1, atributul nu poate fi utilizat pentru luarea deciziei. Cel mai important atribut este ntotdeauna cel care are ambele Wi i Ri la cele mai nalte cote posibile. Zeleny apreciaz c o ipotez posibil a importanei globale a unui atribut, Ii, poate fi formulat prin produsul: (60) I i = Ri .W i ,

Relaiile statistice puternice, ascunse, false i iluzorii

n csuele C15 i respectiv D15 sau dup normalizare (raportare la valoarea csuei E15): R i . Wi , i = 1,..., n , (61) Ii = n . Wi Ri
i -1

valorile fiind calculate n csuele C16 i D16, de unde se vede c existena Luceafrului n relaie cu existena sau inexistena Ctlinei n distih, este mai important n prima parte a poemului dect inexistena lui. n E10 am calculat energia informaional ajustat (vezi explicaia din csua F9) a prezenei Ctlinei n distih (E(total)). Pentru a calcula aportul informaional al Luceafrului la schimbarea structurii privind prezena Ctlinei n distih, procedm la diferenierea prezenelor condiionate de structura de baz. Atunci aportul informaional (AI) este calculat n csua C21 conform modelului:
Aport = (E(X1) * W1 + E(X2) * W2) E( total)

(62)

unde E(total) este energia informaional a structurii n care Ctlina se afl n prima parte a poemului, E(X1) i E(X2) energiile informaionale ale structurilor n care Ctlina se afl n prima parte a poemului, calculate (condiionate) pe alternativele existenei sau nu a Luceafrului n prima parte a poemului, deci importanele intrinseci. Ponderile W1 i W2 sunt importanele extrinseci (proporia numrului de distihuri n care Luceafrul se afl, respectiv nu se afl n prima parte a poemului). Aportul informaional AI este dat de diferena dintre energia medie condiionat i energia structurii de baz (din coloana total). Pentru uurina citirii modelelor informaionale, vom utiliza litera L pentru Luceafr, C pentru Ctlina i P, poem. Atunci energia medie condiionat rezult din: (63) E ( x 1) E(x 2 ) E(C/L) : W1 W2 iar (62) devine (64) i se citete aportul informaional al structurii Luceafr la schimbarea structurii Ctlina sau presiunea exercitat asupra schimbrii structurii de baz (fr nici un fel de condiionri, influene, coloana total)
AI(C/L)= E(C/L) E(C)

(64)

Relaiile statistice puternice, ascunse, false i iluzorii

n C21 vom avea rezultatul combinaiei = C12 x C10+D12 x D10- E10. Valoarea rezultat este zero, deci existena sau nu a Luceafrului n distihuri nu aduce nici o contribuie, cele dou personaje sunt tratate independent i egal de ctre poet n prima parte a Poemului Luceafrul. Acest fapt putea fi lesne verificat i prin abordarea simpl, calculnd doar cte distihuri ar fi trebuit s scrie Poetul dac ar fi cutat independena, ca n cazul frecvenelor teoretice din testul Hi ptrat, i anume produsul ntre subtotalurile n care coexist frecvena real mprit la totalul general. n acest caz avem 69 x 61/98 = 42,95, adic 43 de distihuri ale prezenei simultane a principalelor personaje. Am profitat de gradul de libertate statistic acordat i restul de diferen fa de subtotalul algebric poate completa i justifica afirmaia legat de independen. Mai remarcm c importana ajustat Ri (csua C16) este definitorie privind intenia poetului care surprinde n 43 de distihuri comunicarea ntre cele dou personaje centrale, deoarece provine nu din importana intrinsec (de altfel egal pentru alternativele exist n distih sau nu exist, valorile acesteia fiind 0,51 respectiv 0,49, calculate fie utiliznd entropia informaional, fie negentropia, csuele C13-D14). Analiza statistic ne ndreapt atenia ctre alternativa Luceafrul n distih, datorit importanei extrinseci acordat de Poet prin cele 69 de distihuri din care 43 n prezena Ctlinei. S fim ateni i la un alt aspect. n prima parte a poemului, existena sau nu n distih a Luceafrului nu schimb structura de baz a prezenei Ctlinei n distih, care exist cu sau fr Luceafr n proporia 61/98 = 0,62 (rotunjind la mie). n cazul Luceafrului am mai subliniat intenia Poetului de a-l evidenia i raportul este 69/98 = 0,70. i acest fapt se ntmpl indiferent de prezena sau nu a Ctlinei. n ceea ce privete partea a doua a poemului, tot din 98 distihuri, aplicaia utiliznd statistica informaional se prezint n imaginea de mai jos, numrul 28. Aportul informaional este mare (0,28) i relaia puternic. Chiar la o prim vedere, diferenele fa de structura de baz a Ctlinei sunt date de Luceafrul nu este prezent n distih (diferena 0,53). Modelul detaliat este urmtorul: AI(C/L) = E(C/L,P) E(C) + E(C/L,partea1) (65) E(C / partea1) + E(C / L, partea2) E(C / partea2)

Relaiile statistice puternice, ascunse, false i iluzorii

n partea din dreapta imaginea conine seria de calcule pentru obinerea informaiei despre lipsa unei relaii ntre Poem i structura de baz a existenei sau nu n distih a Ctlinei, aportul informaional al poemului fiind nesemnificativ. Poetul a egalat prezena sau absena Ctlinei n cele dou pri ale poemului. Imaginea 28

(66) Putem calcula, dup modelul prezenei simultane a variabilelor cauz i intervenie sau control Luceafr L i Poem P, aportul informaional al combinaiei lor asupra structurii Ctlina: AI(B/A C) = E(C/L,P) E(C) (67) Aportul informaional al interaciunii dintre Luceafr i Poem, LP, ce poate fi pozitiv (sinergie) sau negativ (cu tendin de ascundere, falsificare) asupra structurii Ctlina, este urmtorul:

AI(C/P)= E(C/P) E(C)

AI(C/L P) = E(C/L)+ E(C/P) E(C/L,P) E(C) (68)

Relaiile statistice puternice, ascunse, false i iluzorii

Aceast prezen, ilustrat n tabelul 32, poate fi benefic energetic (sinergie, amplificare) sau nu (redus, disipat). Dac experimentatorul adaug acestei prezene energetice aportul informaional obinut pe alternativele variabilei de control, se obine surplusul de energie informaional datorat de C lui L.

Tabelul 32
APORT poem poem Luceafr prin interactiunea Ctlina asupra Luceafr asupra Ctlina asupra Luceafr Ctlina poem efectul combinaiei 15% -8% 16% -8% 12% -8%

ncheiem cu o ultim formul; (69) este consecina construciei scenariului iniiatic pentru determinarea interaciunilor pozitive i negative i a experimentrii modelelor matematice ale metodologiei ONICESCU. Modelul detaliat este: AI(C/L) =
E (C / L) E (C / P) E(C/L, P) E(C) + + E(C/L, c0) E (C / c0) + E (C / L, c1) E (C / c1) = = AI(C / LP) + E (C / L, partea1) + E (C / L, partea 2) E (C / partea1) E(C / partea 2)

(69)

Aici interpretarea este urmtoarea: dac se cunoate aportul legturii (interaciunii) Luceafr-Poem L-P la structura Ctlina C i dorim s aflm doar aportul informaional al Luceafrului L la structura Ctlina C, atunci se adaug mediile aportului informaional al Luceafrului L la Ctlina C condiionat de prile Poemului P i se scade aportul condiionrilor Poemului la structura Ctlina C (se cur de influena mpririi poemului).
3.3.2 Utilizarea statisticii informaionale ONICESCU n determinarea interaciunilor i potenialelor sau a haosului prelnic i a himerelor neltoare

Efectele interactive sunt importante de vreme ce ele sugereaz, atunci cnd sunt semnificative, o sinergie ntre cei doi factori, independent de contribuiile lor individuale.

Relaiile statistice puternice, ascunse, false i iluzorii

Ceea ce dorim s subliniem este c experiena decizional se capt prin nelegerea adnc a evenimentelor dinamice din mediu. Din cele spuse mai sus putem observa c, din punct de vedere al deciziei, nu calitatea evenimentului urmrit este esenial, ci nsuirea decidentului de a detecta n materialul faptelor semnificaii profunde de natur complex. Subiective sunt aprecierile Wi care in de decident sau, n cadrul unui consens, de mai muli specialiti; chiar obiectivizate prin frecvene sau prin pseudomsurtori, tot subiective sunt i Ri. n schimb, sinteza lor, Ii, este rezultatul unei concepii multicriteriale care i-a stabilit de la nceput jaloanele de dezvoltare. Aa cum am prezentat-o apare ca o consecin matematic, factorul comun fiind nsui decidentul, cu experiena, temperamentul i predileciile sale. Noi optm pentru Statistica Informaional Onicescu deoarece este bazat pe marele grad de esenialitate a structurilor. Cu ct o structur este mai simpl i mai epurat de informaii redundante, cu att raza ei de aciune i putere combinatorie este mai ampl. n plus, dac xik reprezint frecvene ale atributului i pe alternativele k, putem calcula norma euclidian (lungimea) acestui vector de frecvene precum i lungimea vectorului de structur (ponderilor), care este chiar radicalul algebric din energia informaional a atributului,
2 Xi = ( x ik ) , k =1 m 1/2

(70)

precum i lungimea vectorului de structur (ponderilor):


2 Pi = [ ( x ik ) ] = (E(X i) )1/2 = mX i , k =1 X i x ik m k =1 1/2

(71)

Observm c, n aceast relaie, lungimea vectorului descriptiv (atribut) Xi raportat la volumul ntregului (colectivitate), deci la un factor cantitativ, extensiv, evideniaz un factor calitativ, structural, intensiv, lungimea vectorului de structur (ponderilor). n literatura de specialitate39 sunt comentate aceste relaii i faptul c este permis o abordare global a caracterizrii dinamicii structurii:

39

Mihoc Gheorghe, .a.,op.cit., pag.171

Relaiile statistice puternice, ascunse, false i iluzorii

Xi X j

xik = = Pi . km1 , P j x ik
k =1

(72)

unde: i i j pot fi momente de timp consecutive. De asemenea, se sugereaz posibilitile oferite comparrii structurilor de ctre indicatorii: "divergen informaional" i "coeficieni ai schimburilor structurale". Ilustrrile statice n care apar cu predilecie combinaii de structur de 2 - 3 factori (atribute) cu un numr mic de niveluri, impuse fie prin calcule efectuate prin statistica experimentelor factoriale, fie prin calculele statisticii informaionale, favorizeaz decidentului incursiuni n lumea relaiilor, adesea el plmdindu-le n cutarea unor transparene reale. Aceste imagini-ilustrri statice sunt fragmente de hipervolume cu structuri vibrnd sensibil n energii condiionate ori dublu condiionate, sau protejndu-i formele prin aciuni tainice. De aceea, decidentul pleac de la cutrile pas-cu-pas, de 2-3-4 conglomerate construite cu predilecie n profunzime, pentru a ajunge la acele identificri ce se ntrees ntre atribute, izbucnind din pienjeniul relaiilor. ntlnim energia informaional att n calculul importanei atributelor ct i n formula coeficientului de corelaie informaional K(Xi, Xj) presupus ntre structurile (pe k alternative) ale atributelor Xi, Xj: C( X i , X j ) K( X i , X j ) = , (73) 1/ 2 (E( X i )* E( X j ))
x unde C( X i , X j ) = xik * ik , Xj k =1 X i
m

(74)

este corelaia informaional a atributelor i i j. Cnd structurile celor dou atribute (pe cele m alternative) sunt identice sau aproape identice, calculele arat K egal cu unitatea sau foarte aproape de unitate. Aceasta semnific independena atributelor de determinrile pe cele m alternative. n acest caz, energiile informaionale vor fi identice, deci nu exist nici un plus de informaie, Ii = Ij i importana atributelor pentru decizie depinde doar de ponderile Wi proprii decidentului (ori consensului ntre specialiti). n caz contrar, exist o dependen potenial ntre determinri i atribute. Aceast dependen, relaie, trebuie verificat printr-o structur de control. Putem aduga c informaiile comunicate trebuie s fie corecte, oportune, complete, concise i mai ales relevante, pentru exercitarea funciei de previziune.

Relaiile statistice puternice, ascunse, false i iluzorii

Algoritmul pentru verificarea relaiilor n interaciune pas 1. Dac I (x1, y1) > I (x2, y1) pasul 2; dac nu, se trece la pasul 4; pas 2. Dac I (x1, y2) > I (x2, y2) pas 3; dac nu, se trece la pasul 5; pas 3. Dac I (x1) > I (x2), nu exist interaciuni ntre variabilele X-Y; pas 4. Dac I (x1, y2) > I (x2, y2), exist interaciuni ntre variabilele X-Y; daca nu, pasul urmtor pas 5. Dac I (x1) > I (x2), exist potenial de interaciune XY; dac nu, pas 3.

I x1 >I x2

y1

y1

I x1 >I x2
T

y2

y2

Interact.

I x1 >I x2

y2

y2

I I x1 > x2

I x1 >I x2

Potential Y

/ Interact
Algoritmul de identificare a relaiilor informaionale reale, Algoritmul de identificare a relatiilor informationale reale, puternice, n interaciune, false, iluzorii, directe.

puternice, n interactiune, false, iluzorii, directe.


Figura 3

Menionm c importana informaional a relaiei i este dat de numrul maxim de verificri al unei singure stri; spre exemplu, majoritatea verificrilor pot arta c relaia i este puternic ori interacioneaz multiplu cu variabilele de control sau este ascuns, deci intensitatea ei este diminuat de pienjeniul neorganizat al celorlalte relaii. 40
40

Mihi N.V.: Onicescu Informational Statistics in a Multiple Data Processing Methodology, ECECSR, nr. 2, 1983.

Relaiile statistice puternice, ascunse, false i iluzorii

Imaginea 29

n imaginea de mai sus, primul tabel, totalurile sunt egale cu 100, deci nu exist nici o difereniere, importana extrinsec (Wi) este aceeai i nu va juca nici un rol n calculul importanei globale. La fel, structurile X1 i X2 conin aceeai entropie (0.29) i respectiv energie informaional (0.81), aa nct importana intrinsec este aceeai, 0.5, distribuit egal pe cele dou alternative ale structurii X. n schimb,

Relaiile statistice puternice, ascunse, false i iluzorii

aportul informaional ilustreaz o relaie puternic, o influen radical a variabilei X asupra structurii A. Iniial fr importan pentru efectuarea unei alegeri ntre a0 i a1 deoarece distribuia frecvenelor relative (Total) era aceeai, 0.5, sub influena X1 i X2 aportul informaional denot o relaie puternic, iar K, coeficientul de corelaie informaional mic (0.105) o susine. ntr-adevr, X1 alege al, iar X2 alege a0. Situaie incomparabil cu X1i X2 pentru Luceafr unde prezena Ctlinei era n distihuri de 62%, indiferent dac n distih figura sau nu Luceafrul (avem astfel lipsa influenei, relaiei de dependen). Dac situaia ar fi fost aceea din imaginea 29, Ctlina ar fi fost descris n distihuri n care nu figura i Luceafrul i invers, deci Luceafrul o alung din distih cnd apare sau se retrage cnd ea apare. Am introdus, n comunicare, un factor extern al importanei atributului pentru decizie. Se consider c importana atributului este att o proprietate intrinsec acestuia, ct i a decidentului (extrinsec). Dac toate alternativele libere sunt ordonate n funcie de un atribut dat n mod egal, atunci incertitudinea este maxim, iar un astfel de atribut poate fi judecat ca nensemnat, deoarece nu influeneaz procesul de luare a deciziei i deci nu trebuie comunicat. Dar s vedem reversul ilustrat n partea dreapt a imaginei studiate. Importana extrinsec este de zece ori mai mare pentru atributul X2 (1000) fa de X1 (100), deci W1 este egal cu 0.09, iar W2 cu 0.91. n schimb, datorit dispersiei identice ntre structurile X1 i X2 n care frecvenele relative sunt 0.95 respectiv 0.05 n amndou, chiar dac cele majore sunt pe diagonala principal a matricei tabelului, entropiile i energiile informaionale sunt identice (0.29 respectiv 0.81) ca i n cazul discutat anterior pentru tabelul din partea stng a imaginei, ceea ce arat c importanele intrinseci sunt identice pentru X1 i X2, corelaia informaional i respectiv coeficientul de corelaie informaioanal nu difer semnificativ ntre cele dou tabele (0.095 respectiv 0.105). i totui relaia este diferit, influena, presiunea variabilei X asupra structurii iniiale (indiferent de orice influen) este mic. Aportul informaional este de 27%, fa de 81% n cazul anterior. Aceast realizare se datoreaz importanei extrinseci a alternativei X2, care d mas ca n celebra formul Einstein E=m c2 (Depinde oare ineria corpurilor de cantitatea de energie pe care o conin?, 1905), unde Energia E este direct proporional i cu m, masa unui corp i constanta c, viteza luminii. E = m C2 Important este alternativa X2 (0.91) care are o structur asemntoare cu aceea a vectorului Total, cu mici modificri 0.13 devenind

Relaiile statistice puternice, ascunse, false i iluzorii

0.05, iar 0.87, 0.95, fapt care reprezint aportul informaional (presiunea) ce semnaleaz aceast schimbare.

3.3.3 Sinoptic introductiv privind compunerea relaiilor

Tentaia formalizrii matematice a problemelor socio-economice se blocheaz n slaba lor structurare. Ele devin sisteme de structuri cnd ntr-o situaie decizional sunt identificate i relaiile dintre acestea. Conceptul de relaie, n ciuda simplitii lui, a fost o piatr de ncercare pentru muli autori de diverse profesii, strnind perspicacitatea i inteligena. Ce este o relaie? Unde se gsete? Cum i de ce se realizeaz? Rspunsurile stau n pienjeniul sensurilor ei. n sfrit, crui scop servete o investigaie a unui astfel de concept nebulos, n tiinele umaniste? Poate, ispitei de a cerceta sistemele de structuri i de a interpreta structurile de sisteme de relaii n tiinele sociale. Plecnd generic de la termenii din limba greac: a aeza (istemi) mpreun (syn) alctuiri ori compoziii, deci structuri de relaii sau legturi, vom cuta s amplificm n prezentul paragraf importana flexibilitii sistemelor de structuri ale variabilelor eseniale de tiine sociale. Avantajul utilizrii conceptelor mai sus amintite n aceast dinamic disciplin l constituie posibilitatea evident de a lucra cu variabile controlabile de ctre "ntreprinderea" industrial/social/economic, deci cu parametri. Aplicaiile experimentale ori simulative rspund ntrebrilor provocatoare de mai sus. Conform41 dicionarelor, legturile create pe o mulime M ori pe pri ale acesteia, componente ale produsului cartezian M x M, pot fi notate xy, deci x este n relaie cu y, notaie propus de L. Wittgenstein n anul 1922. Familiile de relaii, care constau n legi de compoziie interne i externe, pot fi structuri algebrice create pe M. Dar relaiile pot fi statistice, matematice, de independen, reflexive/simetrice/tranzitive, de echivalen/ ordine/reciproce, de compensare/funcionale. Ele pot fi ns i politice, economice i sociale, diplomatice, de producie/consum/distribuire existnd fr de numr n universul real sau informaional-decizional. Pe de alt parte

41

*** Dicionar de matematici generale, Editura Enciclopedic Romn, Bucureti, 1974

Relaiile statistice puternice, ascunse, false i iluzorii

pot fi fizice/metafizice, predicative/imprevizibile, bune/rele, n progres/ regres, obinuite ori cruciale .a.42 . Clasificarea familiilor de relaii provoac imaginaia i epuizeaz eforturile ndrzneului care primete o astfel de provocare. Cunoscnd scopul unei investigaii, specialistul n tiine sociale i sisteme informaionale poate determina, pentru nevoile unui chestionar, atributele definitorii ale relaiilor cutate. Dac lum, spre exemplu, cazul unei investigaii de tiine sociale referitoare la opiniile specialitilor n management privind amplasarea unei reele de distribuie pentru produsele unei firme de intermediere, ntrebrile investigaiei se vor ndrepta ctre: a. localizarea geografic-urban este cea corect din punct de vedere: al pieelor sau segmentelor de pia identificate n prealabil? al costurilor de ntreinere, posibilitilor de transport, forei de munc? b. cldirile n sine rspund cerinelor: de energie, spaiu, cost, design, funcionalitate? c. locurile de munc rspund nevoilor de utilare, reducerii zgomotului, din punct de vedere al ambientului, decorului, amplasrii? d. echipamentul din dotare poate fi utilizat n mod corespunztor pentru telecomunicaii, servicii de informare i calcul electronic? Sunt eficiente mainile de scris, copiat, stocat date? e. fora de munc este calificat pentru a rspunde pregtirii cerute de modernizarea transferului de bunuri i servicii, de eficientizarea acestora? Este compatibil, comunic i execut prompt? Pentru investigaia cerut, analistul de sistem se ntreab care sunt relaiile posibile ntre localizarea reelei de distribuie i segmentele de pia identificate. Dar ntre criteriile de funcionalitate, eficiena serviciilor i calificarea forei de munc? Ct de importante sunt relaiile de calcul, informare i posibilitile energetice, de transport ori costuri de ntreinere? Care relaie poate fi msurabil, direct, cauzal, stohastic, dintre zona urban i segmentul de pia al produselor? Ea trebuie verificat prin acionarea variabilelor de control. Aceste variabile pot arta c relaia este puternic (zona determin segmentul) ori slab sau inexistent (nu exist diferene semnificative ntre zone). Variabila de control poate valida/invalida
42

Butler F.P., Mihi, N.V., Management System: Analitical Paradigm and Holistic Paradigm Synthesis, A Theoretical Framework and Application, Economic Computation and Economic Cybernetics Studies and Research, 3, 1984

Relaiile statistice puternice, ascunse, false i iluzorii

relaia iniial ori poate s construiasc cel mai simplu sistem de relaii prin interaciune cu variabilele ntre care exist asocieri ori cauzaliti, devenind ea nsi atributul definitoriu al unei noi relaii. n acest caz se poate dovedi c prima relaie presupus a fost o relaie fals; de altfel, poate exista posibilitatea presupunerii inexistenei poteniale a relaiei generice, care este de fapt ascuns (redus) de variabila de control, deci de o alt relaie. Abordarea problemelor legate de tehnologia informaiei, cele mai importante i grele pentru prezentul i viitorul oricrui sistem economic contemporan, cere utilizarea intensiv a informaiilor culese din surse directe i indirecte de date. Dar aceast informaie specific trebuie mult mai bine folosit dect, spre exemplu, informaia stocat n bncile de date ale sistemelor economice (nestructurate informaional ca informaii de tiine sociale). Mai mult dect att, abordarea unor probleme uneori spectaculoase, dar cu efect minor n ceea ce privete mbuntirea organizrii i conducerii (aplicaii ale informaticii de tipul calculului retribuiilor, evidenelor contabile etc.), duce la eecul unor tehnici i metode, deoarece acestea tind s transforme aplicaiile informaticii ntr-un scop n sine. Deci, orientarea ctre rezolvarea eficient a problemelor concrete i vitale ale organizrii i conducerii (ntr-o concepie sistemic) cere analiza complex a sistemelor prin orientarea lor ctre obiectivele majore. Spre deosebire de producia de bunuri, pentru care exist o mulime informaional ordonat, curat, exact, determinat, lumea informaional a decidentului aplicaiilor prin tehnologia informaiei este haotic, misterioas, dar provocatoare. i este dificil acestuia s descrie pn i datele de care are nevoie, iar atunci cnd o face, nu o face ntr-o form adecvat prelucrrii statistico-matematice, n vederea rspunsului corect. n literatura de specialitate, se subliniaz patru tipuri de probleme generale care l frmnt pe orice decident de tiine sociale: 1. a) Ce fel de informaie i este util decidentului? b) De ce fel de rapoarte are nevoie? c) Care sunt sursele de informaii de care are nevoie? 2. Cum pot fi traduse aceste cereri de informaii n termeni specifici sistemului disponibil de prelucrare a datelor? 3. Ce fel de sistem este necesar? 4. Cum pot fi dezvoltate i implementate astfel de sisteme orientate spre rezolvarea cazurilor propuse de tiinele sociale? Primele dou grupe de ntrebri sunt direct legate de proiectarea i implementarea unui sistem de generare i gestionare a informaiilor la ndemna decidentului n problematica tiinelor sociale. Pentru rspunsuri

Relaiile statistice puternice, ascunse, false i iluzorii

detaliate la aceste ntrebri n disciplina marketing ca TIIN n domeniul social, recomandm crile profesorului M.C. Demetrescu. Celelalte dou ntrebri au de-a face mai mult cu proiectarea sistemelor informaionale i cu dezvoltarea software-ului.
3.3.3.1 Funcii FUZZY n analiza multicriterial

Valorile atribute xij ale obiectivelor decizionale (produse, standarde) i pentru calitile (caracteristicile) j parcurg funcii fuzzy, construite conform logicilor nuanate, devenind atribuiri ale acestor valori la idealul considerat prin valoarea unui standard internaional ori a unui COD CU BARE pentru atributul j al obiectivelor decizionale i. Funciile fuzzy sunt componente informatice apelate prin infomodule (subsisteme bloc tip LEGO, n care diferitele modele pot fi combinate pentru a crea sisteme de prelucrri informaionale cu interpretri diferite). Pentru fiecare calitate atribut ori caracteristic j, n funcie de poziia pe care o ocup fa de alte valori luate n considerare la acelai atribut, nivelul ideal poate fi MINIM, MAXIM, INTRM (intermediar), NUINT (nu intermediar); i poate fi codificat ca xminj, xmaxj, xintj n care: (75) x minj = min{x ij }
i

x minj = max x ij
i

{ }

(76) (77)

x min j < xint j < x max j

i, j N* , i = 1,...d, j = 1,...q n care: i - numr produse; j - caliti. Funciile MINIM, MAXIM, INTRM, NUINT (valori duale, extreme) au ca rezultate diferii coeficieni de apartenen la ideal ori tip probabiliti (pentru valori tip frecvene n MAXIM), codificai mij, Mij, tij, tij* ori pij. n cazul n care se dorete normalizarea datelor ori a acestor coeficieni n aa fel nct rspunsul s aparin domeniului nchis [0, 1] se apeleaz la funcia NORMT cu rezultatele nij. Succesiunile de calcule pentru elaborarea acestor coeficieni sunt: (78) I. m ij = x min/x ij n care m ij [x min /x max , 1] (79) sau m ij = x max /x ij n care m ij [1, x max /x min ] i valoarea minim (a standardului) obine atribuirea 1 (unu); (80) II. M ij = x ij/x max n care M ij [x min/x max , 1]
unde

Relaiile statistice puternice, ascunse, false i iluzorii

ori Mij = x ij/x min n care M ij [1, x max/x min ] deci valoarea maxim a standardului capt atribuirea 1 (unu); (82) III. t ij = 2.x ij.x intj/(x 2 + x 2 ) n care t ij [0,1] ij intj i valoarea intermediar xij are atribuit cifra 1 (unu);

(81)

IV. t* = ( x intj - x ij )2 /[ x 2 + x 2).(1 - z)] (83) ij intj ij n care t* [0,1] iar z = min (A, B) unde A=tij(xij: = xminj); ij B = tij(xij: = xmaxj) unde valoarea intermediar obine valoarea 0 (zero), iar valoarea dorit a unei extreme duale, valoarea 1 (unu); d d V. pij = x ij/ x ij , iar pij = 1 (84)
i=1 i=1

unde pij [ x min /

,
i=1

x ij x max

/ xij]
i=1

VI. n* = (xij - xminj)/(xmaxj - xminj) ij * [0,1] i nij

(85)

n care valoarea atribuit lui xminj := 0 iar valoarea atribuit lui xmaxj := 1; VII n* = (xmaxj - xij)/ (xmaxj - xminj) (86) ij i n* [0,1] ij iar valoarea atribuit lui xminj := 1, n timp ce xmaxj := 0. n general, funciile fuzzy prezentate i cuprinse n infomodule sunt definite pe mulimea valorilor xij cu valori n intervalul real, pozitiv, cuprins ntre 0 i 1. n acest sens, formele potenial concave sau convexe (din care rezult apropierea lent ori rapid de valoarea standard 1 (unu)) pot fi obinute prin compunerea funciilor elementare.
3.3.4 Ierarhizri de produse informaionale

innd seama de notaiile i formulele din paragraful 3.3.2., prezentm cteva modele de calcul al valorilor, dup care se pot ierarhiza produsele, n funcie i n raport cu un standard internaional sau cu informaiile din CODUL CU BARE, ori cu norme stabilite experimental. Pentru Hi, valoarea
q 1/q

Hi = ( Mij) j=1

Relaiile statistice puternice, ascunse, false i iluzorii

obinut din procesul de calcul pentru produsul i, utilizm valorile maxime Mij ntr-o formul uzual: (87) Chiar i n cele mai simple forme ale ierarhizrii de produse/probleme/obiective, trebuie s se ia n considerare faptul c atributelecaracteristici j au ponderi de importan diferite, extrinseci, care n cazul de fa se vor codifica wj. Aceast problem este ridicat de faptul c mai ales calitatea unui produs nu poate fi privit ca echiprobabil. Adugnd i faptul c cele q caliti/atribute/caracteristici ar putea s conin un numr q1 de valori care ar trebui s fie superioare celor impuse de CODUL CU BARE, ISO 9005 i un numr q2 de valori ce ar trebui s fie inferioare acestuia (proces de optimizare), unde q1 + q2 = q, construim urmtoarele modele posibile pentru calculul coeficienilor de ierarhizare: q q w w (88) Hi = (Mij) . (mij)
1 j 2 j

j=1

j=1

wj * wj Hi = (nij) . (n* ij) j=1 j=1

q1

q2

(89)

Pentru valorile tij trecute prin procesul de normalizare, conform formulelor (85) i (86) se utilizeaz relaia:
Hi = ( tij.q j) + ( tij. w j)
j=1 j=1 q1 q2 *

(90)

Atribuind lui dij toate valorile mij, Mij, tij, tij*, nij i urmnd procedura de calcul d ij := ij ; D j = d ij ; a ij = d ij / D j
i

se pot ierarhiza produsele cu modelul urmtor:


Hi = a ij. w j
j=1 q

(91)

Sinteze ale procedurilor expuse de Zeleny n procesul de luare a deciziei n urma analizei multicriteriale, lund n considerare entropia informaional ajustat Shannon, precum i aplicaiile statisticii informaionale Onicescu utiliznd energiile informaionale ajustate, sunt:
Hi =
q

ln d (a ij )a ij ln d (a ij )
j=1 i=1 q i=1 q d a ij

j=1

. a ij . w ij

(92)

Relaiile statistice puternice, ascunse, false i iluzorii

Hi =

d a2 - 1 ij d a - q
j=1i=1 i=1 q d 2 ij

j=1

. a ij . w j .

(93)

n cadrul aplicaiilor de teoria informaiei, exist posibilitatea de a obine mai multe informaii prin schimbarea, spre exemplu, a valorii ponderilor wj, ori prin reducerea importanei intrinseci a caracteristicilor, procedeu ce include compunerea de funcii. Se obine astfel o simulare determinist care, n cadrul unor metodologii informaionale corect aplicate, l poate surprinde pe decident prin bogia i nuanarea informaiilor pentru decizie. n prelucrarea datelor trebuie s se in seama de relativitatea modului de selecie i extragere de atribute pentru calcule, de relativitatea sintezelor obinute precum i de relativitatea rezultatelor i a legturilor presupuse de asociere ori cauzale. Prin teoria informaiei se identific relaiile necesare ntre pri ori subseturi de date obinute la realizarea unor performane. n afara relaiilor eseniale, o mare importan au relaiile complementare care determin efectul de sinergie. Acest efect permite sesizarea mbinrilor armonioase dintre proprietile-atribute ale produselor n domeniul analizei multicriteriale a calitii acestora.
3.3.5 Multicriterialitatea relaiilor fuzzy n tiine sociale

n tiinele sociale, la un moment dat, datorit ansei unor posibile ameninri sau noi oportuniti, unele relaii devin eseniale. Toate relaiile sunt dinamice i variaz ca intensitate i conexiuni n funcie de scopul implicit (intuit) ori explicit (planificat/stare a mediului). Exist prea multe relaii potenial legale i n interaciune pentru a fi luate n considerare simultan. Unele relaii eseniale pot fi identificate pe baza definirii atributelor (caracteristicilor) vis--vis de scopul cercetrii. Aceste afirmaii, tip axiom, sunt necesare pentru a prezenta multicriterialitatea relaiilor. n exemplul prezentat anterior, caracteristica POEM pare definitorie pentru amplasarea reelei de distribuie. Se pot verifica toate relaiile care se pot stabili ntre POEM i personajul LUCEAFR, sau POEM/CTLINA, POEM/comunicare, POEM/LUMIN etc. Aceste relaii pot fi verificate pe

Relaiile statistice puternice, ascunse, false i iluzorii

rnd de ctre celelalte relaii "controlabile", comentate n literatur i descoperite STATISTIC, prin: Xi = nr. total de verificri ale relaiei i, grupate pe m stri: 1 - relaie direct, puternic; 2 - puternic n interaciune (amplificat); 3 - slab n interaciune (redus); 4 - direct, slab, de intensitate redus; 5 - ascuns de relaia creat de variabila de control; ...; m - fals, iluzorie, adevrata relaie fiind cu variabila de control. S exemplificm relaiile puternice, slabe, n interaciune cu variabila de control, ascunse (de variabila de control), false, iluzorii, adevratele relaii puternice fiind ntre variabila de control i atributele "dependente". Dac lum n considerare numrul de ordine ca fiind prioritatea de a aeza ntr-o ierarhie atributele definitorii ale relaiilor interconectate, atunci putem rspunde i interpreta alternativele posibile de rspuns la ntrebri cum sunt: socotind POEM ca atribut definitoriu pentru cercetare, care este ierarhia multicriterial a relaiilor n care intr acesta avnd ca variabile de control caracteristicile mixului cultural? care sunt relaiile aflate n aceeai structur de control cu definirea ordinii lor dup coeficienii de corelaie informaional? ct de intense "energetic"-informaional sunt legturile ntre principalele relaii ale atributelor definitorii? pondernd relaiile i demixnd combinaia de atribute socioculturale, care devin prioritare prin amplificarea controlului asupra produsului literar? nregistrarea de baz pentru prelucrrile automate este format din: variabila de la care se stabilete relaia; cealalt variabil; pentru fiecare variabil de control, valoarea coeficientului de corelaie multipl ori numrul de ordine (codul) al relaiei, amintit anterior. n cazul n care nregistrarea conine valoarea coeficienilor, atunci este adecvat prelucrarea prin funciile matematice. Spre exemplu, pentru o ierarhizare n ordinea celor mai puternice relaii verificate, apelm funcia m(x), unde xm este valoarea cea mai mic a coeficientului de corelaie informaional (cea mai puternic dependen presupus, deci cea mai mic asociere ntre structuri), iar xM este valoarea cea mai mare (asociere ntre structuri). n acest mod noile valori necesare ierarhizrilor multicriteriale (tip fuzzy) vor exista pe un domeniu continuu ntre xm/xM, 1. Acolo unde relaiile

Relaiile statistice puternice, ascunse, false i iluzorii

sunt ascunse ori false, deci au coeficieni aproape unitari, noile valori vor fi "departe" de optimul ierarhiei, fiind apropiate de raportul xm/xM. La cealalt extrem sunt cutrile relaiilor false n diverse ierarhii n sensul c, prin determinarea falsitii relaiilor iniiale, noile relaii (puternice, slabe ori n interaciune) vor fi ntre variabilele de control i cealalt variabil a relaiei generice. n acest caz, valorile mari ale coeficienilor ori codurile vor participa mai bine la ierarhizare prin apelare la funcia M(x). n eventualitatea n care se dorete mrirea ori micorarea distanei ntre valorile calculate, se poate apela la compunerea funciilor tip logaritm i exponeniale (liniile punctate sugereaz noile valori obinute). Pentru punerea n eviden a relaiilor n interaciune, este necesar apelarea funciei t(x), iar pentru punerea n ierarhie doar a relaiilor puternice fie ale variabilelor iniiale, fie ale celor de control, apelarea funciei t*(x). Dac sunt necesare ierarhizri care s aib valori ntre 0,1, se procedeaz la normalizri tip n*(x) i la compunerile amintite anterior. Pentru prelucrrile informaionale n cadrul unei singure relaii, verificate de toate celelalte variabile de control, n scopul cunoaterii tipului de relaie prioritar n arborii decizionali, se poate face apel la funcia p(x) tip probabiliti create pe frecvenele de intervale ori coduri (numr de verificri pe categorii). Se obin, pentru fiecare relaie Xi, distribuii pe cele 5 stri descrise: 1 2 3 4 5 Xi : n n n n n 1 2 3 4 5 Considernd, in extremis, distribuii n care avem: a) n1 = max( n j ) ori aproape egal cu n = suma (nj), atunci relaia Ri
j

este puternic, iar conexiunile din acest trunchi creat de variabila de la care este verificat sunt activate de relaii noi, directe i intense energetic; b) n2 = max( n j ) , relaiile sunt n interaciune, tip ncrengturi, cu
j

variabilele de control dominante creatoare de noi relaii (noi ramuri); c) n3 = max ( n j ) , relaia este slab, auxiliar, adiacent;
j

d) n4 = max( n j ), ncrengturile ascund ca un mrcini trunchiul


j

relaiilor de baz i cercetarea trebuie continuat pe mulimea variabilelor de control; e) n5 = max( n j ), relaia este fals, iluzorie, n simbioz cu relaiile
j

asociate variabilei de control, cea care invalideaz relaia principal.

Relaiile statistice puternice, ascunse, false i iluzorii

Structurile tip trunchi cu ncrengturi sunt strbtute dus-ntors, pe ci controlabile prin mrciniul relaiilor. De remarcat posibilitile de alternare a cilor controlabile i faptul c sunt cutate cele mai scurte, puternice, directe. Literatura de specialitate43 recomand identificarea interaciunilor i reordonarea relaiilor pentru eliminarea ori clasificarea sau punerea lor n rezerva alternativelor decizionale realizabile. Pe rnd, din multitudinea cilor de rezolvare a unei probleme se scot subsisteme de relaii i conexiuni verificate n vederea optimizrii soluiilor propuse. Relaiile multicriteriale identificate vor influena construirea arborilor de decizie; flexibilitatea structurilor de relaii n tiine sociale poate crea alternative decizionale corecte care vor estima bine rezultatele unor aciuni, pe termen scurt ori mediu, ale planificrii activitilor n tiinele socioeconomice.
3.3.6 Ilustrri ale potenialului de interaciune n tehnologia informaiei44

n acest paragraf vom face referire la apelul raional al argumentului vizual. Algoritmul de identificare a importanei atributului ar putea s par o simpl procedur de calcul dac imaginile tip ideogram n-ar fi nzestrate cu semnificaiile simbolurilor informaionale, modalitate de sintez a datelor pe baza Filosofiei Onicescu. De nedorit n modelarea decizional nu ar fi prezentarea schematic, srcit a relaiilor, ci absena unor gnduri filosofice profunde exprimate cu mijloace matematice i statistice. Am introdus, ca obiectiv, un factor extern al importanei atributului pentru conducere. Se consider c importana atributului este att o proprietate intrinsec acestuia, ct i a decidentului. Dac toate alternativele libere sunt ordonate n funcie de un atribut dat n mod egal, atunci, un astfel de atribut poate fi judecat ca nensemnat, deoarece nu influeneaz procesul de luare a deciziei.
43

Demetrescu M.C. coord., Marketing intern i internaional, Editura Politic, Bucureti, 1976, articol despre AID, Automatic Interaction Detector. 44 Mihi N.V.: Illustration of the Interaction Potential in Social Sciencies, ECECSR, no. 2, 1985.

Relaiile statistice puternice, ascunse, false i iluzorii

Evaluarea alternativelor n perioada predecizional este o cutare sistematic, pe parcursul creia alternativele sunt reinterpretate n aa fel nct s produc o divergen din ce n ce mai mare n atractivitate. Cu ct un atribut (ca surs de date) d mai mult informaie, cu att acesta este mai necesar ntr-o situaie decizional. Creaia decizional se manifest prin depirea unor bariere produse de lipsa datelor sau de concluziile sugerate de analiza lor. Decidentul poate denatura realitatea, fie prin simularea propriilor aciuni decizionale, fie prin schimbarea sau deformarea datelor, n aa fel nct s verifice sau s transmit ori s identifice idei preconcepute care stau la baza actelor decizionale. Aceast simulare prin schimbare trebuie efectuat prin mpletirea combinaiilor din care se nasc structuri, forme ce nconjoar centrul de greutate al misterului deciziei. Decidentul tie c trebuie s ptrund n subteranele motivaiei, necesar fiind gsirea rdcinilor diversitii n variabilitatea atributelor. Se impune tot mai mult modul de gndire multiatribut. Att consumatorul de cultur, ct i colectivitile sunt fenomene singulare, sunt unicate, deoarece fiecare este un univers socio-economic unic. Diversitatea este de multe ori descurajatoare, consumatorii fiind conglomerate de funcii uneori neidentificabile ale permanentelor i subtilelor interaciuni economice, sociale i de mediu. Decidentul n domeniul tiinelor socio-culturale este nevoit s-i formuleze propriile opiuni, confruntndu-le n permanen cu opiniile exprimate de oamenii de specialitate consultai accidental sau n mod organizat (prin consens, panel, forum). El poate controla factorii cuprini n mix-ul de marketing aplicat tiinelor sociale: combinaia structural produs literar & pre & promovare & distribuie. Acest control se manifest n sensul posibilitii afective de schimbare a componentelor mai sus amintite. De exemplu, poate controla promovarea prin televiziune (submix cultural), dac tie CINE privete i este interesat de acest mod de prezentare (cunoate structurile de profesii, pe sexe, vrste, stadii n ciclul de via al familiilor, venit, numr de membri n gospodrie), CND privete i cu ce frecven (n care moment al zilei i cu ce periodicitate), CE anume vede (emisiuni speciale, anunuri publicitare, filme documentare, interviuri la trguri i expoziii, prezentri-test demonstrativ), CUM interpreteaz ceea ce a vzut (cu interes, ncredere, optimism, emoie, scepticism), motivele pentru care e nevoie de sondaje, anchete, interviuri. Dac schimb perioada din zi a emisiunii (sau n cadrul sptmnii), atunci va obine o alt structur a

Relaiile statistice puternice, ascunse, false i iluzorii

componentelor submixului (alte ponderi de profesii, vrste etc.), deci alte reacii rezultate din amplificarea sau reducerea informaiilor receptate. Iniial, decidentul. presupus a avea o experien statistic, elaboreaz sinteze prin extragerea ctorva atribute dintr-un sondaj, din informaii multiple, inclusiv prin consensul prerilor pertinente ale specialitilor, obinnd un material unic, adic nerepetat de date, ncrcat de semnificaii, legturi i ramificaii n interaciune. Cutm redarea fondului de idei prin forme puternic ilustrative. n exemplul urmtor, ncrcm prin perifraze i imagini gen ideogram surprinderea ncrcturilor identice i virtual decizionale prin care un microcosmos informaional organizat pe trei dimensiuni este stratificat de ctre decideni, fie prin apel (ascuns) la personalitatea proprie (cultur, aspiraii, cunotine, experien), fie prin consensul decizional creat de ali specialiti. Privind o astfel de configuraie rezultat dintr-un cmp arid de date, mintea descifreaz sensuri, descoper legturi ferme, reale, stabile ori ascunse, false ori iluzorii. Se intuiesc interaciunile i potenialele de schimbare informaional i se poate ncerca recuperarea pentru ideogram a unui datum esenial a ceea ce, n preceden, a fost viziune decizional. Aceste viziuni decizionale sunt obinute fie prin (1) organizarea explicaiilor directe: interviuri, chestionare, anchete, sondaje, panel de specialiti, fie prin (2) explicaii indirecte, evaluri globale ale numrului i importanei alternativelor (ordonare, rang, ponderi rezultate din aplicri ale regresiilor multiple sau factoriale, bayesiene ori informaionale). Pentru decidentul modern, maximum de informaie necesar trebuie livrat prin ilustraii special pregtite cum sunt: schiele, schemele logice, tabelele, listrile de sinteze ale prelucrrilor de date, graficele cu imagini globale, datele indicate, formatele inteligibile la prima vedere. Procesul intim de elaborare a judecilor decidentului nu are un alfabet propriu; acesta este practic o veritabil cutie neagr. Deci, pentru a fi transmis, este necesar o interfa, decidentul fiind nevoit s adopte un limbaj consacrat: cuvnt, imagine, ideogram, codaj (culoare, cifre, sunet). Aceste elemente codate, exterioare comunicrii, denatureaz orice mesaj original, chiar dac ele sunt traduceri aproape corecte ale informaiilor proprii. Dup prelucrarea informaional, sinteza sau ideograma creeaz o unificare intern i organic a imaginii i sensurilor.

Relaiile statistice puternice, ascunse, false i iluzorii

Problematica studiat n acest exemplu simplificat, redat n ideograma de mai jos, poate fi deosebit de interesant n punerea n valoare a utilizrii statisticii informaionale aplicat elementelor care definesc arhitectura unui sistem. Considerm c simplitatea desvrit a ideogramei constituie un ajutor expresiv pentru luarea deciziilor operative.

Luea-fr Nu este Total Ctlina n distih n distih 57 49 106 Nu este 70 20 90 Total 127 69 196 ? Luceafr moderat Slab # POEM 15% 16% 12% slab ? T

POEM Partea I Ctlina Nu este Total POEM

Luceafr n distih Nu este Total 43 26 69 Luceafr 18 11 29 61 37 98

Partea a n distih Nu este II a Ctlina 14 31 44 9 T Ctlina Nu este 58 40 # Figura 4

45 53 98

Pentru a descifra mesajul dat de ideogram, dm urmtoarele repere: (1) sgeata dreapt sugereaz existena unei relaii n cadrul binomului cauz-efect; (2) sgeata frnt sugereaz direcia schimbrilor produse de adugarea de noi alternative (informaii), ct i interaciunea cu (via) factorul aflat la ndoitura sgeii; (3) simbolul T (trgaciul) semnaleaz factorul care declaneaz efectul schimbrilor; (4) simbolul + identific inta potenial atins de factorul cauz semnalat prin simbolul ?, n condiiile controlului efectiv al variabilei de intervenie (de la ndoitur), cazul n care decizia iniial este negat; (5) limea vrfului sgeii sugereaz intensitatea reaciei la schimbare a legturilor. Variabilele structurate sunt simultan ilustrate. S presupunem c, n urma unui sondaj efectuat la un numr de magazine care au raioane specializate n vnzarea de echipamente stereo,

Relaiile statistice puternice, ascunse, false i iluzorii

decidentul selecteaz, pentru identificarea unor relaii i interaciuni posibile, atributele Luceafr, Ctlina, Poem. Pentru acest exemplu, alternativele (strile sistemului) sunt: Luceafr (n distih, nu este), Ctlina (n distih, nu este), Poem (Partea I, partea a II-a). Volumul de date obinut prin sinteza a 196 distihuri, n cazul nostru cubul de date (dimensiuni 3*3*3, unde 3=2 alternative + un total) desfurat pe latura (atributul) de intervenie este ilustrat n figura 5. Ideograma redat n aceeai imagine surprinde toate semnificaiile posibile prin rotirea cubului i eventual redarea alternativ a celorlalte desfurri, nsoind pe display aceeai ideogram. Statistica tradiional sau informaional determin legturile poteniale ntre variabilele structurale de mai sus pentru o astfel de interpretare: (1) nu pot spune cu certitudine dac un personaj cum este Ctlina, care intr ntr-o relaie (chemri, dialoguri, promisiuni), este influenat sau nu de prezena Luceafrului, ea avnd o prezen n Poem de 54% i o absen de 46%; (2) deoarece Poemul are 196 distihuri, un numr ce permite o mulime de verificri statistice ale structurilor presupuse intrinsec, independena structurilor ori relaia de influen a numrului de date din cadrul structurilor este echilibrat n ambele pri ale poemului? (3) ntrebare: exist vreo legtur ntre prile Poemului i opiunea Poetului, reflectat n starea de exist-nu exist n distih un personaj (Luceafr, Ctlina, Demiurg, Ctlin) ori o stare (Comunicare, Lumin, plasarea SusJos)? Rspuns posibil: DA, prezena Luceafrului n distih este mai redus n partea a doua n prima parte, prezenele-absenele sugereaz independena statistic a personajelor ce par egale ca importan, n partea a II-a se verific statistic o relaie de dependen ce semnaleaz conflictul din coninutul Poemului; (4) o alt ntrebare: exist o structurare difereniat (o legtur) ntre atributul Luceafr i POEM? Rspuns posibil: Nu tiu! Dac n prima parte raportul ntre prezena/absena Luceafrului este de 2,4 ori, n partea a doua este doar de 1,5 ori, dar relaia dat de raport poate fi iluzorie ori fals. Chiar aa! Cum sunt interaciunile? Pozitive sau negative, amplific ori ascund? Nu tiu! (necesit verificri, experimente);

Relaiile statistice puternice, ascunse, false i iluzorii

(5) Poemul poate s influeneze att structura existenei n distihuri a celor dou personaje principale, ct i structura interaciunilor lor; aceasta nseamn c mprirea n partea I i a II-a verific diferitele distribuii pe alternativele existent-inexistent n distih i se obin informaii eseniale privind relaiile ascunse, false, iluzorii, puternice i slabe, n interaciuni pozitive ce creeaz fenomenul de sinergie ori negative, ce ascund relaia iniial; (6) personajele Luceafr i Ctlina par a nu influena (diferenia) structura (ponderile) atributului Poem, deci, indiferent de starea n distih/nu este, informaia de difereniere este minim. De exemplu, cum sunt prezente, n Poem? Nu tiu! De asemenea, indiferent de prezene personajele au aceeai distribuie n cele dou pri, deci schimbarea categoriei de n prima/n a doua parte nu ar aduce nici o schimbare la distribuia prezenelor lor; (7) alternativele variabilelor Luceafr i Ctlina par a se influena reciproc, deci distribuia prezenelor este diferit pe pri ale poemului de cea a nonprezenelor. A treia variabil de intervenie, care poate fi controlat dup acionarea primei variabile de control (segmentare), verific i confirm ori infirm, atrage atenia asupra unor posibiliti de interaciune sau schimbare decizional. n cazul de mai sus: a) Relaia STATISTIC ntre Luceafr i Ctlina este MODERAT confirmat doar de condiionarea prii a II-a a atributului Poem. Ideograma semnaleaz existena potenialului de schimbare decizional (mai mult informaie, mai puin incertitudine n decizie) produs de apariia de noi informaii datorit acestei variabile. Prima prelucrare anuna ca important alternativa Luceafrul nu este n distih n timp ce Ctlina este n distih (cu un aport informaional mare, ce schimba vectorul prezenelor-absenelor ei n distihurile Poemului), dar, n cadrul prelucrrilor pe cele dou pri distincte ale Poemului (sugerate n cubul de date), importana se atribuie cu prioritate studierii prezenelor lor simultane n prima parte a Poemului, ns fr identificarea vreunei prezene a relaiei STATISTICE. Aceasta este o alt INTERPRETARE dect cea prevzut iniial (MODERAT) i care este acum PUTERNIC, n partea a II-a punctul cheie n stabilirea ei fiind Luceafrul n distih dar NU Ctlina;

Relaiile statistice puternice, ascunse, false i iluzorii

b) legtura Luceafr-Ctlina este confirmat de intervenia Poemului (Poetului), dar relaia n prima parte este fals, nu exist relaie, n ciuda prelucrrilor iniiale ce promiteau o influen cel puin slab, dac nu moderat, n timp ce n partea a II-a relaia este PUTERNIC; c) n cazul inexistenei presupuse a legturilor Poem-Luceafr i Poem-Ctlina (aceeai structur a prezenelor-nonprezenelor n structura Poemului), descoperim c legturile exist doar n prezena interaciunilor ntre variabilele luate n considerare (de la ndoitura sgeilor). Ca i n cazul celorlalte T-uri din ideogram, omul de decizie, cel ce interpreteaz, va elabora evaluri diferite pentru alternative diferite de prezen a caracteristicilor poteniale, n interaciunile, n cazul de fa, de prim ordin comentate anterior sau de ordin secund, Poem-Luceafr-Ctlina. n aceste utilizri, actul decizional i interpretativ este nuanat i diversificat prin cutarea subtil de noi posibiliti, noi alternative ori noi semnificaii. Realitatea, n atenia i la ndemna tuturor decidenilor, este un vacar de informaii i impulsuri, n care fiecare intervine prudent sau temerar, cu experien i intuiie, cu posibilitatea i speranele de a-i recepta adevrurile: selectiv, obiectiv, fidel. Surpriza decidentului este mare cnd observ lipsa de interaciune n anumite situaii (schimbarea variabilei de intervenie) sau potenialul informaional al variabilei de control; n acest mod descoper secvenial trgaciul pentru declanarea interaciunilor via variabila de intervenie. Dup cum am artat, nu aria (tabelul de contingen), care fiind bidimensional poate nela, ci spaiul (hipervolumele), n care decidentul caut cu consecven, i relev acestuia atitudinea duplicitar - ca modelator, decidentul nu escamoteaz structura i rigoarea matematic, iar ca analist de sistem devine cuttor al unor subtile i tainice legturi i multiple condiionri i interaciuni. Aceast sintez, de lung i obstinant travaliu, este un spaiu deschis (sistem de sisteme) n care sunt posibile neprevzute mutaii, adugiri i reduceri, renunri i rentoarceri, salturi i pai leni, ntr-un pienjeni reciproc, fr o aparent constrngere sau ordine. Generarea i verificarea unui numr ct mai mare de variante posibile, avnd ca invariant scopul deciziei, se face prin restructurarea elementelor informaionale. Utilizarea postulatelor teoriei sistemelor inclusiv ale ciberneticii att de fecunde prin folosirea de concepte ca: mediu, feed-back-ul

Relaiile statistice puternice, ascunse, false i iluzorii

negativ, intrare, ieire, scop, entropie, energie, atribute, relaii, corespunde totodat modului de gndire integrat, care a fost ntotdeauna cel mai creator n conceperea i proiectarea sistemelor de conducere i organizare din antichitate i pn astzi ca armonia prilor ntr-un ansamblu n cadrul Republicii lui Platon, tabloul relaiilor economice al lui Quesnay n sec. al XVIII-lea, schemele reproduciei lrgite din Capitalul lui Marx sau tabelele de relaii interindustriale contemporane. Statistica Informaional Onicescu readuce n prelucrarea datelor ideea simplitii regsite. Este expresia unui anume fel de a vedea micro i macrocosmosul informaional al tiinelor socio-culturale. Aa cum n poezie exist metafor-cuvnt sau n pictur metafor-imagine, aa exist n tiine socioculturale metafora-informaie, care intervine ca o expresie nuanat a mesajelor reale aride.

TROISIEME PARTIE
O le chaos a des valles, Il voit, autour de lui, Comment la lumire se fait, Lorsque commence la vie. Eminescu 3 La projection des expriments factoriels et la statistique informationnelle 3.1 Lidentification des interactions par des expriments factoriels 3.2 Les expriments dpourvus de garanties statistiques 3.3 Limportance intrinsque, extrinsque dans la thorie de linformation

Relations statistiques fortes, caches, fausses et illusoires

La projection des expriments factoriels et la statistique informationnelle

3.1 Lidentification des interactions par des expriments factoriels Si on reprend les applications de la statistique bayesienne dans le cas tudi antrieurement, on constate quil est possible dappliquer un projet exprimental avec trois facteurs sur deux niveaux, projet qui peut utiliser les instruments statistiques des annexes de lAtelier de Statistique Informationnelle26. Les expriments factoriels ont comme fondement ltude de linfluence des facteurs sur les donnes observes, dans les conditions dans lesquelles les facteurs agissent simultanment, indpendamment et ensuite en interaction deux ou trois, etc. Pour raliser cela on prend en considration les niveaux des facteurs dans des comparaisons arithmtiques. Les expriments de ce type les plus utiliss sont: lexpriment 22 (deux facteurs deux niveaux), lexpriment 23 (trois facteurs deux niveaux) et lexpriment 32 (deux facteurs trois niveaux). De la base de donnes o apparaissent codifies les caractristiques identifies dans chaque distique du pome Luceafrul lExprimentateur construit le tableau suivant trois entres et rptition donne par les premires, respectivement La procdure est la suivante: Pas 1. On codifie, en chiffres arabes ou en lettres, les alternatives des vnements ou des caractristiques et attributs tudies, qui seront places dans les colonnes de limage 13. Par exemple, la colonne A de la feuille de calcul MicrosoftEXCEL de limage 13 contient le nombre courant du distique et la colonne B a les codes: 1 si lAstre/Gnie est dans le distique, 2 sil communique (avec nimporte qui), 3 sil parle de soi et la case reste vide sil nest pas dans le distique.
26

Niculae V.MIHI, Metode cantitative n studiul pieei, Editura Economic, vol.I-III, 1996-2001.

Relations statistiques fortes, caches, fausses et illusoires

Pas 2. On construit un tableau avec la Base de donnes qui contient sur les lignes directoires les distiques et sur les colonnes, les vnements dcrits antrieurement (la prsence dun attribut, personnage, caractristique) La premire ligne doit contenir soit lachronyme, soit le nom, soit le code dune caracteristique ou attribut, jamais le mme sur la mme ligne. Par exemple B1 contient lAstre, D1 le Dmiurge. Examinons par exemple la case A 14 qui contient le distique 13 o on constate le prsence de lAstre/Gnie, fait pour lequel lExprimentateur introduit un 1 dans la case B 14, constate la prsence de la lumire ...il brle chaque soir/dune flamme toujours plus forte et on introduit un 1 dans la case F14 et un NON dans la case G 14 car lAstre/Gnie ne communique pas, Ctlina non plus (H 14) mais il y a communication puisquon est informs des actions de lAstre/Gnie prsent dans le distique. De cette manire apparat la codification primaire pour les vnements concernant lAstre/Gnie, Ctlina, le Dmiurge, Ctlin, la Lumire, le Mouvement, etc (colonnes B,C,D,E,F,S de limage 13. Image 13

Relations statistiques fortes, caches, fausses et illusoires

Un exemple de codification rapide des rubriques suivantes (colonnes)est le suivant: - on slecte la case G2 et on crit la commande: =IF(B2=2, LAstre/Gnie parle Ctlina, Non) - on place lindicateur de la souris dans langle droit-bas jusqu lapparition du signe + (plus) et on appuie sur la partie gauche de la souris suivant la colonne G, le rsultat tant celui du tableau, prsent partir du distique 6. LAstre/Gnie ne communique pas, puisque la colonne B ne contient dans cette partie illustre du tableau aucun code = 2. Idem pour la colonne H o au distique 24 Ctlina parle LAstre/Gnie et cette information apparat dans H25. - on clique sur la case I2 et on crit la commande = IF(B2=1,prsent, IF(B2=2,communique, Non)) on place lindicateur de la souris dans langle droit-bas jusqu lapparition du signe + (plus) et on appuie sur la partie gauche de la souris suivant la colonne I. De tels traitements sont ncessaires si on veut construire de nouvelles variables avec dautres alternatives, des donnes initiales, dhabitude par la concatnation ou selon une autre logique. La colonne J a t rserve pour la variable de contrle dont on a besoin pour la commande Pivot Table pour la construction des tableaux entres multiples. Ici aussi on peut procder rapidement en compltant la case J1 avec 1 et en rpetant lidentification avec la souris du signe + (plus), et suivant avec la souris la colonne J jusquau distique final. Les colonnes suivantes K i L sont compltes avec des informations concernant la nature paire ori impaire de la strophe respective du distique, donnes qui seront utiles pour les expriments suivants. La colonne M contient des informations sur QUI communique et on obtient par l utilisation de la commande: =IF(B2=2 "LAstre/Gnie",IF(C2=2,"Ctlina",IF(D2=2,"Le Dmiurgel",IF(E2=2,"Ctlin")))). Dans le cas de la nonralisation dun IF conditionnel (si) linformation des cases M est en relation avec une FAUSSE communication (non entre les personnages du pome, mais avec le lecteur). La colonne N est complte automatiquement par la commande que nous trouvons dans la rubrique de dialogue au-dessus des colonnes identifies de la Base de donnes: : =IF(M2=FAUSSES, "NON","OUI"). Il en rsulte une nouvelle variable dicotomique concernant la prsence ou labsence de la communication, qui que communique.

Relations statistiques fortes, caches, fausses et illusoires

On agit de la mme manire pour obtenir linformation EST dans le distique, NEST PAS dans le distique des colonnes O, P, Q, R, correspondantes aux vnements partiellement analyss ci-dessus. PAS 3. On slecte la base cre, dans ce cas $A$1:$U$197. On fait appel aux commandes MicrosoftEXCEL: Data, Pivot Table and Pivot Chart Report, et on rpond aux questions: - Where is the data that you want to analyse? Rponse: Microsoft Excel or Data base, - What kind of report do you want to create? Rponse: Pivot Table, Next - Where is the data that you want to use? Range $A$1:$U$197, Next - Where do you want to put the Pivot Table?, lendroit o on enregistre le rsultat (fiche de travail nouvelle ou dj existente), Layout
A ce moment sur lcran apparait gauche lesquisse dun tableau avec les lments didentification:

COLUMN, DATA, ROW i PAGE. On slecte la variable pour colonne, Luceafrul et on copie sur COLUMN, 1 sur DATA, Communication et ensuite Ctlina sur ROW, Baza sur PAGE. La colonne Base contient le chiffre 1 pour les premiers 98 distiques (premire partie du pome) et le chiffre 2 pour la rptition de la dernire partie du pome (les 98 distiques suivants). Lemplacement dsir apparatra dans le tableau ci-dessous une exception: la place dExpriment 3 facteurs il y aura le message Sum of 1. Image 14
COLUMN ASTRE/ GENIE en distique Nest pas Total ligne

Sum of 1 PAGE
ROW Base Communication Catalina

Total

colonne

ligne 1 DATA 1 ligne2 Colonne Colonne 1 2 TOTAL

Relations statistiques fortes, caches, fausses et illusoires

Expriment 3 facteurs Base premire 1/2 Communication Catalina on com. en distique nest pas TOTAL on com. nu se com. en distique nest pas TOTAL on ne com. on com. TOTAL on ne com. TOTAL 2 Total Total gnral en distique nest pas on com. en distique nest pas on ne com.

ASTRE/GENIE En distique 37 0 37 7 25 32 69 13 30 43 1 14 15 58 127 Nest pas Total gl. 3 40 1 1 3 40 15 22 10 35 26 58 29 98 25 38 0 30 25 68 6 7 9 23 15 30 40 98 69 196

1 Total rptition dernire1/2

Pour une explicitation rapide, noous prsentons le tableau suivant, O les chiffres 1 i 2 reprsentent la base et la rptition et # lindiffrence. Image 15
Experiment 3 facteurs ASTRE/GENIE CommunicaBase Catalina En distique Nest pas Total gl. tion 1 OuiOuiOui 1 OuiNonOui 1 Oui # Oui premire 1/2 on com. en distique 1 NonOuiOui 1 NonNonOui 1 Non # Oui nest pas 1 # Oui Oui 1 # Non Oui 1 # # Oui TOTAL on com. 1 OuiOuiNon 1 OuiNonNon 1 Oui # Non on ne com. en distique 1 1 NonOuiNon NonNonNon 1 Non # Non Nest pas 1 # NonNon 1 # OuiNon 1 # # Non TOTAL on ne com. 1 # Oui # 1 # Non # 1# # # 1 Total TOTAL 2 OuiOuiOui 2 OuiNonOui 2 Oui # Oui rptition on com. en distique 2 NonOuiOui 2 NonNonOui 2 Non # DOui dernire1/2 nest pas 2 # OuiOui 2 # Non Oui 2 # # Oui TOTAL on com. 2 OuiOuiNon 2 OuiNonNon 2 Oui # Non on ne com. en distique 2 2 NonOuiNon NonNonNon 2 Non# Non nest pas 2 # OuiNon 2 # NonNon 2 # # Non TOTAL on ne com. 2 # Oui # 2 # Non # 2# # # 2 Total # # Non # TOTAL Total gnral

Relations statistiques fortes, caches, fausses et illusoires

Par exemple: (1 # OUI OUI) signifie dans les premiers 98 distiques, quil y ait ou non dans le distique Ctlina, Luceafrul, communication. Ou, (1 # # OUI) quil y ait prsence ou absence des protagonistes du pome, dans combien de distiques de la premire partie on communique. LAstre/Gnie est prsent dans un nombre de distiques prsents dans la case qui contient (# # DA #) quelle que soit la partie du pome, la prsence de Ctlina ou de la communication. Evidemment (1 # # #) runi avec (2 # # #) nombre de distiques de la premire et de la deuxime partie reprsente le TOTAL, nombre total de distiques. Les chiffres reprsentent le nombre de distiques qui contiennent les facteurs et leurs combinatisons. Facteur A: Niveaux: 1 Facteur B: Niveaux: 1 Facteur C: Niveaux: 1 CTLINA Oui, est en Distique 0 LAstre/Gnie Oui, est en Distique 0 COMMUNICATION Oui, est en Distique 0

Nest pas en Distique Nest pas en Distique Nest pas en Distique

Les interactions de premier ordre sont donnes par la combinaison des facteurs: AB, AC, et BC et ceux de second ordre , ABC. La figure 1 ci-dessous montre les 23 combinaisons dans lesquelles les niveaux A, B, C, sont successivement et alternativement au niveau 1 et 0, lillustration se ralisant tantt en lettres minuscules, tantt en lettres majuscules.

Relations statistiques fortes, caches, fausses et illusoires

AbC 101 Abc 100 (a) Abc ABc 110 (ab)

111 ABC

abC 001 (c) 001 abc

aBC O11 (bc)

000

(1) abc (1)

O1O (b) aBc


Figure 1

Le modle mathmatique est le suivant:

xi

j k l

= + i + j + k + i j + i k + j k + i

j k

+ i

j k l

(31)

o i = 0,1 sont les niveaux du facteur A, j = 0,1 les niveaux du facteur B, k = 0,1 les niveaux du facteur C, l = 0,1 les niveaux du facteur Rptition, et xijkl = chaque donne observe soumise linfluence des trois facteurs indpendants, les effets de leur combinaison, de la rptition et les erreurs exprimentales. La mise en vidence des combinaisons des facteurs et leurs niveaux: Explicitation dans limage 16. Image 16
Niveau des facteurs C B A Rptition: partie I II Total Partiel Effets partiels et combins

1 1 1 37 13 50 T1 Les frquences reprsentent le nombre de distiques la suite de lidentification de la relation de communication entre lAstre/Gnie et Ctlina dans la premire et la deuxime partie du pome, dans ces distiques. 1 1 0 0 30 30 ta LAstre/Gnie communique mais NON dans la prsence de Ctlina. Dans la premire partie il communique seulement avec elle, donc la frquence est 0, et dans la deuxime partie, la communication est faite par le Dmiurge, sans la prsence de Ctlina, en 30 distiques.

Relations statistiques fortes, caches, fausses et illusoires

Niveau des Rptition: partie Total Effets facteurs 1 0 1 3 25 28 tb Ctlina communique mais NON en prsence de lAstre/Gnie ce qui signifie 3 distiques dans lesquels rpond Ctlin dans la premire partie et toujours lui, en distiques dans la deuxime partie du pome. 0 1 1 7 1 8 tc LAstre/Gnie et Ctlina sont dans les distiques mais ne communiquent pas (on parle seulement deux et de leurs actions) 1 0 0 1 0 1 tab Communication faite par lauteur sans la prsence des deux, premier distique Il tait une fois/ Comme jamais 0 1 0 25 14 39 tac Prsence de lAstre/Gnie, sans communication et sans la prsence de Ctlina en distique, dans la premire et la deuxime partie du pome. 1 0 0 15 6 21 tbc Communication desautres, sans la prsence simultanne dans le distique des deux personnages principaux 0 0 0 10 9 19 tabc Le nombre de distiques dans la premire et la deuxime partie du pome, sans la prsence de Ctlina, de lAstre/Gnie ou de la communication.

On cre des sets dhypothses statistiques pour chaque facteur dinfluence et des combinaisons de deux ou trois influences rciproques. Nous illustrons dans ce qui suit les effets directs et de deux combinaisons, en utilisant le cubedes influences. La combinaison des facteurs pour la mise en vidence des interactions Tableau 30
Combination des facteurs 1 A-Ctlina B-LAstre/Gnie C-communique AB AC BC ABC Total Partie o on a identifi la combinaison I II 37 13 0 30 3 25 7 1 1 0 25 14 15 6 10 9 98 98 Total 50 30 28 8 1 39 21 19 196 Effet simple et combin t1 ta tb tc tab tac tbc tabc Total

Relations statistiques fortes, caches, fausses et illusoires

Observant que le facteur A gagne influenant quatre sous-totaux tab, tac, tabc, pour obtenir leffet de A, simple et combin, on soustrait de la somme du gain les contributions des autres sans le facteur A, cest--dire dautres facteurs de lenvironnement (1), le gain de B sans A, le gain de C sans A, et le gain de la combinaison entre B et C, sans A. La Situation se rpte aussi pour les facteurs B et C. On organisera les donnes dans le tableau de manire quon obtienne ces nouveaux totaux. Signes arithmtiques pour la mise en vidence des interactions Tableau 31
1 + + + + a + + + + b + + + + c + + + + ab + + + + ac + + + + bc + + + + abc + + + + + + + + Total 196 T1 (-18) Ta (-58) Tb (-20) Tc (-40) Tab 78 Tac 46 Tbc (-24) Tabc

Les sommes ont t obtenues par laddition, o on a le signe "+" et par la soustraction, o on a le signe "-" des sous-totaux des effets partiels et combins obtenus la suite la recherche et illustrs dans le tableau 6. Par exemple: Ta=-t1+ta-tb-tc+tab+tac-tbc+tabc= -50+30-28-8+1+39-21+19 = -18 (32) On calcule le nombre de degrs de libert df1 pour chaque facteur dinfluence et leurs combinaisons lor et le nombre de degrs de libert df2 pour tout le tableau. df1 = nr. niveaux - 1 = 2 - 1 = 1 (2, puisque chaque facteur est dtermin par ses deux niveaux sauf 1 pour les raisons dej mentionnes antrieurement). df2 = [23 (nr. rptition- 1)] - 1 = 7 (33) pour = 0,05 on a Ft (1,7) = 5,59 On dtermine le facteur de correction C:
C= 196 T1 = = 2401 3 nr. repetitii 23 x 2 2
2 2

(34)

On dtermine la somme des carrs SP pour chaque facteur dinfluence et ses combinaisons: Image 17
(18) SPA = 3Ta = = 20,25 16 2 x2 2 2 (20) SPC = 3Tc = = 25 16 2 x2
2 2

(58) SPB = 3Tb = = 210,25 16 2 x2


2
2 ( - 40 )2 = 100 SPAB = T a b = 3 16 2 x2

Relations statistiques fortes, caches, fausses et illusoires

( 78 ) SPAC = Ta c = = 380,25 3 16 2 x2 (24) SPABC = Ta b c = = 36 3 16 2 x2


2 2

SPBC = T b c = 46 = 132,25 3 2 x 2 16
SPRep =
2 2 Trep 98 + 98 - C= - 2401= 0 3 3 k =1 2 2 2 2

On dtermine la somme des carrs pour tout le tableau:


SPT =
i=0 j=0k =0l =1

2 i j k l

- C = 372 + 132 + ... + 92 - 2401= 2005

(35)

On dtermine la somme des carrs pour lerreur exprimentale:


SPE = SPT-SPA-SPB-SPC-SPAB-SPAC-SPBC-SPABC-SPRptition = 1101

On dtermine la moyenne des carrs MP pour chaque facteur dinfluence et ses combinaisons. Puiaque df1 = 1, il rsulte que la moyenne des carrs sera gale avec la somme des carrs, SP: MPA = SPA MPB = SPB

MPC = SPC MPAB = SPAB MPAC = SPAC MPBC = SPBC MPABC = SPABC On dtermine la moyenne des carrs pour lerreur exprimentale: SPE 1101 = MPE = = 157,2857 (36) 7 df 2 On dtermine le rapport Fisher calcul pour chaque facteur dinfluence et ses combinaisons: MPA 20,25 MP Re p 0 = = 0,13 < Ft = = 0 < Ft F a= FRe p = MPE 157,29 MPE 157,29 MPC 25 MPB 210,25 = = 0,16 < Ft = 1,34 < Ft = Fc = F b= MPE 157,29 MPE 157,29 MPAB 100,0 MPAC 380, 25 = = 0,64 < F t = 2,42 < Ft (37) = Fab = Fac = 157,29 MPE MPE 157,29 MPBC 132,25 36,0 MPABC = = 0,84 < Ft = 0,23 < Ft = Fbc = Fabc = 157,29 MPE MPE 157,28

Relations statistiques fortes, caches, fausses et illusoires

Puisque ce tableau Fisher tabulaire a la valeur 5,59, lhypothse nulle est accepte dans tous les tests. Image 18
base Repetition premire Dernire1 Sp varia1/2 /2 ble t(otal) T(otal) Environnement Catalina LAstre/Gnie communication AB AC BC ABC T.rep 37 0 3 7 0 25 15 11 98 13 30 25 1 0 14 6 9 98 50 30 28 8 0 39 21 20 196 Correc- Test 196 2401 tion Fisher -18 20.25 SPA 0.13 Fa -58 210.25 SPB 1.34 Fb -20 25 SPC 0.16 Fc -40 100 SPAB 0.64 Fab 78 380.25 SPAC 2.42 Fac 46 132.25 SPBC 0.84 Fbc -24 36 SPABC 0.23 Fabc 2401 0 SPRep 0.00 Frep correct 2005 SPT Ftab=5, 1101 SPE 59 157.28 MPE

LEGENDE
Notation suppose

A B C AB AC BC ABC

Ctlina LAstre/Gnie Existence de la communication Interaction de premier ordre Interaction de premier ordre Interaction de premier ordre Interaction de second ordre

Mais penchons-nous avec plus dattention sur ces rsultats si diffrents des traitements antrieurs qui ont montr des interactions (relations) entre les personnages principaux, LAstre/Gnie et Ctlina. Linstrumentation statistique des pourcentages effectue pour la deuxime moiti du pome a montr mme une relation forte ou, pour tout le pome, modre. Quest-ce qui se passe?

Relations statistiques fortes, caches, fausses et illusoires

3.2 Les expriments dpourvus de garanties statistiques

Dans la littrature de spcialit27 on analyse lexistence des expriments qui ne rpondent pas aux exigences statistiques des projections exprimentales, mais qui peuvent reprsenter la meilleure approche dans ces circonstances, produisant une quantit importante dinformation utile. Les expriments qui offrent des garanties sont bass sur la manipulation directe de la variable exprimentale par lexperimentateur, sur lattribution alatoire des sujets dans des groupes de contrle et exprimentaux et sur le contrle des variables extrieures qui peuvent oprer pendant lexperiment... La manipulation directe, brutale a t, par exemple, la division du pome en deux partie gales, sans laccord de lauteur qui a cr une histoire temporelle, un conflit, des situations contrastantes places spcialement dans certains endroits de la posie. Ce phnomne a t observ aussi dans lanalyse bayesienne avec des rsultats trs diffrents de lapproche dEminescu dintroduction de nouveaux vers. Une analyse plus correcte peut tre la division de la posie premirement en deux parties avec les deux personnages (LAstre/Gnie, Ctlina) et ensuite avec lexistence de tous les quatre personnages, o interviennent lordre en temps et lapparition de nouvelles situations, contrastantes, par rapport la premire partie de la posie. Le conseil du professeur Mihai C. Dementrescu est qu en ce qui concerne lattribution alatoire des sujets aux groupes de contrle et exprimentaux, un premier substitut de cette condition se ralise lorsque linvestigateur peut prouver que les groupes exprimentaux et de contrle taient au dbut comparables, avant le commencement de lexpriment. Une autre mthode pour remplacer la condition alatoire est offerte par la comparaison des sous-groupes. Le chercheur peut slecter du groupe total des sous-chantillonscouples du point de vue de la ressemblance de certaines caractristiques, mais qui ont enregistr des expriences contrastantes. Dailleurs, il est possible de restreindre lchantillon, retenant seulement les personnes qui ont des caractristiques qui intressent... 28 Pour le contrle direct sur les variables extrieures, une recommandation du Professeur est de tester les hypothses, de chercher des situations similaires, mais diffrentes en temps et espace, de la problmatique tudie. Et pourtant, pourquoi est-ce quon ne rvle ni mme linteraction forte ou modre entre les distiques o figurent les protagonistes du Pome? Regardons encore une fois les calculs effectus manuellement et
27 28

M.C.Demetrescu, op.cit., pag.214 M.C.Demetrescu, op.cit., pag.217

Relations statistiques fortes, caches, fausses et illusoires

rappelons-nous que le dcideur dsire savoir si les rsultats obtenus avec un traitement exprimental diffrent assez significativement de ce qui se passe dans labsence de celui-ci pour prciser si la variable experimentale est efficace. Il dcide cela par la comparaison du niveau de bruits, variation, analysant les donnes en et sans la prsence du traitement faisant la diffrence entre le bruit de fond et celui produit lorsque le signalest prsent, donc la combinaison de bruit+signal et le bruit en soi, en se demandant quelle est la probabilit de la production de lvnement sil y a seulement bruit. Techniquement, nous sommes intresss par un rapport algbrique entre signal plus bruit et signal. Si le signal (la diffrence amplifie) se confond ou a le mme niveau avec le bruit habituel, alors le rapport algbrique est 1. Pour lexprimentateur le rapport est observation/erreur estime. Observons la diffrence entre le traitement et les conditions de contrle en contraste avec les diffrences quon observe sans traitement. Si le rapport (signal+bruit)/bruit est assez grand en comparaison avec le rapport bruit/bruit, alors il y a ce quelque chose, le signal. Le rapport Ficher est obtenu dans le cas ci-dessus par le rapport de la Moyenne des Carrs de la Variable Indpendante (MPVariable qui dans le cas des deux niveaux est identique avec celle de la Somme des Carrs de la Variable Indpendante) et la Moyenne des Carrs de lErreur(MPE), erreur provenue de lenvironnement de calcul, mais principalement par lignorance des veritables variables qui produisent la variation des donnes. Elle provient toujours de lamplification (lvation au carr) des donnes examines conformment au modle: SPE = SPT-SPA-SPB-SPC-SPAB-SPAC-SPBC-SPABC-SPRRptition o:

SPT =

i=0 j=0k =0l =1

2 i j k l

-C

(38)

De ces calculs on voit que SPT est gale 2005 avec la correction faite (C=2401), une valeur trs grande qui fait que lintervention de lenvironnement, des bruits, de lerreur soit trs grande, soit SPE =1101, donc une dispersion MPE de lerreur de 157,28. Comme la plus grande valeur est MPAC=380,25 le rapport entre MPAC et MPE ne dpasse pas la valeur thorique Fisher pour le modle ci-dessus, 5,59. Il est vident que dans les structures refltes par les frquences des distiques sur les combinaisons des caracteristiques analyses pour la premire et la deuxime partie dautres associations ou relations que celles supposes sont importantes. Mais refaisons les calculs. Dans le groupe de contrle mettons les distiques impaires et dans le groupe exprimental, les distiques impaires, cest--dire dans la base et la rptition conformment a lillustration antrieure.

Relations statistiques fortes, caches, fausses et illusoires

On a:
Expriment 3 facteurs et rp. Base Distique impaire communication CATALINA on com. TOTAL On ne com. TOTAL 1 Total Grand Total repetition on com. distique paire TOTAL on ne com. TOTAL 2 Total Grand Total Facteurs et Combinaisons en distih nest pas on com. en distique nest pas on ne com. en distih nest pas on com. en distih nest pas on ne com. Astre/Gnie est en distique 23 15 38 3 20 23 61 26 16 42 5 19 24 66 127

Image 19
nest pas Total gl. 15 0 15 12 10 22 37 13 0 13 9 10 19 32 69 38 15 53 15 30 45 98 39 16 55 14 29 43 98 196

Rpbase tion Distique distique impaire paire t(otal) T(otal) Spvariable Valeurs Fisher 1 23 26 49 196 2401Correction CATALINA 15 16 31 -16 16SPA 8.00Fa LASTR/GENIE 15 13 28 -58210.25SPB 105.13Fb communication 3 5 8 -20 25SPC 12.50Fc AB 0 0 0 -42110.25SPAB 55.13Fab AC 20 19 39 76 361SPAC 180.50Fac BC 12 9 21 46132.25SPBC 66.13Fbc ABC 10 10 20 -22 30.25SPABC 15.13Fabc T.rp 98 98 196 2401 0SPRep 0.00Frep correc tion 899SPT 14SPE Ftab=5,59 2MPE

Cette fois-ci, SPT = 899, ce qui mne une dispersion de lerreur gale 2. La distribution des distiques appartient lauteur de Luceafrul et on peut admirer larmonie des structures izomorphes, sans didffrences statistiques significatives, avec Frp nul.

Relations statistiques fortes, caches, fausses et illusoires

Des calculs on obtient des diffrences significatives essentielles au niveau des facteurs tout comme au niveau de leurs combinaisons, toutes les valeurs Fisher tant plus grandes de 5,59. La plus importante interaction, dans le cas analys, est Fac=180,5 le niveau le plus haut atteint par la bavarde Ctlina (a=ctlina, b=communique) Image 20
Distiques Ctlina communication est en distih nest pas est en distique 77 31 nest pas 29 59 Total 106 90 Probabilit de risque Valeur Hi, robuste calcule par CHIINV Y a-t-il total 108 88 196
Estimations

58.4 47.6

49.6 40.4

0.000calcule par fx CHITEST 28.705Valeur Hi theorique 3.841 #NUM! Coef.conting.CramerV 0.382693 influence? Ctlina Relation: Modre

Et linteraction recherche Fab est significativement statistique, vrifie aussi par les tests classiques du tableau ci-dessous: Image 21
Distiques CATALINA en distique nest pas Total Probabilit de risque Valeur Hi, robuste Calcule par CHIINV Y a-t-il LASTRE/GENIE est en distique nest pas 57 49 70 20 127 69

Total 106 90 196

Estimations

68.7 58.3

37.3 31.7

0.000Calcule par fx CHITEST 12.295Valeur Hi thorique 3.841 Coef.conting.Cramer 12.294V 0.250458 LASTRE/ Relation: faible influence? GENIE

Si on r-analyse la premire et la deuxime partie du pome ayant le nouveau paradigme (distique impaire-paire comme groupe de contrle et exprimental), nous avons les situations suivantes.

Relations statistiques fortes, caches, fausses et illusoires

NR.DISTIQUES de la premire moiti de la posie LUCEAFARUL

Image 22
Experiment 3 facteurs et rp. base distique impaire communication CATALINA on com. TOTAL on ne com. TOTAL Grand Total on com. TOTAL nu se com. TOTAL 2 Total en distih nest pas on com. en distique nest pas on ne com. en distique nest pas on com en distique nest pas on ne com LASTRE/GENIE est en distique 18 0 18 2 12 14 32 18 1 19 5 13 18 37 n est pas Total gl. 1 0 1 10 6 16 17 2 0 2 5 5 10 12 19 0 19 12 18 30 49 20 1 21 10 18 28 49

1 Total rptition distique paire

base rptition distique distique impaire paire t(otal) environnement Catalina


LASTRE/GENIE

Spvariable 98 -24 -40 18 10 52 28 -54 600.3 corre ction

communication AB AC BC ABC T.rp

18 0 1 2 0 12 10 6 49

18 1 2 5 0 13 5 5 49

36 1 3 7 0 25 15 11 98

Correc- Test 600.3tion Fisher 36SPA 13.26Fa 100SPB 36.84Fb 20.25SPC 7.46Fc 6.25SPAB 2.30Fab 169SPAC 62.26Fac 49SPBC 18.05Fbc 182.3SPABC 67.14Fabc 0SPRep 0.00Frep 581.8SPT 19SPE 2.714MPE Ftab= 5,59

Surprise: interaction dordre deux, de valeur maximum, Fabc=67,14 beaucoup plus grande que Ftab=5,59. Linteraction rsulte de la combinaison Astre/Gnie dans le distique et la combinaison des distiques conditionnes par la prsence dans le distique de lAstre/Gnie.

Relations statistiques fortes, caches, fausses et illusoires

LASTRE/GENIE est dans tous les 69 distiques

Image 23
communication

Ctlina
en distique nest pas Total

On com.

On ne com.

total 43 26 69

Estimations

36 1 37

7 25 32

23.1 13.9

19.9 12.1

Probabilit de risque 0.000calcule par fx Valeur Hi, robuste 41.568Valeur Hi thorique Calcul par CHIINV #NUM! Coef.conting.CramerV Y a-t-il influence? communication Relation:

CHITEST 3.841 0.776166 Forte

LASTRE/ GENIE nest pas dans 29 distiques Image 24


communication

Ctlina
en distih nest pas total

on com. On ne com.

total 18 11 29

Estimations

3 0 3

15 11 26

1.9 1.1

16.1 9.9

Probabilit de risque Valeur Hi, robuste Calcule par CHIINV Y a-t-il

0.153calcule Par fx CHITEST 2.045Valeur Hi thorique 3.841 2.045Coef.conting.CramerV 0.265543 Relation: Il ny a pas influence? Ho

La vrification recherche, Fab est comme mesure statistique nonsignificative, valeur 2,3 et exprime lindpendance, tout comme les premiers tests ont montr, plus tt, le manque dune relation potentielle, mme plus, homognit, indpendance des vnements (LAstre/Gnie, Ctlina prsents dans le distique ou non). Rappelons la manire dont on a calcul SPAB respectivement MPAB ncessaire pour lidentification de linteraction par le test Fisher: (39) T ab = t1 t a t b + t c + t ab t ac t bc + t abc =36-1-3+7+0-25-15+11=10
2 2 T a b = ( 10 ) = 6,25 SPAB = 3 16 2 x2 MPAB 6,25 = = 2,3 < F t F ab = MPE 2,714

(40) (41)

Relations statistiques fortes, caches, fausses et illusoires

Dans la deuxime moiti du pome la situation de lexpriment statistique trois facteurs deux niveaux est prsente dans le tableau cidessous:
NR.DISTIQUES dans la deuxime moiti de la posie LUCEAFARUL

Image 25
Expriment 3 facteurs et rp.. Base communicationCATALINA distique impaire on com. en distique nest pas TOTAL on com. On ne com. en distique nest pas TOTAL on ne com. 1 Total Grand Total repetition se com. en distique distique paire nest pas TOTAL on com. nu se com. en distique nest pas TOTAL on ne com. 2 Total Grand Total
base distique impaire 5 15 14 1 0 8 2 4 49 rptition distique paire t(otal) 8 13 15 30 11 25 0 1 0 0 6 14 4 6 5 49 9 98 LASTRE/GENIE est en distique n est pas Total gl.

5 15 20 1 8 9 29 8 15 23 0 6 6 29 58

14 0 14 2 4 6 20 11 0 11 4 5 9 20 40

19 15 34 3 12 15 49 19 15 34 4 11 15 49 98

Environnement Catalina LASTRE/GENIE Communication AB AC BC ABC Total rptition

Spvariable 98 600.3Correct TestFisher 8 4SPA 2.00Fa -18 20.25SPB 10.13Fb 45.13Fc -38 90.25SPC -52 169SPAB 84.50Fab 18.00Fac 24 36SPAC 18 20.25SPBC 10.13Fbc 32 600.3 correc tion 64SPABC 0SPRep 417.75SPT 14SPE 2MPE Ftab= 5,59 32.00Fabc 0.00Frep

Relations statistiques fortes, caches, fausses et illusoires

La plus grande valeur est 84,5 pour signaler linteraction entre LAstre/Gnie et Ctlina obtenueconformment aux calculs suivants:
Tab = t1 t a t b + t c + t ab t ac t bc + t abc

(42)

=13-30-25+1+0-14-6+9= -52
2 2 Ta b = ( 52 ) = 169 SPAB = 3 16 2 x2

(43)

Fab =

MPAB 169 = = 85,5 > Ftab MPE 2


Rptition: distique impaire paire

(44) Image 26

Niveau des facteurs C B A

Total partiel

Effets: partiels et combins

1 1 1 5 8 13 T1 Les frquences reprsentent le nombre de distiques suite lidentification de la relation de communication entre LAstre/Gnie et Ctlina dans la premire et la deuxime partie de la strophe dans ces distiques impaires et paires. 1 1 0 15 15 30 ta LAstre/Gnie communique mais PAS dans la prsence de Ctlina. Dans cette deuxime partie il communique avec le Dmiurg,e, sans la prsence de Ctlina, en 30 distiques. 1 0 1 14 11 25 tb Ctlina communique mais PAS dans la prsence de LAstre/Gnie, ce qui reprsente 14 distiques impaires dans lesquels le rpondant est Ctlin et toujours lui dans 11 distiques paires dans la deuxime partie du pome. 0 1 1 0 1 1 tc LAstre/Gnie et Ctlina sont dans un seul distique paire mais ne communiquent pas (on parle seulement de leurs descriptions et de leurs actions) 1 0 0 0 0 0 tab Dans la deuxime partie du pome il ny a pas de communicationsans la prsence dun des personnages principaux. 0 1 0 8 6 14 tac La prsence de LAstre/Gnie, sans communication et sans presence de Ctlina dans les distiques impaires i paires. 1 0 0 2 4 6 tbc La communication des autres, sans prsence dans le distique, simultanne des deux personnages principaux 0 0 0 4 5 9 tabc Le nombre de distiques impaires i paires de la deuxime partie du pome sans la prsence de Ctlina, de lAstre/Gnie ou de la communication

Relations statistiques fortes, caches, fausses et illusoires

Nous rappelons que les 392 vers du pome Luceafrul, distribus en 98 de catrnes (dition de Maiorescu) ont t distribus en 196 distiques, un nombre accept statistiquement comme collectivit qui vaut la peine dtre analyse avec plusieurs catgories dinstruments statistiques. Comme nous le verrons dans ce qui suit, des questions incitantes naissent la suite de lapplication des modles nergtiques, utilisant lentropie et lnergie informationnelle, des concepts de base dans la Thorie de linformation pour la mise en vidence du gain informationnel, concepts qui nous parlent dans un langage de nombres et signes. Maintenant, dans toute la disharmonie des faits, on aperoit quelquepart de lordre, un ordre qui ne veut pas stendre dans le monde du concret aussi. Cest, chez Eminescu, la loi intrieure qui se laisse parfois repense, parfois non. Un labyrinthe de mirages, chos, miroirs, oublis, amamnses, massives constructions et dbris, o ont laiss leurs traces, les instants, les eons, le temps du monde et lautre comme disait Petru Creia dans le livre dj cit Testamentul unui eminescolog (page 36). Cest pour cela mme que le travail avec les nouveaux modles mritent tre perfectionn. Pour quon puisse voir lordre et linformation l o on voit que le dsordre. Et brusquement les mots de Constantin Noica deviennent plus claires, justifiant en quelque sorte la dmarche: et pourtant, le passage du gnie dans le monde, tout comme le passage de Hyprion qui passe par dessus laisse derrire une trace de lumire et un rumeur dordre. Et on se demande combien est importante la charge informationnelle dans la dmarche des faits, dans quelles directions supposes ou ignores nous jette la dichotomie savoir ne pas savoir. Ctlin sait et reste serein. Ctlina sait et pourtant est tourmente par des dilemmes, car ce quelle sait ne lui permet pas de slever au niveau de la prise dune dcision qui pourrait changer totalement son existence. LAstre/Gnie sait le plus et peut, en consquence, prendre la dcision fondamentale, qui en interaction avec les dcisions des autres, ne peut pas tre applique. Voil la grande leon de lAstre/Gnie: il ne faut pas regarder les choses seulement gnralement (globalement), les dterminations individuelles des lments engendrent du dynamisme, et cest pourquoi on doit chercher le sens des choses. Des faits, des phnomnes des vnements, ce qui est propre aux modles proposs ci-dessous. Finalement, lAstre/Gnie nous montre ce que signifie un potentiel de changement. Cest un thme de rflexion profonde de nos jours que de ne pas regarder les choses (les systmes) dune manire rigide, mais de penser toujours que, naturellement, sous un rgime un peu chang (ce qui est toujours possible) pourrait apparatre un systme totalement nouveau. Les choses sont parfaitement valables dans lordre de la culture ou de lesprit, de lconomique ou du social.

Relations statistiques fortes, caches, fausses et illusoires

En fait, lAstre/Gnie nous apprend ce que signifient le devenir, le rapport entre dsir et temps, entre volont et mouvement, ce que signifient les croisements de leurs influences, mouvement-immobilit, bas-haut, obscurit-lumire, etc. Mais est-ce que la vraie histoire de lAstre/Gnie nest pas celle de trouver cette balance de lordre et de lquilibre par laquelle lindividuel se retrouve dans le gnral, et le gnral a comme modle lindividuel?
3.3 Limportance intrinsque, extrinsque dans la thorie de linformation

Les occupations quotidiennes nous donnent loccasion dutiliser, mme sans le savoir, le concept dinformation dans une multitudes de situations, car sans une information frache nous pouvons nous tromper. Par exemple, nous cherchons des firmes, des banques ou des socits commerciales aprs lheure de la fermeture, parce que nous ne sommes pas au courant avec leurs horaires, ou bien nous arrivons la gare aprs le dpart du train car nous avons consults des horaires de lanne passe. Dans Equilibre spirituel. Etudes et essais, 1929-1947 , ouvrage paru la maison ddition Humanitas en 1998, Constantin Noica30 disait dans la confrence Forme, formation, information tenue la radio en novembre 1943: Personne ne sait assez aujourdhui. Nous voulons tous tre informs. A propos de quoi? Nous ne le savons pas exactement. Mais nous voudrions savoir, apprendre, pouvoir dire dans un monde o chaque instant on a limpression quil se passe quelque chose, sans que nous soyons au courant. Il y a dans des poques trs denses comme celles daujourdhui, une suprme valeur, avec laquelle lhomme se nourrit quotidiennement: linformation. Savoir quelque chose, mme inexacte, mais savoir. C est comme une drogue. Les classifications des informations sont multiples. Nous regardons par exemple les missions de TV Animal Planet ou Discovery et nous obtenons des informations sur la faune et la flore du monde ou bien nous apprenons les dernires dcouvertes scientifiques. Lorquon regarde les sries tl nous obtenons des informations sur des personnages et des caractres fictifs, des situations et de solutions possiblespremballes du point de vue informationnel. Les journaux contiennent des informations sur les arguments politiques, les vnements spotrtifs, les nouvelles les plus fraches. La discussion avec un ami te donne des informations sur des connaissances communes. par exemple. Le concept dinformation est de plus en plus associ lide de la valeur de la surprise . En 1982 Tsichritzis et Lochovsky31, disaient que
30

Constantin Noica, Echilibrul spiritual. Studii i eseuri, 1929-1947, Bucureti, Editura Humanitas, 1998 31 Tsichritzis, D.,Lochovsky, F., Data Models, Prentice-Hall Englewood Cliffs, NJ, 1982.

Relations statistiques fortes, caches, fausses et illusoires

linformation cest ce quon obtient quand on ne savait pas quelque chose avant, quelle est tel un incrment du savoir. On considre que cest similaire avec le concept de mesure de la physique. La mesure peut signifier longueur, poids, volume ou masse en fonction de laspect qui proccupe lobservateur. Similairement, linformation a plusieurs significations, dpendant de la manire dont on la mesure. Shannon et Weaver32 en 1949, considraient linformation comme une mesure des frquences relatives des signaux qui viennent dune source. Claude Shannon et Warren Weaver, ingnieurs aux laboratoires Bell des Etats Unis, ont continu leurs recherches dans la voie ouverte par Carnot et Boltzmann, dans le sens du passage de lentropie linformation (lentropie en hausse irrversible dans tout systme clos, une mesure du degr de complexit ou de dsordre). Lmission des signaux, des messages, des signes, annule ou rduit lentropie, et linformation dans un sysytme ouvert est la mesure de la rduction de lincertitude et du dsordre (negentropia). En fait, accentue Bernard Mige33, la mesure de linformation est base sur une ide trs simple: nous sommmes informs partir du moment o on nous transmet un message que nous ne connaissons pas ou qui comprend beaucoup dlments nouveaux ou imprevisibles. La valeur de ce message stablit par une certaine mesure, dfinie comme l information et qui peut tre comprise comme une quantit de nouveauts transmise au recepteur. Dans le mme contexte Jean Meyriat34 crit: linformation nest pas une chose acquise, un objet constitu, mais une modification, par augmentation ou transformatione, de ltat de savoir de celui qui la reoit . Dautres variantes prennent en considration des modles cyberntiques, ou des approches empirico-functionnelles des moyens dinformation en masse ou des mthodes structurelles dans les applications linguistiques, par exemple la smantique pour les sens, qui drive de la smiotique, la thorie des signes. La smiotique est proccupe par toutes sortes de signes, et leur emploi dans la littrature, la thorie de la communication, lanthropologie et surtout la manire de laquelle les gens peuvent obtenir des sens de ces signes diffrents. On accepte gnralement lexamination de ces signes en trois tapes: (1) analyse de la syntaxe, donc de la structure et des rgles auxquelles ils se subordonnent (voir la syntaxe des langages naturels et formels les mathmatiques et les langages de programmation des ordinateurs),
32 33 34

Shannon, C., Weaver, W., The Mathematical Theory of Communication, University of Illinois Press, 1949. Bernard Mige, Gndirea comunicaional, Cartea Romneasc, Colecia Syracuza, 1998. Meyriat J., Information vs Communication?, n Laulan A.-M., Lespace social de la communication. Concepts et thories, Retz/CNRS, Paris, 1986, p. 65.

Relations statistiques fortes, caches, fausses et illusoires

(2) analyse de la smantique qui rgit les relations entre ce quelles sont et ce quelles signifient; (3) analyse de leur utilisation en pratique, appropriation, perception, etc.
3.3.1 LEntropie et lEnergie de limportance des attributs Informationnelle, mesures

Le processus difficile, contradictoire et fascinant par lequel les lments de lunivers informationnel sond par le dcideur sont relis par des relations, interagissent dune manire multiple et se divisent en vraies et fausses relations illusoires, se retrouve dans une organisation superieure, de systme de systmes. Dans la littrature de spcialit, le concept dimportance de lattribut ou de la variable ou de la caractristique est li la quantit dinformation qui peut tre transmise au dcideur. Cette quantit dinformation est determine par ladaptation convenable de la mesure de lentropie.35 De la sorte on calcule la pondration respective de limportance utilisant lentropie, montrant comment limportance de lattribut est lie dune manire intrinsque un set donn, particulier, dalternatives de decisions. Tout changement dans le set dalternatives mne invitablement un changement des pondrations de limportance. Dans louvrage Legea entropiei i procesul economic, Nicholas Georgescu ROEGEN dit que: .... la Loi de lEntropie mme apparat comme la plus conomique de toutes les lois de la nature... Quune loi naturelle se combine chaque aspect du comportement humain est si habituel, quon ne sattend pas ce que ltude de linfluence de la Loi de lEntropie sur les actions conomiques de lhomme prsente une quelconque complication inhabituelle... Aucun chercheur ne pourra ignorer une perspective si allchante continuant son travail ordinaire calmement... Pourtant le projet (de taventurer dans de tels domaines) mrite dtre entrepris. Il dvoile le fait que la relation entre le processus conomique et la Loi de lEntropie nest quun aspect dun fait gnral, cest--dire que cette loi constitue la base de lconomie de la vie tous les niveaux... Le degr dignorance a les mmes difficults analytiques que les notions dordre (ou de dsordre) de le termidynamique statique ou les niveaux des prix ou du produit national de lconomie politique. Toutes ce variables ne sont mesurables ni mme dans le sens ordinaire. On leur applique les relations: plus ou moins, mais seulement si ces relations sont interprtes dialectiquement. Par la suite, tout ce que nous pouvons faire est
35

. ZELENY M.: Multiple Criteria Decision Making, McGraw Hill Book Company, 1982.

Relations statistiques fortes, caches, fausses et illusoires

dtablir des pseudomesures pour chacune delles... cause de la nature dialectique des pseudomesures il ny a aucune modalit de dliminer les cas dans lesquels deux pseudomesures de la mme variable mnent des ordres diffrents. Une ilustration instructive pour ces dernires observations la constitue la proposition de Octav onicescu de mesurer lordre (ou linformation) par ce quil appelle lnergie informationnelle. 36 <<energie informationnelle>>: ( Ni )2 = f i2 , 1 1 N
s s

(45)

o fi = fi/N. Cela constitue certainement une pseudomesure de lordre tout aussi bonne que ce que nous appelons prsent la ngentropie per particule: s s (46) H = ( N1 ) ln ( N1 ) = f i ln (f i ) .u 1 1 N N Dans la conception de Zeleny la pondration de limportance Ii propre lattribut i, comme mesure de son importance relative dans une situation dcisionnelle donne, est directement lie linformation moyenne intrinsque gnre par le set donn dalternatives possibles par lattribut i, et en parallle est lie aussi Wi, une mesure subjective de cette importance, comme produit de la personnalit professionnelle, culturelle, psychologique du dcideur. Il y a donc deux composantes qui entrent dans le calcul de Ii: un concept relativement stable de limportance de Wi, dtrmin apriori, refletant les scores ds aux connaissances et lexprience du dcideur, et un concept relativement instable, dpendant du contexte, de limportance informationnelle, Ri bas sur un set particulier dalternatives possibles dans une situation dcisionnelle donne. Cette dfinition de limportance de lattribut devient operationnelle seulement si la valeur moyenne de linformation intrinsque transmise au dcideur par tout attribut i, peut tre mesure. Plus les scores sont distincts, ou plus les niveaux attribus une caractristique sont diffrencis, plus grande est linformation dcisionnelle contenue et transmise par lattribut. On peut donc dire comme dans lexemple antrieur, plus les scores ou les niveaux attribus une caractristique de systme sont distincts, plus grande est lintensit contrastante dun attribut et de son nergie informationnelle, donc linformation pour la decision transmise par lattribut.
36

Nicholas Georgescu ROEGEN, Legea entropiei i procesul economic, Editura Politic, Bucureti, 1979

Relations statistiques fortes, caches, fausses et illusoires

Soit le vecteurXi = (xi1, xi2, ...., xim) qui caractrise le set X dans les termes de lattribut i. Regardons limage ci-dessous, une image EXCEL o les cellules (les cases carres du jeu dchecs) qui contiennent des donnes et des informations sont lintersection des lignes numrotes gauche de lcran avec des nombres naturels en ordre croissant partir de 1, 2 etc et les colonnes codifies en ordre alphabtique, ajoutant toujours une lettre de base, A, B, etc. Image 27

Par exemple, la prsence de lAstre/Gnie (vecteur colonne X1) dans les premires 98 distiques (voir E5) est signale 43 fois en prsence de Ctlina (x11 en C3) et 26 fois en son absence (x12 en C4) Le total dans la case C5: Xi = xik , i = 1,..., n.
k =1 m

(47)

Ici n est gal au nombre des tats (prsence/absence en distique de Ctlina) dans notre cas, deux. (48) stare 1 stare 2 .... stare i stare r X : p( x 1) p( x 2 ) .... p( x i ) p( x r )

Relations statistiques fortes, caches, fausses et illusoires

CinDistih nuinDistih LinDistih : 0.623 0.377

Dans le cas de lapparition de lAstre/Gnie dans la premire partie du Pome, la logique dit que sa prsence est trs importante si le Pote la caractrise dans plusieurs distiques (importance extrinsque, Wi). Limportance intrinsque de lintrieur du set dalternatives est ralise par lexistence ou labsence dans le distique de Ctlina (deux niveaux). Si la frquence des distiques est relativement gale sur les deux tats, on na aucune information utile en ce qui concerne lapport de Ctlina la mise en valeur de lAstre/Gnie. Mais si les distiques dans lesquels figurent tous les deux sont nombreux, limportance des rencontres est grande, et le pome senrichit grce leur dialogue. Mais si le grand nombre de distiques est domin par labsence de Ctlina dans le distique? Alors limportance globale (extrinsque, donne par le Pote et intrinsque, donne par la structure mentionne) de lAstre/Gnie est la mme, tandis que linterprtation est diffrente puisque labsence de Ctlina laisse la place dautres facteurs, caractristiques, qui amplifient linformation ncessaire pour connatre mieux LAstre/Gnie. La moyenne de linformation intrinsque (du set dalternatives de la dcision), qui est une aide pour ltude des donnes et du processus de dcision, est calcule classiquement, par laddition des produits entre tat et sa probabilit dapparition p(x1) (frquence relative). Mais, dans le cas des banales notes scolaires pour le calcul de la moyenne on considre ltat, la note, qui doit tre multiplie avec sa frquence dapparition, par laddition des produits entre les notes et la frquence et la leur division aux nombre total de notes on trouve la moyenne de celles-ci. Dans le cas des probabilits rsultes des frquences (voir le commentaire du laurat du Prix Nobel, Nicholas Georgescu ROEGEN) on ne fait plus la division (parce que les probabilits additionnes donnent lunit). Dans le cas de lentropie, ltat est donn par le logarithme de sa probabilit et l entropie est la moyenne de distribution: (49) ln p ( x 1) ln p ( x 2 ) .... ln p ( x i ) ln p ( x r ) X : p( x 1) p( x 2 ) .... p( x i ) p( x r )

H(X)= M1 (X) = p( xi) * ln p(xi )


i=1

(50)

Relations statistiques fortes, caches, fausses et illusoires

Dans ce cas, la mesure nergtique informationnelle (negentropique) de lattribut i est: (51) p ( x 1) p(x 2 ) .... p(x i ) p(x r ) X : p( x 1) p( x 2 ) .... p( x i ) p( x r ) Pour les nergies, ltat est donn par la probabilit de son apparition et lnergie informationnelle est une moyenne:
r

E(X)= M2 (X) = p( xi) p(xi )


i=1

(52)

0.623 0.377 2 2 X1 : 0.623 0.377 , E (X1) = 0.623 + 0.377 = 0.53 On observe que pour les m niveaux lnergie informationnelle sera x E( X i ) = ( ik ) (53) k=1 X i o: o <=( xik /Xi)<= 1; et 1/m <= E(Xi) <= 1. Si tous les xik sont identiques pour i donn, alors xik/Xi = 1/m et E(Xi) atteint sa valeur minimale, donc Emin = 1/m. Pour le cas de deux tats 0,5. De tout cela rsulte que les informations obtenues peuvent tre modifies en enlevant ou en ajoutant un nouveau attribut. Pour comparer les systmes nombre different de niveaux on a besoin de normalisation, cest--dire davoir les valeurs dans lintervale [0, 1]. On peut calculer la mesure entropique de lintensit contrastante de lattribut i: m x H( X i ) = -K xik ln( ik ) (54) Xi k =1 X i o K > 0, i o <=( xik /Xi)<= 1; et H(Xi) => 0. Si tous les xik sont identiques pour i donn, on a xik/Xi = 1/m, et H(Xi) atteint sa valeur maximale, donc Hmax = ln m. Alors, en attribuant une valeur K = 1/Hmax on obtient: (55) 0 <= H(Xi) pentru toi Xi, H(Xi) <= 1.
m 2

Relations statistiques fortes, caches, fausses et illusoires

xi = (xi1 , xi2 , ..., xim ) Wi i = 1, ..., n


X
i

k = 1

ik

i = 1, . . . , n

ENTROPIA Hmax = ln(m) K = 1/Hmax


H (x i) = K

ENERGIA Emin = 1/m


m

k =1

x ik x i

x l n ik x i

x E (x ) = x
m ik i k =1 i

K > 0, 0 x ik 1 H (x i) 0
EN T R OPY =

0 x 1
ik

1/ m E (x ) 1 = E
i

max

H (x
1

Ea ( xi ) =
(1 H ( x ))
i

E (xi ) Emin = Ri ( xi ) Emax Emin

R =
i

1 n Entropy

E n e rg y =

i=1

( x

R i = E a ( x i ) / Energy
0 Ri 1

R
i =1

=1

Ii = Ri Wi

Ii =

R i Wi
i =1

R i Wi

Figure 2

Relations statistiques fortes, caches, fausses et illusoires

Cette normalisation est ncessaire pour des buts comparatifs. Rcapitulons: les cases C7 et C8 contiennent les probabilits (frquences relatives) de lexistence ou non de Ctlina, conditionnes par la presence de lAstre/Gnie dans le mme distique, et D7 et D8 les probabilits conditionnes de son nonexistence. Dans ce cas E7 et E8 reprsentent les tats de Ctlina, indiffremment des autres facteurs dinfluence, lexception du Pote qui la mentionne dans le distique. Les cases F7 et F8 respectivement G7 et G8 montre la manire de traitement par lutilisation EXCEL des probabilits dlj mentionnes. Sur cette base on calcule les energies informationnelles conformment au modle (4), dans les cases C18 et D18. Limportance extrinsque est considre dans ce cas celle donne par le Pote qui dcrit les actions de lAstre/Gnie dans la premire partie dans une proportion de 70% (la case C10 ayant comme rsultat le rapport des chiffres des cases C5/E5) et qui ne le surprend pas dans 30% (la case D10 ayant comme rsultat le rapport de 29 distiques de 98, dans la premire partie du pome) Lentropie, conformment au modle ci-dessus (2), est ngative cause du logarithme des nombres sous-unitaires (rapport partie/ensemble) et nest pas comparable avec dautres structures nombre different de composantes, donc nous allons faire appel la normalization et dans les cases C11 et C12 on aura les resultants des calculs conformment au modle (6) et respectivement lexemple de la case F11 o on obtient H(Xi) = - (C7*LN(C7)+C8*LN(C8))/LN(2) Lentropie totale du set X (existence ou non de lAstre/Gnie) est dfinie par la relation:

ENTROPIA = H( X i ). ,
i=1

(56)

On observe que plus H(Xi) est grand, plus rduite est linformation transmise par lattribut i (chaos apparent). Dans le cas ci-dessus lENTROPIE ese calcule dans la case E11 par laddition des valeurs de C11 avec D11. Par exemple, si H(Xi)= Hmax = ln m, attribut i ne transmettra aucune information utile (chaos total). Il peut tre limin ce moment des futures situations dcisionnelles. Puisque les pondrations Ri de limportance sont lies contrairement H(Xi), on utilise 1 - H(Xi) (negentropie) la place de H(Xi); on normalise pour tre srs que 0<= Ri <= 1. et
i =1

R i = 1;

Ri =

1 (1- H( X i )). , n - ENTROPIA

(57)

Relations statistiques fortes, caches, fausses et illusoires

On a donc dans la case C13 le rsultat des calculs (1-C11)/(2-E11). Dans le cas de lnergie informationnelle, la relation normalise la mme situation, la normalisation est faite pas seulement dans des buts comparatifs, dailleurs rels, pour des systmes diffrents niveaux: E( X i ) - E min (58) ; E0 ( X i ) = E max - E min de sorte que 0 <= En <= 1. Lnergie minimale Emin dans le cas des deux tats est et lnergie maximale, Emax=1, alors dans la case C12 on a le rsultat des calculs 2*(C7^2+C8^2) 1. LEnergie totale du set X (addition des cases C12 i D12) est dfinie par la relation:

ENERGIA = E( X i ).
i=1

(59)

Plus E(Xi) est grand, plus grande est linformation transmise par lattribut i (pour lequel H(Xi) est minime). Si lnergie informationnelle ajuste este zro (proportions gales), lattribut i noffre aucune information utile et dans certains cas peut tre limin des futures situations dcisionnelles: Ri (cases C14 et D14) est mme En(Xi) nergie informationnelle ajuste normalise pour lattribut i. Les informations obtenues peuvent tre modifies en enlevant ou en ajoutant un nouvel attribut ou un nouvel tat ou une nouvelle alternative de dcision. Moins les scores, les niveaux (frquences, pondrations) xik sont divergents, plus rduits sont Ri et donc dautant moins importants deviennent les attributs i. Si les scores (les niveaux) de tous les attributs sont gaux, alors Ri = 0, limportance de lattribut est nonsignificative (nulle). Similairement, si Ri = 0, alors mme si Wi =1 lattribut ne peut pas tre utilis pour la prise de dcision. Lattribut le plus important est toujours celui qui a Wi et Ri les plus levs. Zeleny apprcie quune hypothse de limportance globale dun attribut, Ii peut tre formule par le produit: (60) I i = Ri .W i , dans les cases C15 et respectivement D15 ou, aprs normalisation (rapportation la valeur de la case E15): R i . Wi , i = 1,..., n. , (61) Ii = n R i . Wi
i-1

Relations statistiques fortes, caches, fausses et illusoires

les valeurs tant calcules dans les cases C16 et D16 do on voit que lexistence de lAstre/Gnie en relation avec lexistence ou la nonexistence de Ctlina dans le distique, est plus importante dans la premire partie du Pome que son nonexistence. En E10 on a calcul lnergie informationnelle ajuste (voir explication de la case F9) de la prsence de Ctlina dans le distique (E(total)). Pour calculer lapport informationnel de lAstre/Gnie au changement de la structure concernant la prsence de Ctlina dans le distique on fait la diffrence des prsences conditionnes de la structure de base. Alors lapport informationnel (AI) est calcul dans la case C21 conformment au modle:

Apport = ( E ( X1) * W1 + E ( X 2 ) * W 2 ) E ( total )

(62)

o E(total) est lnergie ionformationnelle de la structure o Ctlina se trouve dans la partie l du pome, E(X1) et E(X2) les nergies informationnelles des structures o Ctlina se trouve dans la partie l du pome calcules (conditionnes) sur les alternatives de lexistence ou non de lAstre/Gnie dans la premire partie du pome, donc les importances intrinsques. Les podrations W1 et W2 sont les importances extrinsques (proportion du nombre de distiques dans lesquels lAstre/Gnie se trouve respectivement ne se trouve pas dans la partie lk du pome). Lapport informationnel AI est donn par la diffrence entre lnergie moyenne conditionne et lnergie de la structure de base (de la colonne total). Pour faciliter la lecture des modles informationnels, nous allons utiliser la lettre L pour lAstre/Gnie, C pour Ctlina et P pour pome. Alors lnergie moyenne conditionne rsulte de: (63) E ( x 1) E(x 2 ) E(C/L) : W1 W2 et (62) devient (64) et lapport lapport informationnel de la structure L au changement de la srtucture C, ou la pression exercite sur le changement de la structure de base (sans aucun conditionnement, influence, colonne total)
AI(C/L)= E(C/L) E(C)

(64)

En C21 on aura le rsultat de la combinaison =C12*C10+D12*D10E10. La valeur rsulte est zro, donc lexistence ou non de lAstre/Gnie dans des distiques napporte aucune contribution, les deux personnages sont traits dune manire indpendante et gale par le Pote dans la premire partie du pome Luceafrul.

Relations statistiques fortes, caches, fausses et illusoires

Ce fait peut tre facilement vrifi en calculant seulement combien de distiques aurait d crire le Pote sil avait cherch lindpendance, comme dans le cas des frquences thoriques du test Hi carr, cela signifiant multiplier les sous-totaux dans lesquels il y a la frquence relle divise au total gnral. Dans ce cas on a 69*61/98 = 42,95 soit 43 distiques avec la prsence simultane des principaux personnages. Nous avons profit du degr de libert statistiquement accord et le reste de diffrence par rapport au sous-total algbrique peut complter et justifier laffirmation concernant lindpendance. On remarque aussi que limportance ajuste Ri (case C16) est dfinitoire en ce qui concerne lintention du pote qui surprend en 43 distiques la communication entre les deux personnages principaux, puisquelle ne provient pas de limportance intrinsque (d ailleurs gale pour les alternatives existe en distique ou nexiste pas, la valeur de celle-ci tant 0,51 respectivement 0,49 calcules soit utilisant lentropie informationnelle, soit la negentropie, les cases C13-D14). Lanalyse statistique attire notre attention vers lalternative LAstre/Gnie dans le distique, grce limportance extrinsque accorde par le Pote dans les 69 distiques desquels 43 en prsence de Ctlina. Observons aussi un autre aspect! Dans la premire partie du pome, lexistence ou non de lAstre/Gnie dans le distique ne change pas la structure de base de la prsence de Ctlina dans le distique, qui existe avec ou sans LAstre/Gnie en proportion de 61/98 = 0,62 (approximant mille ). Dans le cas de lAstre/Gnie nous avons dj soulign lintention du pote de le mettre en vidence, le rapport tant 69/98 = 0,70. Et cela arrive indiffremment de la prsence ou labsence de Ctlina . En ce qui concerne la deuxime partie du pome, toujours 98 distiques, lapplication utilisant la statistique informationnelle est prsente ci-dessous, dans limage 28. Lapport informationnel est grand (0,18) et la relation est forte. Mme premire vue, les diffrences par rapport la structure de base de C sont donnes par lAstre/Gnie qui nest pas prsent dans le distique (diffrence 0,35). Le modle dtaill est: AI(C/L) = E(C/L,P) E(C) + E(C/L,partea1) (65) E(C / partea1) + E(C / L, partea2) E(C / partea2) La partie droite de limage contient la srie de calculs pour obtenir linformation sur labsence ou non de C dans le distique, lapport informationnel du pome tant insignifiant. Le pote a galis la prsence et labsence de C dans les deux parties du pome.

Relations statistiques fortes, caches, fausses et illusoires

Image 28

(66) On peut calculer, selon le modle de lexistence simultane des variables cause et intervention ou le contrle Astre/Gnie L et pome P, lapport informationnel de leurs combinaisons sur la structure C, Ctlina:

AI(C/P)= E(C/P) E(C)

(67) Lapport informationnel de linteraction entre L et P, LP qui peut tre positive (synergie) ou ngative (tendance cacher, falsifier) sur la structure C, Ctlina est le suivant: AI(C/L P) = E(C/L)+ E(C/P) E(C/L,P) E(C) (68) Cette prsence, illustre dans le tableau 32, peut tre soit bnfique du point de vue nergtique (synergie, amplification), soit non (rduite, dissipe). Si lExprimentateur ajoute cette prsence nergtique lapport informationnel obtenu sur les alternatives de la variable de contrle, on obtient un plus dnergie informationnel d par C L.

AI(B/A C) = E(C/L,P) E(C)

Relations statistiques fortes, caches, fausses et illusoires

Tableau 32
APPORT Poeme Poeme Luceafr par interaction Ctlina sur Luceafr sur Ctlina sur Luceafr Ctlina Poem Effet combinaison 15% -8% 16% -8% 12% -8%

Nous finissons avec la dernire formule (69), consquence de la construction du scnario initiatique pour dterminer les interactions positives et ngatives et de lexprimentation des modles mathmatiques de la mthodes Onicescu. Le modle dtaill est:
AI(C/L) = E(C / L) E(C / P) E(C/L, P) E(C) + + E(C/L, c0) E(C / c0) + E(C / L, c1) E(C / c1) = = AI(C / LP) + E(C / L, partea1) + E(C / L, partea2) E(C / partea1) E(C / partea2)

(69)

Ici linterprtation est la suivante: si on connat lapport des relations L-P la structure Ctlina C et on dsire connatre seulement lapport informationnel de lAstre/Gnie L la structure Ctlina C, alors on ajoute les moyennes de lapport informationnel de lAstre/Gnie L Ctlina C conditionn par les parties du pome P et on souscrit lapport des conditionnements du pome P la structure Ctlina C ( on la nettoie de linfluence de la division du pome).
3.3.2 Utilisation de la statistique informationnelle ONICESCU pour la dtermination des interactions et des potentiels, ou sur le chaos apparent, les chimres trompeuses

Les effets interactifs sont importants puisquils suggrent, quand ils sont significatifs, une sinergie entre les deux facteurs quelles que soient leurs contributions individuelles. Ce que nous voulons souligner cest que lexprience dcisionnelle sacquire par la comprhension profonde des vnements dynamiques de lenvironnement. De ce quon a dit ci-dessus on peut observer que du point de vue de la dcision, la qualit de lvnement analys nest pas essentielle, mais le talent du dcideur de saisir dans le matriel des faits des significations profondes de nature complexe. Les apprciations Wi qui tiennent du dcideur sont subjectives, mme si dans le cadre dun consensus elles sont admises par plusieurs chercheurs, ou mme objectivises par des frquences ou par des pseudo-mesures, les Ri sont aussi subjectives. En

Relations statistiques fortes, caches, fausses et illusoires

change leur synthse, Ii est le rsultat dune conception multicritrielle qui a tabli ds le dbut les jalons du dveloppement. En fait cest une consquence mathmatique, le facteur commun tant le dcideur-mme avec son exprience, son temprament et ses prdilections. A notre avis le choix de la Statistique Informationnelle Onicescu est prfrable car elle est base sur un degr lev dobservation de lessence des structures. Plus une structure est simple et dpourvue dinformations redondantes, plus son rayon daction et de force combinatoire est ample. En plus, si xik reprsente les frquences de lattribut i sur les alternatives k, on peut calculer la norme euclidienne (longueur) de ce vecteur de frquences tout comme la longueur du vecteur de structure (pondrations) qui est mme le radical algbrique de lnergie informationnelle de lattribut.
2 Xi = ( xik ) , k =1 m 1/2

(70)

de mme que la longueur du vecteur de structure (pondrations):


2 Pi = [ ( x ik ) ] = (E(X i) )1/2 = mX i , k =1 X i x ik m k =1 1/2

(71)

On observe que dans cette relation la longueur du vecteur descriptif (attribut) Xi rapport au volume de lensemble (collectivit) donc un facteur quantitatif, extensif, met en vidence un facteur qualitatif, structurel, intensif, la longueur du vecteur de structure (pondrations). Dans la littrature de spcialit39 sont commentes ces relations et le fait quon permet une approche globale de la caractrisation de la dynamique de la structure, rsultante de la modification de la structure et de lvolution de lensemble, donc linfluence de leur modification dans la dynamique de lensemble :

Xi Pi k =1 xik = . m , X j P j x ik
k =1

(72)

o: i et j peuvent tre des moments temporels conscutifs. De mme on suggre les possibilits offertes pour la comparaison des structures par les indicateurs: "divergence informationnelle" et "coefficients des changes structurels".

39

Mihoc Gheorghe, .a.,op.cit., pag.171

Relations statistiques fortes, caches, fausses et illusoires

Les illustrations statiques dans lesquelles apparaissent surtout des combinaisons de structure de 2-3 facteurs (attributs) avec un nombre rduit e niveaux, imposs soit par des calculs effectus par la statistique des expriments factoriels, soit par des calculs de statistique informationnelle, permettent au dcideur des incursions dans le monde des relations; parfois il les crs lui-mme dans sa qute des transparences relles. Ces imagesillustrations statiques sont des fragments des hypervolumes structures vibrant sensiblement dans des nergies conditionnes, ou protgeant ses formes par des actions secrtes. Cest pourquoi le dcideur part des recherches pas--pas, de 2-3-4 conglomers construits surtout en profondeur, pour arriver ces identifications qui se tissent entre les attributs, jaillissant de ce rseau de relations. On rencontre lnergie informationnelle dans le calcul de limportance des attributs tout comme dans la formule du coefficient de corrlation informationnelle K(Xi, Xj) suppos entre les structures (pour k alternatives) des attributs Xi, Xj: C( X i , X j ) K( X i , X j ) = , (73) 1/ 2 (E( X i )* E( X j )) m x o C( X i , X j ) = xik * ik , (74) Xj k=1 X i est la corrlation informationnelle des attributs i et j. Quand les structures des deux attributs (pour les m alternatives) sont identiques ou presquidentiques, des calculs rsulte K gal avec lunit, ou trs prs de lunit. Cela signifie lindpendance des attributs face aux dterminations pour les m alternatives. Dans ce cas les nergies informationnelles seront identiques, donc il ny a aucun plus dinformation, Ii = Ij et limportamnce des attributs pour la dcision dpend seulement des pondrations Wi propres au dcideur (ou au consensus entre les spcialistes). Dans le cas contraire, il y a une dpendance potentielle entre dterminaisons et attributs. Cette dpendance, relation, doit tre vrifie par une structure de contrle. On peut ajouter que les informations communiques doivent donc tre correctes, opportunes, compltes, concises et surtout rvlatrices, pour la fonction de prvision. LAlgorithme pour la vrification des relations en interaction pas 1. Si (x1, y1) > I (x2, y1) pas 2; si non, on passe au pas 4; pas 2. Si I (x1, y2) > I (x2, y2) pas 3; si non, on passe au pas 5; pas 3. Si I (x1) > I (x2) il ny a pas dinteractions entre les variables X-Y; pas 4. SiI (x1, y2) > I (x2, y2) il y a des interactions entre variables X-Y; si non, pas suivant pas 5. Si I (x1) > I (x2) il y a potentiel dinteraction XY; si non, pas 3.

Relations statistiques fortes, caches, fausses et illusoires

Ix1 >Ix2

y1

y1

Ix1 >Ix2
T

y2

y2

/ Interact.

Ix1 >Ix2

y2

y2

I I x1 > x2

Ix1 >Ix2

Potential Y

/ Interact
Algorithme didentification des relations informationnelles relles, Algoritmul de identificare a relatiilor informationale reale, fortes, en interaction, fausses, illusoires, directes

puternice, n interactiune, false, iluzorii, directe.


Figure 3

Nous precisions que limportance informationnelle de la relation i est donne par le nombre maximal de vrifications dun seul tat; par exemple la majorit des vrifications peuvent montrer que la relation i est forte ou il y a interaction multiple avec les variables de contrle ou elle est cache, donc son intensit est diminue par le rseau non-organis des autres relations. 40

40

MIHI N.V.: Onicescu Informational Statistics in a Multiple Data Processing Methodology, ECECSR, nr. 2, 1983.

Relations statistiques fortes, caches, fausses et illusoires

Image 29

Dans limage ci-dessus, le premier tableau, les totaux sont gaux 100, donc il ny a aucune diffrence, limportance extrinsque (Wi) est la mme et ne jouera aucun rle dans le calcul de limportance globale. De mme, les structures X1 et X2 contiennent la mme entropie (0.29) et respectivement nergie informationnelle (0.81), de sorte que limportance intrinsque est la mme, 0,5 distribue galement sur les deux alternatives de la structure X. en change, lapport informationnel illustre une relation forte, une influence radicale de la variable X sur la structure A. Au dbut sans importance pour le choix entre a0 et a1 car la distribution des frquences relatives (Total) est la mme, 0.5, sous linfluence X1 et X2 lapport informationnel montre une relation forte, et K, le coefficient de corrlation informationnelle rduit (0,105) la soutient. En effet, X1 choisit a1 et X2 choisit a0. Situation incomparable avec X1et X2 pour LAstre/Gnie ou la prsence de Ctlina tait dans les distiques de 62% indiffremment si dans le distique figure ou non LAstre/Gnie (on a ainsi le manque de linfluence,de la relation de dpendance).

Relations statistiques fortes, caches, fausses et illusoires

Si la situation avait t celle de limage ci-dessus, Ctlina tait dcrite dans des distiques o ne figurait pas LAstre/Gnie et viceversa, car LAstre/Gnie la chasse du distique quand il apparait ou se retire quand elle apparait. Nous avons introduit, dans la communication, un facteur externe de limportance de lattribut la dcision.On considre que limportance de lattribut est une proprit intrinsque de celui-ci et en mme temps du dcideur (extrinsque). Si toutes les alternatives libres sont ordonnes en fonction dun attribut donne dune manire gale, alors linceertitude est maximale et un tel attribut peut tre jug comme insignifiant, car il ninfluence pas le processus de prise de dcision et donc il ne doit pas tre communiqu. Mais observons le revers illustr dans la partie droite de limage tudie. Limportance extrinsque est dix fois plus grande pour lattribut X2 (1000) par rapport X1 (100) donc W1 est gal 0.09 et W2 0.91. En change, puisque la dispersion identique entre les tructures X1 et X2 o les frquences relatives sont 0.95 respectivement 0.05 dans les deux, mme si celles majeures sont sur la diagonale principale de la matrice du tableau, les entropies et les nergies informationnelles sont identiques (0.29 respectivement 0.81) tout comme dans le cas discut antrieurement pour le tableau de gauche de limage, ce qui montre que les importances intrinsques sont identiques pour X1 et X2, la corrlation informationnelle et respectivement le coefficient de corrlation informationnelle ne diffrent pas dune manire significative entre les deux tableaux (0.095 respectivement 0.105). Et pourtant la relation est diffrente, linfluence, la pression de la variable X sur la structure initiale (indiffrente toute influence) est petite. Lapport informationnel est de 27% contre 81% dans le cas antrieur. Cette ralisation est due limportance extrinsque de lalternative X2 qui donne de la masse comme dans la clbre formule dEinstein (Est-ce que linertie des corps dpend de la quantite dnergie quils contiennent? 1905), o lEnergie E est directement proportionnelle avec m, la masse dun corps 2 E = m *c et la constante c, la vitesse de la lumire. Lalternative X2 (0.91) est trs importante, elle a une structure ressemblant celle du vecteur Total, avec de petites modifications 0.13 devenant 0.05 et 0.87, 0.95 fait qui reprsente lapport informationnel (pression) qui signale ce changement.

Relations statistiques fortes, caches, fausses et illusoires

3.3.3 Synopsis introductif concernant la composition des relations

La tentation de la formalisation mathmatique des problmes des sciences sociales du point de vue informationnel est bloque par leur faible structuration. Elles deviennent des systmes de structures lorsque dans une situation dcisionnelle sont identifies aussi des relations entre elles. Le concept de relation, malgr sa simplicit, a t un dfi pour beaucoup dauteurs de diverses professions, sollicitant leur perspicacit et leur intelligence. Quest-ce quune relation ? O se trouve-t-elle? Comment et pourquoi se ralise-t-elle? Les rponses sont dans lamalgame de ses sens.finalement, quoi sert linvestigation dun tel concept nbuleux?! Peuttre la tentation danalyser les systmes de structures et d interprter les structures de systmes de relations dans les sciences sociales. Provenant gnriquement des mots grecs : placer (istemi) ensemble (syn), donc structuresde relations ou liens, noous allons aplifier dans ce qui suit la flexibilite des systmes des structures des variables essetielles des sciences sociales. Lavantage de lutilisation des concepts ci-dessus dans cette discipline dynamique est constitu par la possibilit vidente de travailler avec les variables controles par lentreprise industriell/ sociale/economique, donc avec des paramtres. Les applications experimentales ou simulatives rpondent aux questions provocatrices antrieures. Conformment41 aux dictionnaires les relations cres sur un ensemble M ou des parties de celui-ci, composantes du produit carthsien M x M, peuvent tre notes xy, donc x ese en relation avec y, notation propose par L. Wittgenstein en 1922. Les familles de relations qui consistent dans des lois de compsitionsinternes et externes peuvent tre des structures algbriques cres sur M. Mais les relations peuvent tre statistiques, mathmatiques, dindpendance, rflexives/symetriques/ tranzitives, dquivalence/ordre/rciproques, de compensation/ fonctionnelles. Elles peuvent tre aussi politiques, conomiques et sociales, diplomatiques, de production/consommation/ distribution, innombrables dans lunivers rel ou informationnel-dcisionnel. Dautre part, elles peuvent tre physiques/mtaphysiques, prdicatives/imprvizibiles, bonnes/mauvaises, en progrs/regrs, habituelles ou cruciales etc.42 .
41 42

*** Dicionar de matematici generale, Editura Enciclopedic Romn, Bucureti, 1974 Butler F.P., Mihi, N.V., Management System: Analitical Paradigm and Holistic Paradigm Synthesis, A Theoretical Framework and Application, Economic Computation and Economic Cybernetics Studies and Research, 3, 1984

Relations statistiques fortes, caches, fausses et illusoires

La classification des familles de relations provoque limagination et puisent les efforts du courageux que accepte une telle provocation. Connaissant le but dune investigation, le spcialiste en sciences sociales et systmes informationnelles peut dterminer, pour les besoins dun questionnaire, les attributs dfinitoires des relations cherches. Si on prend par exemple, le cas dune investigation de sciences sociales concernant les opinions de spcialistes en management pour lemplacement dun rseau de distribution pour les produits dune socit dintermdiations, les questions seront: a) la localisation urbaine est correcte du point de vue: des marchs ou crneaux de march identifis en pralable? des frais dadministration, possibilits de transport, main doeuvre? b) les locaux rpondent aux exigences: dnergie, espace, cot, design, fonctionnalit? c) les lieux de travail rpondent aux besoins techniques; il y a rduction de bruit; le dcor et lemplacement sont adquats? d) lquipement peut tre bien utilis pour les communications, les services dinformation et calcul lectronique? Les machines crire, copier, stocker des donnes sont efficaces? e) la main doeuvre est assez qualifie pour rpondre la modernisation des transferts de biens et services? Est-elle compatible, communique-telle, excute-t-elle promptement les ordres? Pour linvestigation demande, lanalyste de systme se demande quelles sont les relations possibles entre la localisation du rseau de distribution et les crneaux de march identifis. Mais entre les critres de fonctionnalit, defficacit des services et la qualification de la main doeuvre? Quelle est limportance des relations de calcul, dinformation et les possibilits nergtiques, de transport ou les frais dadministration? La relation mesurable? directe? causale? stochastique? entre la zone urbaine et le crneau de march doit tre vrifie par laction des variables de contrle. Ces variables peuvent montrer que la relation est forte (la zone dtermine le crneau) ou faible ou bien inexistente (il ny a pas de diffrences considrables entre les zones). La variable de contrle peur valider/invalider la relation intiale ou peut construire le systme de relations le plus simple par interaction avec les variables entre lesquelles il y a associations ou causalits, devenant elle-mme la caractristique dfinitoire dune nouvelle relation. Dans ce cas-ci on peut prouver que la premire relation suppose a t une relation fausse; dailleurs, il peut y avoir la possibilit de la supposition de linexistence potentielle de la relation gnrique, qui est en fait cache (rduite) de la variable de contrle, donc dune autre relation.

Relations statistiques fortes, caches, fausses et illusoires

Lapproche des problmes lis la technologie de linformation, les plus importantes et les plus difficiles pour le present et lavenir de tout systme economique contemporain, demande lutilisation intensive des informations recueillies des sources directes et indirectes de donnes. Mais cette information spcifique doit tre mieux employe que, par exemple, linformation stocke dans les banques de donnes des systmes conomiques (qui ne sont pas structures comme informations de marketing informationnel). Plus que cela, lapproche des problmes parfois spectaculaires mais effet mineur en ce qui concerne lamlioration de lorganisation et du management (applications de linformatique pour le calcul des salaires, les vidences comptables, etc), mne lechec de certaines techniques et mthodes car celles-ci tendent transformer les applications de linformatique dans un but en soi. Lorientation vers la solution efficace des problmes concrets et essentiels de lorganisation et du mangement (dans un conception de marketing informationnel) demande lanalyse complexe des systmes par leur orientation vers les objectifs majeurs. A la diffrence de la production des biens, pour laquelle il y a un ensemble informationnel ordonn, propre, exacte, dtermin, le monde informationnel du dcideur des applications de la technologie de linformation est chaotique, mystrieux, mais provocateur. Il lui est difficile de dcrire mme les donnes dont il a besoin, et lorsquil le fait, ce nest pas dans la forme adquate au traitement statistique et mathmatique pour une rponse correcte. Dans la littrature de spcialit, on souligne quatre types de problmes gnraux qui tourmentent tout dcideur de marketing: 1. a) Quel type dinformation est utile au dcideur? b)De quels types de rapports a-t-il besoin? c) Quelles sont les sources dinformations dont il a besoin? 2. Comment peuvent tre traduites ces demandes dinformations en termes spcifiques au systme disponible de traitement de donnes? 3. Quel type de systme est ncessaire? 4. Comment peuvent tre dvelopps et implments de tels systmes orients vers le marketing informationnel? Les premiers deux types de questions sont directement lis la projection et limplmentation dun systme de gnration et gestion des informations la portee du dcideur de marketing. Pour les rponses dtailles ces questions, nous recommandons les livres du professeur Demetrescu. Les autres deux types de questions tiennent plus de la projection des systmes informationnels et du dveloppement du software.

Relations statistiques fortes, caches, fausses et illusoires

3.3.3.1 Les fonctions FUZZY dans lanalyse multicririelle

Les valeurs attributs xij des objectifs dcisionnels (produits, standards) i pour les qualits (caractristiques) j, parcourent des fonctions fuzzy, construites conformment aux logiques nuanceds, devenant des attributions de ces valeurs l idal considr par la valeur dun standard internationnel ou un CODE BARRES pour lattribut j des obiectifs decisonnels i. Les fonctions fuzzy sont des composantes informatiques accesses par infomodules (sous-systmes bloc type LEGO, o les diffrents modles peuvent tre combins pour crer des systmes de traitement informationnels avec diverses interprtations). Pour chaque qualite attribut ou caractristique j, en fonction de la position occupe par rapport aux autres valeurs considres du mme attribut, le niveau idal peut tre MINIM, MAXIM, INTRM (intermdiaire), NUINT (non intemdiaire) i peut tre codifi comme xminj, xmaxj, xintj o: (75) x minj = min{x ij }
i

x minj = max x ij
i

{ }

(76) (77)

x min j < xint j < x max j

O M ij = x ij/x min n care M ij [1, x max /x min ] donc la valeur maximale du standard acquiert lattribution 1 (un); III. t ij = 2.x ij .x intj/ x 2 + x 2 n care t ij [0,1] ij intj et la valeur intermdiaire xij a le chiffre 1 (un);

o m ij = x max /x ij n care m ij [1, x max /x min ] et la valeur minimale (du standard) obtient lattribution 1 (un); II. M ij = x ij/x max n care M ij [x min/x max , 1]

i, j N* , i = 1,...d, j = 1,...q o: i nombre multiplications; j - qualits. Les fonctions MINIM, MAXIM, INTRM, NUINT (valeurs duales, extrmes) comme comme rsultats diffrents coefficients dappartenence lidal o type probabilites (pour des valeurs type frquences en MAXIM), codifis mij, Mij, tij, tij* o pij. Si on dsire la normalisation des donnes oou de ces coefficients afin que la rponse appartienne au domaine ferm [0, 1] on fait appel a la fonction NORMT avec les rsultats nij. Les succesions de calculs pour llaboration de ces coefficients sont: (78) I. m ij = x min/x ij n care m ij [x min/x max , 1]
(79) (80) (81) (82)

Relations statistiques fortes, caches, fausses et illusoires

IV.

2 t* = (x intj - x ij ) /[ x2 + x2).(1 - z)] ij intj ij

(83)

n care t* [0,1] iar z = min (A, B) unde A=tij(xij: = xminj); ij

B = tij(xij: = xmaxj) o la valeur intermdiaire obtient la valeur 0 (zero) et la valeur dsire dune extrme duale, la valeur 1 (un); V.
pij = x ij/

xij
i=1

iar
d

pij = 1
i=1 d i=1

(84)

unde pij [ x min /

xij, xmax/ xij]


i=1

VI.

n* ij

= (xij - xminj)/(xmaxj - xminj)

(85)

i n* [0,1] ij o la valeur attribue xminj := 0 et la valeur attribue xmaxj := 1; VII. n* = (xmaxj - xij)/ (xmaxj - xminj) ij (86)

i n* [0,1] ij et la valeur attribue xminj := 1, tandis que xmaxj := 0. Gnralement les fonctions fuzzy prsentees et comprises dans les infomodules sont dfinies sur lensemble des valeurs xij avec des valeurs comprises dans lintervalle rel, positif compris entre 0 et 1. A lexception des formules (21), (25), (26), les fonctions dcrites cidessus sont linaires. Le dcideur peut considrer cette linarit comme une restriction, les appartenances l ideal o au CODE BARRE suggrant nonlinarit. Dans ce sens les formes potentiellement concaves ou convexes (do rsulte lapproche lente ou rapide de la valeur standard 1 (un)) peuvent tre obtenues par la composition des fonctions lmentaires.
3.3.4 Hirarchisation des produits informationnels

Tenant compte des notations et des formules du paragraphe 5.6.2. nous prsentons quelques modles de calcul des valeurs, avec lesquels on peut hirarchiser les produits en fonction et en rapport avec un standard internationnel ou un CODE BARRES, ou bien avec des normes tablies exprimentalement. Pour Hi - la valeur obtenue du processus de calcul pour le produit i - on utilise les valeurs maximales Mij dans une formule usuelle :

Hi = ( Mij) . j=1

1/q

(87)

Relations statistiques fortes, caches, fausses et illusoires

Mme dans les plus simples formes dhirarchie des produits/problmes/objectifs, il faut prendre en considration le fait que les attributs-caractristiques j ont des pondrations dimportance diffrentes, extrinsques, qui dans ce cas seront codifies wj. Ce problme est gnr par le fait que la qualit dun produit ne peut pas tre envisage comme quiprobable. A cela sajoute le fait que les q qualits/attributs/caractristiques pourraient contenir un nombre q1 de valeurs qui devraient tre suprieures celles imposes par le CODE BARRES, et un nombre de q2 valeurs qui devraient lui tre infrieures (processus d optimisation), o q1 + q2 = q on construit les suivants modles possibles pour le calcul des coefficients dhirarchisation: q q w w (88) Hi = (Mij) . (mij)
1 j 2 j

j=1

j=1

wj * wj Hi = (nij) . (n* ij) j=1 j=1

q1

q2

(89)

Pour les valeurs tij dj normalises, conformment aux formules (85) et (86) on utilise la relation :
Hi = ( tij.q j) + ( tij. w j)
j=1 j=1 q1 q2 *

(90)

Attribuant dij toutes les valeurs mij, Mij, tij, tij*, nij et suivant la procdure de calcul d ij := ij ; D j = d ij ; a ij = d ij / D j on peut hirarchiser les produits avec le modle suivant:
Hi = a ij. w j
j=1 q

(91)

Les synthses des procdures exposes par Zeleny dans le processus de prise de dcision la suite de lanalyse multicritrielle bas sur lentropie informationnelle ajuste Shannon, de mme que des applications de la statistique informationnelle Onicescu utilisant les nergies informationnelles ajustes sont:
Hi =
q

ln d (a ij )a ij ln d (a ij )
j=1 i=1 q i=1 q d a ij

j=1

. a ij . w ij

(92)

Hi =

d a2 - 1 ij d a - q
j=1i=1 i=1 q d 2 ij

j=1

. a ij . w j .

(93)

Dans le cadre des applications de la thorie de linformation il y a la possibilit dobtenir plus dinformations par exemple par le changement de la

Relations statistiques fortes, caches, fausses et illusoires

valeur des pondrations wj, ou par la diminution de limportance intrinsque des caractristiques, procd qui inclut la composition des fonctions. On obtient ainsi une simulation dterministe, qui dans le cadre des mthodologies informationnelles correctement appliques peuvent surprendre le dcideur par la richesse et les nuances des informations pour la dcision. Pendant les traitement des donnes on doit tenir compte de la rlativit de la maire de slection et extraction des attributs pour les calculs, de la relativit des synthses obtenues de mme que de la relativit des resultats et des relations supposes dassociation ou causales. Par la thorie de linformation on identifie les relations necessaires entre les parties ou sous-sets de donnes obtenues la ralisation dune performance. Outre les relations essentielles, les relations complmentaires qui dterminent leffet de synergie jouissent aussi dune grande importance. Cet effet permet de saisir lassemblement armonieux entre les proprits-attributs des produits dans le domaine de lanalyse multicritrielle de leurs qualits.
3.3.5 Multicritrialit des relations fuzzy dans les sciences sociales

Dans les sciences sociales, un moment donn, genre chance o d des possibles menaces ou nouvelle sopportunits, certaines relations deviennent essentielles. Toutes les relations sont dynamiques et varient comme intensit et connexions en fonction du but implicite (intuit) ou explicite (planifi/tat de lenvironnement). Il y a trop de relations potentiellement lgales et en interaction pour tre prises en considration simultanment. Certaines relations essentielles peuvent tre identifies sur la base de la dfinition des attributs (caractristiques) vis--vis du but de la recherche. Ces affirmations, type axiome, sont ncessaires, pour prsenter la multicritrialite des relations. Dans lexemple antrieur, la caractristique POEME parat dfinitoire pour lemplacement du rseau de distribution. On peur vrifier toutes les relations qui peuvent stablir entre POEME et le personnage Astre/Gnie, o POEME/CTLINA, POEM/communication, POEM/LUMIERE etc. Ces relations peuvent tre vrifies tour tour par les autres relations "controlables" commentes en littrature et dcouvertes STATISTIQUEMENT par: Xi = nr. total de vrifications de la relation i, groupes en m tats: 1 relation directe, forte; 2 - forte en interaction (amplifie); 3 - faible en interaction (rduite); 4 - directe, faible, dntensit rduite; 5 cache par la relation cre par la variable de contrle; ...; m fausse, illusoire, la vritable relation tant avec la variable de contrle.

Relations statistiques fortes, caches, fausses et illusoires

Fortes, faibles, en interaction avec la variable de contrle, caches (de la variable de contrle), fausses, illusoires, de vraies relations fortes tant entre la variable de contrle et les attributs "dpendantes". Si on prend en consideration, pour simplifier, le numro dordre des parenthses comme tant la priorit de placer dans une hirarchie les attributs dfinitoires des relations interconnectes, alors on peut rpondre et interprter les alternatives des rponses possibles aux questions telles: considrant POEME comme attribut dfinitoire pour la recherche, quelle est lhirarchie multicritrielle des relations dans lesquelles celle-ci entre ayant comme variables de contrle les caractristiques du mix culturel? quelles sont les relations qui se trouvent dans la mme structure de contrle avec la dfinition de leur ordre selon les coefficients de corrlationinformationnelle? quel est le degr "nergetique"-informationnel des relations entre les principaux relations des attributs dfinitoires? pondrant les relations et dmixant la combinaison dattributs socioculturels, qui deviennent prioritaires par lamplfication du contrle sur le produit littraire? Lenregistrement de base pour les traitements automatiques est format de: la variable partir de laquelle on tablit la relation; lautre variable; pour chaque variable de contrle, la valeur du coefficient de corrlation multiple ou le numro dordre (le code) de la relation, mentionn antrieurement. Si lenregistrement contient le valeur des coefficients, alors le traitement par les fonctions mathmatiques est vraie. Par exemple, pour une hirarchisation dans lordre des plus fortes relations vrifies, nous faisons appel la fonction m(x) o xm est la valeur la plus petite du coefficient de corrlation informatique (la plus forte dpendance suppose, donc la plus petite association entre les structures), et xM est la valeur la plus grande (association entre les structures). De cette manire les nouvelles valeurs ncessaires aux hirarchisations multicritrielles (type fuzzy) existeront sur un domaine continuu entre xm/xM, 1. L o les relations sont caches ou fausses, donc ont des coefficients presquunitaires, les nouvelles valeurs seront "loin" de loptimum de lhirarchie tant proches du rapport xm/xM. A lautre extrmit se trouvent les relations fausses dans diverses hirarchies dans le sens de la dtermination de la falsit des relations initiales, les nouvelles relations (fortes, faibles ou en interaction) seront tablies entre les variables de contrle et lautre variable de la relation gnrique. Dans ce cas les valeurs grandes des coefficients ou les codes participeront mieux lhirarchisation par appel la fonction M(x). Si on

Relations statistiques fortes, caches, fausses et illusoires

dsire laugmentation ou la diminution de la distance entre les valeurs calcules on peut faire appel la composition des fonctions type logarithme et exponentielles (les lignes en pointills suggrent les nouvelles valeurs obtenues) Pour la mise en vidence des relations en interaction est ncessaire la fonction t(x) et pour lhirarchisation, soit seulement des relations fortes, soit des variables initiales, soit de celles de contrle, la fonction t*(x). Si on a besoin des hirarchisations qui aient des valeurs entre 0,1 on fait des normalisations type n*(x) et des compositions dont on dj parl. Pour les traitements informationnels dans le cadre dune seule relation, vrifie par toutes les autres variables de contrle, afin de connaitre le type de relation prioritaire dans les arbres dcisionnels, on peut faire appel la fonction p(x) type probabilits crees sur les frquences dintervalles ou codes 9nombre de vrifications sur categories). On obtient, pour chaque relation Xi, des distributions sur les 5 tats dcrits: 1 2 3 4 5 Xi : n n n n n 1 2 3 4 5 Considrant, in extremis, les distributions dans lesquelles on a: a) n1 = max( n j )ou presque gal n = somme (nj), alors la relation Ri
j

est forte et les connexions de ce tronc cr par la variable do elle est vrifie sont actives par des relations nouvelles, directes et intensment nergetiquement; b) n2 = max( n j ) , les relations sont en interaction, type
j

embranchements, avec les variables de contrle dominantes cratrices de nouvelles relations (nouvelles branches); c) n3 = max ( n j ) , la relation est faible, auxiliaire, adiacente; d) n4 = max( n j ), les embranchements cachent le tronc des relations
j j

de base et la recherche doit continuer sur lensemble des variables de contrle; e) n5 = max(nj) la relation est fausse, illusoire, en symbiose avec les relations associes a la variable de contrle, celle qui invalide la relation principale. Les structures type tronc embranchements sont sillonnes par des chemins controlables travers le rseau des relations. Il faut remarquer les possibilits dalternance des chemins controlables et le fait quon cherche les plus courts, forts, directs. La littrature des sciences sociales43 recommande lidentification et la remise en ordre des relations pour
43

Demetrescu M.C. coord., Marketing intern i internaional, Editura Politic, Bucureti, 1976, articol despre AID, Automatic Interaction Detector.

Relations statistiques fortes, caches, fausses et illusoires

liminer, classifier, mettre en rserve des alternatives dcisionnelles ralisables. Tour tour, de la multitude des possibilits de solution dun problme, on extrait des sous-systmes de relations et connexions vrifies en vue doptimiser les solutions proposes. Les relations multicritrielles identifies vont influencer la construction des arbres de dcision; la flexibilit des structures de relations dans les sciences sociales peuvent crer des alternatives dcisionnelles correctes qui vont bien estimer les rsultats de certaines actions court ou moyen terme de la planification des activits des sciences sociomanagement.
3.3.6 Illustration du potentiel dinteraction dans la technologie de linformation44

Dans ce paragraphe nous allons parler de lappel rationnel largument visuel. Lalgorithme didentification de limportance de lattribut pourrait paratre une simple procdure de calcul si les images type idogramme ntaient pas munies des significations des symboles informationnels, modalit de synthse des donnes selon la philosophie Onicescu. Dans la modlation dcisionnelle il ne serait pas souhaitable davoir une prsentation schmatique, apauvrie, des relations, mais plutt davoir une absence des penses philosophiques profondes, exprimes avec des outils mathmatiques et statistiques. Nous avons introduit, comme objectif, un facteur externe de limportance de lattribut pour le management. On considre que limportance de lattribut est une proprit intrinsque de celui-ci et en mme temps du dcideur. Si toutes les alternatives sont ordonnes en fonction dun attribut donn de manire gale, alors, un tel attribut peut tre considr comme insignifiant, puisquil ninfluence pas le processus de la prise de dcision. Lvaluation des alternatives dans ltape pr-decisionnelle est une qute systmatique, pendant laquelle les alternatives sont rinterprtes afin quelles produisent une divergence de plus en plus grande danslattractivit. Plus un attribut (comme source de donnes) offre des informations, plus il est ncessaire dans une situation dcisionnelle. La cration dcisionnelle se manifeste en dpassant les barrires gnres par le manque de donnes ou de conclusions suggres par leur analyse. Le dcideur peut dnaturer la ralit, soit en simulant ses propres
44

Mihi N.V.: Illustration of the Interaction Potential in Social Sciencies, ECECSR, no. 2, 1985.

Relations statistiques fortes, caches, fausses et illusoires

actions dcisionnelles, soit en modifiant ou dformant les donnes de sorte quil vrifie, transmette ou identifie les ides prconues qui sont la base de ses actes dcisionnels. Cette simulation par modification doit tre faite par lenchevtrement des combinaisons gnratrices de structures, formes qui entourent le noyau du mystre de la dcision. Le dcideur sait quil doit pntrer dans les profondeurs de la motivation, trouver la racine ncessaire de la diversit dans la variabilit des attribut savrant une chose trs ncessaire. La rflexion multiattribut simpose de plus en plus. Le comsommateur de culture tout comme les collectivits sont des phnomnes particulires, uniques, car chacun est un univers socioconomique unique. La diversit est parfois dcevante, les consommateurs tant des conglomrs de fonctions quelquefois non-identifiables des interactions conomiques, sociales, et de lenvironnement qui sont permanentes et subtiles. Le dcideur dans le domaine des sciences socio-culturelles est oblig de formuler ses propres options en les confrontant tout le temps avec les opinions exprimes par les spcialistes consults accidentellement ou dune faon organise (consensus, panel, forum). Il peut contrler les facteurs compris dans le mix de marketing appliqu aux sciences sociales: la combinaison structurelle produit littraire & prix & promotion & distribution. ce contrle se manifeste dans le sens des possibilits affectives de changement des composantes dj mentionnes. On peut controler, par exemple, la promotion par la tlvision (sousmix culturel), sil sait QUI regarde et est intress par cette manire de prsentation (connat les structures des professions, sexes, ges, tapes dans le cycle de vie des familles, revenu, nombre de membre du mnage), QUAND ils regardent et quelle frquence ( quel moment de la journe et avec quelle pridiocit), CE QU ils regardent (missions spciales, annonces publicitaires, films documentaires, interviews aux foires et expositions, prsentations ou tests dmonstratifs), COMMENT ils interprtent ce quils ont vu ( avec intrt, confiance, optimisme, scepticisme), en conclusion les raisons pour lesquelles on a besoin de sondages, enqutes, inteviews. Sil change le moment du jour (ou de la semaine) de la transmission de lmission, alors il obtiendra une autre structure des composantes du sous-mix (autres pondrations des professions, ges, etc), donc autres ractions rsultes de lamplfication ou la diminution des informations rceptes. Au dbut, le dcideur suppos avoir une bonne exprience, labore des synthses en prenant quelques attributs dun sondage, des informations multiples, y compris par le consensus des opinions pertinentes des spcialistes, obtenant un matriel de donnes unique, cest--dire irrptable, charg de significations, relations, ramifications en interaction.

Relations statistiques fortes, caches, fausses et illusoires

Nous recherchons la prsentation des ides par des formes fortement illustratives. Dans lexemple suivant, nous essayons par des priphrases et des images genre idogramme, de surprendre les charges identiques et virtuellement dcisionnelles par lesquelles in micro-cosme informationnel organis sur trois dimensions est stratifi par les dcideurs, soit par appel (cach) la personnalit propre (culture, aspirations, connaissances, exprience), soit par le consensus dcisionnel cr par les autres spcialistes. Regardant une telle configuration rsulte dun champ aride de donnes, le cerveau dchiffre des sens, dcouvre des relations fortes, relles, stables ou caches, fausses ou illusoires. On suppose des interactions et des potentiels de changement informationnel et on peut essayer de rcuperer pour lidogramme un datum essentiel de ce qui, prcdemment a t la vision dcisionnelle. Ces visions dcisionnelles sont obtenues soit par (1) lorganisation des explications directes : interviews, questionnaires, enqutes, sondages, panel de spcialistes, soit par (2) des explications indirectes, valuations globales du nombre et de limportance des alternatives ( ordre, rang, pondrations rsultes des applications des regressions multiples ou factorielles, bayesiennes ou informationnelles). Pour le dcideur moderne, le maximum dinformation ncessaire doit tre livre par des illustrations spcialement prpares, telles: esquisses, schmas logiques, tableaux, listings de synthses des traitements de donnes, graphiques avec des images globales, donnes indiques, formats intelligibles ds la premire vue. Le processus intime dlaboration des jugements du decideur na pas un alphabet propre ; celui-ci est une vraie bote noire. Donc pour tre transmis on a besoin dune interface, le decideur tant oblig dadopter un langage consacr : mot, image, idogramme, code (couleur, chiffres, son). Ces lements cods, extrieurs la communication, modifient tout message original mme sils sont des traductions quasi correctes des informations propres. Aprs le traitement informationnel, la synthse ou lidogramme cre une unification interne et organique de limage et des sens. La problmatique tudie dans cet exemple simplifi prsent dans lidogramme ci-dessous, peut tre trs intressante dans la mise en valeur de lutilisation de la statistique informationnelle applique aux lments qui dfinissent larchitacture dun systme. Nous considrons que la simplicit parfaite de lidogramme constitue une aide expressive pour la prise des dcisions opratives.

Relations statistiques fortes, caches, fausses et illusoires POEM Luceafr n distih Nu este Ctlina n distih 57 Nu este 70 Total 127 ? Luceafr Slab 15% 49 20 69 moderat 16% T # POEM ? 12% slab T # Figure 4 58 40 98 Ctlina Ctlina Nu este 14 44 31 9 45 53 Total 106 90 196 Partea I Ctlina Nu este Total POEM Luceafr n distih Nu este Total 43 26 69 Luceafr n distih Nu este 18 11 29 61 37 98

Pour dchiffrer le message de lidogramme, nous proposons les repres suivants: (1) la flche droite suggre lexistence dune relation dans le cadre du binome cause-effet; (2) la flche brise suggre la direction des changements ds aux nouvelles alternatives (informations), et aussi linteraction avec (via) le facteur plac au pli de la flche; (3) le symbole T (la gchette) marque le facteur qui dclenche leffet des changements; (4) le symbole + identife la cible potentielle toucge par le facteur cause marqu par le symbole?, dans les conditions du contrle effectif de la variable dintervention (du pli), cas dans lequel la dcision initiale est nie; (5) la dimension du bout de la flche suggre lintensit de la raction au changement des relations. Les variables structures sont illustres simultanment. Supposons qu la suite dun sondage effectu un nombre de magasins qui ont des rayons specialiss dans la vente dquipements stro, le dcideur choisit pour ldentification des relations et interactions possibles, les attributs LAstre/Gnie, Ctlina, Poeme. Pour cet exemple les alternatives (tats du systme) sont: LAstre/Gnie (en distique, nest pas), Ctlina (en distih, nest pas), Poeme (Partie I, partie II)* Le volume de donnes obtenu par la synthse de 196 distiques, dans notre cas le cube de donnes (dimensions 3*3*3, o 3=2 alternatives + un

Relations statistiques fortes, caches, fausses et illusoires

total) prsent sur le cot (attribut) dintervention est illustr dans la figure 5. lidogramme prsente dans la mme image surprend toutes les significations possibles par l a rotation du cube et ventuellement la reprise alternative des autres presentations accompagnant sur le displayle mme idogramme. La statistique traditionnelle ou informationnelle dtermine les relations possibles entre les variables structurelles ci-dessus pour une telle interprtation: (1) ne peut pas dire avec certitude si un personnage telle Ctlina qui entre dans un relation (appels, dialogues, promesses) est influence ou non par la prsence de lAstre/Gnie, elle ayant une prsence dans le Pome de 54% et une absence de 46%; (2) puisque le Pome a 196 distiques, un nombre qui permet une multitude de vrifications statistiques des structures supposes intrinsques, lindpendance des structures ou la relation dinfluence du nombre de donnes des structures est quilibre dans les deux parties du pome? (3) question: y a-t-il une relation entre les parties du pome et loption du pote, reflte dans ltat existe-nexiste pas dans le distique un personnage (lAstre/Gnie, Ctlina, Dmiurge, Ctlin) ou un tat (Communication, Lumire, emplacement haut-bas)? Rponse possible: OUI, la prsence de lAstre/Gnie dans le distique est plus rduite dans la deuxime partie, dans la premire partie, les prsences-absences suggrent lindpendance statistique des personnages qui semblent gaux comme importance, dans la deuxime partie, se vrifie statistiquement une relation de dpendance qui signalele conflit dans le pome ; (4) une autre question: y a-t-il une structuration diffrence (une relation) entre lattribut Astre/Gnie,et POEME? Rponse possible: on ne sait pas! Si dans la premire partie le rapport entre la prsence/labsence de lAstre/Gnie est de 2,4 fois, dans la deuxime partie il est seulement de 1,5 fois mais la relation donne par le rapport peut tre illusoire ou fausse. Cest vrai! Comment sont les interactions ? Positives ou ngatives ? Elles amplifient ou cachent ? On ne le sait pas (ncessitent des vrifications, des expriments); (5) Le pome peut influencer la structure des existences dans les distiques des deux personnages principaux de mme que la structure de leurs interactions, cela signifie que la division partie l et partie ll vrifie les diffrentes distributions sur les alternatives existent-nexistent pas dans le distique et on obtient des informations essentielles en ce qui concerne les relations caches, fausses, illusoires, fortes, faibles, dans des interactions positives qui crent le phnomne de synergie, ou ngatives, qui cachent la relation initiale;

Relations statistiques fortes, caches, fausses et illusoires

(6) les personnages Astre/Gnie et Ctlina semblent ne pas influencer (diffrencier) la structure (podrations) de lattribut Pome, donc quel que soit ltaten distih/nest pas, linformation de diffrence est minimale. Par exemple, comment sont-ils prsents dans le pome ? On ne le sait pas ! De mme, quelles que soient les prsences, les personnages ont la mme distribution dans les deux parties, donc le changement de la catgorie de dans la partie l/dans la partie ll napporterait aucun changement dans la distribution de leurs presences ; (7) les alternatives des variables Astre/Gnie et Ctlina semblent sinfluencer rciproquement, donc la distribution des prsences est diffrente dans les parties du pome de celle des nonprsences. Une troisime variable dintervention qui peut tre calcule aprslaccs la premire variable de contrle (segmentation), vrifie et confirme ou infirme, attire lattention sur des possibilites dinteraction ou de changement dcisionnel. Dans le cas ci-dessus: a) La relation STATISTIQUE entre Astre/Gnie et Ctlina est MODEREE confirme seulement par le conditionnement de la partie II de lattribut Pome. Lidogramme signale lexistence du potentiel de changement dcisionnel (plus dnformations, moins dincertitude dans la dcision) produite par lapparition de nouvelles informations grce cette variable. Le premier traitement annonait comme importante lalternative Astre/Gnie nest pas dans le distique tandis que Ctlina est dans le distique (avec un apport informationnel grand qui changeait le vecteur de ses prsences-absences dans les distiques du pome), mais dans le cadre des traitements sur les deux parties distinctes du pome (suggres dans le cube des donnes), limportance est attribue surtout ltude de leurs prsences simultanes dans la premire partie du pome, mais sans la prsence de la relation STATISTIQUE. Celle-ci est une autre INTERPRETATION que celle prvue initialement (MODEREE) et qui est maintenant FORTE dans la partie ll, le point cl dans son tablissement tant Astre/Gnie en distique mais NON Ctlina; b) la relation Astre/Gnie-Ctlina est confirme par lintervention du pome (pote), mais la relation dans la partie l est fausse, il ny a pas de relation, malgr les traitements initiels qui promettaient une influence au moins faible sinon modre, tandis que dans la deuxime partie, la relation est FORTE ; c) dans le cas de la nonexistence suppose des relations PomeAstre/Gnie et Pome-Ctlina (la mme structure des prsences-nonprsences

Relations statistiques fortes, caches, fausses et illusoires

dans la structure du pome) nous dcouvrons que les relations existent seulement dans la prsence des interactions entre les variables prises en considration (du pli de la flche). Comme dans le cas des autres T de lidogramme, le dcideur, celui qui interprte, va laborer des valuations diffrentes pour des alternatives de prsence diffrentes des caractristiques potentielles, dans les interactions de ce cas-ci de premier ordre commentes antrieurement ou de second ordre, Poeme-Astre/Gnie -Ctlina. Dans ces emplois, lacte dcisionnel et interprtatif est nuanc et diversifi par la recherche dlaborer ou vrifier de nouvelles possibilits, de nouvelles alternatives ou de nouvelles significations. La ralit la porte de tous les dcideurs est un vacarme dinformations or dimpulsions, o chacun intervient prudemment ou audacieusement, avec exprience ou intuition, avec la possibilit et lespoir de rcepter ses vrits : slctivement, objectivement, fidlement. La surprise du dcideur est trs grandequand on observe le manque dinteraction dans ceertaines situations (changement de la variable dintervention) ou le potentiel informationnel de la variable de contrle; ainsi on dcouvre la gchette pour dclencher les interactions via la variable dintervention. Donc, ce nest pas laire (tableau de contingence) qui tant bidimensionelle peut tromper, mais lespace (hypervolumes), dans lequel le dcideur cherche, lui dvoile lattitude duplicitaire - comme modeleur le dcideur nescamote pas la structure et la rigueur mathmatique, et comme analyste de systme est la qute de subtiles et secrtes relations et multiples conditionnements et interactions. Cette synthse de travail long i obstin est un espace ouvert (systme de systmes) o sont possibles des mutations inattendues, des augmentations et des diminutions, des renoncements et des retours, des sauts et des pas lents, dans un rseau rciproque, sans une apparente contrainte ou ordre. Lengendrement et la vrification dun nombre important de variantes possibles ayant comme invariant, le but de la dcision, se fait par la restructuration des lments informationnels. Lutilisation des postulats de la thorie des systmes, - y compris de la cyberntique si fcondes par lemploi des concepts tels : environnement, feed-back ngatif, entre, sortie but, entropie, nergie, attributs, relations, correspond en mme temps la manire de penser intgre, qui a toujours t le plus crateur dans la conception et la projection des systmes de direction et organisation depuis lantiquit et jusquaujourdhui comme lharmonie des parties dans un ensemble dans la Rpublique de Platon, le tableau des relations conomiques de Quesnay au XVIII-ime sicle, les schmas de la

Relations statistiques fortes, caches, fausses et illusoires

reproduction largie du Capital de Marx, ou les tableaux de relations interindustrielles contemporaines. La Statistique Informationnelle Onicescu apporte dans le traitement des donnes lide de la simplicit retrouve. Cest lexpression dune certaine manire de voir le micro et le macro-cosme informationnel des sciences socioculturelles. Tout comme dans la posie il y a une mtaphore-mot, ou en peinture une mtaphore-image, dans les sciences socio-culturelles il y a une mtaphore-information qui intervient comme une expression nuance des messages rels arides.

ANEXE

Aplicaii utiliznd statistica clasic i informaional


ANNEXES

Applications utilisant la statistique classique et informationelle

Relaiile statistice puternice, ascunse, false i iluzorii

Relaiile statistice puternice, ascunse, false i iluzorii

Relaiile statistice puternice, ascunse, false i iluzorii

Relaiile statistice puternice, ascunse, false i iluzorii

Relaiile statistice puternice, ascunse, false i iluzorii

Relaiile statistice puternice, ascunse, false i iluzorii

Relaiile statistice puternice, ascunse, false i iluzorii

Bibliografie/Bibliographie

1. BUTLER F.P.,

MIHI, N.V.

Management System: Analitical Paradigm and Holistic Paradigm Synthesis, A Theoretical Framework and Application, Economic Computation and Economic Cybernetics Studies and Research,(ECECSR) 3, 1984. Testamentul unui eminescolog, Editura HUMANITAS, 1998. Measuring cohesion of data ADETEM, Paris, 19-21 mars, 1959. Bucureti, structures.

2. CREIA, P. 3. DEMETRESCU, M.C. 4. DEMETRESCU, M.C. 5. DEMETRESCU, M.C.,


coordonator,

Metode cantitative n marketing, Bucureti, Editura tiinific, 1971. Marketing intern i internaional, Bucureti, Editura Politic, 1976. Posie, Bucureti,Editura Libra, 1994. Social Statistics Using MicroCase, MicroCase Corporation, Bellevue, Washington, 1992. Mic enciclopedie de statistic, Bucureti, Editura tiinific i Enciclopedic, 1985.

6. EMINESCU, M. 7. FOX, W. 8. IOSIFESCU, M.,


MOINEAGU C., TREBICI V., URSEANU E.

9. KELLER GERALD, W.

Essentials of Business Statistics A systematic approach, Wadsworth Publishing Company, 1991, pag. A11

Relaiile statistice puternice, ascunse, false i iluzorii

10. MEYRIAT J.

Information vs Communication?, n Laulan A.-M., Lespace social de la communication. Concepts et thories, Retz/CNRS, Paris, 1986. Gndirea comunicaional, Cartea Romneasc, Colecia Syracuza, 1998. Eseu privind incertitudinea i comunicarea, Sesiunea tiinific a cadrelor didactice, Univ.George Bariiu, Braov, mai, 2000 Illustration of the Interaction Potential in Social Sciencies, ECECSR, no. 2, 1985. Metode cantitative n studiul pieei, Bucureti, Editura Economic, vol.I-III, 1996-2001. Onicescu Informational Statistics in a Multiple Data Processing Methodology, ECECSR, nr. 2, 1983. Modele de analiz statistic, Bucureti, Editura tiinific i Enciclopedic, 1982. Echilibrul spiritual. Studii i eseuri, 1929-1947, Bucureti, Editura Humanitas, 1998. Energia informaional i aplicaiile ei, n: Marketing intern i internaional, (M.C.Demetrescu coordonator), Editura Politic, Bucureti, 1976, p.183-204. Measuring structures in economy, Acadmie des Sciences Sociales et Politiques de la Roumanie. Recherches sur la Philosophie des Sciences, Editions de l'Acadmie de Roumanie, 1971, pag. 655-669.

11. MIGE, B. 12. MIHI N.V.

13. MIHI, N. V. 14. MIHI, N. V. 15. MIHI N.V.

16. MIHOC, G.,

URSEANU, V. URSIANU, E.

17. NOICA, C. 18. ONICESCU, O.

19. ONICESCU, O.,

DEMETRESCU, M.C.

Relaiile statistice puternice, ascunse, false i iluzorii

20. ONICESCU, O., 21. GEORGESCUROEGEN. N.,

TEFNESCU V.

Elemente de statistic informaional aplicaii, Bucureti, Editura Tehnic, 1979 Legea entropiei i procesul Bucureti, Editura Politic, 1979

cu

economic,

22. SHANNON, C.,


WEAVER, W.

The Mathematical Theory of Communication, University of Illinois Press, 1949. Data Models, Prentice-Hall Englewood Cliffs, NJ, 1982. Multiple Criteria Decision Making, McGraw Hill Book Company, 1982. Dicionar de matematici generale, Bucureti, Editura Enciclopedic Romn, 1974.

23. TSICHRITZIS, D.,


LOCHOVSKY, F.

24. ZELENY M. 25. * * *

S-ar putea să vă placă și