Sunteți pe pagina 1din 20

Liceul

Teoretic,,Principesa
Tema:Legea
Conferinta laZipf
Natalia
Dadiani
matematica

Elaborat:Zmuncila Alexandru
Elev al clasei X ,,A
Coordonator:Izman Nina,professor de matematica

Cuprins:
1.Introducere
2.Scurt istoric
3.Legaturi cu alte legi matematice
3.1 Legea lui Pareto
3.2 Principiul putinului efort
3.3 Procese preferentiale de atasare
4.Distributia lui Gauss
5.Legea lui Zipf in aceasta conferinta
6.Incheiere
7.Bibliografie

3
7
8
8
10
13
15
17
18
19

1.Introducere
6 procente din tot limbajul zilnic al englezilor este cuvntul ,,the" care se folosete
1 data la fiecare 16 cuvinte. Dac vom ncerca s crem un tabel grafic al
popularitii folosirii cuvintelor, vom vedea c graficul a luat o form care seamn
cu acesta.

Dup cum vedem, a aprut o consecutivitate. Al doilea cuvnt este folosit de doua
ori mai rar dect primul, al treilea de 3 ori mai rar, etc. Numrul de ori un cuvnt
este folosit este proporional cu 1 asupra ordinii cuvntului. Frecvena cuvntului i
ordinea pe un grafic logaritmic este o linie dreapt. Acest fenomen este numit legea

lui Zipf i ea nu se aplica doar pentru limba englez.

Dup cum vedem, aceast lege se aplic la toate limbele cunoscute, i chiar la cele
necunoscute, cum ar fi cele antice care nu au putut fi translate.

Din acest motiv, legea lui Zipf adesea este numita misterul lui Zipf. nimeni nc nu
a aflat motivul acestui fenomen. Este uimitor cum un lucru aa de complex i
creativ ca limba se comport intr-o modalitate aa de previzibil.

Aceast regul poate fi controlat pe cale experimental. Websiteul


www.wordcount.org prezint cuvintele n ordinea frecvenei lor n cri i esee.
Cuvntul ,, frequency " are frecvena de folosire 3358 , i folosind aceast formul
obinem c lexemul dat este folosit de 53990 n literatura englez . Acest numr
corespunde cu documentul ,,Word Frequency in English Language al Universitatii
Oxford care confirma aceast formul.

In aceasta formula,181000000 arata numarul total de utilizari a cuvintului cel mai


des folosit,,the inmultit cu inversul proportional al frecventei lexemului pentru
obtinerea totalul de utilizarii cuvintului in internet,carti si esee.Si aceasta formula
poate fi folosita la restul limbilor lumii,chiar si romana. Dar cel mai interesant in
misterul lui Zipf este faptul ca el nu se refera doar la limbi.
5

Lumea este haotica,lucrurile sunt distribuite in cai nenumarate , nu doar dupa legi
de tip putere.Si limba este ceva personal,intenionat,total deosebit pentru fiecare.De
aici vine intrebarea, care este motivul pe baza carui noi influentam lumea
complexa din imprejurul nostru sa urmareasca asa o regula banala?Peste un secol
de cercetare nu a putut da o explicatie al acestui fenomen.Dar,legea lui Zipf nu este
legata doar de folosirea cuvintelor,este deasemenea gasit la populatia
oraselor,frecventa exploziilor solare,secventa proteinelor si receptorilor
imunitari,numarul de vizualizari al unui website,puterea cutremurilor de
pamint,numarul de ori cind o lucrare stiintifica este citata,numele de
familie,ingredientele folosite in culinary,numarul de convorbiri
telefonice,diametrul craterelor de pe luna,popularitatea inceperilor in sah si chiar
rata la care noi uitam .

2.Scurt Istoric
George Kingsley Zipf(n.1902 d.1950) a fost un lingvist American care a
studiat intilnirile statistice in limbi diferite. El si-a cistigat bacalaureatul,masteratul
si doctoratul la Universitatea Harvard, invatind deasemenea la Universitatea Bonn
si cea din Berlin. El a fost in Departamentul German in Harvard ,ce insemna ca el
putea preda orice obiect care dorea. El lucre cu limba chineza si statistica
demografica, si mult effort depus de el poate explica proprietatile
internetului,impartirea avutului intre natie si multe alte colectii de date.
Desi descoperirea acestei proprietati nu a fost realizata de el,faptul ca Zipf
a popularizat-o si a incercat sa o explice ia atribuit legii numele lui. Pentru prima
data aceasta lege a fost observata de Felix Auerbach in 1913, cind el revizuia date
despre populatia oraselor.

3.Legatura cu alte legi matematice


3.1 Principiul Pareto
Forma grafica a legii lui Zipf este o forma distincta a distributiei continuie
Pareto , din care noi primim Principiul Pareto.Fiindca o multime de procese in
viata reala se comporta in asa modalitate,acest principiu ne spune ca trebuie de
presupus 20% din cause sunt responsabile de 80% din rezultate,asemanator
limbii ,unde 18% de cuvinte se intilnesc in 80% din cazurile totale.In
1896,Vilfredo Pareto a aratat ca aproximativ 80% din pamint in Italia era stapinit
de 1/5 din populatie.Se spune ca mai tirziu el a observant ca in gradina sa 20% din
pastaile de mazare au avut 4/5 din numarul totat de boabe.

El si multi alti cercetatori s-au uitat la alte colectii de date si au gasit ca


inbalanta 80-20 se intilneste foarte des in lume.Cei mai bogati 20% din oameni au
82.7% din toata averea lumii.

In SUA 20% din pacienti folosesc 80% din resursele de lecuire.In


2002,compania Microsoft a raportat ca 4/5 din toate erorile in Windows si Office
au fost cauzate de 1/5 din toate defectele detectate.O regula nescrisa in bussines
consta in acea ca 80% din venit va fi adus de 20% din clienti,iar 4/5 din toate
nemultumirile vor fi aduse de 1/5 din client.In cartea,,Principiul 80/20 se spune ca
acasa sau in oficiu 20% din covor primeste 80% din toti pasii.

Principiul Pareto este present peste tot. El permite concentrarea asupra 20%
din greseli pentru a rezolva 80% din problemele aparute. O varietate de factori
nelegati determina ca acest lucru sa fie adevarat pentru cazuri diferite,dar daca noi
vom determina cauza acestui fenomen noi vom putea gasi mecanismul raspunzator
de legea lui Zipf in limba.

3.2 Principiul putinului efort


George Zipf singur credea ca proprietatea interesanta de distribuire a
cuvintelor in limba este o consecinta a principiului Putinului Efort. Tendenta vietii
si lucrurilor la general de a urma o cale de minima rezistenta. Zipf credea ca
comportamentul uman era condus de acest principiu si presupunea ca odata cu
evolutia limbii la ,vorbitorii preferau sa foloseasca cit mai putine cuvinte pentru asi expune gindul.Acest lucru era mai usor.Dar pentru a intelege ce era
spus,ascultatorii preferau vocabularuri mult mai specific,pentru a face mai putin
lucru. Zipf considera acea compromisa dintre ascultare si vorbire sa fi dus la starea
curenta a limbii.Putine cuvinte sunt folosite des si foarte multe sunt utilizate
extreme de rar.
Lucrarile stiintifice recente au sugerat ca folosirea unor cuvinte scurte si
des folosite,ajuta la imprastierea informatiei ,spatiind cuvintele importante pentru a
face rata informatiei mai constanta, evidentiind lexemele semnificative. Acest lucru
are sens si mult a fost invatat aplicind principiul de efort minim in alte domenii,dar
current matematicienii au tras concluzia ca in cazul limbii,explicatia a fost mult
mai simpla. Doar citiva ani dupa publicarea lui Zipf, Benoit Mandelbrot a aratat ca
nu este nimic misterios in legea lui Zipf,fiindca chiar daca noi scriem multe
cuvinte fara a realiza ce scriem,noi vom primi cuvinte care se distribuie dupa
aceasta lege.Motivul principal este ca exista exponential mai multe cuvinte lungi
diferite decit cuvinte scurte.De exemplu alfabetul Englez poate fi folosit pentru a
face 26 de
cuvinte cu o
litera,dar 26
cuvinte din 2
litere.

10

Deasemenea in tapari intimplatoare ,un spatiu inseamna sfirsitul unui


cuvint ,si fiindca tasta,,space are o sansa inalta de a fi apasata, sectiuni lungi
neintrerupte sunt mai rare ca sectiunile scurte.
De exemplu, daca toate 26 de litere in engleza si spatiul au aceasi
probabilitate de a fi tapate, dupa ce o litera este tapata si un cuvint s-a
inceput,probabilitatea ca urmatorul character va fi un spatiu,creind un cuvint de o
litera ,este doar 1/27.Cuvinte din doua litere apar dupa cecuvintul s-a inceput si
orice character a fost tapat inafara de spatiu,uirmatorul character fiind loc gol
,sansa fiind (26/27)*(1/27).Un cuvint din 3 litere este o litera,urmata de 2 litere si
un spatiu,sansa fiind (26/27) x(1/27).

Daca vom imparti cu numarul de cuvinte unice posibile,noi primim


frecventa intilnirii unui cuvint ,stiind lungimea lui.De exemplu litera ,,N are sansa
de 0.142 procente in scriere intimplatoare.Cuvintul ,,Numere 0.0000000993
procente.Impartind frecventa dupa rangul de folosire frecventa.Sunt 26 cuvinte din
11

1 litera,atunci toate din top 26 cuvinte clasate pe locuri se intilnesc asa de


des.Urmatoarele 676 vor fi luate de cuvinte din 2 litere.
Daca le plasam pe toate,primim graficul Zipf.

Matematicienii au detailat cum schimbarea conditiilor initiale pot sa creeze


o linie perfecta pe grafic. Distributia misterioasa a fost creata doar din caracterul
inevitabil al matematicii.Si acest mister ar fi descifrat daca limba s-ar asemana cu
tapari intimplatoare,dar comunicatia este determenista la un nivel
avansat.Subiectele de discutie apar din ceea ce a fost spus mai inainte.Si
vocabularul nu este rezultatul taparilor intimplatoare.Aceste exeple nu pot explica
urmarea lunilor,elemtelor si planetelor dupa legea lui Zipf.

12

Asa imbinari sunt constrinse de lumea noastra si nu sunt rezultatul


segmentarii intimplatoare a lumii in etichete.Si cind noi avem o lista de cuvinte
dintr-o nuvela care nu au fost inventate de autor,ca de exemplu o carte de fantezie
cu nume de locuri si personaje imaginare,oamenii vor avea tendinta sa foloseasca
numele cuiva de 2 ori mai mult decit altul,de 3 ori s.a.m.d

3.3 Procese preferentiale de atasare


Exista o cauza de temele de discutie si ideile noi apar in concordanta cu
aceasta lege. Aceste distributii apar sub un process care se schimba dupa modul
care au operat in trecut.In algebra si geometrie ele se numesc procese preferntiale
de atasare.Acest lucru se intimpla cind absolut orice este distribuit in conformitate
cu posesia curenta.Cel mai popular exemplu este cu un bulgar de zapada lasat de
pe un deal.Cit mai multa zapada el acumuleaza,suprafata lui va creste ca si viteza
de marire. Un website devine mai poular exponential cu timpul,in cantitate de
vizualizari.Pentru procesele preferentiale nu trebuie sa fie o alegere deliberate. Ele
se pot intimpla natural.
O dovada practica poate fi urmatorul experiment.Luam mai multe agrafe si
luam 2 intimplator, le unim impreuna si le aruncam la restul agrafelor. Acum,
repetam din nou si din nou. Daca luam una care deja este unite,mai unim cu
alta.Cel mai des,distributia se va imparti dupa legea lui Zipf.

13

Acest lucru se intimpla fiindca cu cit mai lung este lantul,cu atit este mai
mare probabilitatea ca el va fi luat la intimplare,si va deveni mai lung.Bogatii
devin mai bogati,ce este mare devine si mai mare.Acest lucru este pura
matematica.

Probabil conectiunea limbii de legea lui Zipf este legata de atasari


preferentiale,punctele critice jucind un rol foarte important. Textele si conversatiile
deseori se conduc la aceasi tema,pina nu s-a ajunsa la un punct critic si atunci se
schimba tema ,impreuna cu vocabularul folosit. Aceste procese se distribuie grafic
in legi de tip putere.Se creaza impresia ca toate aceste mecanisme fac limba sa
urmeze legea lui Zipf.
Posibil ca o parte din vocabular si gramatica a aparut intimplator, dupa teoria
lui Mandelbrot.Si conversatiile simple urmeaza atasarile preferentiale si impreuna
cu principiul putinului effort duc la relatia dintre frecventa si pozitia sa. Si acest
lucru este fascinant din motivul consecintelor lor asupra vorbirii. Vorbind
mathematic, aproximativ jumate din orice carte consta din aceleasi 50-100 cuvinte,
si alta jumate vor fi cuvinte care apar doar odata.
Acest fapt nu este uimitor cind se ia in considerare cad doar un cuvint este
responsabil pentru 6% din discutia noastra. Top 25 din cele mai frecvente cuvinte
folosite fac 1/3 din totalul cuvintelor vorbite si scrise , iar top 100 sunt 50%. Daca
luam orice carte, fie ,,Alice in Tara Minunilor unde procentul de cuvinte folosite
odata este 44%, sau Tom Sawyer ,unde numarul este 49,8%, sau chiar aceasta
conferinta , unde 56% sunt cuvinte care s-au repetat de mai multe ori,restul fiind

14

folosite odata(si cel mai frecvent cuvint,,de fiind in 6%).

4.Distributia lui Gauss


Distributia lui Gauss, deseori referita ca Distributia normal este o
distributie de probabilitate continua.Ea prezinta in plan grafic distributia normal cu
media 0(dar poate fi diferita in dependent de domeniu) si variatia 1. Cind este

15

reprezentant graifc, aceasta lege ia forma simetrica in legetura cu axa imaginara

ox.

Aceasta lege prezinta cea mai raspindita distributie din natura. Un numar
enorm de relatii statistice devin clare cind noi asumam distributia normala.

16

Nimic in viata reala nu se aliniaza perfect cu aceasta lege, dar este uimitor
cite repartitii au procentul de eroare extreme de mic. Acest lucru se intimpla
datorita teoremei limite central, care spune ca daca calculam media la destule
lucruri nerelatate , noi obtinem distributia normala. Asemenea mecanicii clasice in
fizica, aceasta lege in statistica este o increngatura speciala care este usoara de
inteles si calculele sunt simple si usor de interpretat.

Exemplu de problema:
Profesorul are 184 de student in colegiul de matematica. Nota la teze este
distribuita dupa legea lui Gauss cu =72.3 si o derivatie standarta de =8.9. Citi
student din clasa se pot astepta sa primeasca un scor de la 82 pina la 90? Folositi
graficul propus.

Solutia:
+o derivare standarta=81.2
+2 derivari standarte=90.1
Derivarea de 1-2 este considerata acceptabila.Dupa cum vedem in
grafic,derivarea dintre 1 si 2 deasupra este de 13.6%.
Raspuns:13.6% din 184 studenti=25 studenti

17

5. Legea Zipf in aceasta


conferinta
Cu scopul de a controla experimental legea lui Zipf , eu am controlat daca
aceasta conferinta urmeaza legea data.
Cel mai frecvent cuvint este ,,de ,fiind folosit 8,3%,urmatorul fiind ,,si
5,4% ,lista fiind:in,din,este,mai,ca,se,la,cu.Numarul total de cuvinte care au aparut
odata este de 41%.
Calculind top 15 cuvinte des folosite,observam ca ele sunt49.2% din tot
textul, cuvintle scurte fiind folosite in 40% din toate cazurile.
In acest mod, noi am putut adeveri validitatea principiilor explicate si sa
demonstram ca aceasta lege poate fi folosita la orice text, nu are importanta
marimea.

18

6.Incheiere
Din perspectiva matematicii, noi niciodata nu vom putea afla de lumea
imprejurul nostru se conduce dupa asa o modalitate banala. Cu ajutorul acestei
conferinte am descoperit cum o lege matematica poate influenta populatia
orasului,economia si chiar limba noastra. Am putut raspunde la intrebarile care ne
framintau la inceput ,cum ar fi: de ce exista asa o imbalasare dintre bogati si saraci,
care factori variaza populatia orasului,de ce atit de multe cuvinte in vocabularul
nostru se repeat s.a.m.d. .
Cunoasterea matematicii este un lucru fundamental pentru oricine, ea fiind
mama tuturor stiintelor, si cu ajutorul acestei conferinte am putut demonstra
importanta ei in toate domeniile, chiar si in studierea limbilor, absolut tot in aceasta
lume actionind in concordanta cu legile algebrei.
Eu consider ca intelegerea acestor principia la nivelul expus mai sus va ajuta
la cunoasterea mai aprofundata a lumii din imprejurul nostru, oamenii primind un
interes mai mare in studierea algebrei, oamenii avind posibilitatea sa studieze limbi
straine nu memorind vocabularul intreg, dar doar 20% din el pentru a folosi 80%
din potentialul ei, si posibil, intr-o zi un matematician v-a putea descifra misterul
dat, astfel gasind calea de a intelege cum lucreaza orice domeniu .Noi deja stim
dup ace principia lucreaza lumea. Acum trebuie sa aflam cum lucreaza aceste
principii pentru a decodifica misterele universului.

19

7.Bibliografie
http://www.wordcount.org/
www.wikipedia.org
http://www.uow.edu.au/~dlee/corpora.htm
http://www.wordfrequency.info
http://www.anc.org/data/
http://www.titania.bham.ac.uk/docs/
http://www.kilgarriff.co.uk/
http://corpus.byu.edu/
http://colala.bcs.rochester.edu/.
http://www.ling.upenn.edu/~ycharles/
http://arxiv.org/pdf/cond-mat/
http://www-personal.umich.edu/
Cartea ,,Principiul 80/20 de Richard Koch

20

S-ar putea să vă placă și