Sunteți pe pagina 1din 18

Procesarea (segmentare, detecție de obiecte,

urmărire) datelor de tip LIDAR

Student :
Szilveszter Alexandru
Cuprins
1.Prezentare generală
2. VoxelNet
3. Învățarea caracteristicilor de rețea
4. Straturi medii convoluționale
5. Implementarea detecției obiectelor 3D bazate pe mulțimea de
puncte LIDAR
6. Rezultatele in urma executării codului
7. Detectarea si segmentarea obiectelor fără folosirea
datelor de tip LIDAR.
Bibliografie
1. Prezentare generală
Tehnicile de ultimă generație în domeniul vederii computerizate detectează obiectul cu o precizie
ridicată de date 2D, cum ar fi imagini, videoclipuri (secvențe de cadre de imagine) în timp real. Utilizarea
senzorului camerei pentru activități precum localizarea, măsurarea distanței dintre obiecte și calcularea
informațiilor de adâncime poate să nu fie eficientă și este costisitoare din punct de vedere computerizat.

KITTI “point cloud viewer”


Ce înseamnă LIDAR?
• Lidar (Light Detection and Ranging) este o tehnică de teledetecție care măsoară distanțele
(distanțe variabile) față de Pământ folosind lumina sub forma unui laser cu impulsuri. În
LIDAR, lumina laser este emisă de la sursă și reflectată de obiectele din scenă. Receptorul
sistemului detectează lumina reflectată, iar timpul de zbor este utilizat pentru a crea o hartă
a distanței obiectelor din scenă.
• LIDAR oferă o imagine tridimensională folosita de mașini la conducerea autonoma; mulți
experți consideră că astfel de imagini sunt mai precise decât camerele de luat vederi. Spre
deosebire de camerele de luat vederi, LIDAR nu este afectat de umbră, de lumina soarelui
sau de farurile iminente ale altor vehicule.
2. VoxelNet
Abordarea VoxelNet a presupus următoarele etape:
• Înlocuirea extragerii manuale a caracteristicilor
• Reducerea calculului și concentrarea asupra constrângerilor de memorie
• Arhitectură de detectare 3D „end-to-end”

Arhitectura VoxelNet conține trei blocuri principale:


• Învățarea caracteristicilor de rețea
• Straturi medii convoluționale
• Regiunea de rețele specificate

a) b) c) d)

Arhitectura VoxelNet
VoxelNet reprezintă o abordare inovatoare în prelucrarea datelor provenite de la senzorii LiDAR în contextul vehiculelor
autonome. Această metodă combină conceptele de voxelizare și rețele neuronale pentru a efectua segmentarea obiectelor
3D din mediul înconjurător.

1. *Voxelizare:* Datele LiDAR sunt transformate într-un format tridimensional numit voxel, asemănător cu un pixel în
imagini 2D, dar în spațiu tridimensional. Astfel, informațiile sunt reprezentate sub formă de cuburi tridimensionale în
care se grupează datele din zonele spațiale apropiate.

2. *Rețele neuronale convoluționale 3D (CNN):* După voxelizare, aceste cuburi tridimensionale sunt introduse într-o
rețea neuronală convoluțională 3D. Aceasta analizează volumul tridimensional de date și învață să identifice
caracteristicile specifice ale obiectelor, precum mașini, pietoni sau alte structuri.

3. *Detectarea și clasificarea obiectelor:* Pe baza analizei efectuate de rețeaua neuronală, VoxelNet poate identifica și
clasifica obiectele din mediul înconjurător. De exemplu, poate face distincția între autovehicule, pietoni sau alte obiecte
semnificative pentru vehiculul autonom.

Această abordare oferă un mod eficient de a procesa și înțelege datele complexe provenite de la senzorii LiDAR în
mediul 3D, contribuind la capacitatea vehiculelor autonome de a percepe și de a lua decizii într-un mod precis și sigur
3. Învățarea caracteristicilor de rețea

• Învățarea caracteristicilor de rețea se aplică tuturor cuburilor care conțin mai mult de un număr T de puncte.
În figura de mai jos se poate observa delimitarea unui spațiu 3D în cuburi Voxel plasate la distanțe egale.

Partiționarea spațiului 3D cu ajutorul cuburilor


4. Straturi medii convoluționale
Clasificrea imaginilor consta in preluarea unei imagini de intrare, procesarea
ei și clasificarea în anumite categorii (de exemplu, câine, pisică, tigru,
leu). Calculatoarele văd o imagine de intrare ca o matrice de pixeli. Pe baza
rezoluției imaginii, va vedea hxwxd( h = înălțime, w = lățime, d =
dimensiune). De exemplu, o imagine de 6 x 6 x 3 matrice de matrice RGB (3 se
referă la valori RGB) și o imagine de 4 x 4 x 1 matrice de matrice de imagine în
tonuri de gri.

Rețea neuronală cu multe straturi convoluționale


5. Implementarea detecției obiectelor 3D bazate pe
mulțimea de puncte LIDAR

• Primul pas este descărcarea setul de date KITTI.


Urmează ca acesta sa fie decupat, procesat și salvat .
• Setul de date necesar:
1. Velodyne point clouds
2. Training labels of the object data set
3. Camera calibration matrices of the object data set
4. Left color images of the object data set
Google Colab poate folosi spațiul de stocare pus la
dispoziție pe platforma Google Drive. Pentru aceasta,
este nevoie întâi de încărcarea Google Drive-ului și se
poate face cu următoarele comenzi:

Clonarea codului sursă se realizează folosind


comenzile din imaginea alaturata.
Compilarea fișierelor sursa

În pașii următori am descărcat setul de date KITTI. Acesta a fost procesat si sectionat, iar ulterior am
realizat dezarhivarea sa.
6. Rezultatele așteptate in urma executării codului

Detectarea tuturor vehiculelor

Detectarea a doua vehicule


7. Detectarea si segmentarea obiectelor fără folosirea
datelor de tip LIDAR.

Importarea si definirea funcțiilor Descărcarea si vizualizarea imaginilor


Încărcarea unei imagini
publice, salvarea locala și
afișarea ei

Incarcarea si detectarea obiectelor


din imagine
• Rezultatul obținut in urma executării liniei de mai sus:
Bibliografie

https://www.cvlibs.net/datasets/kitti/index.php
https://www.sciencedirect.com/science/article/pii/S2666691X22000136
https://towardsdatascience.com/lidar-point-cloud-based-3d-object-detection-
implementation-with-colab-part-2-of-2-f3ad55c3f38c
https://www.hindawi.com/journals/cin/2022/6390260/
https://arxiv.org/abs/1711.06396
https://www.youtube.com/watch?v=iYx57oa8jT4&ab_channel=TutorialsTube
https://github.com/enginBozkurt/Visualizing-lidar-data/blob/master/Kitti-
Dataset.ipynb

S-ar putea să vă placă și