Avtomatsko podnaslavljanje slik z globokimi nevronskimi mrežami
V diplomskem delu smo implementirali globoko nevronsko mrežo, ki smo jo naučili generirati stavčni opis slike. Mreža povezuje področje računalniškega vida in obdelave naravnega jezika. Sledili smo že objavljenim arhitekturam in arhitekturo implementirali s knjižnico Keras v jeziku Python. Podatke smo pridobili s spletne podatkovne zbirke MS COCO iz leta 2014. Naša rešitev implementira dvodelni model in uporablja globoke konvolucijske, rekurenčne in polno povezane nevronske mreže. Za obdelavo in zajem značilk slik smo uporabili arhitekturo VGG16. Besede smo predstavili z vektorsko vložitvijo GloVe. Model smo naučili na podatkovni zbirki 82.783 slik in testirali s 40.504 slikami ter opisi. Ocenili smo ga z mero BLEU in dosegli vrednost 49.0 ter klasifikacijsko točnost 60 %. Najboljših objavljenih rezultatov nismo dosegli, a obstaja še veliko možnosti za izboljšave.
We implemented a deep neural network, which we trained to generate image captions. The neural network connects computer vision and natural language processing. We followed existing architectures for the same problem and implemented our architecture with Keras library in Python. We retrieved data from an online data collection MS COCO. Our solution implements a bimodal architecture and uses deep convolutional, recurrent and fully connected neural networks. For processing and collecting image features we used the VGG16 architecture. We used GloVe embeddings for word representation. The final model was trained on a collection of 82.783 and tested on 40.504 images and their descriptions. We evaluated the model with the BLEU score metric and obtained a value of 49.0 and classification accuracy of 60 %. Current state-of-the-art models were not surpassed, but we see many possibilities for improvements.
2017
2017-08-31 09:39:53
1060
opisovanje slik, označevanje slik, strojno učenje, globoko učenje, nevronske mreže, konvolucijske nevronske mreže, rekurenčne nevronske mreže, LSTM mreže
mb11
URBAN
BAUMKIRHER
70
Marko
Robnik Šikonja
991
VisID
16
20459
Baumkirher Urban - Avtomatsko podnaslavljanje slik z globokimi nevronskimi mrežami.pdf
5431249
Predstavitvena datoteka
2017-08-31 09:39:57