Generiranje osnutkov novic iz javno dostopnih spletnih podatkov

Džaferagić, Dino

Podrobno

Generiranje osnutkov novic iz javno dostopnih spletnih podatkov
ID Džaferagić, Dino (Avtor), ID Rožanc, Igor (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (854,12 KB)
MD5: 14E0AD9FDF4FC783EC92AB7035AD6D82

Izvleček

Cilj diplomske naloge je bil razviti sistem za avtomatizirano generiranje osnutkov novinarskih novic na podlagi javno dostopnih podatkov. Za dosego tega cilja so bile uporabljene metode spletnega strganja, kar je prikazano na primeru podatkov o brezposelnosti Zavoda za zaposlovanje Republike Slovenije in o nogometnih tekmah s spletne strani SofaScore. Podatki so bili obdelani s tehnikami za čiščenje in transformacijo podatkov, nato pa so bili uporabljeni za generiranje osnutka v naravnem jeziku s pomočjo modela GPT-3.5-turbo iz knjižnice OpenAI. Osnutki novic so bili analizirani s pomočjo več metrik berljivosti kot so Flesch Reading Ease, Gunning Fog Index, Automated Readability Index, Läsbarhets Index, Type-Token Ratio, analiza sentimenta VADER in leksikalna gostota. Poleg tega so bile pridobljene povratne informacije s strani Slovenske tiskovne agencije (STA), ki je prepoznala potencial sistema za uporabo v novinarskem delu. Sistem je bil razvit z uporabo programskega jezika Python in več knjižnic kot so Selenium WebDriver, Requests in xlrd. Rezultati so pokazali, da je avtomatizirano generiranje osnutkov novic možno in učinkovito, ker lahko prihrani veliko časa novinarjem in zagotovi visoko stopnjo natančnosti ter razumljivosti besedil.

Jezik:	Slovenski jezik
Ključne besede:	avtomatizacija pisanja novic, spletno strganje, generiranje naravnega jezika, OpenAI, GPT, metrike berljivosti
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2024
PID:	20.500.12556/RUL-161313
COBISS.SI-ID:	211527171
Datum objave v RUL:	09.09.2024
Število ogledov:	488
Število prenosov:	164
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Generation of news drafts from public web data
The aim of the thesis was to develop a system for automated generation of news drafts based on public data obtained through web scraping and subsequent processing. Initially, web scraping techniques were used to collect unemployment data from the website of the Employment Service of the Republic of Slovenia and data on football matches from the SofaScore website. The collected data was processed using various techniques for cleaning, transformation, and extraction of key information. The data was reorganized and converted into appropriate formats suitable for use in natural language generation (NLG) models. The GPT-3.5-turbo model from the OpenAI library was used for generating coherent and meaningful texts based on predefined templates and input data. The generated drafts were then analyzed using readability metrics such as Flesch Reading Ease, Gunning Fog Index, Type-Token Ratio, Automated Readability Index, Läsbarhets Index, sentiment analysis VADER and lexical density. Additionally, feedback was obtained from the Slovenian Press Agency (STA), which is considering using the generated news drafts in their workflow. The system was developed in Python with additional use of several libraries such as Selenium WebDriver, Requests, and xlrd. The results demonstrate automated news draft generation using advanced AI models is feasible and effective, significantly saving journalists' time while ensuring high accuracy and readability of the generated texts.
Ključne besede:	automated news writing, web scraping, natural language generation, OpenAI, GPT, readability metrics

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj