izpis_h1_title_alt

Samodejno prepoznavanje vsebinskih blokov znotraj spletišč
ID BREZOVNIK, MITJA (Avtor), ID Žitnik, Slavko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (8,82 MB)
MD5: D41451ABCF549B6A560929F2907BB556

Izvleček
Informacije so dandanes enostavno dostopne, informiranost pa ključnega pomena. S to mislijo smo se lotili izdelave rešitve, ki bo omogočala luščenje vsebine člankov iz slovenskih novičarskih portalov. Glavni problem s katerim se pri tovrstnih rešitvah soočimo je ločitev vsebine od nepotrebnih informacij, kot so oglasi, komentarji in ostali postavitveni elementi spletnih strani. Za rešitev tega problema smo ubrali pristop, ki temelji na značilnostih plitkih besedil. Na njegovi osnovi smo zasnovali jezikovni model, ki smo ga zgradili s pomočjo slovenskega korpusa 10000 slovenskih člankov iz 5 različnih novičarskih portalov. Končni izdelek predstavlja ekstraktor, ki omogoča pridobitev vsebine slovenskih člankov in jih predstavi v strukturirani obliki.

Jezik:Slovenski jezik
Ključne besede:ekstrakcija, članki, značilnosti plitkih besedil
Vrsta gradiva:Diplomsko delo/naloga
Tipologija:2.11 - Diplomsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2021
PID:20.500.12556/RUL-124580 Povezava se odpre v novem oknu
COBISS.SI-ID:50546435 Povezava se odpre v novem oknu
Datum objave v RUL:04.02.2021
Število ogledov:1044
Število prenosov:116
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Automatic identification of content blocks from Web sites
Izvleček:
Nowadays information is easily accessible and even more so valuable. With this in mind, we set about creating a solution that will enable content extraction of articles found in Slovenian news portals. The main problem we face with such solutions is separating the content from unnecessary information, such as ads, comments and other layout elements of web pages. To solve this problem, we implemented a solution based on shallow text features. On its basis, we designed a language model, which was built with the help of Slovenian news corpus that contains 10000 articles from 5 different news portals. The final product is an extractor that allows content extraction of Slovenian articles and presents them in a structured form.

Ključne besede:extraction, articles, shallow text features

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj