Result filters

Metadata provider

Language

Resource type

Availability

Project

  • Language Technology for Icelandic 2019-2023

Active filters:

  • Project: Language Technology for Icelandic 2019-2023
Loading...
88 record(s) found

Search results

  • GreynirCorrect4LT (1.0)

    This is a slightly adapted version of Miðeind's spell and grammar checker GreynirCorrect <CLARIN link: http://hdl.handle.net/20.500.12537/174> . This version is implemented for use in a text-to-speech text pre-processing pipeline, but includes guidelines for a quick adaptation to other use cases in language technology applications as well. [ICELANDIC] Þetta er lítillega aðlöguð útgáfa af málrýnitólinu GreynirCorrect <CLARIN link: http://hdl.handle.net/20.500.12537/174> til notkunar í textavinnslu fyrir talgervla. Einnig inniheldur útgáfan leiðbeiningar um það hvernig aðlaga má GreyniCorrect að öðrum notkunartilvikum í máltækni, þar sem þarfirnar kunna að vera aðrar en í málrýni fyrir almenna notendur.
  • Biaffine-based UD Parser for Icelandic 22.12

    ENGLISH: This Universal Dependencies parser for Icelandic was trained with Diaparser [1]. This version of it was trained on v2.11 of UD_Icelandic-IcePaHC [2] and UD_Icelandic-Modern [3]. (Note that texts in UD_Icelandic-Modern [3] labeled RUV_TGS_2017 and RUV_ESP_2017 were not included here as these were originally parsed with COMBO-based UD Parser 22.10 [4] and the output subsequently corrected.) The parser utilizes information from an ELECTRA language model [5]. Its UAS (unlabeled attachment score) is 89.58 and its LAS (labeled attachment score) is 86.46.   ICELANDIC: Þessi UD-þáttari var þjálfaður með Diaparser [1]. Þessi útgáfa hans var þjálfuð á útgáfu 2.11 af UD_Icelandic-IcePaHC [2] og UD_Icelandic-Modern [3]. (Ath. að textar í UD_Icelandic-Modern [3] merktir RUV_TGS_2017 og RUV_ESP_2017 voru ekki notaðir við þjálfunina þar sem þeir voru upphaflega þáttaðir með COMBO-based UD Parser 22.10 [4] og úttakið leiðrétt að því loknu.) Þáttarinn nýtir sér upplýsingar úr ELECTRA-mállíkani [5]. Hann skorar 89.58 á UAS (unlabeled attachment score) og 86.46 á LAS (labeled attachment score). [1] Diaparser: https://github.com/Unipisa/diaparser  [2] UD_Icelandic-IcePaHC: https://github.com/UniversalDependencies/UD_Icelandic-IcePaHC/  [3] UD_Icelandic-Modern: https://github.com/UniversalDependencies/UD_Icelandic-Modern/  [4] COMBO-based UD Parser 22.10: http://hdl.handle.net/20.500.12537/272 [5] electra-base-igc-is: https://huggingface.co/jonfd/electra-base-igc-is
  • Yfirlestur 1.0.0 (22.06)

    Yfirlestur.is is a public website where you can enter or submit your Icelandic text and have it checked for spelling and grammar errors. The tool also gives hints on words and structures that might not be appropriate, depending on the intended audience for the text. The core spelling and grammar checking functionality of Yfirlestur.is is provided by the GreynirCorrect engine, by the same authors. This software is licensed under the MIT License. More information at https://github.com/mideind/Yfirlestur.
  • Biaffine-based UD Parser 22.10

    ENGLISH: This Universal Dependencies parser for Icelandic was trained with Diaparser [1] on IcePaHC [2] and UD_Icelandic-Modern [3], the latter one having been revised before training, as some duplicate sentences had to be removed. The parser utilizes information from an ELECTRA language model [4]. Its UAS (unlabeled attachment score) is 89.52 and its LAS (labeled attachment score) is 86.23.
  • Rule-based g2p for Icelandic

    Manually developed grapheme-to-phoneme (g2p) transcription rules for Icelandic, written in Thrax grammar syntax. The rules are for the standard Icelandic pronunciation, the northern variation, the north-eastern variation and the south pronunciation variation. The package also contains a command line tool in C++. Handskrifaðar hljóðritunarreglur fyrir íslensku, skrifaðar í Thrax. Reglurnar eru skrifaðar fyrir hefðbundinn íslenskan framburð, fyrir harðmæli, raddaðan framburð og hv-framburð. Skipanalínutól skrifað í C++ fylgir.
  • GreynirPackage 3.1.0

    GreynirPackage is a Python 3 package for working with Icelandic natural language text. Greynir can parse text into sentence trees, find lemmas, inflect noun phrases, assign part-of-speech tags and much more. Greynir's sentence trees can inter alia be used to extract information from text, for instance about people, titles, entities, facts, actions and opinions. Greynir uses the Tokenizer package, by the same authors, to tokenize text. More information at https://github.com/mideind/GreynirPackage and detailed documentation at https://greynir.is/doc/. GreynirPackage er Python 3 pakki sem vinnur með íslenskan texta. Greynir þáttar texta í setningar, lemmar og markar texta, beygir nafnliði og margt fleira. Hægt er að nýta þáttunartrén sem tólið býr til í þeim tilgangi að draga upplýsingar út úr texta, til dæmis um manneskjur, starfstitla, sérnafnaeiningar, staðreyndir, atburði og skoðanir. Greynir notar Tokenizer-pakkann, eftir sömu höfunda, til að tilreiða texta. Frekari upplýsingar má finna á https://github.com/mideind/GreynirPackage og ítarlega skjölun (á ensku) á https://greynir.is/doc/.
  • IceParser 1.5.0

    IceParser is a shallow parser for Icelandic. The parser comprises a sequence of finite-state transducers, which add syntactic information, in an incremental manner, into the input text. The input to IceParser is part-of-speech (PoS) tagged text and it produces output which includes annotation of both constituent structure and syntactic functions. The distributed file contains the entirety of IceNLP, a toolkit of various NLP tools for processing and analysing Icelandic. The current version of IceParser in IceNLP has been specifically changed and updated to be able to annotate input tagged with the revised Icelandic POS tagset. --- IceParser er hlutaþáttari fyrir íslensku. Þáttarinn samanstendur af röð af stöðuferjöldum sem bæta setningafræðilegum upplýsingum inn í inntakstextann á stigvaxandi hátt. Inntakið í IceParser er markaður texti og þáttarinn skilar af sér úttaki sem inniheldur bæði merkingar á setningaliðum og setningafræðilegum hlutverkum. Skráin sem fylgir inniheldur allt IceNLP, þ.e. safn tóla til að vinna með og greina íslensku. Núverandi útgáfa af IceParser í IceNLP hefur verið breytt og uppfærð til að greina og merkja inntak sem er markað með hinu endurskoðað íslenska markamengi.
  • ALEXIA: Lexicon Acquisition Tool for Icelandic (Orðtökutólið Alexía) 3.0 (21.08)

    ALEXIA is a command-line based corpus tool used for comparing a certain vocabulary to that of a larger corpus or corpora. In order to maintain lexicons, dictionaries and terminologies, it is necessary to be able to systematically go through large amounts of text considered to be representative of the language or category in question in order to find potential gaps in the data. ALEXIA provides an easy way to generate such candidate lists. In order to successfully run ALEXIA, the user must run main.py This script offers two language options, Icelandic and English. It guides the user through a series of options, including the necessary set-up of SQL-databases. After the setup is completed, the user is offered the option of continuing to the actual program. The user is greeted with a welcome message and asked whether to create the default databases for the demo version of the program or if they want to provide their own lexicon files. If the default set-up is chosen, the user must indicate whether to use the Database of Icelandic Morphology (DIM) or A Dictionary of Contemporary Icelandic (DCI) whose vocabulary is then compared to that of the Icelandic Gigaword Corpus (IGC). A number of filters is used to limit distortion from the results. __ ALEXIA er málheildartól sem er keyrt í gegnum skipanalínuna og tilgangur þess er að bera saman orðaforða gagnasafns við orðaforða stórrar málheildar. Það er nauðsynlegt til þess að viðhalda orðasöfnum, orðabókum og íðorðabönkum að geta farið kerfisbundið í gegnum mikið magn texta sem er álitinn táknrænn fyrir tungumálið eða efnisflokkinn sem er verið að skoða hverju sinni. ALEXIA býður upp á auðvelda leið til þess að smíða slíka orðalista. Til þess að nota orðtökutólið með góðum árangri þarf notandinn að keyra main.py í gegnum skipanalínuna2 Skriftan býður upp á tvo tungumálavalmöguleika, ensku og íslensku. Hún leiðir notandann í gegnum ýmsa valmöguleika, þar á meðal uppsetningu SQL-gagnagrunna. Að uppsetningunni lokinni er notandanum boðið að halda áfram í keyrsluhluta forritsins. Notandinn er spurður hvort eigi að búa til gagnagrunna í gegnum sjálfvirka uppsetningu eða hvort hann vilji leggja til eigin orðasafnsskjöl. Ef sjálfgefin uppsetning er valin þarf notandinn að gefa til kynna hvort nota eigi Beygingarlýsingu íslensks nútímamáls (BÍN) eða Nútímamálsorðabókina (NMO) sem inntak. Orðaforði þeirra er þá borinn saman við orðaforða Risamálheildarinnar (RMH). Ýmiskonar síum er beitt til þess að úttakið verði sem best. The linked video includes detailed description of the tool's use // Myndbandið sem fylgir hér í hlekk inniheldur nákvæmar upplýsingar um notkun tólsins.
  • Models for automatic g2p for Icelandic (20.10)

    Grapheme-to-phoneme (g2p) models for Icelandic, trained on an encoder-decoder LSTM neural network. The models are delivered with scripts for automatic transcription of Icelandic in the standard pronunciation variation, in the northern variation, north-east variation, and the south variation. To run the scripts the user needs to install Fairseq (see Readme in the project repository). Hljóðritunarlíkön fyrir íslensku, þjálfuð á LSTM tauganeti. Líkönunum fylgja skriftur til þess að hljóðrita íslensku skv. hefðbundnum framburði, harðmæli, rödduðum framburði og hv-framburði. Til þess að keyra skrifturnar þarf notandi að setja upp Fairseq (sjá nánari skjölun með verkefninu).
  • MOSI: TTS evaluation tool (22.01)

    EN: MOSI is a text-to-speech (TTS) evaluation platform. The platform is focused on listening tests. Organizers can upload audio clips to be evaluated using Mean opinion score (MOS), AB or ABX setups. The platform allows the organizers to arrange and plan the evaluations, customize the setup, send out invite links to participants and view and download the results. A detailed setup description can be found in README.md and a user guide can be found in HOW_TO_USE.md. IS: MOSI er tól/vettvangur þar sem hljóðgerving er metin. MOSI er búinn til fyrir hlustunarpróf. Notendur MOSA geta hlaðið upp hljóðklippum og notað MOS-, AB- eða ABX-fyrirkomulag. MOSI gerir skipuleggjendum kleift að skipuleggja kannanir, stilla þær eftir sinni hentisemi, senda boðshlekki til þátttakenda og skoða og hlaða niður niðurstöðum. Uppsetningarleiðbeiningar má finna í readme.md og notkunarleiðbeiningar má finna í HOW_TO_USE.md.