Result filters

Metadata provider

Language

  • Icelandic

Resource type

Availability

Active filters:

  • Language: Icelandic
Loading...
104 record(s) found

Search results

  • Tokenizer for Icelandic text (3.3.2)

    Tokenizer is a compact pure-Python (2.7 and 3) executable program and module for tokenizing Icelandic text. It converts input text to streams of tokens, where each token is a separate word, punctuation sign, number/amount, date, e-mail, URL/URI, etc. It also segments the token stream into sentences, considering corner cases such as abbreviations and dates in the middle of sentences. More information at: https://github.com/mideind/Tokenizer Tokenizer er pakki fyrir Python 2.7 og 3, ásamt skipanalínutóli, sem sér um tilreiðslu íslensks texta. Pakkinn umbreytir inntakstexta í tókastraum. Hver tóki er stakt orð, greinarmerki, tala/upphæð, dags-/tímasetning, netfang, vefslóð o.s.frv. Tólið skiptir tókastraumnum einnig í setningar og tekur tillit til jaðartilvika eins og skammstafana og dagsetninga í miðjum setningum. Frekari upplýsingar á: https://github.com/mideind/Tokenizer
  • ABLTagger (Lemmatizer) - 3.1.0

    A neural Lemmatizer for Icelandic. In this submission, you will find a pretrained lemmatizer model for ABLTagger v3.1.0. In this submission we provide a small lemmatizer that accepts as input the tokens and tags from the revised tagset. The lemmatizer achieves an accuracy of 98.3% on MIM-Gold (21.05, cross-validation). Það er minni nákvæmni en Nefnir. For installation, usage, and other instructions see https://github.com/icelandic-lt/POS. You should also check if a newer version is out (see README.md - versions) on CLARIN: - Model files ------------------------------------------------------------------------------------------- Lemmari fyrir íslensku. Í þessum pakka er forþjálfað lemmunar líkan fyrir ABLTagger v3.1.0. Í þessari útgáfu er lítill lemmari sem tekur inn tóka og mörk úr nýja markamengið. Lemmarinn nær 98.3% nákvæmni á MÍM-Gull (21.05, krossprófanir). Það er minni nákvæmni en Nefnir. Fyrir uppsetningar-, notenda- og aðrar leiðbeiningar sjá https://github.com/icelandic-lt/POS. Einnig er gott að athuga þar hvort ný útgáfa sé komin út (sjá README.md - versions) Á CLARIN: - Gögn fyrir líkan
  • ABLTagger (PoS) - 1.0.0

    A Part-of-Speech (PoS) tagger for Icelandic. In this submission, you will find ABLTagger v1.0.0. This is a PoS tagger that works with the revised tagset and achieves an accuracy of 95.59% on MIM-Gold (cross-validation). For additional details, error analysis and categorization of this tagger and other taggers (including a previous version of ABLTagger), see I4 report for milestone (2020) in Language Technology Programme for Icelandic 2019-2023. For the most recent versions, installation, usage, and other instructions see https://github.com/cadia-lvl/POS on CLARIN: - Python wheel, version 1.0.0 - GitHub repository at version 1.0.0 - Model files (tagger and dictionaries) - Docker image, version 1.0.0 ------------------------------------------------------------------------------------------- Markari fyrir íslensku. Í þessum pakka er ABLTagger v.1.0.0. Þetta er markari sem virkar fyrir nýja markamengið og nær 95.59% nákvæmni á MÍM-Gull (krossprófanir). Fyrir nánari upplýsingar, villugreiningu og villuflokkun fyrir þennan markara og aðra (ásamt fyrri útgáfu af þessum markara), sjá I4 skýrslu fyrir vörðu 3 (2020) í Máltækniáætlun fyrir íslensku 2019-2023. Fyrir nýjustu útgáfur, uppsetninga-, notenda- og aðrar leiðbeiningar sjá https://github.com/cadia-lvl/POS Á CLARIN: - Python wheel, útgáfa 1.0.0 - GitHub repository af útgáfu 1.0.0 - Líkan (markari and orðabækur) - Docker mynd, útgáfa 1.0.0
  • TTS Text Processing (22.10)

    ENGLISH: This project provides a TTS textprocessing pipeline for Icelandic. The pipeline includes modules for html parsing, text cleaning, text normalization for TTS, spell and grammar correction, phrasing, and grapheme-to-phoneme (g2p) conversion. Before a text can be fed into a TTS system it has to be converted into the format that was used when training that system. The format can be grapheme-based (i.e. alphabetic characters of the language in question are used as input) or phoneme-based (i.e. a phonetic alphabet like IPA or SAMPA are used as input). The TTS Textprocessing Pipeline for Icelandic offers both possibilities. ÍSLENSKA: Þessi hugbúnaðarpakki inniheldur textavinnslupípu fyrir íslenska talgervla. Pípan samanstendur af vinnslu html-skjala fyrir hljóðbækur, hreinsun texta, textanormun, stafsetningarleiðréttingu, innsetningu á þögnum og sjálfvirkri hljóðritun. Áður en hægt er að senda texta á talgervil þarf að forvinna hann, t.d. skrifa út tölustafi og skammstafanir, merkja inn þagnir og koma textanum að lokum á sama form og þjálfunargögn þess talgervils sem á að lesa textann. Yfirleitt eru talgervlar þjálfaðir á hljóðrituðum textum, þar sem textarnir eru hljóðritaðir skv. hljóðritunarstafrófum eins og IPA eða SAMPA, en einnig geta þeir verið þjálfaðir beint á textum skrifuðum með hefðbundnum bókstöfum. Textavinnslupípan býður upp á báða möguleika og einnig að vinna textann einungis að hluta.