Møte om omsetjing 28.4.2017

Til stades: Børre, Sjur, Tomi, Trond, Lene (på bidix-saka)

!!!Sakser:

* termwiki som input til Apertium-bidix
* status
* neste steg

!!!TermWiki som input til Apertium-bidix

Utgangspunkt: arbeidet som Tomi har gjort i det siste.

Nye bidix-filer:
* kor mykje overlapp med eksisterande bidix?

{{{
<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="acc"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>
<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="nom"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>
<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="gen"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>
}}}


apertium-sme-fin.sme-fin.dix
{{{
    <e><p><l>oahpahus<s n="n"/></l><r>opetus<s n="n"/></r></p></e>

    <e><p><l>oahpponeavvu<s n="n"/><s n="g3"/></l><r>opetusmateriaali<s n="n"/></r></p></e>


    <e><p><l>goappašagat<s n="prn"/><s n="ind"/><s n="pl"/><s n="nom"/></l><r>molemmat<s n="prn"/><s n="nom"/></r></p></e>
    <e><p><l>goappašagat<s n="prn"/><s n="ind"/><s n="pl"/></l><r>molemmat<s n="prn"/><s n="pl"/></r></p></e>
    <e><p><l>goappašat<s n="prn"/><s n="ind"/><s n="pl"/><s n="nom"/></l><r>molemmat<s n="prn"/><s n="nom"/></r></p></e>
    <e><p><l>goappašat<s n="prn"/><s n="ind"/><s n="pl"/></l><r>molemmat<s n="prn"/><s n="pl"/></r></p></e>

<e><p><l>ánsikta<s n="n"/><s n="sg"/></l><r>kasvot<s n="n"/><s n="pl"/></r></p></e>
<e><p><l>ámadadju<s n="n"/></l><r>ansikt<s n="n"/><s n="nt"/></r></p><par n="maydetind__n"/></e>
}}}

!!TODO

termwiki lemma + POS: 
* sjekke om lemma + pos finst i bidix frå før
* deretter lage kandidatpar for dei som ikkje finst
* evaluere, teste, nytt møte, legge til

... for kvart språkpar: sme-nob, sme-fin, sme-smn, sme-smj, sme-sma

!!!OmegaT

[https://github.com/divvun/OmegaT-hfst-tokenizer]
[http://divvun.no/doc/mt/omegat/OmegaT.html#HFST+Tokenizer]

Dokumentasjonen på wiki er oppdatert.

Fst-fila i speller/-katalogen skal slutte på *-<lang>.hfstol (analyser-gt-norm-se.hfstol).

Alle oppslag i glossary-lista skal ha standardisert lemmaform, ingen variantar. Variantane blir fanga opp av fst-en.

!!TODO
* fjerna variantar av lemma frå glossary
* fjerna kategoriinfo heilt

apertium/trunk/

cat se-nb.dix |grep '<e>'|cut -d">" -f4|cut -d"<" -f1|sort|uniq|hfst-proc ~/apertium/trunk/apertium-sme-nob/sme-nob.automorf.hfst |grep '\*'|wc -l