Apertium - Apertium

Apertium
Logo Apertium. Svg
Apertium-tolk.png
Apertium-tolk, jednoduché desktopové uživatelské rozhraní pro Apertium, které se překládá podle typu uživatele
Stabilní uvolnění
3.6.1 / 24. října 2019 ; Před 23 měsíci ( 2019-10-24 )
Úložiště github .com /apertium
Napsáno C ++
Operační systém POSIX kompatibilní a Windows NT (omezená podpora)
K dispozici v 35 jazyků, viz níže
Typ Strojový překlad na základě pravidel
Licence Obecná veřejná licence GNU
webová stránka www .apertium .org

Apertium je bezplatná/otevřená platforma pro strojový překlad založená na pravidlech . Je to bezplatný software a je vydáván za podmínek obecné veřejné licence GNU .

Přehled

Apertium je systém strojového překladu s mělkým přenosem , který pro všechny své lexikální transformace používá převodníky konečného stavu , a skryté Markovovy modely pro označování části řeči nebo disambiguaci kategorie slov. Značky omezující gramatiky se používají také pro některé jazykové páry (např. Bretonština - francouzština ).

Stávající systémy strojového překladu, které jsou v současné době k dispozici, jsou většinou komerční nebo využívají proprietární technologie, díky čemuž se velmi obtížně přizpůsobují novým zvyklostem; dále používají různé technologie napříč jazykovými páry, což velmi ztěžuje například jejich integraci do jednoho vícejazyčného systému pro správu obsahu .

Apertium používá specifikaci nezávislou na jazyce , která umožňuje snadné přispívání k Apertiu, efektivnější vývoj a posílení celkového růstu projektu.

V současné době (prosinec 2020) vydalo Apertium 51 stabilních jazykových párů, které poskytují rychlý překlad s rozumně srozumitelnými výsledky (chyby lze snadno opravit). Jelikož se jedná o open-source projekt, Apertium poskytuje nástroje pro potenciální vývojáře k vybudování vlastního jazykového páru a přispění k projektu.

Dějiny

Apertium vzniklo jako jeden z motorů strojového překladu v projektu OpenTrad , který byl financován španělskou vládou a který vyvinula výzkumná skupina Transducens na Universitat d'Alacant . Původně byl navržen tak, aby překládal mezi blízce příbuznými jazyky, přestože byl v poslední době rozšířen tak, aby pojal odlišnější jazykové páry. K vytvoření nového systému strojového překladu stačí vyvinout lingvistická data (slovníky, pravidla) v přesně specifikovaných formátech XML .

Jazyková data k tomu vyvinutá (ve spolupráci s Universidade de Vigo , Universitat Politècnica de Catalunya a Universitat Pompeu Fabra ) aktuálně podporují (ve stabilní verzi) arabštinu , aragonštinu , asturštinu , baskičtinu , běloruskou , bretonskou , bulharskou , katalánskou , krymskou Tatarština , dánština , angličtina , esperanto , francouzština , galicijština , hindština , islandština , indonéština , italština , kazašština , makedonština , malajština , maltština , severní Sami , norština ( Bokmål a Nynorsk ), okcitánština , polština , portugalština , rumunština , ruština , sardinština , Srbochorvatština , slezština , slovinština , španělština , švédština , tatarština , ukrajinština , urdština a velština . Úplný seznam je k dispozici níže. Na vývoji Apertia se podílí také několik společností, včetně Prompsit Language Engineering , Imaxin Software a Eleka Ingeniaritza Linguistikoa .

Projekt se zúčastnil edic Google Summer of Code 2009, 2010, 2011, 2012, 2013 a 2014 a Google Code-In 2010, 2011, 2012, 2013, 2014, 2015, 2016 a 2017 .

Metodika překladu

Pipeline systému strojového překladu Apertium

Toto je celkový, podrobný pohled na to, jak Apertium funguje.

Diagram zobrazuje kroky, které Apertium provede k překladu textu ze zdrojového jazyka (text, který chceme přeložit) do textu v cílovém jazyce (přeložený text).

  1. Text zdrojového jazyka je předán do Apertium k překladu.
  2. Tyto odformátovače odstraňuje formátování značky (HTML, RTF, atd), které by měly být ponechány na místě, ale není přeložen.
  3. Na morfologickou analýzu segmenty textu (rozšiřující elisions , značení set fráze, etc.), a dívat se segmenty v jazykových slovníků, pak se vracet baseform a značky pro všechny zápasy. Ve dvojicích, které zahrnují aglutinativní morfologii , včetně řady turkických jazyků , se používá Helsinki Finite-State Transducer (HFST). Jinak se používá technologie specifická pro Apertium, nazývaná lttoolbox .
  4. Morfologické disambiguator (dále morfologickou analýzu a morfologické disambiguator společně tvoří část řeči tagger ) řeší dvojznačné segmenty (tj, v případě, že je více než jeden zápas) výběrem jeden zápas. Apertium pracuje na instalaci více rámců Constraint Grammar pro své jazykové páry, což umožňuje uložení více jemnozrnných omezení, než by bylo jinak možné. Apertium používá analyzátor gramatiky Visual Interactive Syntax Learning Constraint .
  5. Lexikální přenos vyhledává disambiguated basewords base sourcewords to find their target-language equivalents (tj., Mapping source language to target language ). Pro lexikální přenos používá Apertium slovníkový formát založený na XML s názvem bidix.
  6. Lexikální výběr volí mezi alternativními překlady, pokud má slovo zdrojového textu alternativní význam. Apertium používá k provádění lexikálního výběru specifickou technologii založenou na XML , apertium-lex-tools .
  7. Strukturální přenos (tj. Je to formát XML, který umožňuje psaní složitých pravidel strukturálního přenosu) může sestávat z jednostupňového nebo třístupňového přenosového modulu. Označuje gramatické rozdíly mezi zdrojovým jazykem a cílovým jazykem (např. Pohlaví nebo dohoda o číslech ) vytvořením sekvence bloků obsahujících značky. Poté přeradí nebo upraví bloky, aby vytvořily gramatický překlad v cílovém jazyce. To se také provádí pomocí lttoolbox .
  8. Morfologické generátor používá značky dodat správný cílový jazyk povrchové formy . Morfologický generátor je morfologický měnič, stejně jako morfologický analyzátor. Morfologický převodník analyzuje a generuje formy.
  9. Post-generátor činí veškeré nezbytné pravopisné změny v důsledku kontaktu slov (např elisions ).
  10. Tyto Reformatter nahrazuje formátování značkovací (HTML, RTF, atd.), Který byl odstraněn deformátovacím v prvním kroku.
  11. Apertium poskytuje překlad do cílového jazyka .

Jazykové páry

Seznam aktuálně stabilních jazykových párů, umístěním kurzoru nad kódy jazyků zobrazíte jazyky, které představují.

af ar an ast eu br bg ca da nl en eo fr gl hin is id it kaz mk ms mt sme nb nn oc pt ro sc hbs slv es sv tat urd cy
afrikánština - Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
arabština Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (←) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
Aragonský Ne Ne - Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne
Asturian Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne
Baskičtina Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne
Breton Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
bulharský Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
Katalánština Ne Ne Ano (⇄) Ne Ne Ne Ne - Ne Ne Ano (⇄) Ano (→) Ano (⇄) Ne Ne Ne Ne Ano (←) Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ano (⇄) Ne Ano (→) Ne Ne Ano (⇄) Ne Ne Ne Ne
dánština Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ano (←) Ne Ne Ne
holandský Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
Angličtina Ne Ne Ne Ne Ano (←) Ne Ne Ano (⇄) Ne Ne - Ano (⇄) Ne Ano (⇄) Ne Ano (←) Ne Ne Ne Ano (←) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (←) Ne Ano (⇄) Ne Ne Ne Ano (←)
esperanto Ne Ne Ne Ne Ne Ne Ne Ano (←) Ne Ne Ano (⇄) - Ano (←) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (←) Ne Ne Ne Ne Ne Ne Ne Ne
francouzština Ne Ne Ne Ne Ne Ano (←) Ne Ano (⇄) Ne Ne Ne Ano (→) - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne
Galicijský Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne
hindština Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne
islandský Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne
indonéština Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
italština Ne Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ne
Kazašský Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne
Makedonský Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (←) Ne Ne Ne Ne Ne Ne
Malajský Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
maltština Ne Ano (→) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
Severní Sami Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ano (→) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
Norština ( Bokmål ) Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (←) - Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
Norština ( Nynorsk ) Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) - Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne
Occitan Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Nof Ne Ano (←) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne
portugalština Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne
rumunština Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ano (←) Ne Ne Ne Ne
Sardinský Ne Ne Ne Ne Ne Ne Ne Ano (←) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (←) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne Ne Ne Ne Ne
Srbochorvatština Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ano (⇄) Ne Ne Ne Ne Ne
slovinský Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) - Ne Ne Ne Ne Ne
španělština Ne Ne Ano (⇄) Ano (⇄) Ano (←) Ne Ne Ano (⇄) Ne Ne Ano (⇄) Ano (→) Ano (⇄) Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ano (⇄) Ano (←) Ne Ne Ne - Ne Ne Ne Ne
švédský Ne Ne Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne Ne
Tatar Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne Ne
Urdu Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (⇄) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne - Ne
velština Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ano (→) Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne Ne -

Viz také

Poznámky

Reference

  • Corbí-Bellot, M. a kol. (2005) „Strojový překladový stroj s mělkým přenosem s otevřeným zdrojovým kódem pro španělské romance“ ve sborníku Evropské asociace strojového překladu, 10. výroční konference, Budapešť 2005 , s. 79–86
  • Armentano-Oller, C. a kol. (2006) „Open-source portugalsko-španělský strojový překlad“ v přednáškách z informatiky 3960 [Computational Processing of the Portuguese Language, Proceedings of the 7th International Workshop on Computational Processing of Written and Spoken Portuguese, PROPOR 2006] , p 50– 59.
  • Forcada, ML a kol. (2010) „Dokumentace Open-Source Shallow-Transfer Machine Translation Platform Apertiumin Departament de Llenguatges i Sistemes Informatics, University of Alacant .
  • Forcada, ML a kol. (2011) „ Apertium: bezplatná/open-source platforma pro strojový překlad založený na pravidlech “. v " doi : 10.1007/s10590-011-9090-0

externí odkazy

Služby a software koncových uživatelů

(Všechny služby jsou založeny na enginu Apertium)

Webové překlady online

Offline aplikace