Apertium - Apertium
Stabilní uvolnění | 3.6.1 / 24. října 2019
|
---|---|
Úložiště | github |
Napsáno | C ++ |
Operační systém | POSIX kompatibilní a Windows NT (omezená podpora) |
K dispozici v | 35 jazyků, viz níže |
Typ | Strojový překlad na základě pravidel |
Licence | Obecná veřejná licence GNU |
webová stránka | www |
Apertium je bezplatná/otevřená platforma pro strojový překlad založená na pravidlech . Je to bezplatný software a je vydáván za podmínek obecné veřejné licence GNU .
Přehled
Apertium je systém strojového překladu s mělkým přenosem , který pro všechny své lexikální transformace používá převodníky konečného stavu , a skryté Markovovy modely pro označování části řeči nebo disambiguaci kategorie slov. Značky omezující gramatiky se používají také pro některé jazykové páry (např. Bretonština - francouzština ).
Stávající systémy strojového překladu, které jsou v současné době k dispozici, jsou většinou komerční nebo využívají proprietární technologie, díky čemuž se velmi obtížně přizpůsobují novým zvyklostem; dále používají různé technologie napříč jazykovými páry, což velmi ztěžuje například jejich integraci do jednoho vícejazyčného systému pro správu obsahu .
Apertium používá specifikaci nezávislou na jazyce , která umožňuje snadné přispívání k Apertiu, efektivnější vývoj a posílení celkového růstu projektu.
V současné době (prosinec 2020) vydalo Apertium 51 stabilních jazykových párů, které poskytují rychlý překlad s rozumně srozumitelnými výsledky (chyby lze snadno opravit). Jelikož se jedná o open-source projekt, Apertium poskytuje nástroje pro potenciální vývojáře k vybudování vlastního jazykového páru a přispění k projektu.
Dějiny
Apertium vzniklo jako jeden z motorů strojového překladu v projektu OpenTrad , který byl financován španělskou vládou a který vyvinula výzkumná skupina Transducens na Universitat d'Alacant . Původně byl navržen tak, aby překládal mezi blízce příbuznými jazyky, přestože byl v poslední době rozšířen tak, aby pojal odlišnější jazykové páry. K vytvoření nového systému strojového překladu stačí vyvinout lingvistická data (slovníky, pravidla) v přesně specifikovaných formátech XML .
Jazyková data k tomu vyvinutá (ve spolupráci s Universidade de Vigo , Universitat Politècnica de Catalunya a Universitat Pompeu Fabra ) aktuálně podporují (ve stabilní verzi) arabštinu , aragonštinu , asturštinu , baskičtinu , běloruskou , bretonskou , bulharskou , katalánskou , krymskou Tatarština , dánština , angličtina , esperanto , francouzština , galicijština , hindština , islandština , indonéština , italština , kazašština , makedonština , malajština , maltština , severní Sami , norština ( Bokmål a Nynorsk ), okcitánština , polština , portugalština , rumunština , ruština , sardinština , Srbochorvatština , slezština , slovinština , španělština , švédština , tatarština , ukrajinština , urdština a velština . Úplný seznam je k dispozici níže. Na vývoji Apertia se podílí také několik společností, včetně Prompsit Language Engineering , Imaxin Software a Eleka Ingeniaritza Linguistikoa .
Projekt se zúčastnil edic Google Summer of Code 2009, 2010, 2011, 2012, 2013 a 2014 a Google Code-In 2010, 2011, 2012, 2013, 2014, 2015, 2016 a 2017 .
Metodika překladu
Toto je celkový, podrobný pohled na to, jak Apertium funguje.
Diagram zobrazuje kroky, které Apertium provede k překladu textu ze zdrojového jazyka (text, který chceme přeložit) do textu v cílovém jazyce (přeložený text).
- Text zdrojového jazyka je předán do Apertium k překladu.
- Tyto odformátovače odstraňuje formátování značky (HTML, RTF, atd), které by měly být ponechány na místě, ale není přeložen.
- Na morfologickou analýzu segmenty textu (rozšiřující elisions , značení set fráze, etc.), a dívat se segmenty v jazykových slovníků, pak se vracet baseform a značky pro všechny zápasy. Ve dvojicích, které zahrnují aglutinativní morfologii , včetně řady turkických jazyků , se používá Helsinki Finite-State Transducer (HFST). Jinak se používá technologie specifická pro Apertium, nazývaná lttoolbox .
- Morfologické disambiguator (dále morfologickou analýzu a morfologické disambiguator společně tvoří část řeči tagger ) řeší dvojznačné segmenty (tj, v případě, že je více než jeden zápas) výběrem jeden zápas. Apertium pracuje na instalaci více rámců Constraint Grammar pro své jazykové páry, což umožňuje uložení více jemnozrnných omezení, než by bylo jinak možné. Apertium používá analyzátor gramatiky Visual Interactive Syntax Learning Constraint .
- Lexikální přenos vyhledává disambiguated basewords base sourcewords to find their target-language equivalents (tj., Mapping source language to target language ). Pro lexikální přenos používá Apertium slovníkový formát založený na XML s názvem bidix.
- Lexikální výběr volí mezi alternativními překlady, pokud má slovo zdrojového textu alternativní význam. Apertium používá k provádění lexikálního výběru specifickou technologii založenou na XML , apertium-lex-tools .
- Strukturální přenos (tj. Je to formát XML, který umožňuje psaní složitých pravidel strukturálního přenosu) může sestávat z jednostupňového nebo třístupňového přenosového modulu. Označuje gramatické rozdíly mezi zdrojovým jazykem a cílovým jazykem (např. Pohlaví nebo dohoda o číslech ) vytvořením sekvence bloků obsahujících značky. Poté přeradí nebo upraví bloky, aby vytvořily gramatický překlad v cílovém jazyce. To se také provádí pomocí lttoolbox .
- Morfologické generátor používá značky dodat správný cílový jazyk povrchové formy . Morfologický generátor je morfologický měnič, stejně jako morfologický analyzátor. Morfologický převodník analyzuje a generuje formy.
- Post-generátor činí veškeré nezbytné pravopisné změny v důsledku kontaktu slov (např elisions ).
- Tyto Reformatter nahrazuje formátování značkovací (HTML, RTF, atd.), Který byl odstraněn deformátovacím v prvním kroku.
- Apertium poskytuje překlad do cílového jazyka .
Jazykové páry
Seznam aktuálně stabilních jazykových párů, umístěním kurzoru nad kódy jazyků zobrazíte jazyky, které představují.
af
|
ar
|
an
|
ast
|
eu
|
br
|
bg
|
ca
|
da
|
nl
|
en
|
eo
|
fr
|
gl
|
hin
|
is
|
id
|
it
|
kaz
|
mk
|
ms
|
mt
|
sme
|
nb
|
nn
|
oc
|
pt
|
ro
|
sc
|
hbs
|
slv
|
es
|
sv
|
tat
|
urd
|
cy
|
|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
afrikánština | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
arabština | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
Aragonský | Ne | Ne | - | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne |
Asturian | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne |
Baskičtina | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne |
Breton | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
bulharský | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
Katalánština | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | - | Ne | Ne | Ano (⇄) | Ano (→) | Ano (⇄) | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ano (⇄) | Ne | Ano (→) | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne |
dánština | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ne |
holandský | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
Angličtina | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ano (⇄) | Ne | Ne | - | Ano (⇄) | Ne | Ano (⇄) | Ne | Ano (←) | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ano (⇄) | Ne | Ne | Ne | Ano (←) |
esperanto | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ano (⇄) | - | Ano (←) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
francouzština | Ne | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ano (⇄) | Ne | Ne | Ne | Ano (→) | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne |
Galicijský | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne |
hindština | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne |
islandský | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne |
indonéština | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
italština | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
Kazašský | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne |
Makedonský | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ne | Ne | Ne | Ne |
Malajský | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
maltština | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
Severní Sami | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
Norština ( Bokmål ) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (←) | - | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
Norština ( Nynorsk ) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
Occitan | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Nof | Ne | Ano (←) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne |
portugalština | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne |
rumunština | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ne | Ne |
Sardinský | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (←) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
Srbochorvatština | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ano (⇄) | Ne | Ne | Ne | Ne | Ne |
slovinský | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | - | Ne | Ne | Ne | Ne | Ne |
španělština | Ne | Ne | Ano (⇄) | Ano (⇄) | Ano (←) | Ne | Ne | Ano (⇄) | Ne | Ne | Ano (⇄) | Ano (→) | Ano (⇄) | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ano (⇄) | Ano (←) | Ne | Ne | Ne | - | Ne | Ne | Ne | Ne |
švédský | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne | Ne |
Tatar | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne | Ne |
Urdu | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (⇄) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - | Ne |
velština | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ano (→) | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | - |
Viz také
- Babel Fish (ukončeno; přesměruje na hlavní web Yahoo!)
- Porovnání aplikací pro strojový překlad
- Jollo (ukončeno)
- Microsoft Translator
- Mojžíš
- OpenLogos
- SYSTRAN
- Yandex.Translate
Poznámky
Reference
- Corbí-Bellot, M. a kol. (2005) „Strojový překladový stroj s mělkým přenosem s otevřeným zdrojovým kódem pro španělské romance“ ve sborníku Evropské asociace strojového překladu, 10. výroční konference, Budapešť 2005 , s. 79–86
- Armentano-Oller, C. a kol. (2006) „Open-source portugalsko-španělský strojový překlad“ v přednáškách z informatiky 3960 [Computational Processing of the Portuguese Language, Proceedings of the 7th International Workshop on Computational Processing of Written and Spoken Portuguese, PROPOR 2006] , p 50– 59.
- Forcada, ML a kol. (2010) „Dokumentace Open-Source Shallow-Transfer Machine Translation Platform Apertium “ in Departament de Llenguatges i Sistemes Informatics, University of Alacant .
- Forcada, ML a kol. (2011) „ Apertium: bezplatná/open-source platforma pro strojový překlad založený na pravidlech “. v " doi : 10.1007/s10590-011-9090-0
externí odkazy
Služby a software koncových uživatelů
(Všechny služby jsou založeny na enginu Apertium)
Webové překlady online
- Překlad Apertium domů
- Překladač Prompsit
- PoliTraductor Translator
- University d 'Alacant Translator
- Universitat Oberta de Catalunya Translator