METEOR - METEOR
METEOR ( Metric for Evaluation of Translation with Explicit ORdering ) is a metric for the evaluation of machine translation output . Metrika je založena na harmonickém průměru přesnosti a odvolání unigramu , přičemž vyvolání je váženo vyšší než přesnost. Má také několik funkcí, které se nenacházejí v jiných metrikách, jako je korelace a shoda synonym , spolu se standardním přesným hledáním slov. Metrika byla navržena tak, aby opravila některé problémy nalezené v populárnější metrice BLEU a také vytvořila dobrou korelaci s lidským úsudkem na úrovni věty nebo segmentu. To se liší od metriky BLEU v tom, že BLEU hledá korelaci na úrovni korpusu.
Byly prezentovány výsledky, které dávají korelaci až 0,964 s lidským úsudkem na úrovni korpusu ve srovnání s dosažením BLEU 0,817 na stejném souboru dat. Na úrovni věty byla maximální dosažená korelace s lidským úsudkem 0,403.
Algoritmus
Stejně jako u BLEU je základní jednotkou hodnocení věta, algoritmus nejprve vytvoří zarovnání (viz ilustrace) mezi dvěma větami , kandidátským překladovým řetězcem a referenčním překladovým řetězcem. Zarovnání je soubor mapování mezi unigrams . Mapování lze považovat za čáru mezi unigramem v jednom řetězci a unigramem v jiném řetězci. Omezení jsou následující; každý unigram v překladu kandidáta se musí namapovat na nulu nebo na jeden unigram v odkazu. Mapování se vybere k vytvoření zarovnání, jak je definováno výše. Pokud existují dvě zarovnání se stejným počtem mapování, vybere se zarovnání s nejmenším počtem křížení , tj. S méně průsečíky dvou mapování. Ze dvou zobrazených zarovnání bude v tomto bodě vybráno zarovnání (a). Fáze se spouštějí postupně a každá fáze přidává do zarovnání pouze ty unigramy, které nebyly v předchozích fázích porovnány. Jakmile se vypočítá konečné zarovnání, skóre se vypočítá takto: Přesnost Unigram P se vypočítá jako:
Modul | Kandidát | Odkaz | Zápas |
---|---|---|---|
Přesný | Dobrý | Dobrý | Ano |
Stemmer | Zboží | Dobrý | Ano |
Synonymie | studna | Dobrý | Ano |
Kde m je počet unigramů v kandidátském překladu, které se také nacházejí v referenčním překladu, a počet unigramů v kandidátském překladu. Unigram recall R se počítá jako:
Kde m je jak je uvedeno výše, a je počet unigramů v referenčním překladu. Přesnost a vyvolání jsou kombinovány pomocí harmonického průměru následujícím způsobem, přičemž vyvolání je váženo 9krát více než přesnost:
Opatření, která byla dosud zavedena, zohledňují pouze shodu s ohledem na jednotlivá slova, ale nikoli s ohledem na větší segmenty, které se objevují jak v referenční, tak v kandidátské větě. Aby se to zohlednilo, používají se k výpočtu penalizace p za zarovnání delší shody n -gramů . Čím více mapování existuje, které v referenci a kandidátské větě nesousedí, tím vyšší bude trest.
Za účelem výpočtu tohoto trestu jsou unigramy seskupeny do nejmenšího možného počtu bloků , kde je blok definován jako sada unigramů, které sousedí v hypotéze a v odkazu. Čím delší jsou sousední mapování mezi kandidátem a referencí, tím méně kusů je. Překlad, který je totožný s odkazem, dá pouze jeden blok. Trest p se počítá následovně,
Kde c je počet bloků a počet unigramů, které byly namapovány. Konečné skóre pro segment se vypočítá jako M níže. Trest má za následek snížení až o 50%, pokud neexistují žádné bigramové nebo delší zápasy.
Pro výpočet skóre za celý korpus nebo soubor segmentů se vezmou agregované hodnoty pro P , R a p a poté se zkombinují pomocí stejného vzorce. Algoritmus funguje také pro porovnání kandidátského překladu s více než jedním referenčním překladem. V tomto případě algoritmus porovná kandidáta s každou z referencí a vybere nejvyšší skóre.
Příklady
Odkaz | the | kočka | sat | na | the | rohož |
---|---|---|---|---|---|---|
Hypotéza | na | the | rohož | sat | the | kočka |
Skóre | ||||||
Fmean | ||||||
Trest | ||||||
Fragmentace |
Odkaz | the | kočka | sat | na | the | rohož |
---|---|---|---|---|---|---|
Hypotéza | the | kočka | sat | na | the | rohož |
Skóre | ||||||
Fmean | ||||||
Trest | ||||||
Fragmentace |
Odkaz | the | kočka | sat | na | the | rohož | |
---|---|---|---|---|---|---|---|
Hypotéza | the | kočka | byl | sat | na | the | rohož |
Skóre | |||||||
Fmean | |||||||
Trest | |||||||
Fragmentace |
Viz také
Poznámky
- ^ Banerjee, S. a Lavie, A. (2005)
Reference
- Banerjee, S. a Lavie, A. (2005) „METEOR: Automatická metrika pro hodnocení MT se zlepšenou korelací s lidskými úsudky“ v příspěvku ze semináře o vnitřních a vnějších hodnotících opatřeních pro MT a / nebo shrnutí na 43. výročním zasedání Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, červen 2005
- Lavie, A., Sagae, K. a Jayaraman, S. (2004) „The Significance of Recall in Automatic Metrics for MT Evaluation“ in Proceedings of AMTA 2004, Washington DC. Září 2004
externí odkazy
- Systém automatického vyhodnocení překladu stroje METEOR (včetně odkazu ke stažení)