METEOR - METEOR

METEOR ( Metric for Evaluation of Translation with Explicit ORdering ) is a metric for the evaluation of machine translation output . Metrika je založena na harmonickém průměru přesnosti a odvolání unigramu , přičemž vyvolání je váženo vyšší než přesnost. Má také několik funkcí, které se nenacházejí v jiných metrikách, jako je korelace a shoda synonym , spolu se standardním přesným hledáním slov. Metrika byla navržena tak, aby opravila některé problémy nalezené v populárnější metrice BLEU a také vytvořila dobrou korelaci s lidským úsudkem na úrovni věty nebo segmentu. To se liší od metriky BLEU v tom, že BLEU hledá korelaci na úrovni korpusu.

Příklad zarovnání (a).

Byly prezentovány výsledky, které dávají korelaci až 0,964 s lidským úsudkem na úrovni korpusu ve srovnání s dosažením BLEU 0,817 na stejném souboru dat. Na úrovni věty byla maximální dosažená korelace s lidským úsudkem 0,403.

Příklad zarovnání (b).

Algoritmus

Stejně jako u BLEU je základní jednotkou hodnocení věta, algoritmus nejprve vytvoří zarovnání (viz ilustrace) mezi dvěma větami , kandidátským překladovým řetězcem a referenčním překladovým řetězcem. Zarovnání je soubor mapování mezi unigrams . Mapování lze považovat za čáru mezi unigramem v jednom řetězci a unigramem v jiném řetězci. Omezení jsou následující; každý unigram v překladu kandidáta se musí namapovat na nulu nebo na jeden unigram v odkazu. Mapování se vybere k vytvoření zarovnání, jak je definováno výše. Pokud existují dvě zarovnání se stejným počtem mapování, vybere se zarovnání s nejmenším počtem křížení , tj. S méně průsečíky dvou mapování. Ze dvou zobrazených zarovnání bude v tomto bodě vybráno zarovnání (a). Fáze se spouštějí postupně a každá fáze přidává do zarovnání pouze ty unigramy, které nebyly v předchozích fázích porovnány. Jakmile se vypočítá konečné zarovnání, skóre se vypočítá takto: Přesnost Unigram $P$ se vypočítá jako:

Příklady dvojic slov, která budou mapována každým modulem
Modul	Kandidát	Odkaz	Zápas
Přesný	Dobrý	Dobrý	Ano
Stemmer	Zboží	Dobrý	Ano
Synonymie	studna	Dobrý	Ano

{\ displaystyle P = {\ frac {m} {w_ {t}}}}

Kde $m$ je počet unigramů v kandidátském překladu, které se také nacházejí v referenčním překladu, a počet unigramů v kandidátském překladu. Unigram recall $R$ se počítá jako: ${\ displaystyle w_ {t}}$

{\ displaystyle R = {\ frac {m} {w_ {r}}}}

Kde $m$ je jak je uvedeno výše, a je počet unigramů v referenčním překladu. Přesnost a vyvolání jsou kombinovány pomocí harmonického průměru následujícím způsobem, přičemž vyvolání je váženo 9krát více než přesnost: ${\ displaystyle w_ {r}}$

{\ displaystyle F_ {mean} = {\ frac {10PR} {R + 9P}}}

Opatření, která byla dosud zavedena, zohledňují pouze shodu s ohledem na jednotlivá slova, ale nikoli s ohledem na větší segmenty, které se objevují jak v referenční, tak v kandidátské větě. Aby se to zohlednilo, používají se k výpočtu penalizace $p$ za zarovnání delší shody n -gramů . Čím více mapování existuje, které v referenci a kandidátské větě nesousedí, tím vyšší bude trest.

Za účelem výpočtu tohoto trestu jsou unigramy seskupeny do nejmenšího možného počtu bloků , kde je blok definován jako sada unigramů, které sousedí v hypotéze a v odkazu. Čím delší jsou sousední mapování mezi kandidátem a referencí, tím méně kusů je. Překlad, který je totožný s odkazem, dá pouze jeden blok. Trest $p$ se počítá následovně,

{\ displaystyle p = 0,5 \ vlevo ({\ frac {c} {u_ {m}}} \ vpravo) ^ {3}}

Kde c je počet bloků a počet unigramů, které byly namapovány. Konečné skóre pro segment se vypočítá jako $M$ níže. Trest má za následek snížení až o 50%, pokud neexistují žádné bigramové nebo delší zápasy. ${\ displaystyle u_ {m}}$ ${\ displaystyle F_ {průměr}}$

{\ displaystyle M = F_ {průměr} (1-p)}

Pro výpočet skóre za celý korpus nebo soubor segmentů se vezmou agregované hodnoty pro $P$ , $R$ a $p$ a poté se zkombinují pomocí stejného vzorce. Algoritmus funguje také pro porovnání kandidátského překladu s více než jedním referenčním překladem. V tomto případě algoritmus porovná kandidáta s každou z referencí a vybere nejvyšší skóre.

Příklady

Odkaz	the	kočka	sat	na	the	rohož
Hypotéza	na	the	rohož	sat	the	kočka
Skóre	${\ displaystyle 0,5000 = {\ underset {\ text {Fmean}} {1,0000}} \ krát (1 - {\ underset {\ text {Penalty}} {0,5000}})}$
Fmean	${\ displaystyle 1,0000 = 10 \ krát {\ podmnožina {\ text {přesnost}} {1,0000}} \ krát {\ frac {\ přesahující {\ text {Recall}} {1.0000}} {{\ underset {\ text {Recall }} {1,0000}} + 9 \ krát {\ podmnožina {\ text {Přesnost}} {1,0000}}}}}$
Trest	${\ displaystyle 0,5000 = 0,5 \ krát {\ podmnožina {\ text {Fragmentace}} {1,0000 ^ {3}}}}$
Fragmentace	${\ displaystyle 1.0000 = {\ frac {\ overset {\ text {Chunks}} {6.0000}} {\ underset {\ text {Matches}} {6.0000}}}}$

Odkaz	the	kočka	sat	na	the	rohož
Hypotéza	the	kočka	sat	na	the	rohož
Skóre	${\ displaystyle 0.9977 = {\ underset {\ text {Fmean}} {1,0000}} \ krát (1 - {\ underset {\ text {Penalty}} {0,0023}})}$
Fmean	${\ displaystyle 1,0000 = 10 \ krát {\ podmnožina {\ text {přesnost}} {1,0000}} \ krát {\ frac {\ přesahující {\ text {Recall}} {1.0000}} {{\ underset {\ text {Recall }} {1,0000}} + 9 \ krát {\ podmnožina {\ text {Přesnost}} {1,0000}}}}}$
Trest	${\ displaystyle 0,0023 = 0,5 \ krát {\ podmnožina {\ text {Fragmentace}} {0,1667 ^ {3}}}}$
Fragmentace	${\ displaystyle 0.1667 = {\ frac {\ overset {\ text {Chunks}} {1.0000}} {\ underset {\ text {Matches}} {6.0000}}}}$

Odkaz	the	kočka		sat	na	the	rohož
Hypotéza	the	kočka	byl	sat	na	the	rohož
Skóre	${\ displaystyle 0.9654 = {\ underset {\ text {Fmean}} {0,9836}} \ krát (1 - {\ underset {\ text {Penalty}} {0,0185}})}$
Fmean	${\ displaystyle 0,9836 = 10 \ krát {\ underset {\ text {Precision}} {0,8571}} \ times {\ frac {\ overset {\ text {Recall}} {1,0000}} {{\ underset {\ text {Recall }} {1,0000}} + 9 \ krát {\ podmnožina {\ text {Přesnost}} {0,8571}}}}}$
Trest	${\ displaystyle 0,0185 = 0,5 \ krát {\ podmnožina {\ text {Fragmentace}} {0,3333 ^ {3}}}}$
Fragmentace	${\ displaystyle 0.3333 = {\ frac {\ overset {\ text {Chunks}} {2.0000}} {\ underset {\ text {Matches}} {6.0000}}}}$

Viz také

Poznámky

^ Banerjee, S. a Lavie, A. (2005)

Reference

Banerjee, S. a Lavie, A. (2005) „METEOR: Automatická metrika pro hodnocení MT se zlepšenou korelací s lidskými úsudky“ v příspěvku ze semináře o vnitřních a vnějších hodnotících opatřeních pro MT a / nebo shrnutí na 43. výročním zasedání Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, červen 2005
Lavie, A., Sagae, K. a Jayaraman, S. (2004) „The Significance of Recall in Automatic Metrics for MT Evaluation“ in Proceedings of AMTA 2004, Washington DC. Září 2004

externí odkazy

Systém automatického vyhodnocení překladu stroje METEOR (včetně odkazu ke stažení)

Languages

In other projects