Čtení rtů - Lip reading

Čtení rtů , také známé jako čtení řeči , je technika porozumění řeči vizuální interpretací pohybů rtů, obličeje a jazyka, když není k dispozici normální zvuk. Opírá se také o informace poskytnuté kontextem, znalostí jazyka a případným zbytkovým slyšením. Přestože čtení rtů nejvíce využívají neslyšící a nedoslýchaví lidé, většina lidí s normálním sluchem zpracovává určité řečové informace z pohledu pohybujících se úst.

Proces

Ačkoli je vnímání řeči považováno za sluchovou dovednost, je ve své podstatě multimodální, protože vytváření řeči vyžaduje, aby mluvčí prováděl pohyby rtů, zubů a jazyka, které jsou často viditelné při komunikaci tváří v tvář. Informace z rtů a obličeje podporují sluchové porozumění a většina plynulých posluchačů jazyka je citlivá na viděné řečové akce (viz McGurkův efekt ). Rozsah, v jakém lidé využívají viděné řečové akce, se liší podle viditelnosti řečové akce a znalostí a dovedností vnímatele.

Fonémy a vizémy

Foném je nejmenší zjistitelná jednotka zvuku v jazyce, který slouží rozlišovat slova od sebe navzájem. / pit/ a/ pik/ se liší jedním fonémem a odkazují na různé koncepty. Mluvená angličtina má asi 44 fonémů. Pro čtení rtů je počet vizuálně odlišných jednotek - vizém - mnohem menší, takže několik fonémů se mapuje na několik vizu. Důvodem je, že v ústech a krku vzniká mnoho fonémů a nelze je vidět. Patří sem hlasité souhlásky a většina gest jazyka. Znělé a neznělé páry vypadají shodně, například [p] a [b], [k] a [g], [t] a [d], [f] a [v] a [s] a [z]; podobně pro nasalisaci (např. [m] vs. [b]). Homofeny jsou slova, která vypadají podobně při čtení z rtů, ale která obsahují různé fonémy. Protože v angličtině existuje asi třikrát tolik fonémů než visémů, často se tvrdí, že pouze 30% řeči lze číst rty. Homofeny jsou zásadním zdrojem chybného čtení.

Legenda k této skládačce zní: „Tady je třída tuctu chlapců, kteří byli povoláni k uvedení svých jmen a byli fotografováni okamžitým procesem, právě když každý začínal vyslovovat své vlastní jméno. Dvanáct jmen bylo Oom, Alden. „Eastman, Alfred, Arthur, Luke, Fletcher, Matthew, Theodore, Richard, Shirmer a Hisswald. Nyní by se nezdálo možné dát každému z dvanácti chlapců správné jméno, ale pokud procvičíte seznam znovu Pro každého z vás bude obtížný úkol najít správné jméno pro každého z chlapců. "

Společná artikulace

Visémy lze zachytit jako statické obrázky, ale řeč se vyvíjí v čase. Plynulá artikulace zvuků řeči v sekvenci může znamenat, že vzory v ústech mohou být „tvarovány“ sousedním fonémem: „ten“ zvuk v „zubu“ a v „zubech“ se zdá být velmi odlišný kvůli vokálnímu kontextu. Tato funkce dynamického čtení řeči ovlivňuje čtení rtů „mimo vizeme“.

Jak to může „fungovat“ s tak malým počtem vizuálů?

Statistická distribuce fonémů v lexikonu jazyka je nerovnoměrná. I když existují shluky slov, která jsou si navzájem foneticky podobná („lexikální sousedé“, jako např. Plivat/popíjet/sedět/držet ... atd.), Jiná jsou na rozdíl od všech ostatních slov: jsou „jedinečná“ z hlediska distribuce jejich fonémů (příkladem může být „deštník“). Kvalifikovaní uživatelé jazyka tyto znalosti přinášejí při interpretaci řeči, takže je obecně těžší identifikovat slyšené slovo s mnoha lexikálními sousedy než s několika sousedy. Když tento pohled aplikujeme na viděnou řeč, některá slova v jazyce lze jednoznačně přečíst na rty, i když obsahují několik vizí - jednoduše proto, že by žádná jiná slova nemohla „sedět“.

Variace ve čitelnosti a dovednosti

Viditelnost mluvící tváře ovlivňuje mnoho faktorů, včetně osvětlení, pohybu hlavy/kamery, snímkové frekvence pohyblivého obrazu a vzdálenosti od diváka (viz např.). Pohyb hlavy, který doprovází normální řeč, může také zlepšit čtení rtů, nezávisle na ústních akcích. Když však čtení rtů spojuje řeč , znalost diváka v mluveném jazyce, obeznámenost s mluvčím a stylem řeči a kontext materiálu pro čtení rtů jsou stejně důležité jako viditelnost mluvčího. Zatímco většina slyšících lidí je citlivá na viděnou řeč, existuje velká variabilita v individuálních dovednostech čtení řeči. Dobří lireadyři jsou často přesnější než špatní lireadyři při identifikaci fonémů z vizuální řeči.

Někteří vědci zpochybnili jednoduché visemické měřítko „roztíratelnosti“. Opatření „třída ekvivalence fonémů“ zohledňuje statistickou strukturu lexikonu a může také vyhovět individuálním rozdílům ve schopnosti čtení rtů. V souladu s tím je vynikající šíření často spojeno s širšími kognitivními dovednostmi, včetně obecné jazykové znalosti, výkonné funkce a pracovní paměti .

Šíření a studium jazyků u sluchu kojenců a dětí

Prvních pár měsíců

Vidění úst hraje roli v rané citlivosti velmi malého dítěte na řeč a připravuje je, aby se staly mluvčími ve věku 1 až 2 let. Aby mohlo dítě napodobovat, musí se naučit tvarovat rty podle zvuků, které slyší; vidění mluvčího jim v tom může pomoci. Novorozenci napodobují dospělé pohyby úst, jako je vyplazování jazyka nebo otevírání úst, což by mohlo být předzvěstí další imitace a pozdějšího učení jazyka. Kojenci jsou rušeni, když je audiovizuální řeč známého mluvčího desynchronizována a mají tendenci vykazovat odlišně vypadající vzorce pro známé než pro neznámé tváře, když jsou přizpůsobeny (zaznamenaným) hlasům. Kojenci jsou citliví na iluze McGurka měsíce předtím, než se naučili mluvit. Tyto studie a mnohé další poukazují na roli vize při rozvoji citlivosti na (sluchovou) řeč v prvním půl roce života.

Dalších šest měsíců; roli při učení rodného jazyka

Do přibližně šesti měsíců věku je většina slyšících dětí citlivá na širokou škálu řečových gest - včetně těch, která lze vidět na ústech - což může, ale nemusí být později součástí fonologie jejich rodného jazyka. Ale ve druhém šesti měsících života slyšící dítě projevuje zúžení vnímání fonetické struktury svého vlastního jazyka - a může ztratit časnou citlivost na vzorce úst, které nejsou užitečné. Zvuky řeči / v / a / b /, které jsou vizuálně výrazné v angličtině, ale ne v kastilské španělštině, jsou přesně rozlišeny u dětí vystavených španělštině a angličtině až do věku kolem 6 měsíců. Starší děti vystavené Španělsku však ztrácí schopnost „vidět“ toto rozlišení, zatímco u dětí vystavených angličtině je zachováno. Takové studie naznačují, že více než modální vývoj sluchu a zraku v dětství je v (jazykovém) vývoji dětského mozku pravidlem, nikoli výjimkou.

Raná jazyková produkce: jeden až dva roky

Vzhledem k mnoha studiím naznačujícím roli vize ve vývoji jazyka u předjazyčného dítěte jsou účinky vrozené slepoty na vývoj jazyka překvapivě malé. Osmnáctiměsíční děti se učí nová slova snáze, když je slyší, a neučí se je, když jim jsou ukázány pohyby řeči bez sluchu. Děti nevidomé od narození však mohou zmást / m / a / n / ve své rané produkci anglických slov - zmatek, který se u zrakově slyšících dětí vyskytuje jen zřídka, protože / m / a / n / jsou viditelně výrazné, ale sluchově matoucí. Role zraku u dětí ve věku 1–2 let může být pro tvorbu jejich rodného jazyka méně kritická, protože v tomto věku již získaly dovednosti potřebné k identifikaci a napodobování zvuků řeči. Slyšení cizího jazyka však může přesunout pozornost dítěte k vizuálnímu a sluchovému zapojení formou li šírení a poslechu, aby bylo možné zpracovat, porozumět a produkovat řeč.

V dětství

Studie s prelingválními kojenci a dětmi používají nepřímá, neverbální opatření k indikaci citlivosti na viděnou řeč. Výslovné čtení rtů lze spolehlivě otestovat u dětí předškolního věku tím, že je požádáte, aby „řekli nahlas to, co říkám potichu“. U dětí školního věku lze snadno vyvolat šíření známých uzavřených slov, například číselných. Individuální rozdíly ve dovednosti čtení rtů, testované požadavkem, aby dítě „řeklo slovo, které čtete z rtu“, nebo porovnáním výpovědi čtení rtu s obrázkem, ukazují vztah mezi dovedností čtení rtů a věkem.

U sluchu dospělých: úvahy o délce života

Zatímco tichá řeč čtení rtů představuje výzvu pro většinu slyšících lidí, přidání zraku mluvčího ke slyšené řeči zlepšuje zpracování řeči za mnoha podmínek. Mechanismy a přesné způsoby, jak čtení rtů pomáhá, jsou tématy současného výzkumu. Vidění mluvčího pomáhá na všech úrovních zpracování řeči od diskriminace fonetických rysů po interpretaci pragmatických výpovědí. Pozitivní efekty přidání vidění do slyšené řeči jsou větší v hlučném než tichém prostředí, kde díky snazšímu vnímání řeči může mluvčí vidět uvolnit kognitivní zdroje a umožnit hlubší zpracování obsahu řeči.

Jelikož se sluch ve stáří stává méně spolehlivým, mohou mít lidé tendenci více spoléhat na čtení ze rtů a jsou k tomu povzbuzováni. Větší spoléhání na čtení ze rtů však nemusí vždy napravit účinky ztráty sluchu související s věkem. Kognitivnímu poklesu stárnutí může předcházet a/nebo být spojen s měřitelnou ztrátou sluchu. Lilasting tedy nemusí být vždy schopen plně kompenzovat kombinované ztráty sluchu a kognitivní věkem související.

U konkrétních (slyšících) populací

Řada studií uvádí anomálie šíření lidu v populacích s výraznými vývojovými poruchami. Autismus : Lidé s autismem mohou vykazovat snížené schopnosti šíření a sníženou závislost na vidění při vnímání audiovizuální řeči. To může být spojeno s anomáliemi tváří v tvář u těchto lidí. Williamsův syndrom : Lidé s Williamsovým syndromem vykazují určité nedostatky ve čtení řeči, které mohou být nezávislé na jejich vizuálně-prostorových obtížích. Specifické poškození jazyka : Děti se SLI také vykazují sníženou citlivost na šíření, stejně jako lidé s dyslexií .

Hluchota

Diskuse o roli čtení ze rtů („ orálismus “) ve srovnání s jinými komunikačními metodami (v poslední době totální komunikací ) ve vzdělávání neslyšících zuří stovky let . Rozsah, v jakém je jeden nebo druhý přístup prospěšný, závisí na řadě faktorů, včetně úrovně ztráty sluchu neslyšících, věku ztráty sluchu, zapojení rodičů a rodičovských jazyků. Pak je tu otázka týkající se cílů neslyšících a jejich komunity a pečovatelů. Je cílem vzdělávání obecně zlepšit komunikaci, rozvíjet znakový jazyk jako první jazyk nebo rozvíjet dovednosti v mluveném jazyce slyšící komunity? Vědci se nyní zaměřují na to, které aspekty jazyka a komunikace lze nejlépe poskytnout jakými prostředky a v jakých souvislostech, s ohledem na stav sluchu dítěte a její rodiny a jejich vzdělávací plány. Bimodální dvojjazyčnost (znalost řeči a znakového jazyka) je jedním z dominantních současných přístupů v jazykovém vzdělávání neslyšících dětí.

Neslyšící jsou často lepšími čtenáři rtů než lidé s normálním sluchem. Někteří neslyšící praktikují jako profesionální lireadyři, například při forenzním lirestingu . U neslyšících, kteří mají kochleární implantát , dovednost předimplementace čtení rtů dokáže předpovědět postimplantační (sluchové nebo audiovizuální) zpracování řeči. Mnohým neslyšícím může být přístup k mluvené komunikaci nápomocen, když je mluvená zpráva předávána prostřednictvím vyškoleného profesionálního mluvčího .

V souvislosti s rozšiřováním a rozvojem gramotnosti děti neslyšící obvykle vykazují opožděný rozvoj gramotnosti, což může odrážet potíže se získáváním prvků mluveného jazyka. Zejména spolehlivé mapování fonémů a grafémů může být obtížnější pro neslyšící děti, které musí být zkušenými čtenáři řeči, aby zvládly tento nezbytný krok při získávání gramotnosti. Schopnost čtení rtů je spojena se schopnostmi gramotnosti u neslyšících dospělých a dětí a školení v šíření může pomoci rozvíjet gramotnost.

Cued Speech využívá lilifering s doprovodnými tvary rukou, které disambiguate visemic (souhláskový) tvar rtů. Říká se, že slyšení řeči je pro rodiče slyšení jednodušší než znakový jazyk a studie, především z Belgie, ukazují, že neslyšící dítě vystavené řeči s cued v kojeneckém věku může dosáhnout efektivnějšího pokroku v učení mluveného jazyka než při samostatném šíření. Využití řeči cued při kochleární implantaci při hluchotě bude pravděpodobně pozitivní. Podobný přístup, zahrnující použití handshapů doprovázejících viděnou řeč, je Visual Phonics , který používají někteří pedagogové na podporu učení se psanému a mluvenému jazyku.

Výuka a školení

Cílem výuky a výcviku v šíření je rozvíjet povědomí o povaze šíření a praktikovat způsoby, jak zlepšit schopnost vnímat řeč „očima“. Třídy rozšiřování, často nazývané třídy šíření a zvládání ztráty sluchu , jsou zaměřeny hlavně na dospělé, kteří mají ztrátu sluchu. Nejvyšší podíl dospělých se ztrátou sluchu má ztrátu související s věkem nebo hlukem ; u obou těchto forem ztráty sluchu se nejprve ztratí vysokofrekvenční zvuky. Protože mnoho souhlásek v řeči jsou vysokofrekvenční zvuky, řeč je zkreslená. Naslouchátka pomáhají, ale nemusí je vyléčit. Třídy šíření se ukázaly být přínosem ve britských studiích, které byly zadány charitativní akcí Action on Hearing Loss (2012).

Trenéři uznávají, že šíření lidu je nepřesné umění. Studenti se učí sledovat pohyby rtů, jazyka a čelistí, sledovat stres a rytmus jazyka, používat svůj zbytkový sluch, se sluchadly nebo bez nich, sledovat výraz a řeč těla a využívat svoji schopnost uvažovat a dedukovat . Naučí se abecedu lirasterů , skupiny zvuků, které vypadají na rtech podobně (vizémy) jako p, b, m nebo f, v. Cílem je získat podstatu, abyste měli jistotu zapojit se do konverzace a vyhnout se škodlivé sociální izolaci, která často doprovází ztrátu sluchu. Třídy rozšiřování se doporučují každému, kdo se snaží slyšet v hluku, a pomáhají přizpůsobit se ztrátě sluchu. ATLA (Association for Teaching Lipreading to Adults) je britská profesní asociace pro kvalifikované lektory šíření.

Testy

Většina testů liready byla navržena k měření individuálních rozdílů při provádění konkrétních úkolů zpracování řeči a ke zjištění změn ve výkonu po tréninku. Testy šíření byly použity s relativně malými skupinami v experimentálních prostředích nebo jako klinické indikátory u jednotlivých pacientů a klientů. To znamená, že dosavadní testy šíření mají omezenou platnost jako ukazatele schopnosti šíření v obecné populaci.

Šíření a mluvení rty strojově

Automatizované čtení rtů je tématem zájmu počítačového inženýrství i sci-fi filmů . Průkopníkem jeho vývoje byl mimo jiné výpočetní inženýr Steve Omohundro . V obličejové animaci je cílem generovat realistické obličejové akce, zejména pohyby úst, které simulují lidské řeči. Počítačové algoritmy pro deformaci nebo manipulaci s obrazy tváří mohou být řízeny slyšeným nebo psaným jazykem. Systémy mohou být založeny na podrobných modelech odvozených z pohybů obličeje ( zachycení pohybu ); na anatomickém modelování akcí čelisti, úst a jazyka; nebo na mapování známých visemefonních vlastností. Animace obličeje byla použita při tréninku čtení řeči (což ukazuje, jak různé zvuky „vypadají“). Tyto systémy jsou podmnožinou modelování syntézy řeči, které si klade za cíl poskytovat spolehlivé výstupy typu „text na (viděný) řeč“. Doplňkovým cílem - opakem pohybu tváří v řeč - je vyvinout počítačové algoritmy, které mohou poskytovat realistické interpretace řeči (tj. Psaný přepis nebo zvukový záznam) z přirozených obrazových dat tváře v akci: toto je rozpoznávání řeči obličeje. I tyto modely lze získat z různých dat. Automatické vizuální rozpoznávání řeči z videa bylo docela úspěšné při rozlišování různých jazyků (od korpusu dat mluveného jazyka). Demonstrační modely využívající algoritmy strojového učení dosáhly určitého úspěchu při šíření řečových prvků, například konkrétních slov, z videa a při identifikaci těžko rozšiřitelných fonémů z vizuálně podobných viděných akcí v ústech. Strojové čtení řeči nyní úspěšně využívá algoritmy založené na neuronové síti, které používají velké databáze reproduktorů a řečového materiálu (podle úspěšného modelu pro automatické rozpoznávání řeči ).

Využití pro strojové šíření by mohlo zahrnovat automatizované šíření záznamů pouze pro video, automatizované šíření reproduktorů s poškozenými hlasivkami a zpracování řeči ve videu tváří v tvář (tj. Z dat videotelefonu). Automatizované šíření může pomoci při zpracování hlučné nebo neznámé řeči. Automatizované šíření může přispět k biometrické identifikaci osob a nahradit identifikaci na základě hesla.

Mozek

Po objevu, že sluchové oblasti mozku , včetně Heschlova gyru , byly aktivovány viděnou řečí, bylo ukázáno, že neurální obvody pro čtení řeči zahrnovaly supermodální oblasti zpracování, zejména nadřazené temporální sulky (všechny části) a také zadní nižší týlně-časové oblasti včetně oblastí specializovaných na zpracování tváří a biologický pohyb . V některých, ale ne ve všech studiích je aktivace Brocovy oblasti hlášena pro čtení řeči, což naznačuje, že při čtení textu lze aktivovat artikulační mechanismy. Studie časového průběhu audiovizuálního zpracování řeči ukázaly, že pohled na řeč může připravit oblasti zvukového zpracování před akustickým signálem. Lepší schopnost šíření je spojena s větší aktivací v (levém) horním temporálním sulku a přilehlých dolních temporálních (vizuálních) oblastech u slyšících lidí. U neslyšících se zdá, že obvody věnované čtení řeči jsou velmi podobné těm u slyšících lidí, s podobnými asociacemi (levé) nadřazené časové aktivace a schopnosti šíření.

Reference

Bibliografie

  • D.Stork and M.Henneke (Eds) (1996) Speechreading by Human and machines: Models Systems and Applications. Nato ASI series F Computer and Systems sciences Vol 150. Springer, Berlín Německo
  • E.Bailly, P.Perrier a E.Vatikiotis-Bateson (Eds) (2012) Audiovizuální zpracování řeči, Cambridgeský univerzitní tisk, Cambridge UK
  • Hearing By Eye (1987) , B.Dodd a R.Campbell (Eds), Erlbaum Asstes, Hillsdale NJ, USA; Hearing by Eye II , (1997) R.Campbell, B.Dodd and D.Burnham (Eds), Psychology Press, Hove UK
  • DW Massaro (1987, dotisk 2014) Vnímání řeči uchem a okem , Lawrence Erlbaum Associates, Hillsdale NJ

Další čtení

externí odkazy