Program automatického posuzování podobnosti - Automated Similarity Judgment Program

Program automatického posuzování podobnosti
Výrobce Max Planck Institute for the Science of Human History (Německo)
Jazyky Angličtina
Přístup
Náklady Volný, uvolnit
Dosah
Disciplíny Kvantitativní srovnávací lingvistika
Odkazy
webová stránka http://asjp.clld.org

Program automatizovaného posuzování podobnosti ( ASJP ) je společný projekt využívající výpočetní přístupy ke srovnávací lingvistice pomocí databáze seznamů slov. Databáze má otevřený přístup a skládá se ze 40 položek seznamů základních slovníků pro více než polovinu světových jazyků. Neustále se rozšiřuje. Kromě izolátů a jazyků předváděných genealogických skupin obsahuje databáze pidginy , kreoly , smíšené jazyky a konstruované jazyky . Slova z databáze jsou přepsána do zjednodušeného standardního pravopisu ( ASJPcode ). Databáze byla použita k odhadu dat, kdy se jazykové rodiny rozcházely do dceřiných jazyků metodou příbuznou, ale stále odlišnou od glottochronologie , k určení vlasti ( Urheimat ) proto-jazyka , ke zkoumání zvukové symboliky , k hodnocení různých fylogenetických metody a několik dalších účelů.

ASJP není mezi historickými lingvisty široce přijímán jako adekvátní metoda k navazování nebo hodnocení vztahů mezi jazykovými rodinami.

Je součástí projektu Cross-Linguistic Linked Data, který pořádá Institut Maxe Plancka pro vědu o lidské historii .

Dějiny

Původní cíle

ASJP byl původně vyvinut jako prostředek pro objektivní hodnocení podobnosti slov se stejným významem z různých jazyků, s konečným cílem klasifikace jazyků výpočetně, na základě pozorovaných lexikálních podobností. V prvním příspěvku ASJP byla dvě sémanticky identická slova ze srovnávaných jazyků považována za podobná, pokud vykazovala alespoň dva identické zvukové segmenty. Podobnost mezi těmito dvěma jazyky byla vypočtena jako procento z celkového počtu porovnávaných slov, která byla posouzena jako podobná. Tato metoda byla aplikována na seznamy slov se 100 položkami pro 250 jazyků z jazykových rodin včetně austroasijských , indoevropských , mayských a muskogejských .

Konsorcium ASJP

Konsorcium ASJP, založené kolem roku 2008, zahrnovalo kolem 25 profesionálních lingvistů a dalších zúčastněných stran, kteří pracovali jako dobrovolní přepisovatelé a/nebo rozšiřovali pomoc projektu jiným způsobem. Hlavní hybnou silou založení konsorcia byl Cecil H. Brown. Søren Wichmann je denním kurátorem projektu. Třetím ústředním členem konsorcia je Eric W. Holman, který vytvořil většinu softwaru použitého v projektu.

Kratší seznamy slov

Zatímco použité seznamy slov byly původně založeny na 100 položkovém seznamu Swadesh , bylo statisticky stanoveno, že podskupina 40 ze 100 položek vytvořila stejně dobré, ne-li o něco lepší klasifikační výsledky než celý seznam. Následně tedy shromážděné seznamy slov obsahují pouze 40 položek (nebo méně, pokud pro některé chybí atesty).

Levenshteinova vzdálenost

V dokumentech publikovaných od roku 2008 používá ASJP program posuzování podobnosti založený na Levenshteinově vzdálenosti (LD). Bylo zjištěno, že tento přístup přináší lepší klasifikační výsledky měřené na základě znaleckého posudku než původně použitá metoda. LD je definován jako minimální počet po sobě jdoucích změn nutných k převodu jednoho slova na druhé, kde každá změna je vložením, odstraněním nebo nahrazením symbolu. V rámci Levenshteinova přístupu lze rozdíly v délce slova napravit vydělením LD počtem symbolů delšího ze dvou porovnávaných slov. To produkuje normalizovaný LD (LDN). Rozdělený LDN (LDND) mezi dva jazyky se vypočítá vydělením průměrné LDN pro všechny páry slov zahrnující stejný význam průměrnou LDN pro všechny páry slov zahrnující různé významy. Tato druhá normalizace má napravit podobnost náhod.

Seznam slov

ASJP používá následující seznam 40 slov. Je podobný seznamu Swadesh – Yakhontov , ale má určité rozdíly.

Části těla
  • oko
  • ucho
  • nos
  • jazyk
  • zub
  • ruka
  • koleno
  • krev
  • kost
  • prsa (dámská)
  • játra
  • kůže
Zvířata a rostliny
  • veš
  • Pes
  • ryba
  • roh (zvířecí část)
  • strom
  • list
Lidé
  • osoba
  • jméno
Příroda
  • slunce
  • hvězda
  • voda
  • oheň
  • kámen
  • cesta
  • hora
  • noc (temný čas)
Slovesa a přídavná jména
  • pít (sloveso)
  • zemřít
  • vidět
  • slyšet
  • Přijít
  • Nový
  • úplný
Číslovky a zájmena
  • jeden
  • dva
  • vy
  • my

Kód ASJP

Verze ASJP z roku 2016 používá ke kódování fonémů následující symboly : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G! tj. E 3 auo

Představují 7 samohlásek a 34 souhlásek, které se nacházejí na standardní klávesnici QWERTY.

Zvuky reprezentované kódem ASJP
Kód ASJP Popis IPA
vysoká přední samohláska, zaoblená a nezaokrouhlená já, ɪ, y, ʏ
E střední přední samohláska, zaoblená a nezaokrouhlená e, ř
E nízká přední samohláska, zaoblená a nezaokrouhlená a, æ, ɛ, ɶ, œ
3 střední a střední střední samohláska, zaoblená a nezaokrouhlená ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ
A nízká centrální samohláska, neobklopená ɐ
u vysoká zadní samohláska, zaoblená a nezaokrouhlená ɯ, u
Ó samohláska střední a dolní části zad, zaoblená a nezaokrouhlená ɤ, ʌ, ɑ, o, ɔ, ɒ
p neznělé oboustranné zastavení a frikativní p, ɸ
b vyjádřený oboustranný stop a fricative b, β
m oboustranně nosní m
F neznělý labiodental fricative F
proti vyjádřený labiodental fricative proti
8 neznělé a znělé zubní fricativy θ, ð
4 zubní nosní
t neznělá alveolární zastávka t
d vyjádřená alveolární zastávka d
s neznělý alveolární frikativ s
z vyjádřený alveolární fricative z
C neznělé a znělé alveolární afrikáty ts, dz
n neznělé a znělé alveolární nosní n
S neznělý postalveolární fricative ʃ
Z vyjádřený postalveolární fricative ʒ
C neznělá palato-alveolární afrikáta
j vyjádřil palato-alveolární afrikát
T neznělá a znělá palatální zastávka c, ɟ
5 palatal nosní ɲ
k neznělá velarská zastávka k
G zněla velarská zastávka ɡ
X neznělý a znělý velar fricative x, ɣ
N. velární nosní ŋ
q neznělá uvulární zastávka q
G zněla uvulární zastávka ɢ
X neznělé a znělé uvular fricative, neznělé a znělé faryngální fricative χ, ʁ, ħ, ʕ
7 hlasitá zastávka ʔ
h hlasitý a hlasitý hlasitý fricative h, ɦ
l vyjádřený alveolární laterální přibližný l
L všechny ostatní postranice ʟ, ɭ, ʎ
w vyjádřený oboustranně-velarský aproximátor w
y palatální přibližovač j
r vyjádřený apico-alveolární trylek a všechny druhy „r-zvuků“ r, ʀ atd.
! všechny druhy „zvuků klikání“ ǃ, ǀ, ǁ, ǂ

Viz také

Reference

Prameny

externí odkazy