Wikislovník - Wiktionary

Wikislovník
Wikislovník - DP Derivative.svg
Anglické logo Wikislovníku
Snímek obrazovky
Anglický Wikislovník Hlavní stránka.png
Hlavní stránka anglického Wikislovníku 14. ledna 2019
Typ webu
Online slovník
K dispozici v Vícejazyčný (158 aktivních)
Majitel Nadace Wikimedia
Vytvořil Jimmy Wales a komunita Wikimedia
URL Wikislovník .org
Komerční Ne
Registrace Volitelný
Spuštěno 12. prosince 2002 ; Před 18 lety ( 2002-12-12 )
Aktuální stav aktivní

Wikislovník je vícejazyčný projekt na webu , jehož cílem je vytvořit bezplatný obsahový slovník pojmů (včetně slov , frází , přísloví , lingvistických rekonstrukcí atd.) Ve všech přirozených jazycích a v řadě umělých jazyků . Tyto položky mohou mimo jiné obsahovat definice , obrázky pro ilustrace, výslovnosti , etymologie , skloňování , příklady použití, citace , související výrazy a překlady slov do jiných jazyků. Je společně upravováno prostřednictvím wiki . Jeho název je portmanteau slov wiki a slovník . Je k dispozici ve 182 jazycích a v jednoduché angličtině . Stejně jako její sesterský projekt Wikipedia , Wikislovník provozuje Nadace Wikimedia a je psán ve spolupráci dobrovolníků , přezdívaných „Wiktionariáni“. Jeho wiki software , MediaWiki , umožňuje téměř někdo s přístupem na webové stránky vytvářet a upravovat záznamy.

Protože Wikislovník není omezen úvahami o tiskovém prostoru, většina jazykových edic Wikislovníku poskytuje definice a překlady slov z mnoha jazyků a některá vydání nabízejí další informace, které se obvykle nacházejí v tezauri .

Data Wikislovníku se často používají v různých úlohách zpracování přirozeného jazyka .

Historie a vývoj

Wikislovník byl uveden na trh 12. prosince 2002 na základě návrhu Daniela Alstona a myšlenky Larryho Sangera , spoluzakladatele Wikipedie. 28. března 2004 byly zahájeny první neanglické Wikislovníky ve francouzštině a polštině . Od té doby byly spuštěny Wikislovníky v mnoha dalších jazycích. Wikislovník byl hostován na dočasném názvu domény (wiktionary.wikipedia.org) až do 1. května 2004, kdy přešel na aktuální název domény. Jak července 2021, Wikislovník obsahuje více než 30 milionů článků (a ještě více záznamů) napříč jeho edicemi. Největší z jazykových edic je anglický Wikislovník s více než 6,8 miliony záznamů, za ním následuje francouzský slovník s více než 4,2 miliony a madagaskarský více než 1,7 milionu záznamů. Čtyřicet tři jazykových verzí Wikislovníku obsahuje více než 100 000 záznamů.

Využití robotů ke generování velkého počtu článků je v tomto grafu počtů článků v osmi největších edicích Wikislovníku viditelné jako „spurty růstu“. (Údaje k prosinci 2009)

Mnoho definic v největších jazykových edicích projektu bylo vytvořeno roboty, kteří našli kreativní způsoby generování záznamů nebo (zřídka) automaticky importovali tisíce záznamů z dříve publikovaných slovníků. Sedm z 18 robotů registrovaných na anglickém Wikislovníku v roce 2007 vytvořilo 163 000 záznamů.

Další z těchto robotů, „ThirdPersBot“, byl zodpovědný za přidání řady konjugací třetí osoby, které by do standardních slovníků nedostaly vlastní záznamy; například definoval „smoulders“ jako „singular simple present present form of tlamder“ třetí osoby. Z 1 269 938 definic, které anglický Wikislovník stanoví pro 996 450 anglických slov, je 478 068 „formou“ definic tohoto druhu. To znamená, že i bez těchto záznamů je jeho pokrytí angličtiny výrazně větší než u hlavních jednojazyčných tiskových slovníků. Například třetí nový mezinárodní slovník angličtiny společnosti Merriam-Webster , Unabridged , má 475 000 hesel (s mnoha dalšími vloženými hesly); Oxford English Dictionary má 615,000 hesel, ale obsahuje Middle anglický stejně, pro které je angličtina Wikislovník má dalších 34,234 definice lesk. Existují podrobné statistiky , které ukazují, kolik záznamů různých druhů existuje.

Anglický Wikislovník nespoléhá na roboty do té míry, jako to dělají některé jiné edice. Francouzská a vietnamská Wiktionaries, například dováží velké části Svobodného vietnamského slovníku Project (FVDP), který poskytuje obsah volných dvojjazyčných slovníků do az Vietnamci. Tyto importované položky tvoří prakticky veškerý obsah vietnamské edice. Stejně jako anglické vydání importoval francouzský Wikislovník přibližně 20 000 záznamů z databáze Unihan s čínskými, japonskými a korejskými znaky . Francouzský Wikislovník v roce 2006 rychle rostl, a to hlavně díky robotům, kteří kopírovali mnoho záznamů ze starých, volně licencovaných slovníků, jako je například osmé vydání Dictionnaire de l'Académie française (1935, kolem 35 000 slov) a pomocí robotů přidali slova z jiných edic Wikislovníku s francouzskými překlady. Russian edition vzrostl o téměř 80.000 přihlášek jako „LXbot“ dodal záznamů často používaný (s nadpisy, ale bez definice) slova v angličtině a němčině .

Jak července 2021, en.wiktionary má přes 791.870 lesk definice a více než 1.269.938 celkový definic (včetně různých forem) pro samotné záznamy anglické, s celkovým počtem více než 9.928.056 definic napříč všemi jazyky.

Loga

Wikislovník historicky postrádal jednotné logo napříč mnoha jazykovými edicemi. Některá vydání používají loga, která zobrazují slovníkový záznam o výrazu „Wikislovník“, vycházející z předchozího loga anglického Wikislovníku, které navrhl Brion Vibber, vývojář MediaWiki . Protože se čistě textové logo musí v jednotlivých jazycích značně lišit, probíhala od září do října 2006 na Wikimedia Meta-Wiki čtyřfázová soutěž o přijetí jednotného loga. Některé komunity přijaly vítězný příspěvek od „Smurrayinchester“, 3. × 3 mřížka dřevěných dlaždic, z nichž každá nese znak z jiného systému psaní. Průzkum však nezaznamenal takovou účast komunity Wikislovníku, jak někteří členové komunity doufali, a řada větších wiki si nakonec ponechala svá textová loga.

V dubnu 2009 byl problém vzkříšen s novou soutěží. Tentokrát zobrazení „AAEngelmana“ otevřeného hardbound slovníku vyhrálo přímé hlasování proti logu 2006, ale proces upřesnění a přijetí nového loga se poté zastavil. V následujících letech některé wiki nahradily svá textová loga jedním ze dvou novějších log. V roce 2012 obdrželo 55 wiki, které používaly logo anglického Wikislovníku, lokalizované verze návrhu z roku 2006 od „Smurrayinchester“. V červenci 2016 přijal anglický Wikislovník variantu tohoto loga. Ke dni 4. července 2016 používalo 135 wiki, což představuje 61%záznamů Wikislovníku, logo založené na návrhu z roku 2006 „Smurrayinchester“, 33 wiki (36%) používalo textové logo a tři wiki (3%) používaly logo 2009 design "AAEngelman".

Kritéria pro zajištění přesnosti

Aby byla zajištěna přesnost, anglický Wikislovník má politiku, která vyžaduje, aby termíny být ověřen . Podmínky ve velkých jazycích, jako je angličtina a čínština, musí ověřit:

  1. zjevně rozšířené používání, příp
  2. použití v trvale zaznamenaných médiích, zprostředkování významu, alespoň ve třech nezávislých případech trvajících nejméně jeden rok.

U méně zdokumentovaných jazyků, jako je Creek a zaniklých jazyků, jako je latina , je dostatečné ověření jedno použití v trvale zaznamenaném médiu nebo jedna zmínka v referenční práci.

Vícejazyčný

V říjnu 2021 existují stránky Wikislovníku pro 182 jazyků, z nichž 158 je aktivních a 24 je zavřených. Aktivní weby mají 30 604 247 článků a uzavřené weby obsahují 339 článků. Je zde 6 401 039 registrovaných uživatelů, z toho 4 727 je v současné době aktivních.

Deset nejlepších projektů jazyků wiktionáře podle počtu článků mainspace:

Č Jazyk Wiki Dobrý Celkový Úpravy Správci Uživatelé Aktivní uživatelé Soubory
1 Angličtina en 6,805,664 7,748,050 64 159 832 103 3,865,931 1,804 24
2 francouzština fr 4,252,066 4 572 906 29 847 394 35 313 809 465 6
3 Malgaština mg 1,709,188 1,792,331 29,121,199 2 9 706 9 3
4 ruština ru 1,148,801 2 404 961 12 025 802 14 266 488 258 142
5 čínština zh 1 079 226 1,643,278 6 317 646 7 98 920 65 36
6 Němec de 1 007 724 1,173,340 8 869 745 17 204,475 215 99
7 Srbochorvatština sh 911 567 916 410 1,469,307 4 6515 1 3
8 španělština es 908 462 962 857 5 020 845 8 133 449 89 14
9 švédský sv 810,881 851,493 3,622,458 14 49 527 64 1
10 řecký el 798 915 839 603 5,321,529 7 47 661 68 55

Úplný seznam se součty najdete ve statistikách Wikimedia:

Kritický příjem

Kritický příjem Wikislovníku byl smíšený. V roce 2006 napsala Jill Lepore v článku „Noemova archa“ pro The New Yorker ,

Na Wikislovníku není ukázka rukou . Neexistuje ani redakce. „Buďte svým vlastním lexikografem!“, Může být motto Wikislovníku . Kdo potřebuje odborníky? Proč platit dobré peníze za slovník napsaný lexikografy, když si jeden můžeme sami připravit?

Wikislovník není ani tak republikánský, ani demokratický jako maoistický. A je to jen tak dobré, jako knihy, jimž vypršela autorská práva, z nichž se uráží.

Recenze Keira Graffa na Booklist byla méně kritická:

Existuje místo pro Wikislovník? Nepochybně. Průmysl a nadšení mnoha jeho tvůrců jsou důkazem, že existuje trh. A je úžasné mít další silný zdroj, který lze použít při hledání lichých výrazů, které se objevují v dnešním rychle se měnícím světě a online prostředí. Ale jako u tolika webových zdrojů (včetně tohoto sloupce) je nejlepší, když jej používají sofistikovaní uživatelé ve spojení s více renomovanými zdroji.

Odkazy v jiných publikacích jsou pomíjivé a jsou součástí rozsáhlejších diskusí o Wikipedii, které nepřekračují definici, ačkoli David Brooks v The Nashua Telegraph to popsal jako „divoké a vlněné“. Jednou z překážek nezávislého pokrytí Wikislovníku je pokračující zmatek v tom, že jde pouze o rozšíření Wikipedie.

Míra správnosti skloňování pro podmnožinu polských slov v anglickém Wikislovníku ukázala, že tato gramatická data jsou velmi stabilní. Pouze 131 ze 4748 polských slov opravilo údaje o skloňování.

Jak 2016, Wikislovník zaznamenal rostoucí využití v akademickém světě.

Wikislovní data ve zpracování přirozeného jazyka

Wikislovník má polostrukturovaná data . Wikislovníková lexikografická data lze převést do strojově čitelného formátu , aby je bylo možné použít v úlohách zpracování přirozeného jazyka .

Dolování dat Wikislovníku je složitý úkol. Existují následující potíže:

    • (1) neustálé a časté změny dat a schémat
    • (2) heterogenita schémat edice Wikislovníku a
    • (3) povaha wiki zaměřená na člověka .

Pro různé edice Wikislovníku existuje několik analyzátorů :

  • Wikislovník DBpedia: podprojekt DBpedia , data jsou extrahována z anglických, francouzských, německých a ruských wiktionářů; data zahrnují jazyk, části řeči, definice, sémantické vztahy a překlady. K extrahování informací se používá deklarativní popis schématu stránky, regulární výrazy a převodník konečného stavu .
  • JWKTL (Java Wikislovník Library): poskytuje přístup k anglickým Wikislovníku a německým skládkám Wikislovníku prostřednictvím rozhraní Java Wiktionary API . Data zahrnují jazyk, části řeči, definice, citáty, sémantické vztahy, etymologie a překlady. JWKTL je distribuován pod licencí Apache .
  • wikokit: analyzátor anglického Wikislovníku a ruského Wikislovníku. Analyzovaná data zahrnují jazyk, části řeči, definice, citace, sémantické vztahy a překlady. Toto je open-source software s více licencemi .
  • Etymologické záznamy byly analyzovány v projektu Etymological WordNet .

Mezi příklady úloh zpracování přirozeného jazyka, které byly vyřešeny pomocí dat Wikislovníku, patří:

  • Strojový překlad mezi pravidly mezi holandským jazykem a afrikánštinou ; s platformou strojového překladu Apertium byla použita data z anglického Wikislovníku, holandského Wikislovníku a Wikipedie .
  • Konstrukce strojově čitelného slovníku syntaktickým analyzátorem NULEX, který integruje otevřené lingvistické zdroje: anglický Wikislovník, WordNet a VerbNet . Analyzátor NULEX odřeniny English Wikislovník k napjaté informací (slovesa), v množném čísle a slovních druhů (substantiv).
  • Rozpoznávání a syntéza řeči , kde byl Wikislovník použit k automatickému vytváření slovníků výslovnosti. Dvojice slovní výslovnost byly získány ze 6 edic wiktionářského jazyka (čeština, angličtina, francouzština, španělština, polština a němčina). Výslovnosti jsou ve smyslu mezinárodní fonetické abecedy . Systém ASR založený na anglickém Wikislovníku má nejvyšší chybovost slov, kde je třeba změnit každý třetí foném.
  • Ontologické inženýrství a stavba sémantických sítí .
  • Přizpůsobení ontologie .
  • Zjednodušení textu . Společnost Medero & Ostendorf posoudila obtížnost slovní zásoby ( detekce úrovně čtení ) pomocí dat Wikislovníku. Byly zkoumány vlastnosti slov extrahovaných ze záznamů Wikislovníku (délka definice a počet POS , smysl a překlad). Medero & Ostendorf to očekávali
    • (1) velmi běžná slova budou s větší pravděpodobností obsahovat více částí řeči,
    • (2) běžná slova s ​​větší pravděpodobností více smyslů,
    • (3) běžná slova budou s větší pravděpodobností přeložena do více jazyků. Tyto funkce extrahované ze záznamů Wikislovníku byly užitečné při rozlišování typů slov, která se objevují v článcích jednoduché anglické Wikipedie, od slov, která se objevují pouze ve srovnatelných článcích ve standardní angličtině.
  • Značení části řeči . Li a kol. (2012) postavili vícejazyčné POS-taggery pro osm jazyků chudých na zdroje na základě modelů English Wikislovník a Skrytý Markov .
  • Analýza sentimentu .

„Wikidata: Lexikografická data“ byla spuštěna v roce 2018, aby poskytovala podporu strukturovaných dat Wikitonářům. Ukládá slovní data všech jazyků do strojově čitelného datového modelu pod vyhrazeným jmenným prostorem „Lexeme“ ve Wikidata. V říjnu 2021 projekt shromáždil více než 600 000 hesel z různých jazyků.

Viz také

Poznámky

Reference

Citace

Prameny

  • Krizhanovsky, Andrew (2010). „Transformace vstupní struktury Wikislovníku do tabulek a relací ve schématu relační databáze“. arXiv : 1011.1368 [ cs ].
  • Krizhanovsky, Andrew (2010). „Srovnání slovníků tezauri transformovaných do strojově čitelného formátu“. arXiv : 1006,5040 [ cs ].
  • Li, Shen; Graça, Joao V .; Taskar, Ben (2012). „Značení slovních druhů pod dohledem Wiki“ (PDF) . Proceedings of the 2012 Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning . Ostrov Jeju, Korea: Sdružení pro výpočetní lingvistiku. s. 1389–1398.
  • Lin, Feiyu; Krizhanovsky, Andrew (2011). „Vícejazyčné přiřazování ontologie na základě dat Wikislovníku přístupných přes koncový bod SPARQL“. Proč. 13. ruské konference o digitálních knihovnách RCDL'2011 . Voroněž, Rusko. s. 19–26. arXiv : 1109.0732 . Bibcode : 2011arXiv1109.0732L .
  • „Wikislovník“ . Top 101 webových stránek. PC časopis . Ziff Davis. 6. dubna 2005. Archivováno z originálu 21. prosince 2005 . Citováno 16. prosince 2005 .

externí odkazy