ISO 639-3 – Wikipedia

before-content-x4

Internationaler Standard für Drei-Buchstaben-Codes zur Identifizierung von Sprachen

ISO 639-3: 2007, Codes zur Darstellung von Sprachnamen – Teil 3: Alpha-3-Code zur umfassenden Abdeckung von Sprachenist ein internationaler Standard für Sprachcodes der ISO 639-Reihe. Es definiert dreistellige Codes zur Identifizierung von Sprachen. Die Norm wurde am 1. Februar 2007 von der Internationalen Organisation für Normung (ISO) veröffentlicht.[1]

ISO 639-3 erweitert die ISO 639-2 Alpha-3-Codes mit dem Ziel, alle bekannten natürlichen Sprachen abzudecken. Die erweiterte Sprachabdeckung basierte hauptsächlich auf den in der Sprache verwendeten Sprachcodes Ethnolog (Bände 10-14), veröffentlicht von SIL International, der jetzt die Registrierungsstelle für ISO 639-3 ist.[2] Es bietet eine möglichst vollständige Aufzählung der Sprachen, einschließlich lebend und ausgestorben, alt und konstruiert, Dur und Moll, geschrieben und ungeschrieben.[1] Rekonstruierte Sprachen wie Proto-Indo-European sind jedoch nicht enthalten.[3]

ISO 639-3 ist für die Verwendung als Metadatencodes in einer Vielzahl von Anwendungen vorgesehen. Es ist weit verbreitet in Computer- und Informationssystemen wie dem Internet, in denen viele Sprachen unterstützt werden müssen. In Archiven und anderen Informationsspeichern wird es in Katalogisierungssystemen verwendet und gibt an, in welcher Sprache sich eine Ressource befindet. Die Codes werden auch häufig in der Sprachliteratur und anderswo verwendet, um die Tatsache zu kompensieren, dass Sprachnamen dunkel oder mehrdeutig sein können.

Finde eine Sprache
Geben Sie einen ISO 639-3-Code ein, um den entsprechenden Sprachartikel zu finden.

Sprachcodes[edit]

ISO 639-3 umfasst alle Sprachen in ISO 639-1 und alle einzelnen Sprachen in ISO 639-2. ISO 639-1 und ISO 639-2 konzentrierten sich auf wichtige Sprachen, die am häufigsten in der gesamten Weltliteratur vertreten sind. Da ISO 639-2 auch Sprachsammlungen enthält und Teil 3 nicht, ist ISO 639-3 keine Obermenge von ISO 639-2. Wenn in ISO 639-2 B- und T-Codes vorhanden sind, verwendet ISO 639-3 die T-Codes.

Beispiel ISO-Sprachcodes
Sprache 639-1 639-2 (B / T) Typ 639-3 639-3 Code
Englisch en dt Individuell dt
Deutsche de ger / deu Individuell deu
Arabisch ar ara Makro ara
Individuell arb + andere
Chinesisch zh Chi / Zho[4][5] Makro zho
Mandarin Individuell cmn
Kantonesisch Individuell yue
Minnan Individuell nan

Stand 30. Januar 2020enthält der Standard 7.868 Einträge.[6] Das Inventar der Sprachen basiert auf einer Reihe von Quellen, darunter: die in 639-2 enthaltenen Einzelsprachen, moderne Sprachen aus dem Ethnologue, historische Sorten, alte Sprachen und künstliche Sprachen aus der Linguistenliste,[7] sowie Sprachen, die innerhalb der jährlichen öffentlichen Kommentierungsfrist empfohlen werden.

Maschinenlesbare Datendateien werden von der Registrierungsstelle bereitgestellt.[6] Mit diesen Datendateien können Zuordnungen von ISO 639-1 oder ISO 639-2 zu ISO 639-3 vorgenommen werden.

ISO 639-3 soll Unterscheidungen anhand von Kriterien annehmen, die nicht ganz subjektiv sind.[8] Es ist nicht beabsichtigt, Bezeichner für Dialekte oder andere Variationen der Untersprache zu dokumentieren oder bereitzustellen.[9] Dennoch können Urteile über die Unterscheidung zwischen Sprachen subjektiv sein, insbesondere bei Sprachvarianten ohne etablierte literarische Traditionen, Verwendung in Bildung oder Medien oder andere Faktoren, die zur Konventionalisierung der Sprache beitragen. Daher sollte der Standard nicht als maßgebliche Aussage darüber angesehen werden, welche unterschiedlichen Sprachen auf der Welt existieren (über die in einigen Fällen erhebliche Meinungsverschiedenheiten bestehen können), sondern lediglich als eine nützliche Methode zur genauen Identifizierung verschiedener Sprachvarianten.

Coderaum[edit]

Da der Code aus drei Buchstaben besteht, beträgt eine Obergrenze für die Anzahl der Sprachen, die dargestellt werden können, 26 × 26 × 26 = 17.576. Da ISO 639-2 spezielle Codes (4), einen reservierten Bereich (520) und Nur-B-Codes (22) definiert, können in Teil 3 keine 546-Codes verwendet werden. Daher beträgt eine strengere Obergrenze 17.576 – 546 = 17.030.

Die Obergrenze wird noch strenger, wenn man die in 639-2 definierten und die in ISO 639-5 noch zu definierenden Sprachsammlungen subtrahiert.

Makrosprachen[edit]

In ISO 639-2 gibt es 58 Sprachen, die im Sinne der Norm als “Makrolanguages” in ISO 639-3 gelten.[10]

Einige dieser Makrosprachen hatten keine individuelle Sprache im Sinne von ISO 639-3 im Codesatz von ISO 639-2, z. B. ‘ara’ (generisches Arabisch). Andere wie ‘nor’ (norwegisch) hatten ihre beiden Einzelteile (‘nno’ (Nynorsk), ‘nob’ (Bokmål)) bereits in ISO 639-2.

Das bedeutet, dass einige Sprachen (z. B. ‘arb’, Standardarabisch), die von ISO 639-2 als Dialekte einer Sprache (‘ara’) betrachtet wurden, in bestimmten Kontexten, die selbst als einzelne Sprachen betrachtet werden, jetzt in ISO 639-3 enthalten sind.

Dies ist ein Versuch, mit Sorten umzugehen, die sich sprachlich voneinander unterscheiden können, aber von ihren Sprechern als zwei Formen derselben Sprache behandelt werden, z. B. bei Diglossie.

Zum Beispiel:

Sehen[11] für die vollständige Liste.

Kollektive Sprachen[edit]

“Ein kollektives Sprachcodeelement ist eine Kennung, die eine Gruppe einzelner Sprachen darstellt, die in keinem Verwendungskontext als eine Sprache angesehen werden.”[12] Diese Codes repräsentieren nicht genau eine bestimmte Sprache oder Makrosprache.

Während ISO 639-2 aus drei Buchstaben bestehende Bezeichner für Sammelsprachen enthält, sind diese Codes von ISO 639-3 ausgeschlossen. Daher ist ISO 639-3 keine Obermenge von ISO 639-2.

ISO 639-5 definiert 3-Buchstaben-Sammelcodes für Sprachfamilien und -gruppen, einschließlich der Sammelsprachencodes aus ISO 639-2.

Spezielle Codes[edit]

In ISO 639-2 und ISO 639-3 sind vier Codes für Fälle vorgesehen, in denen keiner der spezifischen Codes geeignet ist. Diese sind hauptsächlich für Anwendungen wie Datenbanken gedacht, für die ein ISO-Code erforderlich ist, unabhängig davon, ob einer vorhanden ist.

  • mis (nicht codierte Sprachen, ursprünglich eine Abkürzung für “Verschiedenes”) ist für Sprachen gedacht, die (noch) nicht in der ISO-Norm enthalten sind.
  • mul (mehrere Sprachen) ist für Fälle vorgesehen, in denen die Daten mehr als eine Sprache enthalten und (zum Beispiel) die Datenbank einen einzelnen ISO-Code erfordert.
  • und (unbestimmt) ist für Fälle gedacht, in denen die Sprache in den Daten nicht identifiziert wurde, z. B. wenn sie falsch beschriftet wurde oder nie beschriftet wurde. Es ist nicht für Fälle wie Trojaner gedacht, in denen einer nicht geprüften Sprache ein Name zugewiesen wurde.
  • zxx (kein sprachlicher Inhalt / nicht anwendbar) ist für Daten gedacht, die überhaupt keine Sprache sind, wie z. B. Tierrufe.[13]

Darüber hinaus 520 Codes im Bereich qaa– –qtz sind ‘für den lokalen Gebrauch reserviert’. Beispielsweise werden sie in der Linguistenliste für ausgestorbene Sprachen verwendet. Linguist List hat einem von ihnen einen generischen Wert zugewiesen: qnp, unbenannte Protosprache. Dies wird für vorgeschlagene Zwischenknoten in einem Stammbaum verwendet, die keinen Namen haben.

Wartungsprozesse[edit]

Die Codetabelle für ISO 639-3 kann geändert werden. Um die Stabilität der bestehenden Nutzung zu schützen, sind die zulässigen Änderungen beschränkt auf:[14]

  • Änderungen an den Referenzinformationen für einen Eintrag (einschließlich Namen oder Kategorisierungen für Typ und Umfang),
  • Hinzufügung neuer Einträge,
  • Verfall von Einträgen, die doppelt oder falsch sind,
  • Zusammenführen eines oder mehrerer Einträge mit einem anderen Eintrag und
  • Aufteilen eines vorhandenen Spracheintrags in mehrere neue Spracheinträge.

Der einer Sprache zugewiesene Code wird nur geändert, wenn sich auch die Bezeichnung ändert.[15]

Änderungen werden im jährlichen Zyklus vorgenommen. Jeder Anfrage wird eine Frist von mindestens drei Monaten zur öffentlichen Prüfung eingeräumt.

Die ISO 639-3-Website enthält Seiten, auf denen “Bezeichnungsbereiche” beschrieben werden.[16] ((träge Arten) und Arten von Sprachen,[17] die erklären, welche Konzepte für die Codierung in Frage kommen und welche Kriterien erfüllt werden müssen. Beispielsweise können konstruierte Sprachen codiert werden, jedoch nur, wenn sie für die menschliche Kommunikation ausgelegt sind und über eine umfangreiche Literatur verfügen, wodurch Anfragen nach eigenwilligen Erfindungen vermieden werden.

Die Registrierungsstelle dokumentiert auf ihrer Website Anweisungen im Text der Norm ISO 639-3, wie die Codetabellen zu pflegen sind.[18] Es dokumentiert auch die Prozesse, die zum Empfangen und Verarbeiten von Änderungsanforderungen verwendet werden.[19]

Es wird ein Änderungsanforderungsformular bereitgestellt, und es gibt ein zweites Formular zum Sammeln von Informationen zu vorgeschlagenen Ergänzungen. Jede Partei kann Änderungswünsche einreichen. Bei der Einreichung werden Anträge zunächst von der Registrierungsstelle auf Vollständigkeit geprüft.

Wenn eine vollständig dokumentierte Anforderung eingeht, wird sie einem veröffentlichten Änderungsanforderungsindex hinzugefügt. Außerdem werden Ankündigungen an die allgemeine LINGUIST-Diskussionsliste unter Linguist List und an andere Listen gesendet, die die Registrierungsbehörde als relevant erachtet, und zur öffentlichen Überprüfung und Eingabe der angeforderten Änderung einladen. Jeder Listeninhaber oder jede Einzelperson kann Benachrichtigungen über Änderungsanforderungen für bestimmte Regionen oder Sprachfamilien anfordern. Eingehende Kommentare werden zur Überprüfung durch andere Parteien veröffentlicht. Aufgrund des Konsenses in den eingegangenen Kommentaren kann ein Änderungsantrag zurückgezogen oder in den “Kandidatenstatus” befördert werden.

Drei Monate vor dem Ende eines jährlichen Überprüfungszyklus (normalerweise im September) wird eine Ankündigung in die LINGUIST-Diskussionsliste und andere Listen zu Änderungsanforderungen für Kandidatenstatus aufgenommen. Alle Anfragen bleiben bis zum Ende des jährlichen Überprüfungszyklus zur Überprüfung und Kommentierung offen.

Entscheidungen werden am Ende des jährlichen Überprüfungszyklus (normalerweise im Januar) bekannt gegeben. Zu diesem Zeitpunkt können Anträge ganz oder teilweise angenommen, geändert und in den nächsten Überprüfungszyklus übernommen oder abgelehnt werden. Ablehnungen enthalten häufig Vorschläge zur Änderung von Vorschlägen für eine erneute Einreichung. Ein öffentliches Archiv jeder Änderungsanforderung wird zusammen mit den getroffenen Entscheidungen und den Gründen für die Entscheidungen geführt.[20]

Kritik[edit]

Die Linguisten Morey, Post und Friedman äußern verschiedene Kritikpunkte an ISO 639 und insbesondere an ISO 639-3:[15]

  • Die aus drei Buchstaben bestehenden Codes selbst sind problematisch, da sie zwar offiziell willkürliche technische Bezeichnungen sind, jedoch häufig von mnemonischen Abkürzungen für Sprachnamen abgeleitet werden, von denen einige abwertend sind. Zum Beispiel wurde Yemsa der Code zugewiesen jnj, aus abwertendem “Janejero”. Diese Codes können daher von Muttersprachlern als anstößig angesehen werden, aber Codes im Standard können nach ihrer Zuweisung nicht mehr geändert werden.
  • Die Verwaltung des Standards ist problematisch, da SIL eine Missionsorganisation mit unzureichender Transparenz und Rechenschaftspflicht ist. Entscheidungen darüber, was es verdient, als Sprache verschlüsselt zu werden, werden intern getroffen. Während externe Beiträge begrüßt werden können oder nicht, sind die Entscheidungen selbst undurchsichtig, und viele Linguisten haben es aufgegeben, den Standard zu verbessern.
  • Die permanente Identifizierung einer Sprache ist mit einem Sprachwechsel nicht vereinbar.
  • Sprachen und Dialekte können oft nicht streng unterschieden werden, und Dialect Continua kann auf viele Arten unterteilt werden, während die Standardprivilegien eine Wahl sind. Solche Unterscheidungen beruhen häufig auf sozialen und politischen Faktoren.
  • ISO 639-3 kann von Behörden missverstanden und missbraucht werden, die Entscheidungen über die Identität und Sprache von Personen treffen, wodurch das Recht der Sprecher, sich mit ihrer Sprachvielfalt zu identifizieren oder zu identifizieren, abgeschafft wird. Obwohl SIL für solche Probleme sensibel ist, liegt dieses Problem in der Natur eines etablierten Standards, der auf eine Weise verwendet (oder missbraucht) werden kann, die ISO und SIL nicht beabsichtigen.

Martin Haspelmath stimmt vier dieser Punkte zu, nicht jedoch den Punkt des Sprachwechsels.[21] Er ist anderer Meinung, weil jeder Bericht über eine Sprache die Identifizierung erfordert und wir leicht verschiedene Stadien einer Sprache identifizieren können. Er schlägt vor, dass Linguisten es vorziehen könnten, eine Kodifizierung zu verwenden, die am träge Niveau, da “es für Linguisten selten wichtig ist, ob es sich um eine Sprache, einen Dialekt oder eine eng verbundene Sprachfamilie handelt.” Er fragt auch, ob ein ISO-Standard zur Sprachidentifizierung angemessen ist, da ISO eine industrielle Organisation ist, während er Sprachdokumentation und Nomenklatur als wissenschaftliches Unterfangen betrachtet. Er führt die ursprüngliche Notwendigkeit standardisierter Sprachkennungen als “wirtschaftliche Bedeutung der Übersetzung und Softwarelokalisierung” an, für die die Normen ISO 639-1 und 639-2 festgelegt wurden. Er bezweifelt jedoch, dass die Industrie eine umfassende Abdeckung durch ISO 639-3 benötigt, einschließlich “wenig bekannter Sprachen kleiner Gemeinschaften, die nie oder kaum schriftlich verwendet werden und häufig vom Aussterben bedroht sind”.

  • Ethnolog
  • Linguistenliste
  • OLAC: die Open Languages ​​Archive Community[22]
  • Microsoft Windows 8:[23] Unterstützt alle Codes in ISO 639-3 zum Zeitpunkt der Veröffentlichung.
  • Wikimedia-Grundlage: Neue sprachbasierte Projekte (z. B. Wikipedias in neuen Sprachen) müssen eine Kennung von ISO 639-1, -2 oder -3 haben.[24]
  • Andere Standards, die auf ISO 639-3 basieren:

Verweise[edit]

  1. ^ ein b “ISO 639-3 Status und Zusammenfassung”. iso.org. 2010-07-20. Abgerufen 2012-06-14.
  2. ^ “Wartungsagenturen und Registrierungsbehörden”. ISO.
  3. ^ “Arten einzelner Sprachen – alte Sprachen”. sil.org. Abgerufen 2018-06-11.
  4. ^ Ethnologischer Bericht für ISO 639-Code: zho Archiviert 2014-09-12 bei der Wayback Machine auf ethnologue.com
  5. ^ ISO639-3 auf SIL.org
  6. ^ ein b “ISO 639-3 Code Set”. Sil.org. 2007-10-18. Abgerufen 2012-06-14.
  7. ^ “ISO 639-3”. sil.org.
  8. ^ “Bezeichnungsumfang: Einzelsprachen”. sil.org.
  9. ^ “Geltungsbereich: Dialekte”. sil.org.
  10. ^ “Geltungsbereich: Makrolanguages”. sil.org. Abgerufen 2012-06-14.
  11. ^ “Makrolanguage Mappings”. sil.org. Abgerufen 2012-06-14.
  12. ^ “Bezeichnungsumfang: Kollektive Sprachen”. sil.org. Abgerufen 2012-06-14.
  13. ^ Feldaufnahmen von Vervet Monkey Calls. Eintrag im Katalog der Linguistic Data Consortium. Abgerufen am 04.09.2012.
  14. ^ “Senden von ISO 639-3-Änderungsanforderungen: Arten von Änderungen”. sil.org.
  15. ^ ein b Morey, Stephen; Post, Mark W.; Friedman, Victor A. (2013). Die Sprachcodes von ISO 639: Eine vorzeitige, letztendlich nicht erreichbare und möglicherweise schädliche Standardisierung. PARADISEC RRR Konferenz. Archiviert von das Original am 23.02.2016. Abgerufen 03.11.2015.
  16. ^ “Bezeichnungsumfang für Sprachkennungen”. sil.org.
  17. ^ “Arten von Sprachen”. sil.org.
  18. ^ “ISO 639-3 Änderungsmanagement”. sil.org.
  19. ^ “Senden von ISO 639-3-Änderungsanforderungen”. sil.org.
  20. ^ “ISO 639-3 Change Request Index”. sil.org.
  21. ^ Martin Haspelmath, “Kann die Sprachidentität standardisiert werden? Zur Kritik von Morey et al. An ISO 639-3”, Diversity Linguistics Kommentar, 04.12.2013
  22. ^ “OLAC Language Extension”. language-archives.org. Abgerufen 3. August 2015.
  23. ^ “Über 7.000 Sprachen, nur 1 Windows”. Microsoft. 05.02.2014.
  24. ^ “Richtlinien für Sprachvorschläge”. wikimedia.org. Abgerufen 3. August 2015.
  25. ^ “BCP 47 – Tags zur Identifizierung von Sprachen”. ietf.org. Abgerufen 3. August 2015.
  26. ^ ein b “EPUB Publications 3.0”. idpf.org. Abgerufen 3. August 2015.
  27. ^ “DCMI-Metadatenbegriffe”. purl.org. Abgerufen 3. August 2015.
  28. ^ “ISO-Sprachcodes mit zwei oder drei Buchstaben”. w3.org. Abgerufen 3. August 2015.
  29. ^ “Sprachregister”. Iana.org. Abgerufen 2015-08-12.
  30. ^ “3 Semantik, Struktur und APIs von HTML-Dokumenten – HTML5”. w3.org. Abgerufen 3. August 2015.
  31. ^ “Elemente – MODS-Benutzerrichtlinien: Metadaten Objekt Beschreibung Schema: MODS (Library of Congress)”. loc.gov. Abgerufen 3. August 2015.
  32. ^ “TEI-Elementsprache”. tei-c.org. Abgerufen 3. August 2015.

Weiterführende Literatur[edit]

Externe Links[edit]


after-content-x4