User:Vincent2236/sandbox

Le Programme de Jugement Automatique de Similarité (PJAS) Anglais: Automated Similarity Judgment Program (ASJP) est un projet collaboratif mettant en application une approche informatisée de linguistique comparative en utilisant une base de données de mots. La base de donnée est ouverte à tous et se base sur une liste de 40 mots de vocabulaire de base dans à peu près la moitié des langues du monde. Elle est complétée constament. En plus de langues dont la généalogie est déjà attestée et de langues isolées la base de donnée comprend des pidgins, créoles, langue mixtes, et langues construites. Les mots de la base de donnée sont transcrits dans une orthographe standard simplifée adaptée au traitement informatique (code PJAS) (Anglais; ASJPcode). La méthode a été utilisée pour estimer les périodes auxquelles les familles de langues se sont séparées et ont évolué vers de nouvelles sous-familles par le biais d'une méthode apparentée (mais différente) de la glottochronologie, pour determiner la région d'origine d'une proto-langue, pour faire des recherches sur le symbolisme phonétique, pour évaluer différentes méthodes phylogénétiques, et pour d'autres objectifs de recherches.

Objectifs initiaux
PJAS a été créé à l'origine comme moyen d'évaluation de la ressemblance entre mots d'une même signification dans différentes langues, avec comme objectif la classification informatique, basée sur les ressemblances lexicales observées. Dans la première publication deux mots identiques semantiquement dans une comparaison entre langues étaient jugés similaires si ils avaient en commun deux segments phonétiques identiques. Le degré de similarité entre deux langues était calculé comme le pourcentage de mots jugés similaires par rapport à L'ensemble de l'échantillon. Cette méthode a été appliquée à une liste de 100 mots dans 250 langues des familles suivantes: austroasiatique, indo-européenne, maya, et muskogéenne.

Le Consortium ASJP
Le Consortium ASJP, fondé en 2008, a pour but de faire participer 25 linguistes professionnels et autres parties intéressées, travaillant comme bénévoles pour la transciption de mots et/ou tout autre activité contribuant au projet. La principale contribution est venue de Cecil H. Brown. Søren Wichmann est le curateur du projet et assure son fonctionnement au jour le jour. Un troisième membre central du consortium est Eric W. Holman, qui a programmé la plupart du software du projet.

Listes de mots plus courtes
La liste de mots utilisée au départ était basée sur la version courte (100 mots) de la liste de Swadesh. Ultérieurement, il s'est avéré par recherche statistique qu'un extraitde 40 des 100 mots donne des résultats équivalents, si ce n'est meilleurs, que la liste complète. Depuis, les liste de mots rassemblés dans les différentes langues ne contiennent plus que 40 mots (ou moins dans certaines langues pour lesquelles ces mots sont insuffisament documentés).

Distance de Levenshtein
Dans ses publications depuis 2008, le PJAS a utilisé un programme d'appréciation de la similarité basé sur la distance de Levenshtein (DL). Cette approche a donné de meilleurs résultats en terme de classification des langues que l'approche initiale basée sur l'avis d'expert. DL est définie comme le nombre minumum de changements successifs nécessaires pour convertir un mot en un autre, chaque changement étant une insersion, une suppression ou un remplacement d'un symbole. Dans l'approche de Levenshtein, les différences de longueur des mots peut être corrigée par la division de la DL par le nombre de symboles du mot comparé le plus long. Cela produit des données DL normalisées (NDL). Une NDL divisée (NDLD) entre deux langues est calculée en divisant le DNL moyen pour toutes les paires de mots ayant la même signification par la moyenne des NDL de toutes les paires de mots des différentes significations. Cette seconde normalisation a pour but de corriger les résultat des similarités dues au hasard

Liste de mots
Le PJAS utilise la liste de 40 mots suivante. Elle est similaire à la Liste Swadesh, dont des versions abrégées ont été utilisées par différents linguistes comme Sergei Yakhontov.


 * Partie du corp
 * oeil
 * oreille
 * nez
 * langue
 * dent
 * main
 * genou
 * sang
 * os
 * sein
 * foie
 * peau


 * Animaux et végétaux
 * poux
 * chien
 * poisson
 * corne (d'animal)
 * arbre
 * leaf


 * Personnes
 * personne
 * nom


 * Nature
 * soleil
 * étoile
 * eau
 * feu
 * pierre
 * chemin
 * montagne
 * nuit (période sombre)


 * Verbes et adjectifs
 * boire
 * mourir
 * voir
 * entendre
 * venir
 * nouveau
 * plein


 * Cardinaux et pronoms
 * un
 * deux
 * je
 * tu
 * nous

Voir aussi

 * linguistique comparative

Liens externes

 * ASJP Database Site officiel