Seminaire SynSem/P3
https://lling.univ-nantes.fr/medias/photo/image-seminaire-synsem-last_1634558540342-JPG
-
Le 03 octobre 2024 de 14:00 à 16:00false false
L'outillage de la linguistique et l'acquisition de données
Loic Grobol et Mélanie Jouitteau
Les avancées de la linguistique computationnelle, sans ou avec IA, enrichissent différents champs de la linguistique en fournissant des moyens puissants d’acquisition des données et de falsifiabilité. Ces avancées profitent peu à la grammaire générative.
(i) le mode d’acquisition des données par élicitation est peu outillé.
(ii) ces avancées vont dans un sens de réduction de la diversité linguistique utilisable en falsification des universaux.
La diversité linguistique est le socle de la falsification des hypothèses sur les universaux de langage. Or, les contextes sociologiques nous privent chaque jour un peu plus de la diversité linguistique et des possibilités de sa documentation. La technologisation des échanges accélère les pertes d’usages des langues non-compatibles avec les nouveaux outils.
La linguistique computationnelle produit des statistiques pertinentes en manipulant des corpus larges, coûteux à monter, accentuant de fait le fossé de prise en compte des données linguistiques entre les langues. Elle pousse notre connaissance des langues impériales et d’une centaine d’autres avec des outils et des cultures d’enquêtes qui ne sont pas reproduisibles sur les milliers d’autres langues. L’outillage par les grands modèles de langue renforce a-priori ce biais d’enquête vers les corpus maximaux.
Dans cette présentation-discussion, nous montrerons plusieurs exemples concrets d’outillage de l’acquisition de données en contexte de langues minorisées, de la falsification des hypothèses de linguistique fondamentale, et de la traçabilité des données en contexte d’élicitation.
Loic Grobol et Mélanie Jouitteau
Les avancées de la linguistique computationnelle, sans ou avec IA, enrichissent différents champs de la linguistique en fournissant des moyens puissants d’acquisition des données et de falsifiabilité. Ces avancées profitent peu à la grammaire générative.
(i) le mode d’acquisition des données par élicitation est peu outillé.
(ii) ces avancées vont dans un sens de réduction de la diversité linguistique utilisable en falsification des universaux.
La diversité linguistique est le socle de la falsification des hypothèses sur les universaux de langage. Or, les contextes sociologiques nous privent chaque jour un peu plus de la diversité linguistique et des possibilités de sa documentation. La technologisation des échanges accélère les pertes d’usages des langues non-compatibles avec les nouveaux outils.
La linguistique computationnelle produit des statistiques pertinentes en manipulant des corpus larges, coûteux à monter, accentuant de fait le fossé de prise en compte des données linguistiques entre les langues. Elle pousse notre connaissance des langues impériales et d’une centaine d’autres avec des outils et des cultures d’enquêtes qui ne sont pas reproduisibles sur les milliers d’autres langues. L’outillage par les grands modèles de langue renforce a-priori ce biais d’enquête vers les corpus maximaux.
Dans cette présentation-discussion, nous montrerons plusieurs exemples concrets d’outillage de l’acquisition de données en contexte de langues minorisées, de la falsification des hypothèses de linguistique fondamentale, et de la traçabilité des données en contexte d’élicitation.
Mis à jour le 24 septembre 2024.