METHODES EMPIRIQUES
ET
LANGAGES DE SCRIPT
COURS
enseignés par Paola
Merlo : mercredi 12-14
salle L 208
TP
enseignés par Gabriele Musillo : mercredi
14-16 salle B 315 (la première séance aura lieu le
9 nov. 2005)
RECEPTION:
Paola Merlo : mardi
13-14
L 711
Gabriele Musillo : lundi 14-15 L
711
CONTENU DU COURS:
- INTRODUCTION AUX METHODES EMPIRIQUES (cours1-intro-met-quant-web.ppt):
- détails
administratifs et dispositions concernant le plagiat
- le T(raitement) A(utomatique du) L(angage) N(aturel): les
approches empiriques basées sur les corpus
- les données qualitatives et quantitatives, le concept
de distribution de fréquence, la disctinction type vs. token, la
loi de Zipf et les n-grammes
- LES DONNEES TEXTUELLES (cours2-text.ppt ):
- la notion de corpus (balisé)
- quelques exemples de corpus textuels: la Penn Treebank, le
British National Corpus, le NEGR@ corpus, ...
- L'EXPLOITATION DES CORPUS ( cours5-ppexemple.ppt):
- l'attachement des syntagmes prépositionnels
- les mesures de précision, de rappel et d'exactitude
- L' APPRENTISSAGE BAYESIEN ( cours6-proba.pdf, cours7-bayes.pdf):
- la probabilité simple
et la probabilité
conditionnelle, le théorème de Bayes, les variable
aléatoires et les fonctions de probabilités
- l'algorithme Naive Bayes
- la classification de textes
- L' APPRENTISSAGE DES ROLES THEMATIQUES ( )
- L' APPRENTISSAGE DU
LEXIQUE VERBAL ( ):
- la classification automatique des verbes en classes
sémantiques
CONTENU
DES TPS:
Les conditions
suivantes
valent pour tous les TPs:
- les TPs sont à rendre au plus tard le mercredi suivant à
12h, par email à musillo4
(at etu point unige point ch) en
spécifiant mels
comme sujet, les programmes doivent pouvoir être executés
sous Cygwin ou Linux/Mandrake et quelques tests doivent être
décrits
- les TPs sont un travail individuel
et original. Le plagiat
d'éventuelles solutions rendues accessibles par le WEB (ou par
d'autres médias) sera sévèrement puni: un
étudiant qui plagie une solution recevra la note 0 pour tous ses
TPs.
- un étudiant pourrait être tenu de
présenter et discuter son TP au cours d'une séance
- au moins un exercice de chaque TP sera noté
- mer 23 nov 04 :
- PERL: tp3.pdf
- les structures de contrôle, les n-grammes, l'entropie
de Shannon
- mer 30 nov 05:
- PERL: tp4.pdf
- le jeu de Shannon, un énumérateur de mots, un
index
- mer 7 déc 05:
- PERL: tp5.pdf
- l'attachement des syntagmes prépositionnels
- un devineur de langues
- l_guesser, it.train, it.test, ro.train, ro.test, es.train,
es.test, de.train, de.test, fr.train, fr.test
- mer 14 déc 05:
- PERL: tp6.pdf
- les
références anonymes, les expressions
régulières et les modules
- le module que vous devez importer : PrettyPrinting.pm
- le fichier d'entrée qui contient les structures
syntaxiques à afficher : syns.dat
- mer 11 janv 06:
- les sources que vous devez modifier : edit.iter.pl (version
itérative de la
distance de Levenshtein), edit.rec.pl
(version récursive)
- la distance d'édition et l'alignement de abbc et babb
- la distance d'édition et l'alignement de intention
et execution
- mer 18 janv 06:
- mer 25 janv 06:
- mer 1 fév 06:
LE
LANGAGE PERL:
PERL est un acronyme qui
signifie "Practical Extraction and Report Language". C'est un langage
de programmation qui est spécifiquement utile et simple pour
l'extraction
de mots, de chaînes de charactères,
les changements de formats de textes, etc.
Mais c'est aussi une langage qui
permet la programmation structurée, y inclus la programmation
orienté-objet.
Perl est
gratuit et
disponible pour tous les systèmes d'exploitation communs. On
utilisera Linux, auquel Perl est optimalement
integré.
Quelques
liens utiles:
UNIX-LINUX-CYGWIN:
GNU-(X)Emacs: