Sequences

Spécialité Recherche Génie Informatique

Modèles Bayesiens de Séquences
Thierry PAQUET
Thierry.Paquet@uiv-rouen.fr

Etude bibliographique (année 2006)

Plan
Introduction à l’analyse de séquences (Parole, Ecrit, Analyse textuelle)
    Modélisation de séquences : Première approche
    distance d’édition, Programmation dynamique
    limitations
Modèles de Markov Cachés Discrets
        Définitions : Modèles discrets et continus
        Algorithme de viterbi et programmation dynamique
        Algorithme Forward
        Modèles discrets et algorithme de Baum-Welch
Modèles de mélanges & Algorithme EM
        Cas mono-dimensionnel
        Estimation du modèle : cas des données complètes
        Algorithme EM pour les données incomplètes
        Cas multi-dimensionnel
Modèles de Markov Continus
        HMM continus et algorithme de Baum-Welch
        Applications à la reconnaissance de séquences : Parole et Ecrit
                             à l’extraction d’information : Taggers Syntaxiques, Fouille de texte
Extension aux Grammaires Stochastiques
            La hiérarchie de Chomsky
            Grammaire Stochastique : Définition
            Apprentissage: Algorithme Inside-Out
            Avantage et limitations
Applications et Perspectives à l’analyse textuelle

Etude Bibliographique (Année 2007)
L'étude bibliographique devra mettre en évidence l'apport des Modèles de Markov à Entropie Maximale par rapport aux modèles de Markov cachés étudiés en cours.
Cette étude est à remettre pour le 30 Janvier 2006 sous la forme d'un rapport écrit d'une dizaine de pages.

Maximum Entropy Markov Models for Information Extraction and Segmentation, Andrew McCallum, Dayne Freitag, Fernando Pereira

Bibliographie
Ouvrages
L. Miclet, Méthodes structurelles pour la reconnaissance des formes, Eyrolles 1984.
A. Cornuéjols, L. Miclet, Apprentissage artificiel : Concepts et algorithmes, Eyrolles, 2002
A.Belaïd, Y. Belaïd, Reconnaissance des formes, méthodes et applications, InterEditions, 1992
La parole et son traitement automatique, Calliope, éd. Masson , 1989.
R. Boite et al., Traitement de la parole, Presses Polytechniques et Universitaires Romandes, 2000.
R. Duda, P. Hart, D. Stork, Pattern Classification, Wiley, 2nd Edition, 2001.
L.R. Rabiner & B.H. Juang, Fundamentals of Speech Recognition, Englewood Cliffs, NJ:Prenctice Hall 1993.
C. D. Manning & H. Schütze, Foundations of Statistical Natural Language Processing, The MIT Press, 1999

Articles de synthèse
L. R. Rabiner, A tutorial on Hidden Markov Model and selected applications in speech recognition, IEEE proceedings, Vol. 77, pp. 257-286, 1989.
J. A. Bilmes, A gentle Tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and Hidden Markov Models, Department of Electrical Engineering and Computer Science, Berkeley, 1998.
J. McMahon et al., A review of statistical language processing techniques, the Queen’s University of Belfast, 1995.
Eugene Charniak, Statistical Techniques for Natural Language Parsing, 1997.
D. Afentenos, On Grammars: The Chomsky Hierarchy and Probabilistic Grammars, 2001.
Marcus et al., The Penn Treebank: Annotating predicate argument structure, Univ. Of Pennsylvania,1994.
Notes on probabilistic context free Grammars, Language and statistics, March, 1999.

Travaux Pratiques
Ces séances de travaux pratiques sont un moyen d'appréhender les notions théorique du cours sous la forme d'exercices de programmation.
Ces séances sont conseillées car elles permettent de mettre en oeuvre réellement les algorithmes vus en cours.
Elles complètent largement les séances d'exercices
Séance 1 : Programmation dynamique
Séance 2 : Modèles de Markov Discrets
Séance 3 : Mélanges de Gaussiennes
Séance 4 : Algorithme EM pour le modèle de mélanges

Télécharger les boîtes à outils nécessaires pour les TP
Netlab
KPMstat
KPMtools
HMM