Perl pour les linguistes est composé de 10 chapitres et d'une
série d'annexes.
Les quatre premiers chapitres ont pour but d'accompagner le lecteur
dans sa découverte des notions fondamentales sur lesquelles s'appuient
les traitements complets présentés par la suite. Ils peuvent être lus
dans l'ordre par un utilisateur débutant, ou être abordés
ponctuellement par la suite à l'occasion de renvois.
- Le chapitre 1 (Données) effectue un tour d'horizon des
différents matériaux manipulés par les programmes et techniques. Le
lecteur y trouvera à la fois une présentation détaillée des principaux
concepts liés aux textes numériques, ainsi qu'une liste des
différentes sources de données disponibles et des traitements
automatiques préparatoires qui peuvent s'y appliquer.
- Le chapitre 2 (Environnement de travail et notions de système)
détaille les procédures techniques nécessaires à la mise en place de
l'environnement de travail, et explique les opérations minimales
permettant à l'utilisateur d'exécuter et de développer des programmes
en Perl.
- Le chapitre 3 (Bases de Perl) présente, à travers une série de
programmes simples, les éléments fondamentaux de ce langage de
programmation.
- Le chapitre 4 (Expressions régulières) aborde un des outils les
plus puissants pour la manipulation automatique de données
textuelles : les expressions régulières. Le formalisme en est
détaillé, ainsi que son utilisation dans un programme Perl.
Les six chapitres suivants sont consacrés chacun à un type de
manipulation ou de données particulières. Chacun d'eux présente, à
travers une série de programmes complets de complexité croissante, des
traitements directement utilisables, tout en les détaillant
suffisamment pour permettre leur extension et leur adaptation à de
nouveaux besoins.
- Le chapitre 5 (Recherche d'unités linguistiques) traite des procédures
automatiques de repérage et d'extraction de différents types d'unités
dans des textes numériques (mots ou suites de mots).
- Le chapitre 6 (Calculs de fréquences) aborde l'obtention d'informations
synthétiques sur la répartition des unités linguistiques dans les
textes. Les principes de la statistique lexicale y sont abordés.
- Le chapitre 7 (Concordances) se concentre sur la construction et la
présentation de lignes de contextes issues d'un texte permettant
l'étude systématique des unités lexicales.
- Le chapitre 8 (Traitements lexicaux) couvre l'ensemble des techniques
utilisables sur la base de listes de mots, et notamment différentes
méthodes de traitement morphologique.
- Le chapitre 9 (Manipulation de données au format XML) présente
les principes fondamentaux de cette norme de description des
documents, et les différentes techniques permettant de manipuler ce
type de format de données de plus en plus répandu.
- Le chapitre 10 (Exploitation linguistique du Web) est
consacré à l'utilisation du Web comme source de données linguistiques
et comme corpus d'étude.
Enfin, une série d'annexes permet de détailler certains aspects
techniques plus secondaires. Des renvois systématiques vers cette
partie sont présents dans les chapitres précédents pour permettre
l'approfondissement de certaines questions.
- L'annexe 1 (Préparation des données)
présente les programmes utilisés pour préparer des données brutes,
permettant à l'utilisateur d'étendre les matériaux sur lesquels
il peut appliquer les traitements présentés dans le reste de
l'ouvrage.
- L'annexe 2 (Codage des caractères) aborde les
délicates questions du codage numérique des caractères, et contient notamment un
ensemble de solutions à appliquer en cas de problèmes liés à cette
notion, ainsi que plusieurs tables de référence sur les principaux
caractères.
- L'annexe 3 (Localisation) présente les
principes techniques de l'adaptation d'un traitement linguistique à
une autre langue que celle prévue initialement. En plus des opérations
techniques permettant de configurer correctement un programme ou un
système d'exploitation, cette annexe est recommandée aux lecteurs
souhaitant appliquer les techniques de cet ouvrage à d'autres langues
que le français.
- L'annexe 4 (Structures de données complexes et
références) aborde certains aspects plus pointus de la
programmation en Perl, et notamment les structures complexes et la
programmation orientée objet.
- L'annexe 5 (Référence des principales notions
de Perl) contient une liste récapitulative des notations en Perl,
classées par thème, et se veut d'un accès rapide pour un utilisateur
souhaitant simplement se remémorer un détail technique.
Enfin, un index complet est disponible en fin d'ouvrage, ainsi qu'une
bibliographie renvoyant à la fois vers des ouvrages techniques et vers
des travaux en linguistique.