Pas encore inscrit ? Creez un Overblog!

Créer mon blog
CressonArdent181861
C

CressonArdent181861

Ses blogs

bernardins.overblog.com

Master1 de TAL
CressonArdent181861 CressonArdent181861
Articles : 29
Depuis : 07/10/2012
Categorie : Emploi, Enseignement & Etudes

Articles à découvrir

Problème de décodage résolu

En fait, le fichier xml est en iso latin et le fichier texte en utf-8. donc 2 traitements différents. donc voici le script qui fonctionne. script xml et txt - paf.pl

Étiquettes

Le but de la prochaine bao est d'étiquetter chaque mot (c'est-à-dire de lui accoler sa fonction : nom, déterminant, etc.). pour les textes, c'est assez facile, il suffit de les convertir en iso latin (grâce à un <code>iconv -f utf-8 -t iso-8859-1 sortietxt_alaune.txt > sortietxt_alaune_iso.txt</code> par exemple et de les passer un par un dans
Le Monde du 2e semestre

Le monde du 2e semestre

Le but du projet du 2e semestre est de traiter le corpus des fils rss du journal le monde automatiquement. pour cela, à partir d'un script perl fourni obligeamment par nos gp (gentils professeurs) qui permet de parcourir l'arborescence d'un corpus réduit (le mois de janvier 2008), il faut récupérer le titre et la description des fils (aux forma

Rubricage

C'est, presque, réussi. pour ne pas avoir à faire des couper coller à répétition, nous avons fait un hash contenant les rubriques : my %rubrique = ( "0,2-3208,1-0,0" => "alaune", "0,2-3210,1-0,0" => "international", "0,2-3214,1-0,0" => "europe", "0,2-3224,1-0,0" =>"societe", "0,2-3232,1-0,0" =>"opinions", "0,2-3234,1-0,0" =>"economie", "0,2-32
Le Monde du 2e semestre

Le monde du 2e semestre

Le but du projet du 2e semestre est de traiter le corpus des fils rss du journal le monde automatiquement. pour cela, à partir d'un script perl fourni obligeamment par nos gp (gentils professeurs) qui permet de parcourir l'arborescence d'un corpus réduit (le mois de janvier 2008), il faut récupérer le titre et la description des fils (aux forma

Vivent les modules perl !

Enfin, une fois que l'on a réussi à les installer ! vive ppm, parce que cpan on ne peut pas dire que c'est facile ! merci s. fleury ! donc après installation des modules unicode::string, on peut appeler la fonction qw qui transforme le iso-8859-1 en gentil utf8 sans plus poser de problèmes et voilà donc le script revisité : paf2.pl. autre mod

Première biblio

Voici la dtd et le fichier xml qui va avec. pour la bibliographie simple. dtd - biblio.dtd eco - biblio.xml
Petit résumé du cours du 20 férier pour pauvre éclopée

Petit résumé du cours du 20 férier pour pauvre éclopée

Document structure aujourd'hui, nous nous sommes penchés sur le xpath, c'est-à-dire le moyen de rechercher des infos dans un arbre xml. la syntaxe est simple : axe (following-sibling - vers la droite ; preceding-sibling - vers la gauche ; ou child - vers le bas)::test (element à chercher) [prédicat]. on peut tester en grandeur nature à l'aide

Script pour treetagger

Youpi ! &ccedil;a marche, enfin presque. je ne comprends pas pourquoi mais quand je lui donne &agrave; manger le dossier 2008, le script fait tout tr&egrave;s bien et pour le dossier 2012, il refuse obstin&eacute;ment de fermer le xml (bon je l&#39;ai fait &agrave; la main, c&#39;est pas bien d&#39;accord). donc j&#39;ai des tas de jolis fichiers b

Du blog au site

Notre projet sur le mot écriture est maintenant terminé et vous pouvez lire le résultat sur le site en ligne http://www.tal.univ-paris3.fr/plurital//travaux-2012-2013/projets-2012-2013-s1/jia-li_ching-wen-huang_florence-barberousse/site/index.html. nous allons cependant continuer à utiliser ce blog pour le projet du second semestre.