En fait, le fichier xml est en iso latin et le fichier texte en utf-8. donc 2 traitements différents. donc voici le script qui fonctionne.
script xml et txt - paf.pl
CressonArdent181861
C
CressonArdent181861
Ses blogs
Articles :
29
Depuis :
07/10/2012
Categorie :
Emploi, Enseignement & Etudes
Articles à découvrir
Le but de la prochaine bao est d'étiquetter chaque mot (c'est-à-dire de lui accoler sa fonction : nom, déterminant, etc.). pour les textes, c'est assez facile, il suffit de les convertir en iso latin (grâce à un <code>iconv -f utf-8 -t iso-8859-1 sortietxt_alaune.txt > sortietxt_alaune_iso.txt</code> par exemple et de les passer un par un dans
Le but du projet du 2e semestre est de traiter le corpus des fils rss du journal le monde automatiquement. pour cela, à partir d'un script perl fourni obligeamment par nos gp (gentils professeurs) qui permet de parcourir l'arborescence d'un corpus réduit (le mois de janvier 2008), il faut récupérer le titre et la description des fils (aux forma
C'est, presque, réussi. pour ne pas avoir à faire des couper coller à répétition, nous avons fait un hash contenant les rubriques : my %rubrique = ( "0,2-3208,1-0,0" => "alaune", "0,2-3210,1-0,0" => "international", "0,2-3214,1-0,0" => "europe", "0,2-3224,1-0,0" =>"societe", "0,2-3232,1-0,0" =>"opinions", "0,2-3234,1-0,0" =>"economie", "0,2-32
Le but du projet du 2e semestre est de traiter le corpus des fils rss du journal le monde automatiquement. pour cela, à partir d'un script perl fourni obligeamment par nos gp (gentils professeurs) qui permet de parcourir l'arborescence d'un corpus réduit (le mois de janvier 2008), il faut récupérer le titre et la description des fils (aux forma
Enfin, une fois que l'on a réussi à les installer ! vive ppm, parce que cpan on ne peut pas dire que c'est facile ! merci s. fleury ! donc après installation des modules unicode::string, on peut appeler la fonction qw qui transforme le iso-8859-1 en gentil utf8 sans plus poser de problèmes et voilà donc le script revisité : paf2.pl. autre mod
Voici la dtd et le fichier xml qui va avec. pour la bibliographie simple.
dtd - biblio.dtd
eco - biblio.xml
Document structure aujourd'hui, nous nous sommes penchés sur le xpath, c'est-à-dire le moyen de rechercher des infos dans un arbre xml. la syntaxe est simple : axe (following-sibling - vers la droite ; preceding-sibling - vers la gauche ; ou child - vers le bas)::test (element à chercher) [prédicat]. on peut tester en grandeur nature à l'aide
Youpi ! ça marche, enfin presque. je ne comprends pas pourquoi mais quand je lui donne à manger le dossier 2008, le script fait tout très bien et pour le dossier 2012, il refuse obstinément de fermer le xml (bon je l'ai fait à la main, c'est pas bien d'accord). donc j'ai des tas de jolis fichiers b
Notre projet sur le mot écriture est maintenant terminé et vous pouvez lire le résultat sur le site en ligne http://www.tal.univ-paris3.fr/plurital//travaux-2012-2013/projets-2012-2013-s1/jia-li_ching-wen-huang_florence-barberousse/site/index.html. nous allons cependant continuer à utiliser ce blog pour le projet du second semestre.
English
Deutsch
español
italiano