Pas encore inscrit ? Creez un Overblog!

Créer mon blog
Chou-fleurClément190226
C

Chou-fleurClément190226

Ses blogs

NUCLEOTEAM

Projet 2012-2013
Chou-fleurClément190226 Chou-fleurClément190226
Articles : 11
Depuis : 13/10/2012
Categorie : Emploi, Enseignement & Etudes

Articles à découvrir

Résultat

Résultat

Après avoir réalisé toutes les étapes précédentes le résultat final doit ressembler à l'image ci-dessous. cependant, il ne faut pas oublier qu'il doit y avoir un tableau comme celui-ci de 50 urls pour chaque langue choisie.

Problème

Nous nous sommes rendues compte d'un problème lorque nous faisions tourner plusieurs fois le programme. en effet, pour un certains nombre d'urls, l'aspiration de la page ne se fait pas. nous avons donc voulu comprendre la raison de cet échec et il s'avère que les sites web de quotidiens français ou internationaux comme le courrier international

Première étape : recherche des url

Avant de commencer la programmation en bash à proprement parler, nous devions chercher 50 url par langues choisies. cependant, nous nous sommes vite rendues compte que ce ne serait pas une tâche facile. c'est à ce moment là que nos premières difficultés sont apparues. en effet, il nous est impossible de trouver 50 url en italien dans le domai
Script pour l'affichage des liens en tableaux

Script pour l'affichage des liens en tableaux

On rédige un script bash pour l'affichage des liens. ce script est censé créer une page html contenant des tableaux, eux-mêmes contenant les liens numérotés vers les articles que nous étudierons. (le curseur en ligne 10 vous salue) mais le terminal n'approuve pas le script et demande un do à la ligne 10, ligne actuellement occupée par... e
Associer chaque url à la page aspirée correspondante

Associer chaque url à la page aspirée correspondante

Durant le cours du 14 novembre, nous avons dû compléter notre script afin d'ajouter une colonne au tableau initial. en effet, cette dernière devait contenir les pages aspirées correspondant à chaque url. le script nous montre donc que c'est à la ligne 19 que l'on créait cette troisième colonne avec la commande "echo". cependant, nous avons
Préparation de l'environnement de travail

Préparation de l'environnement de travail

Afin de préparer notre environnement de travail, on utilise un script. voici les dossiers avant l'exécution du script. on exécute le script et on constate que le dossier projet-mot-sur-le-web apparaît dans la liste. dans le dossier, les sous-dossiers ont été créés correctement.
Encodage des pages aspirées

Encodage des pages aspirées

Après avoir aspirer les pages, nous avons du faire une varaible dans laquelle le terminal nous affiche l'encodage de la page aspirée avec la commande "file -i". si le charset est en utf-8 alors le terminal affiche charset=utf-8. si le charset est différent, alors il faut rechercher le charset dans la page aspirée avec la fonction "egrep" et le
Contextes et occurrences

Contextes et occurrences

Enfin, pour terminer notre tableau, nous devions créer deux colonnes la première contenant le mot recherché et ses contextes gauche et droit ; la seconde contenant le nombre d'occurrences dans l'ensemble de la page aspirée en tenant compte de la casse (majuscule et minuscule.) pour extraire le mot dans son contexte, nous avons utilisé la fonct

Projet

L'une des parties de ce blog sera donc consacrée au projet. pour cela, nous devions choisir un thème et différentes langues pour traiter ce même thème. nous avons alors choisit l'énergie nucléaire. pour ce qui est des langues se sera l'anglais, l'allemand, le français, le finnois et l'italien. de plus, il nous paraissait important de prendr
Nuage

Nuage

La seconde étape de ce projet consiste à réaliser des nuages de mots grâce à des logiciels spécialisés. en effet, on cherche à savoir quel mot est le plus fréquent dans chaque corpus de chaque langue. le mot qui a le plus d'occurrences est celui qui a la typographie la plus grande (en terme de taille) dans le nuage. nous avons donc pris co