Création de notre site

Bonjour à tout le monde !

Je vous mets là le lien de notre site final sur lequel vous trouverez notre analyse et tous les détails de notre projet également.

Pour construire ce site, on s’est basé sur un template déjà près mais on a fait pas mal de modification concernant le banner et les couleurs de CSS, ajouter des icônes et etc.

je vous laisse découvrir notre site :

Projet Adoption – Site

À bientôt !

Alican YÜKSEL
Oussama ID ALİ

Nuages des mots

Bonjour à tous !

Un nuage de mots consiste à montrer les mots les plus fréquents dans un fichier donné. On a utilisé le site wordart.com pour nos dumps concatenés.

En Turc :

word art kopyası 2

 

En turc, le mot adoption est équivalent à un mot composé qui est « evlat edinme« 

Lire la suite »

Changement de langue

Bonjour à tous !

Suite aux problèmes d’encodage avec la langue arabe, on a beau essayer de trouver des regex exprès pour cette langue, on a du mal à résoudre tous les problèmes.

Pendant la dernière séance, suite à l’autorisation de Monsieur Fleury, on s’est permis de changer une de nos langues.

Oussama prend désormais en charge les urls « anglaises » au lieu de celles arabes.

Alican YÜKSEL
Oussama ID ALİ

 

Synthèse de la séance du 21.11.2018

Bonjour à tous !

Cette séance on a discuté comment peut-on résoudre le problème d’encodage. Car on avait essayé de récupérer l’encodage avec la commande file mais on s’est rendu très vite compte que ça ne marche pas très bien.

Une fois que l’encodage initial est vide, il fallait trouver une solution pour chaque étape pour vérifier l’encodage.

Pour cela, on a choisi pendant cette séance la solution avec egrep : 

Ekran Resmi 2018-12-03 18.25.22

Lire la suite »

Installation de Minigrep sous MacOS

Bonjour à tous !

Après avoir eu beaucoup de problème concernant le script minigrep, j’ai enfin réussi à l’exécuter. Ce n’est pas très difficile mais si vous n’êtes pas sur la bonne route, c’est un peu la galère…

C’est pourquoi, je tiens encore une fois à remercier à Monsieur Fleury pour cela.

De ce fait, j’aimerais bien expliquer un petit peu ici pour que ça aide tout le monde.

Il existe deux possibilités d’installer ou d’exécuter le minigrep sous MacOS.

1) Utiliser la version compilée :

Ekran Resmi 2018-12-03 17.02.46

Lire la suite »

Synthèse de la séance du 14.11.2018

Bonjour à tous !

Pendant cette séance, on a continué le script car il arrive bientôt à sa fin et on a ensuite discuté également sur l’analyse qu’on doit faire pour notre mot choisi.

Comment peut-on analyser notre mot dans son entourage et son contexte ? Pour faire ça, on va réduire celui-ci un petit peu pour faciliter la tache. De ce fait, on a vu aussi les regex car pour ce genre d’opération, elles sont super utiles pour nous !

On a eu un treebank comme exemple et on a donc essayé de chercher dedans les verbes qui sont annotés de manière suivante :

Etablit/V3S
contact/NMS
ouvert/VPPMS

Ce qu’on voit ici, c’est que le verbe conjugué et le participe passé sont annotés par un ensemble de terme commençant par un V.

Notre but c’est de récupérer toutes les formes du verbe. Pour faire cela, on va utiliser la commande egrep avec les regex.

Lire la suite »

Synthèse de la séance du 24.10.2018

Dans cette séance on va essayer de vérifier nos URL’s en vérifiant le code sortie (Statue code)

Récupérer les données textuelles en utilisant la commande « lynx »

En gros, on veut vérifier si nos URL’s se dirigent vers des vrais sites web où il ya un contenu ou bien s’ils se dirigent vers des sites web « raccourcis », car notre but est d’aspirer le contenu des pages webs, pour l’analyser, ce qui n’est pas evident si on a des raccourcis.

Prenons par exemple le site « plurital » :

On va utiliser la commande « curl » pour pouvoir aspirer le site web

46444457_2156741261309216_2618909257092825088_n

Lire la suite »