Deuxième partie : segments

Pour la suite, le corpus sera mis en cette forme :

et_et_COO
tous_tout_ADJMP
nos_notre_DETPOSS
ennemis_ennemi_NCMP
seront_être_VINDF3P
a_avoir_VINDP3S
quia_quia_NCI
foutre_foutre_VINF
...
Avec l'aide du script :
cat corpus/duchn_p2.xml |  
tr " " "\n" |  
egrep -v "_PCT|_NCI" |  
egrep -e "\w"  | 
tr "\n" " " > 
corpus/duchn_p3.txt

Les segments consistent à trois mots consécutifs.

Segments contenant un mot dont la forme est aristocrate(s)

Segments contenant un mot dont la forme est sans-culotte(s)

Segments contenant un mot dont la forme est femme(s)

Segments contenant un mot dont la forme est citoyen(s)

Segments contenant un mot dont la forme est bougre(s)