Integrate the Unitex ressources as in Matthieu Constant's lgtools

Registered by Loïc Grobol on 2012-09-07

Using extract-text-property

Blueprint information

Status:
Started
Approver:
Loïc Grobol
Priority:
Essential
Drafter:
Loïc Grobol
Direction:
Approved
Assignee:
Loïc Grobol
Definition:
Approved
Series goal:
None
Implementation:
Started
Milestone target:
None
Started by
Loïc Grobol on 2012-09-11

Related branches

Sprints

Whiteboard

./extract-text-properties -s -c default "w,AC(POS)" <ton-corpus>

* "default" correspond au fichier de configuration
"French/config/default.cfg"
* "w,AC(POS)" correspond aux propriétés que tu veux extraire
   - w: le mot
   - AC(POS): les catégories grammaticales trouvées dans le dico (avec
info B et I pour indiquer où l'on se trouve dans les mots composés).
    - d'autres propriétés sont définies (en partie) dans le README.
* <ton-corpus>: un mot par ligne

(?)

Work Items

Work items:
Fetch lgtools: DONE
Find out what is necessary in the sources in order to use the extract-text-porperties script: DONE
Integrate the build in cteslo's: DONE
Make a plugin: TODO
Train the new models: TODO
Evaluation: TODO

This blueprint contains Public information 
Everyone can see this information.

Subscribers

No subscribers.