Bando per assegno di ricerca
Titolo del progetto di ricerca in italiano | Etichettatura elettronica morfosintattica per l'italiano moderno |
---|---|
Titolo del progetto di ricerca in inglese | Automatic morphosyntactic tagging for Modern Italian |
Settore Concorsuale | 10 - Scienze dell'antichità, filologico-letterarie e storico-artistiche |
S.S.D | - |
Descrizione sintetica in italiano | Il progetto prevede l'elaborazione di algoritmi e dizionari di macchina (parameter files) per l'assegnazione automatica delle parti del discorso in testi italiani moderni, appoggiandosi al TreeTagger, un sistema open source di etichettatura stocastica basato su modelli markoviani nascosti. Il progetto richiederà prima l’utilizzo di corpora di allenamento per istruire il tagger e poi azioni di miglioramento della capacità di assegnazione mediante procedure di trial-and-error. Per ciò si prevede l'utilizzo dell’Athenaeum Corpus (ricavato da testi estratti dalla rivista ufficiale dell'Università di Torino; disponibile in copyleft) come base, arricchito da una attenta selezione di testi estratti dalla sezione italiana del corpus di Newsgroup NUNC (pure disponibile in copyleft) e da opportuni testi aziendali di Annoluce. I risultati, che avranno rilevanza linguistica ed utilità pratica (data mining ecc.), saranno rilasciati open source in copyleft. |
Descrizione sintetica in inglese | This project aims at creating algorithms and parameter files for the automatic Part-Of-Speech tagging of modern Italian texts. It will be made by using the TreeTagger, an Open Source stochastic tagging software based on Hidden Markov Models. The first step of this project will require the usage of a tagger training corpus, then a number of actions for improving the tagging ability are needed. They will be carried on using trial-and-error techniques. For carrying on the mentioned activities, we plan to adopt the Athaeneum Corpus (made by a collection of texts taken from the official magazine of the University of Turin), a careful selection of text taken fron the corpus of newsgroups NUNC and ICT texts from the company Annoluce snc. Both the corpora are published under copyleft license. The results, which will have both linguistic and practical relevance (for data mining activities, etc.), will be published under copyleft license. |
Data del bando | 05/09/2011 |
Paesi in cui può essere condotta la ricerca |
Italy |
Paesi di residenza dei candidati |
All |
Nazionalità dei candidati |
All |
Sito web del bando | http://www.unito.it/unitoWAR/page/istituzionale/ricerca2/Ricerca_assegni_miur3 |
Destinatari dell'assegno di ricerca (of target group) |
Early stage researcher or 0-4 yrs (Post graduate) |
---|---|
Il contratto prevede la copertura delle prestazioni sociali? | yes |
Importo annuale | 19367 |
Valuta | Euro |
Comprende lo stipendio dell'assegnista | yes |
Comprende vitto e spese di viaggio | yes |
Comprende il costo della ricerca | yes |
Altri costi in italiano | \ |
Massima durata dell'assegno (mesi) | 24 |
Criteri di selezione in italiano (breve descrizione) | \ |
Criteri di selezione in inglese (breve descrizione) | \ |
Processo di selezione in italiano (breve descrizione) | Per titoli e colloquio |
Processo di selezione in inglese (breve descrizione) | qualifications and interview |
Nome dell'Ente finanziatore | Universita' degli Studi di Torino |
---|---|
Tipologia dell'Ente | Public research |
Paese dell'Ente | Italy |
Città | Turin |
Sito web | http://www.unito.it/ |
arearicerca_assegni@unito.it | |
Telefono |
L'assegno finanziato/cofinanziato attraverso un EU Research Framework Programme? | No |
---|
Data di scadenza del bando | 26/09/2011 - alle ore 00:00 |
---|---|
Come candidarsi | https://loginmiur.cineca.it/ |