Mining Text: Simplificação de Texto

Trabalho da faculdade.

A simplificação de texto é um tópico que vem se demonstrando uma ferramenta importante tanto como pre processamento de texto, quanto em tornar textos complexos, em textos mais simples para que pessoas com algumas dificuldades possam ter acesso a determinados conteúdos. A diferença entre a simplificação de texto como um passo para um projeto e a simplificação de texto como produto final é o tratamento para tornar o texto legível de novo. Para muitos projetos se retiram as palavras que têm pouco significado para o texto, as stopwords, apesar de isso também ser um passo possível para a simplificação de texto, um texto legível precisa ter essas stopwords. Afinal o que seria o mundo sem por que?

O primeiro artigo Text Simplification for Children de Jan De Belder e Marie Francine Moens divide o processo em simplificação lexica, simplificação sintática, otimização de escolhas e avaliação. Há a denúncia de falta de base de dados, mas isso foi suprido com a wikipedia e a simple.wikipedia, se supõe que um texto na wikipedia que possui uma versão mais simples na simple wikipedia sempre será um texto mais simples. O texto também sugere usar um classificador para detectar se um texto é simples ou não.

O segundo artigo Using Lexical Chains to Identify Text Difficulty: A Corpus Statistics and Classification Study de Partha Mukherjee, Gondy Leroy e David Kauchak propõe um as características usadas para classificar um texto como fácil ou difícil. Propõe usar cadeias de palavras para melhorar a tarefa de encontrar esse padrão, as cadeias não são mais que grupos de palavras organizadas por um determinado critério. Eles também criam sua base de dados com o material disponível na wikipedia.

Update 1

A base de dados atual é a provida pelo Google no link https://github.com/google-research-datasets/sentence-compression. Apesar da base de dados ser realmente grande e estar pre-processada com o NER, apenas está sendo usado o comp-data.eval.json.gz com 10 mil instâncias.

Apesar da filtragem das stop words e do uso do stemming, houveram mais de 100 mil features.

Name		Name	Last commit message	Last commit date
Latest commit History 81 Commits
dataset		dataset
imagens		imagens
preprocess		preprocess
Base de Dados - Página1.csv		Base de Dados - Página1.csv
Ficha projeto - Página1.csv		Ficha projeto - Página1.csv
LICENSE		LICENSE
README.md		README.md
projeto.ipynb		projeto.ipynb
projeto2.ipynb		projeto2.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Mining Text: Simplificação de Texto

Update 1

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Mining Text: Simplificação de Texto

Update 1

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages