Ngram Extractor (dataset generation for PhrasIt)

You need:

java 8

First test, simply run:

./ngram-extractor.sh -h

You will get the help screen after the project was successfully compiled.

Now you can extract n-grams with:

./ngram-extractor.sh FILES

e.g.

./ngram-extractor.sh in_data/*.pdf

The tool will print out all n-grams with its frequency in your collection to stdout. Each line has the following format:

Ngram \t freq

Supported Formats

As input formats are all text formats possible that tika supports, see formats.

txt
html
pdf
...

Development Notes

You can manually compile the project via gradle:

./gradlew build
./gradlew run -Pargs=FIlE1,FILE2

It is possible to build a jar with all dependencies via:

./gradlew shadowJar

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
gradle/wrapper		gradle/wrapper
in_data		in_data
src/main/java		src/main/java
.gitignore		.gitignore
README.md		README.md
build.gradle		build.gradle
gradlew		gradlew
ngram-extractor.sh		ngram-extractor.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Ngram Extractor (dataset generation for PhrasIt)

Supported Formats

Development Notes

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Ngram Extractor (dataset generation for PhrasIt)

Supported Formats

Development Notes

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages