fix: try punkt fallback to punkt_tab in split_sentences (NLTK >= 3.9)

codelucas · danishashko · Apr 1, 2026 · Apr 1, 2026 · Apr 1, 2026 · f50ceaf29877fb552f72f5b1108b99e5ddfef3a0
commit f50ceaf29877fb552f72f5b1108b99e5ddfef3a0
diff --git a/newspaper/nlp.py b/newspaper/nlp.py
@@ -154,7 +154,10 @@ def split_sentences(text):
     """Split a large string into sentences
     """
     import nltk.data
-    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
+    try:
+        tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
+    except LookupError:
+        tokenizer = nltk.data.load('tokenizers/punkt_tab/english')
 
     sentences = tokenizer.tokenize(text)
     sentences = [x.replace('\n', '') for x in sentences if len(x) > 10]