第 17 章 文本分析

PDFRpdftools 从 PDF 文档抽取文本, tesseract 从扫描件中抽取文本

fastTextR https://github.com/facebookresearch/fastText