Pattern是Python的一个web挖掘模块。它有工具:
1. 数据挖掘: web服务(谷歌,Twitter,维基百科),网络爬虫,HTML DOM解析器
2. 自然语言处理: 词性标记,n-gram搜索,情感分析,WordNet
3. 机器学习: 向量空间模型,聚类,分类(KNN, SVM,感知器)
4. 网络分析: 图形中心性和可视化。
它有很好的文档,经过了350多个单元测试,并附带了50多个示例。
https://github.com/clips/pattern
安装:
源码安装:
cd pattern-3.6
python setup.py install
pip安装
pip install pattern
安装出错,显示没有装mysqlclient (目前mysqlclient是安装pattern必须安装的)
error: mysql_config not found
解决方法:
apt install libmysqlclient-dev
pip install pattern
此外,直接将pattern的文件夹拉到本地需要使用的地方也是可以的

Pattern是一个全面的Python模块,用于数据挖掘、自然语言处理、机器学习和网络分析。它提供了从Web服务(如谷歌和Twitter)获取数据的工具,内置HTML解析器,支持词性标注、n-gram、情感分析以及WordNet。此外,Pattern还包括向量空间模型、KNN、SVM等机器学习算法,以及网络分析中的图形中心性和可视化功能。安装时可能需要先安装libmysqlclient-dev,然后通过pip进行安装。Pattern带有详尽的文档、单元测试和示例,是进行信息抽取和文本分析的强大工具。
2004

被折叠的 条评论
为什么被折叠?



