【Jieba】json数据处理-提取与分词

0x00 前言

之前说了怎么把数据从数据库里提取出来,然而,我们提取出来的是json串,对于想要进一步处理这些数据的孩纸们而言,还是喜欢用’\t’分割的数据来作训练集吧?(当然会用json.loads()然后当成dict来计算的孩纸们我为你们鼓掌)
最近学校的导师给了这么一个任务,大概就是要做类似的这么一件事吧,写好了所以来这里记录一下~
那么,扩展开来一点说,对于一个json串格式的数据集,我们需要提取其中的一部分,在懒得用awk来拆分拾取所需情报的情况下,应该怎么做呢?
此外,对于DataMining和MachineLearing的孩子们,还想分个词,啊啊啊是不是好烦的感觉?


TL;DR:

  1. 使用 dic = json.loads(json_string) 得到数据字典
  2. 在 json 里找到需要分词的部分,这里假设需要分词的字段叫做 content
  3. 使用 jieba 分词给需要分词的字段做分词 words = jieba.lcut(dic['content'])
  4. 按照喜欢的方法打印在文件里吧:open(my_path, 'a').write(dic['title'] + '\t' + ' '.join(words))

0x01 环境准备

  • 结巴分词
    • Github Source
    • Python 2.x 下的安装
      • 全自动安装:easy_install jieba 或者 pip install jieba
      • 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py install
      • 手动安装:将jieba目录放置于当前目录或者site-packages目录
      • 通过import jieba 来引用 (第一次import时需要构建Trie树,需要几秒时间)
    • Python 3.x 下的安装
      • https://github.com/fxsjy/jieba/tree/jieba3k
      • Git方式如下:
$ git clone https://github.com/fxsjy/jieba.git
$ git checkout jieba3k
$ python setup.py install
  • 【Update】 代码对 Python 2/3 均兼容

全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba
半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
通过 import jieba 来引用

  • Sumup:
    仔细想想……似乎就算准备好了(啊当然你要解析json你肯定得有json库对不对,然后别跟我说你没装好python啊……这些理所当然的东西我都不会算在环境配置里的哦)

0x02 代码及使用说明

分词类:Wordseg.py

import os
import sys
import jieba

def Path_make_corpus(dirname
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

糖果天王

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值