使用scrapy进行12306车票查询

立即下载用AI写一个

发布时间：2018-03-13

14人 | 浏览：5079次 | 收藏 |

技术：python3.6 + Scrapy1.5.0

运行环境：python3.6 + Twisted17.9.0 + Scrapy1.5.0

概述

通过12306的查询API进行查询某日火车票, 结果保存在csv文件中.

详细

一、环境搭建

1. 安装配置python3.6

示例网站使用的是python 3.6.1

下载地址：https://www.python.org/downloads/release/python-361/

根据自己的系统选择相应的版本

2. 安装Twisted

Windows:

进入http://www.lfd.uci.edu/~gohlk...下载对应twisted

QQ图片20180312102009.png

转到下载目录, 命令行执行：pip install Twisted-17.9.0-cp36-cp36m-win_amd64.whl

3. 安装Scrapy

mac或linux：

pip install Scrapy

windows:

pip install pywin32

pip install Scrapy

二、项目结构以及程序实现

QQ图片20180312103634.png

上图是使用scrapy startproject spider12306 命令生成的基本模板, 之后使用scrapy genspider search 12307.cn 生成了一个基本爬虫，在此基础上进行自己需要的爬虫改写.

思路：

找到网页接口——进行查询后通过chrome找到查询地址是这样的：

通过这个地址可以看出，查询是通过向https://kyfw.12306.cn/otn/leftTicket发送GET请求来执行查询的。参数一共有4个：

leftTicketDTO.train_date: 日期

leftTicketDTO.from_station: 出发站

leftTicketDTO.to_station: 到达站

purpos_codes:车票类型 ADULT 成人票

现在有一个问题，出发站和到达站用的是缩写，查询返回的结果用的也是缩写，所以我们需要知道英文缩写对应的车站，之后我就找到了这个东西：

有一个名为：station_name 的js文件，其中就记录所有的中文站名以及其缩写。

通过正则等方法将其保存为两个json文件(本人用的是笨办法)，键值对分别是：

站点名: 缩写以及缩写: 站点名方便我们将来查询

之后就可以编写爬虫了

1. 根据顺序来我们先设置起始站点为查询站点缩写的js文件

class SearchSpider(scrapy.Spider):

    name = 'search'
    allowed_domains = ['12306.cn']
    # 出发时间 日期如果小于今天  会报错的
    train_data = '2018-03-22'
    # 出发站
    from_station = '郑州'
    # 到
    to_station = '杭州'

    start_urls = ['https://kyfw.12306.cn/otn/resources/js'
                  '/framework/station_name.js?station_version=1.9048']

2. 解析并保存结果为json文件

if not os.path.exists('stations.json'):
    text = response.body.decode('utf-8')
    content = re.match('.+?(@.+)', text)
    if content:
        # 获取所有车站信息
        text = content.group(1)
        # 进行清洗后写入json文件
        l = text.split('|')
        a, b = 1, 2
        stations = {}
        search = {}
        while b < len(l):
            stations[l[a]] = l[b]
            search[l[b]] = l[a]
            a += 5
            b += 5
        stations = json.dumps(stations, ensure_ascii=False)
        with open('stations.json', 'w', encoding='utf-8') as f:
            f.write(stations)
        search = json.dumps(search, ensure_ascii=False)
        with open('search.json', 'w', encoding='utf-8') as f:
            f.write(search)
    else:
        (response.body.decode())

3. 根据需要查询的内容向查询地址发出get请求并接受查询结果

with open('stations.json', 'rb') as f:
    station = json.load(f)
query_url = 'https://kyfw.12306.cn/otn/leftTicket/queryZ?' \
            'leftTicketDTO.train_date={}&' \
            'leftTicketDTO.from_station={}&' \
            'leftTicketDTO.to_station={}&' \
            'purpose_codes=ADULT'.format(
                self.train_data, station[self.from_station],
                station[self.to_station])
yield scrapy.Request(query_url, callback=self.query_parse)

4. 解析查询结果并保存为csv文件(可使用excel打开)

通过观察发现，返回的结果都是用'|'隔开的，貌似只能用下标来定位, 所以采用了下面的方法，如果有更好的方法请联系我，谢谢！

def query_parse(self, response):
    """解析查询结果"""
    text = response.body.decode('utf-8')
    message_fields = ['车次', '始发站', '终点站', '出发站', '到达站', '出发时间', '到达时间',
                      '历时', '特等座', '一等座', '二等座', '软卧', '硬卧', '硬座', '无座']
    writer = csv.writer(open('ans.csv', 'w'))
    writer.writerow(message_fields)
    infos = json.loads(text)['data']['result']
    with open('search.json', 'rb') as f:
        search = json.load(f)
    for info in infos:
        info = info.split('|')[3:]
        if info[8] == 'N':
            continue
        row = [info[0], search[info[1]], search[info[2]], search[info[3]],
               search[info[4]], info[5], info[6], info[7], info[29],
               info[28], info[27], info[20], info[25], info[26], info[23]]
        writer.writerow(row)
    pass