爬虫的简单入门

1.数据来源

  • 业务库
  • 日志数据
  • 公共数据
  • 购买 – 倒卖 – 有法律风险

2.爬虫工程师技能清单

  1. python编程语言基础
  2. HTTP协议
  3. html,css,javascript基本web技能
  4. mysql/mongodb/redis等存储系统
  5. scrapy/pyspider/django
  6. 抓包工具和网页分析工具(正则,bs4,xpath,selenuim)
  7. json/csv/db

3.Python3基础内容

廖雪峰Python3教程(文档)
菜鸟教程Python3教程(文档)

python编程语言简单介绍(产生背景,优缺点,流行度)
python的开发环境搭建(linux,windows,python,pycharm)
python的hello world
python关键字查看
python的变量定义
python的数据类型(Number String List Tuple Set Dict)
python的注释(单行和段落)
python的输入输出(print 和 input)
python数据类型转换/常用数值运算/类型判断
python的集合,列表,元组,字典
python的流程控制for和while和if(break, continue, pass)
python的切片
python的代码缩进(换行,段落)
python函数(自定义函数,常用内置模块,常用函数,函数调用)
python异常
python模块(内置模块,导入模块,自定义模块)
python迭代器和生成器
python面向对象
python读写文件IO
python数据库和JSON和CSV

3.1 基本语法记录

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 同时遍历2个长度相同的 list
for i in range(len(companys)):
print(companys[i] + "," + fincs[i])

jobs # 工作岗位
companys #公司名
m
moneys # 薪资
edus # 学历
exps # 经验
cmptypes # 公司类型
fincs # 融资状态
true_tags #job 标签
c_b_s # 公司优势

4.搜索引擎基本工作原理

image-20180706103329915

5.python 基本操作 & 爬虫代码

5.1基本语法

https://github.com/airpoet/bigdata/tree/master/Python_Project/python_basic

5.2 高级语法(tcp,udp / 多线程 / 面向对象OOP / py 操作 mysql)

https://github.com/airpoet/bigdata/tree/master/Python_Project/mypython-1

5.3 爬虫

https://github.com/airpoet/bigdata/tree/master/Python_Project/spiderDemo

5.5 python 与 Hadoop / Spark 生态的交互

https://github.com/airpoet/bigdata/tree/master/Spark_Project/HBasePythonDemo

如果帮到你, 可以给我赞助杯咖啡☕️
0%