1.数据来源
- 业务库
- 日志数据
- 公共数据
- 购买 – 倒卖 – 有法律风险
2.爬虫工程师技能清单
- python编程语言基础
- HTTP协议
- html,css,javascript基本web技能
- mysql/mongodb/redis等存储系统
- scrapy/pyspider/django
- 抓包工具和网页分析工具(正则,bs4,xpath,selenuim)
- json/csv/db
3.Python3基础内容
廖雪峰Python3教程(文档)
菜鸟教程Python3教程(文档)
python编程语言简单介绍(产生背景,优缺点,流行度)
python的开发环境搭建(linux,windows,python,pycharm)
python的hello world
python关键字查看
python的变量定义
python的数据类型(Number String List Tuple Set Dict)
python的注释(单行和段落)
python的输入输出(print 和 input)
python数据类型转换/常用数值运算/类型判断
python的集合,列表,元组,字典
python的流程控制for和while和if(break, continue, pass)
python的切片
python的代码缩进(换行,段落)
python函数(自定义函数,常用内置模块,常用函数,函数调用)
python异常
python模块(内置模块,导入模块,自定义模块)
python迭代器和生成器
python面向对象
python读写文件IO
python数据库和JSON和CSV
3.1 基本语法记录
1 | # 同时遍历2个长度相同的 list |
4.搜索引擎基本工作原理
5.python 基本操作 & 爬虫代码
5.1基本语法
https://github.com/airpoet/bigdata/tree/master/Python_Project/python_basic
5.2 高级语法(tcp,udp / 多线程 / 面向对象OOP / py 操作 mysql)
https://github.com/airpoet/bigdata/tree/master/Python_Project/mypython-1
5.3 爬虫
https://github.com/airpoet/bigdata/tree/master/Python_Project/spiderDemo
5.5 python 与 Hadoop / Spark 生态的交互
https://github.com/airpoet/bigdata/tree/master/Spark_Project/HBasePythonDemo