#资料下载
数据集与kettle阿里云下载(是伪装成mp4格式的,因为阿里云不让分享压缩包,安装解码器后就可以分离出原文件了):
https://www.aliyundrive.com/s/isM3tAFx5nk 提取码:l2e0
解码器下载:
1
https://pan.baidu.com/s/18prgug55xWsutQTV0B1q_A
提取码: 3v0p
#注意事项
- 【留存情况】中11:35处,提醒了“这里漏了,上面那个表的temp_behavior也要改成原表user_behavior”
- 【商品按热度分类】中04:37处,order by后面的“品类商品浏览量”不能直接填上一行的别名,应该要填具体的共识,具体详情更正在了【数据可视化结果】中0:30处
#数据集介绍
阿里云天池数据集: User Behavior Data from Taobao for Recommendation
字段 | 说明 |
---|---|
User ID | 整数类型,序列化后的用户ID |
Item ID | 整数类型,序列化后的商品ID |
Category ID | 整数类型,序列化后的商品所属类目ID |
Behavior type | 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav') |
Timestamp | 行为发生的时间戳 |
Behavior type | 说明 |
---|---|
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
#kettle的安装
#安装jdk8
Java开发工具包jdk
百度搜索 windows|mac 安装jdk8
https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.html
注意mac用户无论是intel还是苹果自家芯片都下载intel版的jdk8
一定是1.8版本的
#安装kettle
百度搜索 windows|mac 安装kettle
下载kettle
https://sourceforge.net/projects/pentaho/files/
下载mysql驱动mysql-connector-java
各版本下载地址:Maven Repository: mysql » mysql-connector-java (mvnrepository.com)
#运行kettle
- 将mysql驱动(.jar文件)放在bin目录下
- 进入data-integration目录下命令行运行
spoon.sh
Mac M1报错,需要设置强制用intel模式运行 spoon.sh
:
|
|
#Mac用户之包装成App
How to create simple Mac apps from shell scripts · Mathias Bynens
appify.sh
文件:
|
|
kettle.sh
文件:
|
|
然后
|
|
就形成了 kettle.app
可以用alfred查找快速打开(聚焦搜索🔍查找不到)
#快速导入一亿条数据
#数据库准备
|
|
#kettle配置
连接池100 最大空闲空间100 默认提交取消
参数配置
字段 | 值 |
---|---|
useServerPrepStmts | false |
useCompression | true |
rewriteBatchedStatements | true |
线程10-20个左右
#数据预处理
|
|
#获客情况
|
|
#留存情况
|
|
#时间序列分析
|
|
#用户转化率分析
|
|
#行为路径分析
|
|
#RFM模型
|
|
#商品按热度分类
|
|
#商品转化率分析
|
|