数据分析进阶-基于tsfresh的多变量时间序列聚类

news/2024/7/7 19:59:54

前言

上一篇博客主要尝试了基于tslearn的单变量时间序列聚类,多变量时间序列的方法经过一番搜索也没有找到合适的方式,因此考虑借助强大的时间序列特征提取工具tsfresh与KMeans尝试多变量时间序列的聚类实验

基于日消费总额+日消费次数的时间序列聚类

一、tsfresh

tsfresh可以提取的时间序列特征数量相当全面,其中对特征的中文解读建议查看以下两篇博客:

  • https://www.jianshu.com/p/de2f7d333b9f
  • https://www.jianshu.com/p/073f2c0dab39

对具体如何使用还是得好好地啃官方文档:

  • https://tsfresh.readthedocs.io/en/latest/

二、实验说明

实验利用日消费总额+日消费次数时间序列两个变量,首先基于tsfresh提取相关特征并利用Kmeans完成聚类

1.输入数据

源数据的格式如下:user, type, date1, date2, date3, …, daten,tsfresh对输入数据的格式有要求,所以首先需要对数据进行处理

import pandas as pd
def transform_data

http://www.niftyadmin.cn/n/4411289.html

相关文章

数据分析进阶-cx_Oracle的简单使用

本示例使用pandascx_Oracle完成数据的读取和插入,一开始是想尝试pd.to_sql方法,但是需要借助sqlalchemy,因此本示例单纯使用cx_Oracle import pandas as pd import cx_Oracle as cxconn cx.connect(user_name/passwordhostname:port/servic…

数据分析进阶-Excel绘制分段折线图

前言 今天1024程序员节,虽然好像和我没有特别强的关系,写篇博客蹭个勋章吧~ Excel绘制分段折线图 1、如何凸显折线图中的重点片段 (1)首先将需要重点表示的数值提取出来放置新的一行数据中,如图所示,此…

Windows-设置Python定时任务

定时弹窗提醒 环境: win8Python3.8 代码: import tkinter.messagebox tkinter.messagebox.showwarning(警告,该喝水了)设置定时任务: 1、打开任务计划程序-创建任务 2、填写任务信息 3、报错指南 可查看任务计划程序库中的上次运行结果…

数据分析进阶-Excel自动化工具包openpyxl的基础使用

安装工具包 pip install openpyxl工作簿的使用 注意读取的EXCEL文件只能是xlsx后缀的噢~ # 创建工作簿 wb openpyxl.Workbook() wb.save(demo.xlsx) # 在源文件修改后也可以作为另存为的选项# 打开工作簿 wb openpyxl.load_workbook(test.xlsx, data_onlyTrue) # 读取公式…

数据分析进阶-Python提取Word文档中的表格信息

前言 利用此方法针对大量的报名表进行信息提取~ 安装工具包 pip install python-docx表格信息 代码 注意读取的EXCEL文件只能是docx后缀的噢~若文件太多可利用以下方法批量转化 import os import docx import xlwt import shutil from win32com import client as wc# 把do…

解决ATI显卡在ubuntu 9.10下开特效有点卡的问题

解决ATI 显卡在ubuntu 下开特效有点卡的问题 ATI 3400系列显卡在ubuntu 9.10 karmic 下开特效后,感觉会有点卡,比如说在任务栏切换窗口的时候,可以感觉到明显的停顿。据说9.04 jaunty 下也有同样的问题。 具体的解决办法是通过pp…

数据分析进阶-Python绘制桑基图

前言 通过绘制桑基图来呈现不同时期用户的状态变更~ 代码 import pandas as pddata pd.read_excel(data-2.xlsx, sheet_name Sheet2)# 取桑基图的节点 node list() each_node list() for i in data[col1]:each_node.append(i)for i in data[col2]:each_node.append(i)ea…