领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

这个问题算是群友答疑。如果说同事或者老板给你一堆这样的数据，你估计会抓狂，该怎么处理呢?

创新互联是专业的鄂城网站建设公司，鄂城接单;提供成都网站设计、成都网站建设,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行鄂城网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

仔细观察上面数据可以发现，该数据有如下2个主要特点：

每一行的数据长度不同。第一行和第三行有4个属性，第二行有5个属性。
不同行的属性值，并不是对应排列。

解题思路剖析

你可能会想，直接用Excel分裂。其实并不可行，因为不同行的属性值，并不是对应排列。Excel分列导致的结果就是：不同的属性，存在于相同的行。

[[339071]]

放弃Excel那条路之后，我就只能寻求Python的帮助了。我们要根据数据的特点，选择合适的数据存储方法。最终问题就转化为：构造数据源，然后创建DataFrame即可。

然后根据我们这个数据的特点，我选择构造字典组成的列表这样一个数据，并利用它来创建DataFrame。

观察我提供的这个案例和待解决的问题，简直异曲同工。我们同样可以将上述数据的每一行，都变成一个个键值对组成的字典。然后最外层用一个大列表，将所有的字典包含起来。

完整代码

1)首先需要构造练习数据

 
 
 
  
  
  import pandas as pd 
  
  
  x = {"信息":["年龄:12;性别:女;身高:22;爱好:打球", 
  
  
               "年龄:12;说明:历史数据;性别:女;身高:22;爱好:打球", 
  
  
               "生日:2月3日;年龄:12;性别:女;爱好:打球"] 
  
  
      } 
  
  
  df = pd.DataFrame(x) 
  
  
  df

结果如下：

2)构造字典组成的列表

 
 
 
  
  
  tmps_list = [] 
  
  
  for data in df["信息"].values: 
  
  
      tmp_dict = {} 
  
  
      for kv in data.split(";"): 
  
  
          k, v = kv.split(":") 
  
  
          tmp_dict[k] = v 
  
  
      tmps_list.append(tmp_dict) 
  
  
  tmps

结果如下：

3)创建DataFrame

 
 
 
  
  
  df = pd.DataFrame(tmps) 
  
  
  df

结果如下：

当前文章：领导给了一堆无序杂乱的数据，我写了个Python自动化脚本
本文路径：http://www.zsjierui.cn/article/cdgcgjp.html

网站建设知识

领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

其他资讯