炼数成金 大数据Python
订阅

Python

用 sklearn 对 140W 个点进行 kmeans 基于密度聚类划分
用 sklearn 对 140W 个点进行 kmeans 基于密度聚类划分
任务需求:现有140w个某地区的ip和经纬度的对应表,根据每个ip的/24块进行初步划分,再在每个区域越100-200个点进行细致聚类划分由于k值未知,采用密度的Mean Shift聚类方式。0#目录:原理部分框架资源实践操作效果 ...
Python 实现一个火车票查询的工具
Python 实现一个火车票查询的工具
Python 实现一个火车票查询的工具主要功能:输入出发车站,到达车站,时间,然后返回所有的车次信息,和余票信息。支持输入附加选项查询不同的火车的类型,比如高铁,动车。使用正则表达式,将js 文件里面的车站名字 ...
Python 多进程并行编程实践 - multiprocessing 模块
Python 多进程并行编程实践 - multiprocessing 模块
并行计算是使用并行计算机来减少单个计算问题所需要的时间,我们可以通过利用编程语言显式的说明计算中的不同部分如何再不同的处理器上同时执行来设计我们的并行程序,最终达到大幅度提升程序效率的目的。众所周知, ...
Python 中 NaN 和 None 的详细比较
Python 中 NaN 和 None 的详细比较
python原生的None和pandas, numpy中的numpy.NaN尽管在功能上都是用来标示空缺数据。但它们的行为在很多场景下确有一些相当大的差异。由于不熟悉这些差异,曾经给我的工作带来过不少麻烦。 特此整理了一份详细的实验 ...
Python vs Ruby: 谁是最好的 web 开发语言?
Python vs Ruby: 谁是最好的 web 开发语言?
Python 和 Ruby 都是目前用来开发 websites、web-based apps 和 web services 的流行编程语言之一。这两种语言在许多方面有相似之处。它们都是高级的面向对象的编程语言,都是交互式脚本语言、都提供标准库且支持持 ...
改造Python中文拼音扩展库pypinyin补充自定义声母全过程
改造Python中文拼音扩展库pypinyin补充自定义声母全过程
问题要从昨天说起,应根球老师发给我一个代码问可能是啥原因,如下:该函数的第二个参数3含义为只保留声母,为啥“应”的声母丢了呢?因为当时正是课间休息,一会儿还要上课,没时间多想,感觉或许是lazy_pinyin()函 ...
Python 互联网数据处理模块介绍
Python 互联网数据处理模块介绍
互联网无处不在。即使是很小的,一次性使用的脚本都经常与远程服务进行交互以发送或接收数据。 Python有丰富的Web协议库,非常适合用于编程的基于Web服务的服务器和客户端编程。urllib和更新的urllib2可以访问web资 ...
Python机器学习实战:信用卡欺诈检测
Python机器学习实战:信用卡欺诈检测
Numpy-科学计算库 主要用来做矩阵运算,什么?你不知道哪里会用到矩阵,那么这样想吧,咱们的数据就是行(样本)和列(特征)组成的,那么数据本身不就是一个矩阵嘛。 Pandas-数据分析处理库 很多小伙伴都在说用pyth ...
如何使用Python处理Missing Data
如何使用Python处理Missing Data
现实世界的数据中常常包含缺失的数据。原因很多,比如观察结果没有记录,或数据损坏。处理缺失的数据很重要,因为许多机器学习算法不支持具有缺失值的数据库。皮马印第安人糖尿病数据集根据现有的医疗信息预测5年内 ...
5 个开源 Python 库,让机器学习更简单
5 个开源 Python 库,让机器学习更简单
机器学习令人兴奋,但实际操作却很困难也很复杂。它涉及到很多手动操作,如集合工作流和管道,设置数据源,以及在内部部署与云部署的资源之间切换等。Python 是一款强大的工具语言,被广泛应用在大数据和机器学习之 ...
从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境
从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境
一般而言,大型的神经网络对硬件能力有着较高的需求——往往需要强劲的 GPU 来加速计算。但是你也许还是想拿着一台笔记本坐在咖啡店里安静地写 TensorFlow 代码,同时还能享受每秒数万亿次的浮点运算(teraFLOPS)速 ...
python 浅谈正则的常用方法
python 浅谈正则的常用方法
首先你得导入正则方法 import re 正则表达式是用于处理字符串的强大工具,拥有自己独立的处理机制,效率上可能不如str自带的方法,但功能十分灵活给力。它的运行过程是先定一个匹配规则(”你想要的内容+正则语法规 ...
python 数据分析笔记——数据加载与整理
python 数据分析笔记——数据加载与整理
文本中缺失值处理,缺失数据要么是没有(空字符串),要么是用某个标记值表示的,默认情况下,pandas 会用一组经常出现的标记值进行识别,如 NA 、NULL 等。查找出结果以 NAN 显示。对于不是使用固定分隔符分割的表 ...
如何使用 Pylint 来规范 Python 代码风格
如何使用 Pylint 来规范 Python 代码风格
Pylint 是一个 Python 代码分析工具,它分析 Python 代码中的错误,查找不符合代码风格标准(Pylint 默认使用的代码风格是 PEP 8,具体信息,请参阅参考资料)和有潜在问题的代码。目前 Pylint 的最新版本是 pylint- ...
Python 标准库系列之模块介绍
Python 标准库系列之模块介绍
Python的模块其实就是封装了一个或者多个功能的代码集合,以便于重用,模块可以是一个文件也可以是一个目录,目录的形式称作包。内置模块可以理解成当你安装好python环境之后,直接可以使用import导入的就是内置模块 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-12-15 07:59 , Processed in 0.112235 second(s), 16 queries .