小小羊

科研彩图常用的配色方案-ColorBrewer的使用

2020-03-13T00:00:00+00:00

前段时间师兄推荐一个科研图常用配色系统Colorbrewer非常不错，好的彩图配色方案能增加你文章的整体的观感，更容易让人接受能。好的彩色配色方案应该具有高的区分度，能让人一眼能分清 legend 展示和相对应图中各个曲线或者柱状图。后来发现到 ggplot2 和 Adobe illustrator 中都有相应的调色版非常方便，记录下使用方法。

1 使用Colorbrewer网站获取颜色

Colorbrewer2.0网站

Colorbrewer2.0使用说明

sequential: 连续型单渐变色，色彩由一种颜色并且从浅到深排列。这种色彩组合适用于连续型数据展示。
diverging: 离散型双渐变色，色彩由一种到另一种颜色的高区度排列。这种色彩组合适用于离散数据的展示。
qualitative: 高区分度色。色彩由区分度极高的颜色组成。这种颜色适用于高区分度曲线或者柱状图使用。
Colorbrewer2.0 最多提供12种颜色组合,基本能应付所有画图组合。
Colorbrewer2.0 提供的十六进制的色彩代码例如 #762a83 和 #5aae61

2 使用 R 语言的 RColorBrewer包提供的色彩方案

使用 display.brewer.all() 查看 RColorBrewer 包的调色版

> library(RColorBrewer)
> display.brewer.all()

使用 brewer.pal.info 命令查看色彩系统。

> brewer.pal.info
         maxcolors category colorblind
BrBG            11      div       TRUE
PiYG            11      div       TRUE
PRGn            11      div       TRUE
PuOr            11      div       TRUE
RdBu            11      div       TRUE
RdGy            11      div      FALSE
RdYlBu          11      div       TRUE
RdYlGn          11      div      FALSE
Spectral        11      div      FALSE
Accent           8     qual      FALSE
Dark2            8     qual       TRUE
Paired          12     qual       TRUE
Pastel1          9     qual      FALSE
Pastel2          8     qual      FALSE
Set1             9     qual      FALSE
Set2             8     qual       TRUE
Set3            12     qual      FALSE
Blues            9      seq       TRUE
BuGn             9      seq       TRUE
BuPu             9      seq       TRUE
GnBu             9      seq       TRUE
Greens           9      seq       TRUE
Greys            9      seq       TRUE
Oranges          9      seq       TRUE
OrRd             9      seq       TRUE
PuBu             9      seq       TRUE
PuBuGn           9      seq       TRUE
PuRd             9      seq       TRUE
Purples          9      seq       TRUE
RdPu             9      seq       TRUE
Reds             9      seq       TRUE
YlGn             9      seq       TRUE
YlGnBu           9      seq       TRUE
YlOrBr           9      seq       TRUE
YlOrRd           9      seq       TRUE

从上到下依次是 diverging, qualitative, sequential 分类以及每类颜色个个数。

使用 display.brewer.pal() 查看具体每个配色方案

display.brewer.pal(8,"Set1") 

使用 brewer.pal(8,”Set1”) 获取十六进制颜色代码

 > brewer.pal(8,"Set1")
 [1] "#E41A1C" "#377EB8" "#4DAF4A" "#984EA3" "#FF7F00" "#FFFF33" "#A65628" "#F781BF"

使用 colorRampPalette() 自定义颜色数量

cols<-brewer.pal(8, "YlGnBu")
pal<-colorRampPalette(cols)
mycolors<-pal(20)
image(1 : length(mycolors), 1, as.matrix(1 : length(mycolors)), col = mycolors ,xlab =  "", ylab = "", xaxt = "n", yaxt = "n", bty = "n")

3 在Adobe Illustrator 中使用 ColorBrewer 调色版

AI中直接配有科学色彩库方便科学用色，依次菜单窗口—>色板—>色板库—>科学,选择需要的颜色。

参考

计算1亿对Hamming distance仅需5ms的Java源码bitCount解析

2019-04-28T00:00:00+00:00

汉明距离（Hamming Distance）的基本思想很简单，就是找不同。当求由01二进制组成的向量间的汉明距离可以由位运算直接进行，速度非常快。好的算法能让计算速度达到极快，Java内置bitCount源码就实现了一种速度极快的算法。在Linux机器（CPU: i7-4790 @ 3.6GHz）测试了1亿对汉明距离只用0.5ms，是普通算法的196倍。

测试1亿对汉明距离结果

测试基于32位的01二进制数进行的。

测试类：

import java.util.Arrays;
import java.util.Random;

public class testHammingDistance {

    //生成1亿个随机32位的Int类型数
    public static int[] randomInt(int num, int seed) {
        int[] a = new int[num];
        Random r = new Random(seed);
        Arrays.setAll(a, w -> r.nextInt());
        return a;
    }

    //调用Java bitCount 求汉明距离
    public static int hammingDistance1(int hash1, int hash2) {
        int i = hash1 ^ hash2;
        return Integer.bitCount(i);
    }

    //求解正数的二进制汉明距离
    public static int hammingDistance2(int hash1, int hash2){
        int num = hash1 ^ hash2;
        int count = 0;
        for(; num > 0; count++)
        {
            num &= (num - 1);
        }
        return count;
    }

    //主函数测试1亿对
    public static void main(String[] args) {

        int tem = 4324523;
        int[] all = randomInt(100000000,123);
        long startTime = System.currentTimeMillis();

        for (int x:all){
            int tem1 = hammingDistance1(tem,x);
        }
        long endTime = System.currentTimeMillis();


        long startTime2 = System.currentTimeMillis();
        for (int x:all){
            int tem2 = hammingDistance2(tem,x);
        }
        long endTime2 = System.currentTimeMillis();

        System.out.println("hammingDistance1 time used: " + (endTime-startTime) + "ms");
        System.out.println("hammingDistance2 time used: " + (endTime2-startTime2) + "ms");

    }
}

结果：

hammingDistance1 time used: 5ms
hammingDistance2 time used: 980ms

Process finished with exit code 0

一般算法

求汉明距离的核心是在数两个二进制数求&运算后1的个数，求1的个数最容易想到的是循环整个二进制获得1的个数。如下算法:

public int numberOf1(int hash1, int hash2){

    int num = hash1 ^ hash2;
	int count = 0;

	while(n!=0){

		if((num & 1) == 1){
			++count;
		}
		n = n >> 1;
	}
	return count;

这种方法很容易理解，就是每次循环的时候对1取&操作，若结果等于1就统计出了一个1，然后每次循环后右移>>使高位的0或1移动到低位。这种算法的时间复杂度为O(n),其中n表示bit的位数。

优化算法

    public int hammingDistance2(int hash1, int hash2){

        int num = hash1 ^ hash2;

        int count = 0;

        for(; num > 0; count++)
        {
            num &= (num - 1);
        }

        return count;
    }

优化后的方法通过二进制的运算法则进行优化，优化后的时间复杂度仍然为O(n)，但是这里的n代表着1的个数最差的结果n才代表bit位，比第一个算法n代表bit位要好。二进制的运算原则是逢二进一，每次循环时候我都让num减去1通过跟自身&操作消除低位1，最后num<0循环停止。有多少个1就循环多少次。

例如，二进制0b1110统计为3个1的过程如下：

// 第一次迭代:
0b1110 - 1 = 0b1110 - 0b0001 = 0b1101
0b1110 & 0b1101 = 0b1100

// 第二次迭代：
0b1100 - 1 = 0b1100 - 0b0001 = 0b1011
0b1100 & 0b1011 = 0b1000

// 第三次迭代：
0b1000 - 1 = 0b1000 - 0b0001 = 0b0111
0b1000 & 0b0111 = 0b0000

Java源码bitCount算法

Java的32位二进制Integer.bitCount源码如下：

    public static int bitCount(int i) {
    i = i - ((i >>> 1) & 0x55555555);
    i = (i & 0x33333333) + ((i >>> 2) & 0x33333333);
    i = (i + (i >>> 4)) & 0x0f0f0f0f;
    i = i + (i >>> 8);
    i = i + (i >>> 16);
    return i & 0x3f;
    }

Java源码实现了复杂度为O(1)的算法

当我们想知道一个二进制数中有多少个1时候最容易想到的方法就如前两种方法一个一个的数，数一下一共多少个1就完事了。但是Java源码使用的方法是先两个一对儿数一下有多少个1，存到原来的位置。然后对上面的数的结果再成对统计以此类推。

以8位为例，算法思想如下：

       二进制                         十进制(count个数)
1  0   1  1   1  1   0  1      1  0   1  1   1  1   0  1
 \/     \/     \/     \/        \/     \/     \/     \/
 01     10     10     01        1      2       2      1
   \   /         \   /           \    /        \    /
   0011           0011             3              3
      \          /                 \             /
          0110                             6

这种count方法就如一个倒立的二叉树一样。每一层的节点个数为2^(n-1)个，也就是说对于32位的二进制2^(n-1)=32，n=5。所以，我们只需要数5次，对于64位二进制只需要数6次就能知道二进制中有多少个1了，这种方法实现了时间复杂度为O(1)优秀算法。

Java源码算法实现机理

Java源码中每次&运算各个数的二进制，主要是为了抹除成对统计时候的左位（进行右移位运算时候高位对低位产生的影响）。

0x55555555  ‭0b01010101010101010101010101010101‬
0x33333333  ‭0b00110011001100110011001100110011‬
0x0f0f0f0f  ‭0b00001111000011110000111100001111‬
0x00ff00ff  0b00000000111111110000000011111111
0x0000ffff  ‭0b00000000000000001111111111111111‬
0x3f        ‭0b00111111‬

算法实现

i & 0x55555555实现整数i抹除左一位，然后错位相加。 (i »> 1) & 0x55555555表示：左位移到右边，再把左位抹除，这样就可以计算两个bit位上1的个数了：0b1011=>0b0001 + 0b0101 = 0b0110左两位有1个1，右两位有2个1。这时i中存储了每两位的统计结果，可以进行两两相加，最后求和

0b11 11 11 11 11    (i & 0x55555555) + ((i >>> 1) & 0x55555555)  = 0b0101010101‬ + 0b0101010101 = 0b1010101010
0b10 10 10 10 10    (i & 0x33333333) + ((i >>> 2) & 0x33333333) = 0b1000100010 + 0b00100010 = 0b1001000100
0b10 01 00 01 00    (i & 0x0f0f0f0f) + ((i >>> 4) & 0x0f0f0f0f) = 0b1000000100 + 0b0100 = 0b1000001000
0b10 00 00 10 00    (i & 0x00ff00ff) + ((i >>> 8) & 0x00ff00ff) = 0b1000 + 0b10 = 0b1010
0b00 00 00 10 10    (i & 0x0000ffff) + ((i >>> 16) & 0x0000ffff) = 0b1010 + 0 = 0b1010
dec           10

算法原型

public static int bitCount(int i) {
  i = (i & 0x55555555) + ((i >>> 1) & 0x55555555);
   i = (i & 0x33333333) + ((i >>> 2) & 0x33333333);
   i = (i & 0x0f0f0f0f) + ((i >>> 4) & 0x0f0f0f0f);
   i = (i & 0x00ff00ff) + ((i >>> 8) & 0x00ff00ff);
   i = (i & 0x0000ffff) + ((i >>> 16) & 0x0000ffff);
   return i;
}

原型优化

1.算法第一步可以优化为：i = i - ((i »> 1) & 0x55555555); 减少一次位运算。原理如下：

对于两位二进制有如下规律：

= 00 - 00;
= 01 - 00;
= 10 - 01;
= 11 - 01;

所以，在统计两位中1的个数的时候可以由算法i = i - (i»>1)得到，如果大于两位，为了避免高位右移时候对低位产生的影响，可以通过对01进行&运算的方法抹除这种影响。

两位&运算如下:

i = i - (i>>>1&01)

推广到32位：

i = i - ((i >>> 1) & 0x55555555)

2.算法第二步没有优化方法

3.算法第三步：实际是计算每个byte中的1的数量，最多8（0b1000）个，占4bit，可以最后进行位与运算消位，减少一次&运算：i = (i + (i »> 4)) & 0x0f0f0f0f

4.第四,五步：同上理由，可以最后消位。但是由于int最多32（0b100000）个1，所以这两步可以不消位，最后一步把不需要的bit位抹除就可以了：i & 0x3f

最后得到Java源码最简洁的写法。

Java位运算符

操作符	描述
＆	如果相对应位都是1，则结果为1，否则为0
\|	如果相对应位都是0，则结果为0，否则为1
^	如果相对应位值相同，则结果为0，否则为1
〜	按位取反运算符翻转操作数的每一位，即0变成1，1变成0。
«	按位左移运算符。各二进制位全部左移若干位，高位丢弃，低位补0
»	按位右移运算符。各二进制位全部右移若干位，高位补符号位
»>	按位右移补零操作符。左操作数的值按右操作数指定的位数右移，移动得到的空位以零填充。

参考：

java源码Integer.bitCount算法解析

Java 创建销毁对象——静态工厂方法

2019-02-27T00:00:00+00:00

什么是静态工厂方法？在 Java 中，获得一个类实例常常使用 new 关键字，通过构造函数来实现对象的创建。不通过 new，而是用一个静态方法来对外提供自身实例的方法，即为静态工厂方法(Static factory method)。

使用静态工厂方法的优势

Effective Java中有如下总结:
1. 静态工厂方法与构造器不同的第一优势在于，它们有名字。
2. 不必在每次被调用时都创建新对象。
3. 可以返回原返回类型的任何子类对象。
4. 在创建参数化类型实例的时候，能使代码变得简洁。

1.静态工厂方法与构造器不同的第一优势在于，它们有名字

例如：Boolean类的一个构造方法，以及通过该构造方法创建一个Boolean对象；

public Boolean(String s) {
        this(toBoolean(s));
    }

Boolean bTrue = new Boolean("true");

使用静态工厂方法可以如下

public static Boolean valueOf(String s) {
        return toBoolean(s) ? TRUE : FALSE;
    }

Boolean bTrue = Boolean.valueOf("true");

在这里我们使用 valueOf 在实例化一个对象，并没有使用 new 关键字，同时实例化时候使用了新的名称 valueOf 而不是 Boolean构造器的名称。

2.不必在每次被调用时都创建新对象

JDK中的Boolean类的valueOf方法就是使用这个优势，在Boolean类中，有两个事先创建好的Boolean对象（True,False）（静态类的原因），并不是每次调用时候在重新创建，增加 JVM 开销
例如：

public final class Boolean implements java.io.Serializable,
                                      Comparable<Boolean>
{
    /**
     * The {@code Boolean} object corresponding to the primitive
     * value {@code true}.
     */
    public static final Boolean TRUE = new Boolean(true);

    /**
     * The {@code Boolean} object corresponding to the primitive
     * value {@code false}.
     */
    public static final Boolean FALSE = new Boolean(false);

使用Boolean.valueOf(“true”)静态工厂方法调用时候返回的就是这两个实例的引用。这样可以避免每次调用都自重复创建对象。

    public static Boolean valueOf(String s) {
        return toBoolean(s) ? TRUE : FALSE;
    }

3.可以返回原返回类型的任何子类对象。

我们在选择返回对象的类时，使用静态工厂方法就更有灵活性。这种灵活性的一种应用是API可以返回对象，同时又不会使对象的类变成公有的。这种方式隐藏实现类会使API变得非常简洁。对于构造方法只能返回确切的自身类型，而静态工厂方法则能够更加灵活，可以根据需要方便地返回任何它的子类型的实例。
例如:

Class Person {
    public static Person getInstance(){
        //直接返回子类
        return new Player()
        // return new Cooker()
    }
}
// 子类
Class Player extends Person{
}
// 子类
Class Cooker extends Person{
}

4.在创建参数化类型实例的时候，能使代码变得简洁。

主要对与泛型书写简化：
例如：

Map<String,Date> map = new HashMap<String,Date>();

//更加简洁，不需要重复指明类型参数，可以自行推导出来
Map<String,Date> map = new HashMap.newInstance();

Java7以后的版本对于一个已知类型的变量进行赋值时，由于泛型参数是可以被推导出，所以可以在创建实例时省略掉泛型参数。所以这个优势实际上以及不存在了。

静态工厂方法额外的用处

1.可以有多个参数相同但名称不同的工厂方法

例如:

class Child{
    int age = 10;
    int weight = 30;
    public static Child newChild(int age, int weight) {
        Child child = new Child();
        child.weight = weight;
        child.age = age;
        return child;
    }
    public static Child newChildWithWeight(int weight) {
        Child child = new Child();
        child.weight = weight;
        return child;
    }
    public static Child newChildWithAge(int age) {
        Child child = new Child();
        child.age = age;
        return child;
    }
}

2.可以减少对外暴露的属性

这种方法也常常使用枚举来代替常量值来设置，当然如果不想用枚举的话，静态工厂方法也是一个很好的办法。
例如：

class Player {
    public static final int TYPE_RUNNER = 1;
    public static final int TYPE_SWIMMER = 2;
    public static final int TYPE_RACER = 3;
    int type;

    private Player(int type) {
        this.type = type;
    }

    public static Player newRunner() {
        return new Player(TYPE_RUNNER);
    }
    public static Player newSwimmer() {
        return new Player(TYPE_SWIMMER);
    }
    public static Player newRacer() {
        return new Player(TYPE_RACER);
    }
}

参考:

Effective java 中文版（第2版）

关于 Java 的静态工厂方法，看这一篇就够了

Python 快速打包发布软件PyPi上

2018-08-06T00:00:00+00:00

PyPi是一个python包的仓库，就如 R 的CRAN和 perl 的CPAN一样，里面有很多别人打包发布的python包，你可以通过easy_install或者pip进行安装,方便用户更方面的使用你的代码模块。本文记录了如何创建自己的 Python 包,以及打包发布到PyPi上。

首先安装打包必要的工具

打包必须依赖工具

sudo pip install setuptools

方便上传工具

sudo pip install twine

在PyPi官网注册一个PyPi个人账户如下

账户和密码本地配置

可以配置到$HOME/.pypirc文件中，就不用多次输入了

[pypi]
username = <username>
password = <password>

配置本地打包配置文件`setup.py`

from setuptools import setup, find_packages

from version.version import VERSION

GFICLEE_VERSION = VERSION

setup(
    name='GFICLEE',
    version=GFICLEE_VERSION,
    packages=find_packages(),
    entry_points={
        "console_scripts": ['GFICLEE = predict.main:main']
    },
    install_requires=[
        "numpy==1.14.3",
        "pandas==0.22.0",
    ],
    url='https://github.com/yangfangs/GFICLEE',
    license='GNU General Public License v3.0',
    author='Yang　Fang',
    author_email='yangfangscu@gmail.com',
    description='Gene function inferred by common loss evolution events'
)

这些是打包必要的说明对应如下：

名称	说明
name	项目名称
version	项目版本
packages	项目包含的数据
entry_points	项目的主入口
install_requires	项目依赖包
url	项目地址
author	项目作者
author_email	作者邮箱
description	项目简要描述

注：项目版本一般不直接写入setup.py中,一般另写其他Python脚本中然后导入，便于统一管理和发布新版本。 packages可以使用 find_packages()函数实习本项目内自动寻找。

打包

打包前可以先check一下


python setup.py check

执行打包命令

python setup.py sdist

打包完成会生成相应的文件保存在 dist/目录下名为tar.gz结尾文件

发布Python 包

1.在Home新建一个隐藏文件名为.pypirc，写入PyPi账户以及密码信息，这样每次上传不需要再繁琐的输入用户名和密码了。

[distutils]
index-servers =
    pypi

[pypi]
username:your_username
password:your_password

2.本地测试

python setup.py install

3.注册包

上传前需要注册一下包的名称，因为这个名称必须独一无二，如被占用则注册不通过。

python setup.py register

4.检测是否符合Pypi要求


twine check dist/**_.tar.gz

5.上传

twine upload dist/**_.tar.gz

完成上传你就可以在Pypi上看到你上传的包了。并且可以使用pip install安装你的包了。

使用markdown 格式的readme文件

from setuptools import setup

# read the contents of your README file
from os import path
this_directory = path.abspath(path.dirname(__file__))
with open(path.join(this_directory, 'README.md'), encoding='utf-8') as f:
    long_description = f.read()

setup(
    name='an_example_package',
    # other arguments omitted
    long_description=long_description,
    long_description_content_type='text/markdown'

)

似然（likelihood）与概率（probability）的区别

2018-04-06T00:00:00+00:00

很多时候基础的概念没搞懂，或者知道了只知道照着例子套用，知其然而不知其所以然。对于知识的理解只能到达会运用的层面。而对于知识的创新运用是远远不足的。

似然和概率在统计学中是经常见到的两个术语，有时候这两个概念是一个意思，有时候却有很大区别。这里梳理下这两个术语所代表的具体含义。

本文中数学符号及含义

符号	含义
$O$	观测值
$\theta$	随机过程中的参数
$\hat{\theta}$	参数的估计
$P (O \| \theta)$	概率
$L(\theta \| O) $	释然

wiki中关于“似然”和“概率”的解释

在频率推论中，似然函数（常常简称为似然）是一个在给定了数据以及模型中关于参数的函数。在非正式情况下，“似然”通常被用作“概率”的同义词。
在数理统计中，两个术语则有不同的意思。“概率”描述了给定模型参数后，描述结果的合理性，而不涉及任何观察到的数据。而“似然”则描述了给定了特定观测值后，描述模型参数是否合理。

例如

“概率”描述了给定模型参数后，描述结果的合理性，而不涉及任何观察到的数据。

抛一枚均匀的硬币，拋20次，问15次拋得正面的可能性有多大？这里的可能性就是”概率”，均匀的硬币就是给定参数$\theta=0.5$，“拋20次15次正面”是观测值$O$。求概率$P (H=15 | \theta=0.5) = ？$的概率。

“似然”描述了给定了特定观测值后，描述模型参数是否合理。

拋一枚硬币，拋20次，结果15次正面向上，问其为均匀的可能性？这里的可能性就是”似然”，“拋20次15次正面”为观测值$O$为已知，参数$\theta=?$并不知道，求$L(\theta | H=15) = P (H=15 | \theta=0.5)$的最大化下的$\theta$ 值。

离散随机变量角度看待“似然”与“概率”

当我们在处理离散型随机变量时候，（例如，掷10硬币的结果这样的数据时候）。这时候我们就可以根据观测到的结果计算这种结果出现的概率概率，当然这有一个前提是硬币是均匀的，和掷硬币的事件都是独立的。这时我们想要计算的就是“概率”用$P(O | \theta)$来表示。换个角度可以理解为，当给定了特定的参数$\theta$时候，$P(O | \theta)$就是我们观测到$O$观测值时候的概率。但是，当我们想来刻画一个实际的随机过程时候，我们常常并不知道$\theta$参数是什么。我们只有观测值$O$，基于这个观测值我们往往想得到一个关于$\theta$的估计值$\hat{\theta}$。当给定$\theta$ 时候我们可以得到观测值$O$是$P (O | \theta)$。当然反过来，对于估计过程是在选择一个$\hat{\theta}$最大值，这个值就等价于真实观测值$O$的概率。换而言之，是在寻找一个值$\hat{\theta}$的最大化使得

\[L(\theta | O) = P (O | \theta)\]

这个$L(\theta | O)$就叫做似然函数。很明显这是一个在已知观测值$O$为条件关于未知参数$\theta$的似然函数。

从连续型随机变量角度看待“似然”与“概率”

对于连续型随机变量与离散随机变量有一个非常重要的区别，就是人们不会去关注给定$\theta$后观测值$O$得概率。因为，连续型随机变量存在无限多的结果（无限可分），这些结果是无法被穷尽的。我们给出某一个结果对应的概率是没有意义的（连续型随机变量产生的结果是无限的，落在任何一个“可能的结果”上的概率几乎都为0，也就是$P(O | \theta) = 0 )$。当然，可以变换一种方式既给出落在结果区间范围上的概率，而非给出单个结果的概率，来解决这个问题。对于观测值$O$，可以用概率密度函数(PDF:probability density function)来表示为：$f(O|\theta)$。因此，在连续的情况下，我们通过最大化以下函数来估计观察到的结果$O$：

\[L(\theta | O) = f(O | \theta)\]

在这种情况下，我们不能在技术上断言我们找到最大化观察$O$的概率的参数值，因为我们最大化的是与观察结果$O$相关的PDF。

“似然”和“概率”是站在两个角度看待问题

对于这个函数：

\[P (O | \theta)\]

输入有两个：$O$表示某一个具体的数据；$\theta$表示模型的参数。

如果$\theta$是已知确定的，$O$是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本$O$，其出现概率是多少。
如果$O$是已知确定的，$\theta$是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，出现x这个样本点的概率是多少。

参考：

Python并行计算

2017-11-10T00:00:00+00:00

　　当你在使用 Python 进行 for 循环时候，发现计算的效率及其慢的时候，完全可以考虑使用 Python 的并行操作，毕竟这么多核心不用也是一种浪费。还有 Python 标准库提供了并行库相当的简洁好用。

Python中的标准库

　　Python 标准库中有两个提供并行计算一个是multiprocessing, 另一个是 threading,推荐使用 multiprocessing, 当只有I/O密集型操作时候才有用到threading的必要。当然由于 Python 的 Global interpreter lock存在，导致 Python 不能进行并行编程，只能进行并发编程。

多进程`multiprocessing`的使用

multiprocessing模块还是非常好用的。

单参数函数执行并计算

import multiprocessing

def f(x):
    return x*x

# Get all cores
cores = multiprocessing.cpu_count()
# start a pool
pool = multiprocessing.Pool(processes=cores)

tasks = [1,2,3,4,5]

# do parallel calculate
print(pool.map(f,tasks))

其实map函数在执行的时候就已经是并行操作了，只不过multiprocessing模块集成了map方法

多参数函数执行并行计算

Python3 中使用`starmap`方法来实现

import multiprocessing

def add(x, y):
	return x+y

# Get all worker processes
cores = multiprocessing.cpu_count()

# Start all worker processes
pool = multiprocessing.Pool(processes=cores)
x1 = list(range(5))
y1 = list(range(5))

tasks = [(x,y) for x in x1 for y in y1]

print(pool.starmap(add,tasks))

Python2 中需要一个函数对多参数函数包装下

import multiprocessing

def add(x, y):
	return x+y

def merge_add(args):
	return add(*args)


# Get all worker processes
cores = multiprocessing.cpu_count()

# Start all worker processes
pool = multiprocessing.Pool(processes=cores)
x1 = list(range(5))
y1 = list(range(5))

tasks = [(x,y) for x in x1 for y in y1]

print(pool.map(merge_add,tasks))

参考

CentOS 中安装 Python3

2017-10-01T00:00:00+00:00

　　由于 CentOS 默认使用的是 Python2, 并且默认的 yum 官方源不提供 Python3　的镜像，所以只有自己动手安装了。

安装必须的依赖

首先在管理员权限下安装好所有的依赖,不然会出现各种各样的报错和问题。

yum -y install zlib-devel bzip2-devel libffi-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make

获取 Python3 的最新安装包

这里获取的是当前最新的稳定版本 3.7.1 可以在 Python官网获取最新发布版本。


wget "https://www.python.org/ftp/python/3.7.1/Python-3.7.1.tar.xz"

解压和安装

解压

xz -d Python-3.7.1.tar.xz
tar xf Python-3.7.1.tar -C /usr/local/src/
cd /usr/local/src/Python-3.7.1/

安装

./configure --prefix=/opt/python3
make all
make install
make clean

查看安装好的 Python3 版本信息

/opt/python3/bin/python3 -V

软链接到当先用户


ln -s /opt/python3/bin/python3 /usr/bin/python3

脚本使用python3

在 Python 脚本前加入注释行

#! /usr/bin/env python3

参考

Python 中 map(), filter(), reduce() 和 zip() 函数的用法

2017-08-23T00:00:00+00:00

　　Python 自带模块的数据结构屈指可数，list是一个随时都在用的数据结构，对list进行操作python内置了几个函数对python的list进行操作时候非常方便。

map()函数——作用于list每一个元素

map()是 Python 内置的高阶函数，它接收一个函数 f() 和一个 list，并通过把函数 f 依次作用在 list 的每个元素上，得到一个新的 list 并返回。(这个函数与 R 中的 lapply 非常相似)
用法map(function, sequence)

轻松转换 list 中元素类型：

例如 chr 类型转换成 int

l = ['1','2','3','4']
list(map(int,l))

Out[2]: [1, 2, 3, 4]

编写独立函数作用与 list 中每一个元素：

例如对 list 中每一个元素求平方

def f(x):
    return x**2

l =[1,2,3,4]

list(map(f,l))

Out[3]: [1, 4, 9, 16]

使用匿名函数操作：

l =[1,2,3,4]
list(map(lambda x: x**2, l))

Out[4]: [1, 4, 9, 16]

同时操作两个 list(并行非多核运算)

l =[1,2,3,4]
list(map(lambda x,y: x+y,l,l))

Out[5]: [2, 4, 6, 8]

注：python3 和 python2 中map()的返回值不一样， python2 中直接返回列表，python需要加list()转换取值。

filter()函数——筛选函数

按照 function 函数的规则在列表 sequence 中筛选数据
用法：filter(function, sequence)

筛选 list 中符合条件的值

l =[1,2,3,4]
filter(lambda x: x>2, l)

Out[6]: [3, 4]

filter() 与 map() 返回值不同

l =[1,2,3,4]
map(lambda x: x>2, l)

Out[8]: [False, False, True, True]

reduce()——求积累运算

reduce函数功能是将 sequence 中数据，按照 function 函数操作，如将列表第一个数与第二个数进行 function 操作，得到的结果和列表中下一个数据进行 function 操作，一直循环下去…
用法reduce(function, sequence):

求积累和

l =[1, 2, 3, 4]
reduce(lambda x,y: x+y, l)

Out[10]: 10

zip()打包函数

zip()是 Python 的一个内建函数，它接受一系列可迭代的对象作为参数，将对象中对应的元素打包成一个个tuple（元组），然后返回由这些tuples组成的list（列表）。若传入参数的长度不等，则返回 list 的长度和参数中长度最短的对象相同。利用*号操作符，可以将list unzip（解压）。
用法: zip(list,list)

zip()基本用法

l1 = [1, 2, 3, 4]
l2 = ['a', 'b', 'c', 'd']

zip(l1,l2)
Out[12]: [(1, 'a'), (2, 'b'), (3, 'c'), (4, 'd')]

使用`*`逆过程

l1 = [1, 2, 3, 4]
l2 = ['a', 'b', 'c', 'd']
zip_l1_l2 = zip(l1,l2)
zip(*zip_l1_l2)

Out[17]: [(1, 2, 3, 4), ('a', 'b', 'c', 'd')]

zip 构造字典

l1 = [1, 2, 3, 4]
l2 = ['a', 'b', 'c', 'd']
zip_l1_l2 = zip(l1,l2)

dict(zip_l1_l2)

Out[18]: {1: 'a', 2: 'b', 3: 'c', 4: 'd'}

JavaFx 及其在 IntelliJ IDEA 中配置使用及发布

2017-07-28T00:00:00+00:00

　　学习一下 GUI 的开发，想来想去几种语言中比较合适的还是 Java。有几个优点是其他几种语言无法比拟的。

Java语言的跨平台性，Linux，Windows，Mac OS，只要装个 Jre，都能运行。
面向对象编程和很多非常优秀的接口可以使用。
性能优秀并不用像使用C语言一样担心内存问题。
与 C++ 相比,的确 C++ 实现的GUI更加绚丽和元素更加丰富，但是对于科学计算用的 GUI 设计， Java 足够了。

　　所以学习一下 Java 的 GUI 开发，发现 Java 的 GUI 开发框架也是不少的，主要流的 GUI 开发框架有两个：

Swing 同时有支持可视化开发的 WindowBuilder
JavaFX 同时有支持可视化开发的 SceneBuilder

　　JavaFX 是 SUN 公司在 2007 年 JavaOne 大会上首次对外公布，在 2001 年发布了 2.0 版本。而 AWT 和 Swing API 早在 1996(JDK 1.0) 年就形成，在 1998 年JDK 1.2全面添加。JavaFx已经被集成到 Java 8 的标准库中。所以还是非常值得探究学习的。本文记录下 JavaFX SceneBuilder 安装及其在 IntelliJ IDEA 中的配置

需要安装

IntelliJ IDEA 中配置 SceneBuilder

设置 SceneBuilder 路径

依次打开File->Setting->Languages&Frameworks->JavaFx设置启动 SceneBuilder 的路径

创建一个 JavaFx 项目

依次打开 File->New->project选择JavaFx,如果安装多个版本 SDK，选择 Java8。

在 IntelliJ IDEA 中打开 SceneBuilder

创建完成后会自动生成一个样本项目。包括两个类一个逻辑控制类 Controller 和一个主函数类 Main 以及一个 fxml 格式的配置文件，右键点击 fxml 格式文件选择 Open in SceneBuilder:

发布 JavaFx 应用

依次打开File->Project Structure->Artifacts->"+"->JavaFx Application->From module...

选择输出地址以及JavaFx选项下面的一些说明都得填写。

概率导论学习记录（一）

2017-04-10T00:00:00+00:00

　　近来发现师兄书架里面有一本非常好的概率论方面的书——图灵社区图书概率导论,翻一下觉得讲的很不错，于是问师兄借过来拜读下，读完第一章感觉写的浅显易懂。不像国内的太多概率论书，上来就是一大堆的定理、推论、证明、过程和公式，显得过于枯燥，概率导论作为入门来说是一本非常好的书。这里记录下学习概率导论每一章中非常基础但是又非常重要的知识点，方便以后快速查询。

第一章样本空间与概率

1.1集合和集合运算

将研究的对象放在一起就形成了集合，而这些对象就称为集合的元素。

1.1.1集合中常用的符合及意义

集合中常用的符合以及意义如下：

符号	意义
$S$	表示一个集合
$\Omega$	表示空间
$S^c$	表示集合的补集
$x \in S$	表示元素$x$属于集合$s$
$x \not\in S$	表示元素$x$不属于集合$s$
$S \subset T$	表示集合$S$包含于集合$T$
$S \not\subset T$	表示集合$S$不包含集合$T$
$S \cup T$	表示集合$S$和集合$T$的并集
$S \cap T$	表示集合$S$和集合$T$的交集

1.1.2集合代数运算

集合常用的代数运算：

基本代数运算
$S \cup T = T \cup S$
$S \cup (T \cup U) = (S \cup U) \cup T$
$S \cap (T \cup U) = (S \cap T) \cup (S \cap U)$
$S \cup (T \cap U) = (S \cup T) \cap (S \cup U)$
$(S^c)^c = S$
$S \cap S^c = \emptyset$
$S \cup \Omega = \Omega$
$ S \cap \Omega = S$

1.2 概率模型

概率模型是对不确定的现象的数学描述。每一个概率模型都关联着一个试验，这个试验将产生一个试验结果。该试验的所有可能结果形成一个样本空间$\Omega$。某些试验结果的集合，即样本空间的子集称为事件。

1.2.1概率模型的基本构成

样本空间，常用$\Omega$表示，是一个试验所有的可能得结果的集合。

概率律，为试验结果的集合$A$(称为事件)确定一个非负数$P(A)$（称为事件$A$的概率）。而这个非负数刻画了我们对事件$A$的认识或所产生的信念的程度。

1.2.2概率律

当给定一个事件$A$同时确定一个数$P(A)$称为事件$A$的概率并且满以下几条公理：
概率公理

非负性：对一切事物$A$，满足$P(A) \geq 0$。

可加性：设$A$和$B$为两个互不相交的集合（即互不相容事件），则他们的并集满足：

$P(A \cup B)=P(A)+P(B)$

若$A_1$,$A_2$,…是互不相容的事件序列，则他们的并集满足：

$P(A_1 \cup A_2 \cup …)=P(A_1)+P(A_2)+…$.

归一化：整个样本空间$\Omega$（为必然事件）的概率为$1$,即$P(\Omega)=1$

1.2.3离散模型

利用概率律的可加性公理可以得到离散概率律：
离散概率律

设空间样本是由有限个可能的结果组成，则事件的概率可由组成这个事件的试验结果的概率律所决定,事件$ \left\{ s_1,s_2,…,s_n \right\} $的概率是$P(s_i)$之和，即： $P(\left\{s_1,s_2,…,s_n\right\})= P(s_1)+P(s_2)+…+P(s_n)$.
离散均匀概率律（古典概型）

设样本空间由$n$个等可能性的试验结果组成，因此每个试验结果组成的事件（基本事件）的概率是相等的。由此得到：

$P(A)=\frac{含事件A的试验结果}{n}$.

1.2.4 概率律的性质

考虑一个概率律，令$A$，$B$，$C$为事件，由概率公理可以推倒出以下性质：

(a)若$A \subset B$则 $P(A) \leq P(B)$.

(b)$P(A \cup B)=P(A)+P(B) - P(A \cap B)$.

(c)$P(A \cup B) \geq P(A) + P(B)$.

(d)$P(A \cup B \cup C) = P(A) + P(A^c \cap B) + P(A^C \cap B^c \cap C)$.

1.3条件概率

条件概率是在给定的部分信息的基础上对试验结果的一种推断，条件概率的性质有如下三条。
1. 设事件$B$满足$P(B) > 0$,则给定$B$之下，事件$A$的条件概率由下式给出： $P (A | B) = \frac {P(A \cap B)}{P(B)}$.
这个条件概率律在同一个样本空间$\Omega$上给出了一个新的（条件）概率律。凡是现有的概率律的所有性质对这个条件概率都是适用的。
1. 由于条件概率所关心的事件都是事件$B$的子事件，可以把条件概率看成$B$上的概率律，即把时间$B$看成全空间或必然事件
2. 当试验$\Omega$是有限集，并且所有的试验结果为等可能的情况下，条件概率律可由下式给出：
\[P(A|B)= \frac{事件A \cap B的试验结果数}{事件B的试验结果数}\]
条件概率的乘法规则：

假定所有涉及的条件概率都是正的，我们有： $P(\bigcap_{i=1}^nA_i) = P(A_1)P(A_2|A_1)P(A_3|A_1 \cap A_2)...P(A_n|\bigcap_{i=1}^{n-1}A_i)$.

1.4 全概率定理和贝叶斯准则

1.4.1全概率定理

全概率定理如下：

设$A_1$，$A_2$，$A_n$是一组互不相容的事件，形成样本空间的一个分割（每一个试验结果必定使得其中一个事件发生）。又假定对每一个事件$i$,$P(A_i)>0$。则对于任意事件$B$下列公式成立
\[P(B)=P(A_1 \cap B)+...+P(A_n \cap B)\\\ =P(A_1)P(B|A_1)+...+P(A_n)P(B|A_n)\]

1.4.2贝叶斯准则

全概率定理是与贝叶斯准则联系在一起的，贝叶斯准则将形如 $P(A|B)$ 的条件概率与形如 $P(B|A)$ 的条件概率联系起来。贝叶斯准则如下：

设$A_1$，$A_2$，$A_n$是一组互不相容的事件，形成样本空间的一个分割（每一个试验结果必定使得其中一个事件发生）。又假定对每一个事件$i$,$P(A_i)>0$。则对于任意事件$B$，只要它满足$P(B)>0$下列公式成立 $P(A_i|B)= \frac{P(A_i)P(B|A_i)}{P(B)}= \frac{P(A_i)P(B|A_i)}{P(A_1)P(B|A_1)+...+P(A_n)P(B|A_n)}$

1.5独立性

1.5.1独立性的主要结论

若两个事件$A$和$B$相互独立，可以有以下结论：

1.若两个事件$A$和$B$相互独立，如果他们满足：

$P(A \cap B)=P(A)P(B)$.

若$B$还满足$P(B)>0$,则独立性等价于
\[P(A | B)=P(A)\]
2.若$A$与$B$相互独立，则$A$与$B^c$也相互独立。

3.设事件$C$满足$P(C)>0$,两个事件$A$和$B$称为给定$C$条件下的条件独立，如果他们满足：
\[P(A \cap B|C)=P(A|C)P(B|C)\]
若进一步假设$P(B \cap C)>0$，则$A$和$B$在给定$C$的条件下的条件独立性与下面的条件是等价的
\[P(A|B \cap C)=P(A|C)\]
独立性并不蕴含条件独立，反之亦然。

1.5.2一组事件的独立性

两个事件相互独立性的概念可以推广到多个事件的相互独立性，并可以得到多事件相互独立的定义：

设$A_1…A_n$为$n$个事件。若他们满足

$P\big( \displaystyle\bigcap_{i \in S}A_i\big)=\prod_{i \in S}P(A_i)$对于${1,2,3,…,n }$的任意子集$S$成立，

则称$A_1,…,A_n$为相互独立的事件。

1.6计数准则

1.6.1计数准则

计数准则基于分段计数的原则，这是计数的最基本的方法。计数准则如下：

考虑由$r$个阶段组成的一个试验。假设：

(a) 在第一个阶段有$n_1$个可能的结果；

(b) 对于第一个阶段任何一个结果，在第二个阶段有$n_2$个可能的结果；

(c) 一般地，在前$r-1$个阶段的任何一个结果，在接下来第$r$个阶段有$n_r$个结果，则在$r$个阶段的试验中一共有：
\[n_1n_2n_3 \cdots n_r\]
个试验结果

1.6.2计数法

常用的计数法有，排列，组合，以及分割数，有如下汇总：
1. $n$个对象的排列数:$n!$.
2. $n$个对象取$k$个对象的排列数：$\frac{n!}{(n-k)!}$.
3. $n$个对象取$k$个对象的组合数：$\big(^n _k\big)= \frac{n!}{k!(n-k)!}$.
4. $n$个对象分割成$r$个组的分割数，其中$i$个组具有$n_i$个对象： $\big(^n _{n_1,n_2,…,n_r}= \frac{n!}{n_1!n_2! \cdots n_r!} \big)$.

参考：

概率导论

小小羊