test

发表于 2018-01-22

如何优化SQL语句

发表于 2013-05-28 | 分类于 database

平时写SQL时积累的一些关于SQL优化的技巧

选择最有效率的表名顺序

ORACLE的解析器是按照从右到左的顺序处理FROM中的表名，FROM中最后面的表（基础表）将优先被处理，在from包含多个表时，你必须将记录最少的表作为基础表，如果是3个表以上的表连接，那必须将交叉表作为基础表，交叉表是指被其他表引用的表

尽量用`EXISTS`和`NOT EXISTS`代替`IN`和`NOT IN`

EXISTS一定比IN查询速度快么？这个问题有过争论，根本问题是在驱动表的问题
EXISTS是在子查询中用到索引，而IN是在外查询中用到索引
e.g.
A是小表，B是大表

select * from A WHERE cc in (select cc from B)

效率低，因为用到了A上的索引，而没用上大表B的索引

select * from A where exists(select cc from B where cc=A.cc)

效率高，因为EXISTS用到了B上的索引
因为NOT IN不会用索引，而NOT EXISTS还会在子查询中用到索引，所以应尽量使用NOT EXISTS代替NOT IN

`WHERE`子句中的连接顺序

因为ORACLE采用自下而上的顺序解析SQL，所以，表连接的必须写在其他条件之前，能过滤掉最多记录的条件应该写在最后

###删除重复记录使用ROWID

DELETE FROM STUDENT S WHERE S.ROWID > (SELECT MIN(X.ROWID) FROM STUDENT T WHERE T.ROWID = S.ROWID)

因为使用了ROWID，所以，是效率最高的删除重复记录的方法

用`EXISTS`代替`DISTINCT`

对于1对多的表信息查询时，EXISTS比DISTINCT更为迅速
e.g.
低效

SELECT DISTINCT DEPT_ID,DEPT_NAME FROM DEPT,EMP
WHERE DEPT.DEPT_ID = EMP.DEPT_ID

高效

SELECT DEPT_ID,DEPT_NAME FROM DEPT D
WHERE EXISTS(SELECT 1 FROM EMP E WHERE E.DEPT_ID = D.DEPT_ID)

避免在索引列上使用 !=、计算、NOT、函数、IS NULL、IS NOT NULL

以上几种情况都会导致查询中不能使用索引，因为它只会告诉你有什么而不会告诉你没有什么，ORACLE 遇到 NOT时就会与在索引列上使用函数相同，放弃使用索引而进行全表扫描

使用 >= 代替 >

低效

SELECT * FROM EMP WHERE EMP_ID >= 4

高效

SELECT * FROM EMP WHERE EMP_ID > 3

两者区别在于，前者DBMS将直接跳到 EMP_ID = 4的记录，而后者将先跳到EMP=3的记录上

###尽可能的使用WHERE来代替HAVING

避免使用HAVING子句, HAVING 只会在检索出所有记录之后才对结果集进行过滤. 这个处理需要排序,总计等操作. 如果能通过WHERE子句限制记录的数目,那就能减少这方面的开销. (非oracle中)on、where、having这三个都可以加条件的子句中，on是最先执行，where次之，having最后，因为on是先把不符合条件的记录过滤后才进行统计，它就可以减少中间运算要处理的数据，按理说应该速度是最快的，where也应该比having快点的，因为它过滤数据后才进行sum，在两个表联接时才用on的，所以在一个表的时候，就剩下where跟having比较了。在这单表查询统计的情况下，如果要过滤的条件没有涉及到要计算字段，那它们的结果是一样的，只是where可以使用rushmore技术，而having就不能，在速度上后者要慢如果要涉及到计算的字段，就表示在没计算之前，这个字段的值是不确定的，根据上篇写的工作流程，where的作用时间是在计算之前就完成的，而having就是在计算后才起作用的，所以在这种情况下，两者的结果会不同。在多表联接查询时，on比where更早起作用。系统首先根据各个表之间的联接条件，把多个表合成一个临时表后，再由where进行过滤，然后再计算，计算完后再由having进行过滤。由此可见，要想过滤条件起到正确的作用，首先要明白这个条件应该在什么时候起作用，然后再决定放在那里

编程之美（一）：求连续子数组的最大和

发表于 2013-04-17 | 分类于算法 java python DP

最近看了不少算法相关的题目，打算把这些题目整理出来做一个系列，借用一下CSDN上JULY的标题吧

输入一个整形数组，数组里有正数也有负数。

数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。

求所有子数组的和的最大值。要求时间复杂度为O(n)。

e.g. 数组[1, -2, 3, 10, -4, 7, 2, -5] 和最大字数组为 3, 10, -4, 7, 2

如果没有时间复杂度的要求或许这个题可以有很多方法,但是有了时间复杂度的要求,就不能按照穷举所有子数组的方法来算了,可以来分析一下这个题目:
从第一个元素开始加,每加一次之后就要比较、记录一下最大和,如果加到某个元素的时候子数组的和为负数了，那就要放弃之前所有元素相加之和，然后从下个元素开始重新开始计算子数组的和。拿上面那个数组来表示sum和max的值的线性变化的话就是

sum:    1     -1      3      13       9    16    18    13
max:    1    1   3   13    13   16    18    18

最后返回max就是 18

用java 来实现的话就是

public static int maxSum(int[] arr){
    int sum = 0;
    int max = 0;
    for(int i=0;i < arr.length; i++){
         if(sum < 0)
             sum = arr[i];
         else
             sum += arr[i];
         if(max < sum)
             max = sum;            
    }
    return max;
}

这样看来思路还是很清晰的，代码也不怎么复杂，最主要的是只对数组进行一次循环，也就是时间复杂度为O(N),下面来一个python版本的

a = [1, -2, 3, 10, -4, 7, 2, -5]
result = 0
sum  = a[i]
for i in xrange(len(a)-1):
    sum = max(a[i+1],sum+a[i+1])
    result = max(sum,result)

这个思路更牛，这是利用了ACM中的DP思路,据说这是DP中最简单的一类题了，(ーー゛)
说一下DP的思想：
对于列表中任何第i+1个元素，只有2种选择，作为一个新子数组的第一个元素，或者加入到前面的数组，result为已找到的最大子数组的和
这个思路是不是让你眼前一亮的感觉？真是太简洁了，动态规划（dynamic programing)的思路我这是第一次接触到，感触不小，大学没好好学，现在得补上啊

PS:DP的思想可以解决很多面试题中压轴的算法题，所以数量掌握DP还是很有必要的，以后会继续出几个利用DP去解决的算法题

本文主要引自：JULY的博客

python scheduler

发表于 2013-04-09 | 分类于 python

在爬取双色球中奖号码的时候需要用到定时调度的第三方库，我就去搜了一下python scheduler，官方比较推荐的是APScheduler,看了一下他的文档，非常简洁易懂，简单介绍一下

##调度的三种方式

###1.simple date-based scheduling(定时执行，时间固定，执行一次)

example：
需求：在 2013-1-4 13:14:21 打印 i love you

from datetime import date
from apscheduler.scheduler import Scheduler

# Start the scheduler
sched = Scheduler()
sched.start()

# Define the function that is to be executed
def my_job(text):
   print text

# Store the job in a variable in case we want to cancel it
#方法的第一个参数是需要执行的方法名，第二个参数是时间，第三个参数是需要执行的方法的参数列表
job = sched.add_date_job(my_job, '2013-01-04 13:14:21', ['i love you'])

###2.Interval-based scheduling(每隔多长时间执行一次)

example:
需求：每隔一个小时打印一次hello world

# Define the function that is to be executed
job = sched.add_interval_job(my_job,hour=1,['hellow world'])

###3.cron-style scheduling(定时循环执行，比如每个月的几号，或者每周几，或者一年中的第几周执行)

example:
需求：
每周一，三，五打印hello world （周日是0，周六是6）

#没有设置时分秒默认为0
job = sched.add_cron_job(my_job,day-of-week='0,2,4',['hellow world'])

我在做爬虫的时候是用到的第三种调度，因为双色球大概是每周的二，四，日21点40分开奖，所以需要在周二，四，日的22点去执行任务，爬取中奖号码

job = sched.add_cron_job(getDataFromBD,day_of_week='0,2,4',hour='22')

这里只是简单的应用，还有一种添加job方法的写法就是python的Decorator，还有一些比较高级的用法，比如线程池配置，配置jobs store到本地或者数据库的一些配置，这里就先不做介绍了

oracle mysql 分页查询

发表于 2013-03-21 | 分类于 database

今天面试被问到oracle、mysql的分页查询，看到这么简单的问题，还是有点窃喜的，仔细一想就有点懵了，分页？oracle？然后就在想是哪个关键字，然后就没有然后了。。。只写了一个mysql的limit，而且limit后面跟2个参数，只写了一个，突然感觉到自己底子的薄弱，兼对面试没有什么准备，错失了今天这次机会，所以下决心，从今天开始，持续更新一些面试的基本知识、面试题目，直至跳槽成功-__,-

oracle 分页查询

完全想多了啊，oracle哪有什么关键字啊，就是rownum啊！！！这个可是整天用的，居然忘了分页也是它！

select * from
(    
    select a.*,rownum rn         
    from (select * from user) a     
)    
where rn between 21 and 40

就是这么简单啊，如果再考虑一下效率的话

select * from 
(
    select a.*,rownum rn
    from (select * from user) a
    where rownum < 40 
)
where rn > 20

对比这2种写法，在绝大多数的情况下第二种写法比第一种要有效率的多，这是由于CBO优化模式下，Oracle可以将外层的查询条件推到内层查询中，以提高内层查询的执行效率。对于第二个查询语句，查询条件where rownum < 40会被推到内层查询中，这样Oracle查询的结果一旦超过了ROWNUM限制条件，就终止查询将结果返回了。引自itpub

mysql 分页查询

mysql 分页查询更简单一点

select * 
from user
order by createtime desc
limit 21,10

limit 后面的2个参数分别代表start point和how many records to display

空心菜

5 日志

3 分类

3 标签

GitHub

选择最有效率的表名顺序

尽量用EXISTS和NOT EXISTS代替IN和NOT IN

WHERE子句中的连接顺序

用EXISTS代替DISTINCT

避免在索引列上使用 !=、计算、NOT、函数、IS NULL、IS NOT NULL

使用 >= 代替 >

尽量用`EXISTS`和`NOT EXISTS`代替`IN`和`NOT IN`

`WHERE`子句中的连接顺序

用`EXISTS`代替`DISTINCT`