空心菜的博客


  • 首页

  • 关于

  • 标签

  • 归档

test

发表于 2018-01-22

如何优化SQL语句

发表于 2013-05-28 | 分类于 database

平时写SQL时积累的一些关于SQL优化的技巧

选择最有效率的表名顺序

ORACLE的解析器是按照从右到左的顺序处理FROM中的表名,FROM中最后面的表(基础表)将优先被处理,在from包含多个表时,你必须将记录最少的表作为基础表,如果是3个表以上的表连接,那必须将交叉表作为基础表,交叉表是指被其他表引用的表

尽量用EXISTS和NOT EXISTS代替IN和NOT IN

EXISTS一定比IN查询速度快么?这个问题有过争论,根本问题是在驱动表的问题
EXISTS是在子查询中用到索引,而IN是在外查询中用到索引
e.g.
A是小表,B是大表
​
select * from A WHERE cc in (select cc from B)

效率低,因为用到了A上的索引,而没用上大表B的索引

select * from A where exists(select cc from B where cc=A.cc)

效率高,因为EXISTS用到了B上的索引
因为NOT IN不会用索引,而NOT EXISTS还会在子查询中用到索引,所以应尽量使用NOT EXISTS代替NOT IN

WHERE子句中的连接顺序

因为ORACLE采用自下而上的顺序解析SQL,所以,表连接的必须写在其他条件之前,能过滤掉最多记录的条件应该写在最后

###删除重复记录使用ROWID

DELETE FROM STUDENT S WHERE S.ROWID > (SELECT MIN(X.ROWID) FROM STUDENT T WHERE T.ROWID = S.ROWID)     

因为使用了ROWID,所以,是效率最高的删除重复记录的方法

用EXISTS代替DISTINCT

对于1对多的表信息查询时,EXISTS比DISTINCT更为迅速
e.g.
低效

SELECT DISTINCT DEPT_ID,DEPT_NAME FROM DEPT,EMP
WHERE DEPT.DEPT_ID = EMP.DEPT_ID

高效

SELECT DEPT_ID,DEPT_NAME FROM DEPT D
WHERE EXISTS(SELECT 1 FROM EMP E WHERE E.DEPT_ID = D.DEPT_ID)

避免在索引列上使用 !=、计算、NOT、函数、IS NULL、IS NOT NULL

以上几种情况都会导致查询中不能使用索引,因为它只会告诉你有什么而不会告诉你没有什么,ORACLE 遇到 NOT时就会与在索引列上使用函数相同,放弃使用索引而进行全表扫描

使用 >= 代替 >

低效

SELECT * FROM EMP WHERE EMP_ID >= 4

高效

SELECT * FROM EMP WHERE EMP_ID > 3

两者区别在于,前者DBMS将直接跳到 EMP_ID = 4的记录,而后者将先跳到EMP=3的记录上

###尽可能的使用WHERE来代替HAVING

避免使用HAVING子句, HAVING 只会在检索出所有记录之后才对结果集进行过滤. 这个处理需要排序,总计等操作. 如果能通过WHERE子句限制记录的数目,那就能减少这方面的开销. (非oracle中)on、where、having这三个都可以加条件的子句中,on是最先执行,where次之,having最后,因为on是先把不符合条件的记录过滤后才进行统计,它就可以减少中间运算要处理的数据,按理说应该速度是最快的,where也应该比having快点的,因为它过滤数据后才进行sum,在两个表联接时才用on的,所以在一个表的时候,就剩下where跟having比较了。在这单表查询统计的情况下,如果要过滤的条件没有涉及到要计算字段,那它们的结果是一样的,只是where可以使用rushmore技术,而having就不能,在速度上后者要慢如果要涉及到计算的字段,就表示在没计算之前,这个字段的值是不确定的,根据上篇写的工作流程,where的作用时间是在计算之前就完成的,而having就是在计算后才起作用的,所以在这种情况下,两者的结果会不同。在多表联接查询时,on比where更早起作用。系统首先根据各个表之间的联接条件,把多个表合成一个临时表后,再由where进行过滤,然后再计算,计算完后再由having进行过滤。由此可见,要想过滤条件起到正确的作用,首先要明白这个条件应该在什么时候起作用,然后再决定放在那里

编程之美(一):求连续子数组的最大和

发表于 2013-04-17 | 分类于 算法 java python DP

最近看了不少算法相关的题目,打算把这些题目整理出来做一个系列,借用一下CSDN上JULY的标题吧

输入一个整形数组,数组里有正数也有负数。

数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和。

求所有子数组的和的最大值。要求时间复杂度为O(n)。

e.g. 数组[1, -2, 3, 10, -4, 7, 2, -5] 和最大字数组为 3, 10, -4, 7, 2

如果没有时间复杂度的要求或许这个题可以有很多方法,但是有了时间复杂度的要求,就不能按照穷举所有子数组的方法来算了,可以来分析一下这个题目:
从第一个元素开始加,每加一次之后就要比较、记录一下最大和,如果加到某个元素的时候子数组的和为负数了,那就要放弃之前所有元素相加之和,然后从下个元素开始重新开始计算子数组的和。拿上面那个数组来表示sum和max的值的线性变化的话就是

sum:    1     -1      3      13       9    16    18    13
max:    1    1   3   13    13   16    18    18

最后返回max就是 18

用java 来实现的话就是

public static int maxSum(int[] arr){
    int sum = 0;
    int max = 0;
    for(int i=0;i < arr.length; i++){
         if(sum < 0)
             sum = arr[i];
         else
             sum += arr[i];
         if(max < sum)
             max = sum;            
    }
    return max;
}

这样看来思路还是很清晰的,代码也不怎么复杂,最主要的是只对数组进行一次循环,也就是时间复杂度为O(N),下面来一个python版本的

a = [1, -2, 3, 10, -4, 7, 2, -5]
result = 0
sum  = a[i]
for i in xrange(len(a)-1):
    sum = max(a[i+1],sum+a[i+1])
    result = max(sum,result)

这个思路更牛,这是利用了ACM中的DP思路,据说这是DP中最简单的一类题了,(ーー゛)
说一下DP的思想:
对于列表中任何第i+1个元素,只有2种选择,作为一个新子数组的第一个元素,或者加入到前面的数组,result为已找到的最大子数组的和
这个思路是不是让你眼前一亮的感觉?真是太简洁了,动态规划(dynamic programing)的思路我这是第一次接触到,感触不小,大学没好好学,现在得补上啊

PS:DP的思想可以解决很多面试题中压轴的算法题,所以数量掌握DP还是很有必要的,以后会继续出几个利用DP去解决的算法题

本文主要引自:JULY的博客

python scheduler

发表于 2013-04-09 | 分类于 python

在爬取双色球中奖号码的时候需要用到定时调度的第三方库,我就去搜了一下python scheduler,官方比较推荐的是APScheduler,看了一下他的文档,非常简洁易懂,简单介绍一下

##调度的三种方式

###1.simple date-based scheduling(定时执行,时间固定,执行一次)

example:
需求:在 2013-1-4 13:14:21 打印 i love you

from datetime import date
from apscheduler.scheduler import Scheduler

# Start the scheduler
sched = Scheduler()
sched.start()

# Define the function that is to be executed
def my_job(text):
   print text

# Store the job in a variable in case we want to cancel it
#方法的第一个参数是需要执行的方法名,第二个参数是时间,第三个参数是需要执行的方法的参数列表
job = sched.add_date_job(my_job, '2013-01-04 13:14:21', ['i love you'])

###2.Interval-based scheduling(每隔多长时间执行一次)

example:
需求:每隔一个小时打印一次hello world

# Define the function that is to be executed
job = sched.add_interval_job(my_job,hour=1,['hellow world'])

###3.cron-style scheduling(定时循环执行,比如每个月的几号,或者每周几,或者一年中的第几周执行)

example:
需求:
每周一,三,五打印hello world (周日是0,周六是6)

#没有设置时分秒默认为0
job = sched.add_cron_job(my_job,day-of-week='0,2,4',['hellow world'])

我在做爬虫的时候是用到的第三种调度,因为双色球大概是每周的二,四,日21点40分开奖,所以需要在周二,四,日的22点去执行任务,爬取中奖号码

job = sched.add_cron_job(getDataFromBD,day_of_week='0,2,4',hour='22')

这里只是简单的应用,还有一种添加job方法的写法就是python的Decorator,还有一些比较高级的用法,比如线程池配置,配置jobs store到本地或者数据库的一些配置,这里就先不做介绍了

oracle mysql 分页查询

发表于 2013-03-21 | 分类于 database

今天面试被问到oracle、mysql的分页查询,看到这么简单的问题,还是有点窃喜的,仔细一想就有点懵了,分页?oracle?然后就在想是哪个关键字,然后就没有然后了。。。只写了一个mysql的limit,而且limit后面跟2个参数,只写了一个,突然感觉到自己底子的薄弱,兼对面试没有什么准备,错失了今天这次机会,所以下决心,从今天开始,持续更新一些面试的基本知识、面试题目,直至跳槽成功-__,-


  • oracle 分页查询

完全想多了啊,oracle哪有什么关键字啊,就是rownum啊!!!这个可是整天用的,居然忘了分页也是它!

select * from
(    
    select a.*,rownum rn         
    from (select * from user) a     
)    
where rn between 21 and 40

就是这么简单啊,如果再考虑一下效率的话

select * from 
(
    select a.*,rownum rn
    from (select * from user) a
    where rownum < 40 
)
where rn > 20

对比这2种写法,在绝大多数的情况下第二种写法比第一种要有效率的多,这是由于CBO优化模式下,Oracle可以将外层的查询条件推到内层查询中,以提高内层查询的执行效率。对于第二个查询语句,查询条件where rownum < 40会被推到内层查询中,这样Oracle查询的结果一旦超过了ROWNUM限制条件,就终止查询将结果返回了。引自itpub

  • mysql 分页查询

mysql 分页查询更简单一点

select * 
from user
order by createtime desc
limit 21,10

limit 后面的2个参数分别代表start point和how many records to display

空心菜

5 日志
3 分类
3 标签
GitHub
© 2018 空心菜
由 Hexo 强力驱动
|
主题 — NexT.Muse v5.1.4