如何优化SQL语句
平时写SQL时积累的一些关于SQL优化的技巧
选择最有效率的表名顺序
ORACLE的解析器是按照从右到左的顺序处理FROM中的表名,FROM中最后面的表(基础表)将优先被处理,在from包含多个表时,你必须将记录最少的表作为基础表,如果是3个表以上的表连接,那必须将交叉表作为基础表,交叉表是指被其他表引用的表
尽量用EXISTS
和NOT EXISTS
代替IN
和NOT IN
EXISTS
一定比IN
查询速度快么?这个问题有过争论,根本问题是在驱动表的问题EXISTS
是在子查询中用到索引,而IN
是在外查询中用到索引
e.g.
A是小表,B是大表
select * from A WHERE cc in (select cc from B)
效率低,因为用到了A上的索引,而没用上大表B的索引
select * from A where exists(select cc from B where cc=A.cc)
效率高,因为EXISTS
用到了B上的索引
因为NOT IN
不会用索引,而NOT EXISTS
还会在子查询中用到索引,所以应尽量使用NOT EXISTS
代替NOT IN
WHERE
子句中的连接顺序
因为ORACLE采用自下而上的顺序解析SQL,所以,表连接的必须写在其他条件之前,能过滤掉最多记录的条件应该写在最后
###删除重复记录使用ROWID
DELETE FROM STUDENT S WHERE S.ROWID > (SELECT MIN(X.ROWID) FROM STUDENT T WHERE T.ROWID = S.ROWID)
因为使用了ROWID,所以,是效率最高的删除重复记录的方法
用EXISTS
代替DISTINCT
对于1对多的表信息查询时,EXISTS
比DISTINCT
更为迅速
e.g.
低效
SELECT DISTINCT DEPT_ID,DEPT_NAME FROM DEPT,EMP
WHERE DEPT.DEPT_ID = EMP.DEPT_ID
高效
SELECT DEPT_ID,DEPT_NAME FROM DEPT D
WHERE EXISTS(SELECT 1 FROM EMP E WHERE E.DEPT_ID = D.DEPT_ID)
避免在索引列上使用 !=、计算、NOT、函数、IS NULL、IS NOT NULL
以上几种情况都会导致查询中不能使用索引,因为它只会告诉你有什么而不会告诉你没有什么,ORACLE 遇到 NOT时就会与在索引列上使用函数相同,放弃使用索引而进行全表扫描
使用 >= 代替 >
低效
SELECT * FROM EMP WHERE EMP_ID >= 4
高效
SELECT * FROM EMP WHERE EMP_ID > 3
两者区别在于,前者DBMS将直接跳到 EMP_ID = 4的记录,而后者将先跳到EMP=3的记录上
###尽可能的使用WHERE
来代替HAVING
避免使用HAVING子句, HAVING 只会在检索出所有记录之后才对结果集进行过滤. 这个处理需要排序,总计等操作. 如果能通过WHERE子句限制记录的数目,那就能减少这方面的开销. (非oracle中)on、where、having这三个都可以加条件的子句中,on是最先执行,where次之,having最后,因为on是先把不符合条件的记录过滤后才进行统计,它就可以减少中间运算要处理的数据,按理说应该速度是最快的,where也应该比having快点的,因为它过滤数据后才进行sum,在两个表联接时才用on的,所以在一个表的时候,就剩下where跟having比较了。在这单表查询统计的情况下,如果要过滤的条件没有涉及到要计算字段,那它们的结果是一样的,只是where可以使用rushmore技术,而having就不能,在速度上后者要慢如果要涉及到计算的字段,就表示在没计算之前,这个字段的值是不确定的,根据上篇写的工作流程,where的作用时间是在计算之前就完成的,而having就是在计算后才起作用的,所以在这种情况下,两者的结果会不同。在多表联接查询时,on比where更早起作用。系统首先根据各个表之间的联接条件,把多个表合成一个临时表后,再由where进行过滤,然后再计算,计算完后再由having进行过滤。由此可见,要想过滤条件起到正确的作用,首先要明白这个条件应该在什么时候起作用,然后再决定放在那里
编程之美(一):求连续子数组的最大和
最近看了不少算法相关的题目,打算把这些题目整理出来做一个系列,借用一下CSDN上JULY的标题吧
输入一个整形数组,数组里有正数也有负数。
数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和。
求所有子数组的和的最大值。要求时间复杂度为O(n)。
e.g. 数组[1, -2, 3, 10, -4, 7, 2, -5] 和最大字数组为 3, 10, -4, 7, 2
如果没有时间复杂度的要求或许这个题可以有很多方法,但是有了时间复杂度的要求,就不能按照穷举所有子数组的方法来算了,可以来分析一下这个题目:
从第一个元素开始加,每加一次之后就要比较、记录一下最大和,如果加到某个元素的时候子数组的和为负数了,那就要放弃之前所有元素相加之和,然后从下个元素开始重新开始计算子数组的和。拿上面那个数组来表示sum
和max
的值的线性变化的话就是
sum: 1 -1 3 13 9 16 18 13
max: 1 1 3 13 13 16 18 18
最后返回max
就是 18
用java 来实现的话就是
public static int maxSum(int[] arr){
int sum = 0;
int max = 0;
for(int i=0;i < arr.length; i++){
if(sum < 0)
sum = arr[i];
else
sum += arr[i];
if(max < sum)
max = sum;
}
return max;
}
这样看来思路还是很清晰的,代码也不怎么复杂,最主要的是只对数组进行一次循环,也就是时间复杂度为O(N),下面来一个python版本的
a = [1, -2, 3, 10, -4, 7, 2, -5]
result = 0
sum = a[i]
for i in xrange(len(a)-1):
sum = max(a[i+1],sum+a[i+1])
result = max(sum,result)
这个思路更牛,这是利用了ACM中的DP思路,据说这是DP中最简单的一类题了,(ーー゛)
说一下DP的思想:
对于列表中任何第i+1个元素,只有2种选择,作为一个新子数组的第一个元素,或者加入到前面的数组,result为已找到的最大子数组的和
这个思路是不是让你眼前一亮的感觉?真是太简洁了,动态规划(dynamic programing)的思路我这是第一次接触到,感触不小,大学没好好学,现在得补上啊
PS:DP的思想可以解决很多面试题中压轴的算法题,所以数量掌握DP还是很有必要的,以后会继续出几个利用DP去解决的算法题
本文主要引自:JULY的博客
python scheduler
在爬取双色球中奖号码的时候需要用到定时调度的第三方库,我就去搜了一下python scheduler,官方比较推荐的是APScheduler,看了一下他的文档,非常简洁易懂,简单介绍一下
##调度的三种方式
###1.simple date-based scheduling(定时执行,时间固定,执行一次)
example:
需求:在 2013-1-4 13:14:21 打印 i love you
from datetime import date
from apscheduler.scheduler import Scheduler
# Start the scheduler
sched = Scheduler()
sched.start()
# Define the function that is to be executed
def my_job(text):
print text
# Store the job in a variable in case we want to cancel it
#方法的第一个参数是需要执行的方法名,第二个参数是时间,第三个参数是需要执行的方法的参数列表
job = sched.add_date_job(my_job, '2013-01-04 13:14:21', ['i love you'])
###2.Interval-based scheduling(每隔多长时间执行一次)
example:
需求:每隔一个小时打印一次hello world
# Define the function that is to be executed
job = sched.add_interval_job(my_job,hour=1,['hellow world'])
###3.cron-style scheduling(定时循环执行,比如每个月的几号,或者每周几,或者一年中的第几周执行)
example:
需求:
每周一,三,五打印hello world
(周日是0,周六是6)
#没有设置时分秒默认为0
job = sched.add_cron_job(my_job,day-of-week='0,2,4',['hellow world'])
我在做爬虫的时候是用到的第三种调度,因为双色球大概是每周的二,四,日21点40分开奖,所以需要在周二,四,日的22点去执行任务,爬取中奖号码
job = sched.add_cron_job(getDataFromBD,day_of_week='0,2,4',hour='22')
这里只是简单的应用,还有一种添加job方法的写法就是python的Decorator,还有一些比较高级的用法,比如线程池配置,配置jobs store到本地或者数据库的一些配置,这里就先不做介绍了
oracle mysql 分页查询
今天面试被问到oracle、mysql的分页查询,看到这么简单的问题,还是有点窃喜的,仔细一想就有点懵了,分页?oracle?然后就在想是哪个关键字,然后就没有然后了。。。只写了一个mysql的limit,而且limit后面跟2个参数,只写了一个,突然感觉到自己底子的薄弱,兼对面试没有什么准备,错失了今天这次机会,所以下决心,从今天开始,持续更新一些面试的基本知识、面试题目,直至跳槽成功-__,-
- oracle 分页查询
完全想多了啊,oracle哪有什么关键字啊,就是rownum
啊!!!这个可是整天用的,居然忘了分页也是它!
select * from
(
select a.*,rownum rn
from (select * from user) a
)
where rn between 21 and 40
就是这么简单啊,如果再考虑一下效率的话
select * from
(
select a.*,rownum rn
from (select * from user) a
where rownum < 40
)
where rn > 20
对比这2种写法,在绝大多数的情况下第二种写法比第一种要有效率的多,这是由于CBO优化模式下,Oracle可以将外层的查询条件推到内层查询中,以提高内层查询的执行效率。对于第二个查询语句,查询条件where rownum < 40
会被推到内层查询中,这样Oracle查询的结果一旦超过了ROWNUM限制条件,就终止查询将结果返回了。引自itpub
- mysql 分页查询
mysql 分页查询更简单一点
select *
from user
order by createtime desc
limit 21,10
limit 后面的2个参数分别代表start point和how many records to display