Archive

Posts Tagged ‘page’

写分页SQL请务必保证ORDER BY子句的唯一性

May 5th, 2009 No comments

这是几年前发生的事,今天邮件群里又有人反映此问题,我发现,我似乎已经忘了,帖一下

在我们的很多应用中都用到了分页的功能,然而常常有人在写分页SQL时没有注意ORDER BY子句唯一性,导致结果错误,如下面的SQL:

        select * from (select rownum countrownum, a.* from (
            SELECT EAW.*, EA.Service_Key, EI.Gmt_Begin, EI.Gmt_End
            FROM EAW, EA, EI
            WHERE EAW.REMIT_MEMBER_ID=#memberId#
            AND EAW.STATUS IN ('deal','offend')
            AND EAW.GMT_CREATE > #beginDate# 
            AND EAW.GMT_CREATE < #endDate#
            AND EAW.AUCTION_ID=EA.ID
            AND EAW.ISSUE_ID=EI.ID
            ORDER BY EAW.GMT_CREATE DESC) a 
       where rownum < #end# ) where countrownum >= #start#

子句ORDER BY EAW.GMT_CREATE DESC并不能保证唯一性,结果就是有些记录出现在多页中,而有些则永远不出现,常用的做法是加上PK(或能保证惟一性的其他)

        select * from (select rownum countrownum, a.* from (
            SELECT EAW.*, EA.Service_Key, EI.Gmt_Begin, EI.Gmt_End
            FROM EAW, EA, EI
            WHERE EAW.REMIT_MEMBER_ID=#memberId#
            AND EAW.STATUS IN ('deal','offend')
            AND EAW.GMT_CREATE > #beginDate# 
            AND EAW.GMT_CREATE < #endDate#
            AND EAW.AUCTION_ID=EA.ID
            AND EAW.ISSUE_ID=EI.ID
            ORDER BY EAW.GMT_CREATE DESC , EAW.ID ) a 
       where rownum < #end# ) where countrownum >= #start#

大师的解释:

这个问题深入一点阐述是这样的:
假定你有10000条记录,但是某个字段值都是一样的,却要使用这个字段来排序。
因为在排序的过程中,很可能,我不是顺序地取这10000条记录出来排序。而是分做多个子集先做内部排序,假如我分做100组,每组100条记录,先各组做内部排序,再将100组排还内部顺序的集合来归并。 这样就可以得到一个顺序集合包含10000条记录。
又假定我们将10000条记录分做10组,每组1000条记录,先做集合内部排序,然后10组再做归并排序,则现在排出来的顺序,和先前100组情况下排出来的顺序肯定是不一样的。
但从总体上来看,由于这个字段值都是一样的,所以实际上对于任意一条记录排在任何位置,都不存在逻辑上的错误。但是在不同的 排序算法的选择中,同一条记录可能位置就不一样。
对于我们这个sql来讲,传入的 rownum 的值(分页的大小和页数相关) 会影响数据库优化器的 排序算法。所以导致最后结果不稳定。
而如果我们加入字段使得排序值组合唯一,这样在逻辑上来说顺序是稳定的,就不会出错了。
当然,这是一种解决办法。另外一种解决办法就是使用 oracle的分析函数 row_number() over() 。

通过 oracle 分析函数的用法:

    select * from (
            SELECT   row_number() over(order by GMT_CREATE desc )   rn , EAW.*, EA.Service_Key, EI.Gmt_Begin, EI.Gmt_End
            FROM EAW, EA, EI
            WHERE EAW.REMIT_MEMBER_ID=#memberId#
            AND EAW.STATUS IN ('deal','offend')
            AND EAW.GMT_CREATE > #beginDate# 
            AND EAW.GMT_CREATE < #endDate#
            AND EAW.AUCTION_ID=EA.ID
            AND EAW.ISSUE_ID=EI.ID
           ) a 
       where rn > ?  and  rn < ?;

使用分析函数比使用 rownum 的方式少了一层嵌套,并且数据稳定。

分析函数是oracle 8.1.6 版本开始推出的,一直到 oracle 8.1.7 的时候,其效率不如传统的 rownum 方式分页效率好。而后来在oracle 9i 中,随着分析函数的改进以及数据库优化器的变化,分析函数的效率已经和rownum一致了

Categories: technic Tags: , ,

一片关于数据库分页的文章

May 5th, 2009 No comments

Title: Oracle与WEB分页技术
created: 2002/10/30 By: Rudolf Lu www.cnoug.org
———————————–

随着Internet技术的发展,Web已越来越多的被应用到各行各业。传统的基于大机或C/S结构的应用也正逐渐的为B/S(Browser /Server)结构所代替。而数据库,作为保存着大量信息的容器,使得WEB应用能够提供更加丰富多彩,及时、个性化的信息。在WEB应用中,我们经常遇到需要从数据库搜索出满足某个特征的数据记录,再显示给特定用户。常常这些满足条件的记录如此之多,一方面在同一个页面显示显得异常臃肿而不切实际,另一方面用户通常也不会对他们都感兴趣,他们似乎更关心按一定规则排序出现在某些开始位置的若干记录。这就要求我们对满足条件的数据进行分页,将用户更关心的记录放在首页,同时给予是否继续浏览(或跳跃式阅读)到指定页甚至最后一页的自由。在这里,我们希望和大家讨论一下使用ORACLE数据库时的WEB分页方法。

我们说,一个好的分页方法,它应当满足以下几个要求:

1. 数据库处理的数据量最小;
2. 数据库与WEB应用服务器之间的数据量传输最小;

假定我们有如下的业务:行业产品表,10万记录,字段包括产品名称,所在行业,市场价格。要求选择某个行业时,列出该行业下所有产品,并按产品名称排序,超过20条的,按每页20条分页:

    create table t nologging
     as select object_name product_name,mod(object_id,4)*10 category,
               object_id price,rpad('a',300,'b') supplier
          from all_objects order by 2,1
     /
 
    Table created.
 
    rudolf@TEST902>select count(*) from t;
 
      COUNT(*)
    ----------
         21110

用以上语句,我们快速生成了一个行业产品表,其中all_objects为oracle的一个系统表(我们常常可以使用类似的方法生成测试数据)。接下来,我们创建了索引,并为使用CBO分析了表,分析显示该表共用去1039个数据块:

    create index t_category_pname_ind on t (category,product_name)
      nologging
      tablespace indx
      /
 
    Index created.
 
    analyze table t compute statistics
      for table
      for all indexes
      for all indexed columns
      /
 
    Table analyzed.
 
    rudolf@TEST902>select table_name,blocks,empty_blocks from user_tables where table_name = 'T';
 
    TABLE_NAME                         BLOCKS EMPTY_BLOCKS
    ------------------------------ ---------- ------------
    T                                    1039          113

为了便于讨论,我们先来看一下传统的做法:

select * from
 ( select rownum rnm, a.* from
   ( select * from t where category = &category_id
       order by product_name
   ) a
) where rnm between &minrnm and &maxrnm

这里我们使用了三个变量,其中category_id表示用户感兴趣的行业,而minrnm,maxrnm则来模拟web程序控制分页时传入的最小、最大行号。我们希望选出行业为20,属于第289页的所有产品信息。我们猜测上述语句将按以下步骤执行:

1. 取出所有满足category=&category_id的记录
2. 按product_name进行排序
3. 在排序完毕的结果集中取出第&minrnm到&maxrnm记录之间的数据

set autot trace;
 
Enter value for category_id: 20
Enter value for minrnm: 4981
Enter value for maxrnm: 5000
 
20 rows selected.
 
Execution Plan
----------------------------------------------------------
   0      SELECT STATEMENT Optimizer=FIRST_ROWS (Cost=436 Card=5263 Bytes=1094704)
   1    0   VIEW (Cost=436 Card=5263 Bytes=1094704)
   2    1     COUNT
   3    2       VIEW (Cost=436 Card=5263 Bytes=1026285)
   4    3         SORT (ORDER BY) (Cost=436 Card=5263 Bytes=1010496)
   5    4           TABLE ACCESS (BY INDEX ROWID) OF 'T' (Cost=284 Card=5263 Bytes=1010496)
   6    5             INDEX (RANGE SCAN) OF 'T_CATEGORY_PNAME_IND' (NON-UNIQUE) (Cost=31 Card=5263)
 
Statistics
----------------------------------------------------------
          0  recursive calls
          0  db block gets
        284  consistent gets
          0  physical reads
          0  redo size
       1829  bytes sent via SQL*Net to client
        514  bytes received via SQL*Net from client
          3  SQL*Net roundtrips to/from client
          1  sorts (memory)
          0  sorts (disk)
         20  rows processed

我们可以根据执行计划第二列的数字来阅读计划,即数字大的最先执行,如??5 index (range scan)??,数字相等时,按从上到下的顺序执行。上述执行计划显示了与我们估计相同的顺序,我们看到满足where条件的记录一共5263条左右(第4 步中的 card=5263),它们全部被取出,并参与排序(第3步),并在将结果集返回给用户前,一直在处理所有的5263条记录。然而事实上用户似乎只关心本页即20条记录。显然它与我们关于数据库处理量最小的要求相距甚远。在分析部分,284个一致读进一步说明数据库处理了所有满足条件的记录(整个表占 1039个数据块,共4个拥有相近产品数的行业,则每个行业约占259个数据块)。

现在,我们把上述语句换成:

      select * from t
      where category = &category_id
      order by product_name

将满足条件的所有记录取到客户端(在这里为WEB应用服务器),然后利用编程语言对结果集分页。以JAVA为例,可以使用 ResultSet对象方法absolute直接定位记录而方便地将结果集分页。然而很显然,它甚至满足关于数据库与WEB应用服务器之间的数据量传输最小的要求,很多情况下将明显影响性能,严重时甚至会导致WEB应用服务器一端内存溢出。言归正传,我们开始引入我们的方法。

方法一:同分析传统做法类似,我们先列出我们的方法:

      select * from
      ( select rownum rnm, a.* from
        ( select * from t where category = &category_id
            order by category,product_name
        ) a where rownum <= &maxrnm
      ) where rnm >= &minrnm

与传统做法不同,我们把对最大行号的判断从第三层移到了第二层。改变虽然简单,然而它表达了一个完全不同的执行意图。内部视图:

      select rownum rnm, a.* from
      ( select * from t where category = &category_id
          order by category,product_name
      ) a where rownum <= &maxrnm

是8i引入的新操作,在执行计划中,它体现为stopkey。这种操作专门为提取TOP n的需求做了优化。它需要排序字段预先建有索引,由于索引是已排序好的结构,因此取TOP n的问题,就变为从索引中直接从头提取n个索引关键字,然后再根据索引就可快速的找到记录并返回给用户。从而有效避免了检索全部记录的情况。

set autot trace
set verify off
Enter value for category_id: 20
Enter value for maxrnm: 20
Enter value for minrnm: 1
 
20 rows selected.
 
Execution Plan
----------------------------------------------------------
   0      SELECT STATEMENT Optimizer=FIRST_ROWS (Cost=284 Card=20 Bytes=4160)
   1    0   VIEW (Cost=284 Card=20 Bytes=4160)
   2    1     COUNT (STOPKEY)
   3    2       VIEW (Cost=284 Card=5263 Bytes=1026285)
   4    3         TABLE ACCESS (BY INDEX ROWID) OF 'T' (Cost=284 Card=5263 Bytes=1010496)
   5    4           INDEX (RANGE SCAN) OF 'T_CATEGORY_PNAME_IND' (NON-UNIQUE) (Cost=31 Card=5263)
 
Statistics
----------------------------------------------------------
          0  recursive calls
          0  db block gets
          7  consistent gets
          0  physical reads
          0  redo size
       1848  bytes sent via SQL*Net to client
        514  bytes received via SQL*Net from client
          3  SQL*Net roundtrips to/from client
          0  sorts (memory)
          0  sorts (disk)
         20  rows processed

应将count(stopkey)操作与table access(by index rowid)结合起来看,这样一来,table access(by index rowid)实际上只处理了&maxrnm条记录,这里为20条。它的执行计划可以解释为:

    rnm := 1;
    for rec in (select * from t where category = &category_id order by category, product_name)
    loop
      rnm := rnm + 1;
      if rnm > &maxrnm then exit loop; end if;
      fetch rec;
    end loop;
    filter rec where rownum < &minrnm;

与传统方法相比,它大大减小了数据库处理的压力:284个一致读减小为7个,性能因此得到了改善。然而也许你注意到了,当用户不停的向后翻页,使得&maxrnm逐渐接近满足条件的记录数时,它的性能
也渐渐降低到与传统方法相近的水平:

   set autot trace statistics;
   select * from
   ( select rownum rnm, a.* from
     ( select * from t where category = &category_id
         order by category,product_name
     ) a where rownum <= &maxrnm
   ) where rnm >= &minrnm
 
Enter value for category_id: 20
Enter value for maxrnm: 5000
Enter value for minrnm: 4981
 
20 rows selected.
 
Statistics
----------------------------------------------------------
          0  recursive calls
          0  db block gets
        275  consistent gets
          0  physical reads
          0  redo size
       1829  bytes sent via SQL*Net to client
        514  bytes received via SQL*Net from client
          3  SQL*Net roundtrips to/from client
          0  sorts (memory)
          0  sorts (disk)
         20  rows processed
 
rudolf@TEST902>

我们看到,当用户浏览到第249页时,这种方法共使用了275个一致读,与传统方法的284个一致读已很接近了。幸运的是,在很多应用中,98%的用户将只关心前5页的数据,使得这些应用仍能得益于这个方法。当我们把order by子句改为order by … desc,同时创建逆索引,我们甚至可以把某些用户关心最后5页数据的需求改变为关心前5页。尽管如此,还是有某些应用,用户浏览页面更可能是随机的,这时我们就可以用到第二种方法:
方法二:

        select * from t
        where rowid in
        ( select rid from
            ( select rownum rno,rowid rid from
                ( select rowid from t
                  where category = &category_id
                  order by category,product_name
                ) where rownum <= &maxrnm
            ) where rno >= &minrnm
        )

在这一方法中,我们考虑到索引与表相比,身材上大大小于后者(我们可以把它看作一个小表),因此我们试图先在索引中搜索出某页记录的物理位置,然后根据这些物理位置(rowid)在表中直接取出相应的记录,我们认为它将消除前一种方法中index range scan所有满足条件记录时带来的高成本(到某一刻CBO甚至认为它高于FULL TABLE SCAN而选择FULL TABLE SCAN)。

Enter value for category_id: 20
Enter value for maxrnm: 5000
Enter value for minrnm: 4981
 
20 rows selected.
 
Execution Plan
----------------------------------------------------------
   0      SELECT STATEMENT Optimizer=FIRST_ROWS (Cost=5054 Card=5000 Bytes=1095000)
   1    0   NESTED LOOPS (Cost=5054 Card=5000 Bytes=1095000)
   2    1     VIEW (Cost=31 Card=5000 Bytes=100000)
   3    2       SORT (UNIQUE)
   4    3         COUNT (STOPKEY)
   5    4           VIEW (Cost=31 Card=5263 Bytes=36841)
   6    5             INDEX (RANGE SCAN) OF 'T_CATEGORY_PNAME_IND' (NON-UNIQUE) (Cost=31 Card=5263 Bytes=178942)
   7    1     TABLE ACCESS (BY USER ROWID) OF 'T' (Cost=1 Card=1 Bytes=199)
 
Statistics
----------------------------------------------------------
          0  recursive calls
          0  db block gets
         50  consistent gets
          0  physical reads
          0  redo size
       1551  bytes sent via SQL*Net to client
        503  bytes received via SQL*Net from client
          2  SQL*Net roundtrips to/from client
          1  sorts (memory)
          0  sorts (disk)
         20  rows processed

我们可以看到语句的执行逻辑:

    rnm := 1;
    for rec in (select * from t_category_pname_ind
                  where category = &category_id order by category, product_name)
    loop
      rnm := rnm + 1;
      if rnm > &maxrnm then exit loop; end if;
      fetch rowid;
    end loop;
    filter rowid array where rownum < &minrnm;
    select * from t where rowid in ( rowid array );

基本上,无论用户浏览哪页,数据库的数据处理量都较为相近,约为index fast full scan的成本加上20次access by rowid的成本。与前一种方法相比,当用户只浏览前几页时,可能它的成本相对稍大,然而随着用户逐页往后浏览,它的成本优势也迅速的显现出来。同样浏览第4981-5000条记录,我们看到方法一产生了275个一致读,而本方法仅仅产生了50个。对于我们??数据库处理量最小??的要求而言,可说是大大迈进了一步。
综上所述,由于用户浏览特点、习惯不同,我们可以采用不同的分页方法,以便更有效的利用资源。
另外,需要指出的是建立index的column组合应保证唯一性.

Categories: technic Tags: ,