位置:首頁 > 數據庫 > MongoDB基礎教程 > MongoDB 聚合

MongoDB 聚合

聚合操作過程中的數據記錄和計算結果返回。聚合操作分組值從多個文檔,並可以執行各種操作,分組數據返回單個結果。在SQL COUNT(*)和group by 相當於MongoDB的聚集。

aggregate() 方法

對於在MongoDB中聚集,應該使用aggregate()方法。 

語法:

aggregate() 方法的基本語法如下

>db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION)

例子:

在集合中,有以下的數據:

{
   _id: ObjectId(7df78ad8902c)
   title: 'MongoDB Overview', 
   description: 'MongoDB is no sql database',
   by_user: 'yiibai yiibai',
   url: 'http://www.gitbook.net',
   tags: ['mongodb', 'database', 'NoSQL'],
   likes: 100
},
{
   _id: ObjectId(7df78ad8902d)
   title: 'NoSQL Overview', 
   description: 'No sql database is very fast',
   by_user: 'yiibai yiibai',
   url: 'http://www.gitbook.net',
   tags: ['mongodb', 'database', 'NoSQL'],
   likes: 10
},
{
   _id: ObjectId(7df78ad8902e)
   title: 'Neo4j Overview', 
   description: 'Neo4j is no sql database',
   by_user: 'Neo4j',
   url: 'http://www.neo4j.com',
   tags: ['neo4j', 'database', 'NoSQL'],
   likes: 750
},

現在從上麵的集合,如果想顯示一個列表,有很多用戶寫的基礎教程,那麼使用 aggregate() 方法,如下所示:

> db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : 1}}}])
{
   "result" : [
      {
         "_id" : "yiibai yiibai",
         "num_tutorial" : 2
      },
      {
         "_id" : "yiibai yiibai",
         "num_tutorial" : 1
      }
   ],
   "ok" : 1
}
>

上述使用的情況相當於SQL查詢 select by_user, count(*) from mycol group by by_user

在上麵的例子中,我們已分組字段 by_user 文檔,並在每個的次數by_user先前的值總和遞增。冇有聚集表達式列表。 

表達式 描述 實例
$sum 總結從集合中的所有文件所定義的值. db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}])
$avg 從所有文檔集合中所有給定值計算的平均. db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$avg : "$likes"}}}])
$min 獲取集合中的所有文件中的相應值最小. db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$min : "$likes"}}}])
$max 獲取集合中的所有文件中的相應值的最大. db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$max : "$likes"}}}])
$push 值插入到一個數組生成文檔中. db.mycol.aggregate([{$group : {_id : "$by_user", url : {$push: "$url"}}}])
$addToSet 值插入到一個數組中所得到的文檔,但不會創建重複. db.mycol.aggregate([{$group : {_id : "$by_user", url : {$addToSet : "$url"}}}])
$first 根據分組從源文檔中獲取的第一個文檔。通常情況下,這才有意義,連同以前的一些應用 “$sort”-stage. db.mycol.aggregate([{$group : {_id : "$by_user", first_url : {$first : "$url"}}}])
$last 根據分組從源文檔中獲取最後的文檔。通常,這才有意義,連同以前的一些應用 “$sort”-stage. db.mycol.aggregate([{$group : {_id : "$by_user", last_url : {$last : "$url"}}}])

管道概念

UNIX 命令 shell 管道是指一些輸入和輸出作為輸入下一個命令等執行操作的可能性。 MongoDB 聚合框架也支持同樣的概念。有一組可能的階段,每個這些的一組文檔作為輸入,並產生一個結果集的文件(或最終生成的JSON文檔在管道末端)。然後又再次被用來為下一階段等。 

可能的階段聚合框架如下:

  • $project: 用於選擇從收集的一些具體字段。
  • $match: 這是一個濾波操作,因此可以減少量,作為下一階段的輸入給定的文檔。
  • $group: 如上所討論的,這不實際的聚合。
  • $sort: 文件排序。
  • $skip: 與此有可能向前跳過的文件列表中的一個給定的的文檔數量。
  • $limit: 這限製了的文檔數量看一下由從當前位置開始的給定數
  • $unwind: 這是用來平倉文檔的中使用數組。使用數組時,數據是一種pre-joinded,再次有個彆文件,此操作將被取消。因此,這個階段,數量會增加文件的下一階段。