Mongodb python驱动教程

jopen 12年前

安装

使用python驱动mongodb需要下载、安装PyMongo包

Windows用户，点击这里下载。
使用pip安装在linux平台使用pip命令安装：
pip install pymongo

指定版本：

pip install pymongo==2.6.3
升级：

`pip install –upgrade pymongo
使用easy_install安装easy_install pymongo
升级：
easy_install -U pymongo

使用

安装完毕后，就可以在python shell或者python ide中进行试验，如果安装pymongo成功，那么下面的命令应该可以在python shell中运行:

>>> import pymongo

通过MongoClient连接mongo

    #连接locahost上的mongodb，端口是默认端口，27017      from pymongo import MongoClient      client = MongoClient

也可以手动指定host和port：

    client = MongoClient("localhost", 27017)      #或者      client = MongoClient("mongodb://localhost:27017/")

获取数据库实例

一个mongodb的实例中，可以有很多独立数据库。我们可以通过下面的方式获取一个数据库的实例：

    db = client.mydatabase

如果上面的方法不起作用，试一下下面的方法：

    db = client['mydatabase']

获取数据集

所谓数据集就是存储再mongodb中的一堆文档，这里可以简单的理解成关系数据库中的表（table），下面的方法获取一个数据集：

    collection = db.mycollection      #或者      collection = db[mycollection]

需要注意的是，不管是获取数据库、还是数据集实例，mongodb其实没有进行任何操作，只有当真正的文档insert进去的时候，才会真正创建数据库和数据集。

Documents

Mongodb中的数据是以json风格的文档存在的。在PyMongo中，我们使用dictionaries代表documents。下面的一段文档（dictionary)，可以看作是一篇博文的简介：

        import datatime          post = {          "auther" : "Mike",          "text" : "My First blog post",          "tags" : ["mongodb", "python", "pymongo"],          "date" : datetime.datetime.utcnow()          }

Document可以包含python语句，如上面的datetime.datetime,执行时，会自动进行转化。

插入Document

使用insert()方法进行插入：

    posts = db.posts      post_id = posts.insert(post)      print post_id

当一篇Document被插入到mongodb中，如果document中没有指定”_id”,mongodb会自动为该document添加唯一的”_id”。这个”_id”在该数据集中是惟一的。insert()方法返回值就是这个id，更多关于id的信息，点击documentation on _id。

插入完成后，我们可以通过下面的语句列出数据库中的数据集：

    db.collection_names()

结果如下：
[u'system.indexs', u'posts']
system.indexs 这个数据集是mongodb自己创建的内部数据集。

使用find_one()方法获取指定的Document

monbodb中find_one()方法，是最基本的查找方法。该方法返回符合条件的一篇document（如果没有符合条件的，返回None）。当数据集中只有一篇符合条件的文档，或者我们只想看第一篇文档的时候，find_one()就有很有用了。

    posts.find_one()

返回结果：

    {u'date': datetime.datetime(...), u'text': u'My first blog post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'mongodb', u'python', u'pymongo']}

通过ObjectId检索

我们也可以通过_id来进行检索，在这里_id是ObjectId:

    posts.find_one({"_id": post_id})

结果：

    {u'date': datetime.datetime(...), u'text': u'My first blog post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'mongodb', u'python', u'pymongo']}

再web应用中，比较常见的就是通过url中的id，来查询相应的document。通常传过来的id是string类型的，我们需要将其转化为ObjectId类型。

    from bson.objectid import ObjectId        # web页面中，将post_id字符串传递过来      def get(post_id):              # Convert from string to ObjectId:              document = client.db.collection.find_one({'_id': ObjectId(post_id)})

关于Unicode字符串

你可能发现我们存到mongodb中的文档，和我们查询出来的文档不太一样（u’Mike’和‘Mike’)。

MongoDB以BSON的格式存储数据。BSON格式的字符串是UTF-8编码的，因此PyMongo必须保证它存储的字符串都是utf-8编码的。Regular strings (<type ‘str’>) are validated and stored unaltered. Unicode字符串首先被UTF-8编码。PyMongo在输出时使用u’Mike’代替’Mike’，就是PyMongo对每个BSON字符串进行解码，解成python的unicode字符串。更多

批量Insert

如果要插入很多条数据，一条条插入就显得很麻烦了。PyMongo支持批量插入。下面是例子：

    new_posts = [          {   "author": "Mike",              "text": "Another post!",              "tags": ["bulk", "insert"],              "date": datetime.datetime(2009, 11, 12, 11, 14)},          {              "author": "Eliot",              "title": "MongoDB is fun",              "text": "and pretty easy too!",              "date": datetime.datetime(2009, 11, 10, 10, 45)          }]        posts.insert(new_posts)

结果会打印出两个_id。

例子总结：

+ 这个insert()方法返回两个ObjectId对象，每个代表一个插入的Document。
+ new_post[1] 没有tags字段，增加了title字段，这样做是OK的。这就是mongodb schema-free的体现。

检索多个Document

如果我们想同时检索多条数据，需要用到find()方法。find()方法返回一个Cursor实例，我们可以这个Cursor来遍历查询到的Documents。如下面的例子：

        for post in posts.find():              print post

类似结果如下：

    {u'date': datetime.datetime(...), u'text': u'My first blog post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'mongodb', u'python', u'pymongo']}      {u'date': datetime.datetime(2009, 11, 12, 11, 14), u'text': u'Another post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'bulk', u'insert']}      {u'date': datetime.datetime(2009, 11, 10, 10, 45), u'text': u'and pretty easy too!', u'_id': ObjectId('...'), u'author': u'Eliot', u'title': u'MongoDB is fun'}

为find()方法，添加约束条件：

    for post in posts.find({"author": "Mike"}):          print post

类似结果：

    {u'date': datetime.datetime(...), u'text': u'My first blog post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'mongodb', u'python', u'pymongo']}      {u'date': datetime.datetime(2009, 11, 12, 11, 14), u'text': u'Another post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'bulk', u'insert']}

Counting

如果我们项查看某个条件下结果的个数，可以使用count()方法，这就省掉了全局检索。

    posts.count()      post.find({"author" : "Mike"}).count()

范围检索

Mongodb支持多种不同类型的高级查询, 下面这个例子，检索出某个时间点前发表的博文，并且按照作者名字排序：

    d = datetime.datetime(2009, 11, 12, 12)      for post in posts.find({"date": {"$lt": d}}).sort("author"):          print post

结果如下：

    {u'date': datetime.datetime(2009, 11, 10, 10, 45), u'text': u'and pretty easy too!', u'_id': ObjectId('...'), u'author': u'Eliot', u'title': u'MongoDB is fun'}      {u'date': datetime.datetime(2009, 11, 12, 11, 14), u'text': u'Another post!', u'_id': ObjectId('...'), u'author': u'Mike', u'tags': [u'bulk', u'insert']}

索引

为了让上面的那个查询变得更快，我们可以在”date”和”author”字段上加上复合索引。

    >>> from pymongo import ASCENDING, DESCENDING      >>> posts.create_index([("date", DESCENDING), ("author", ASCENDING)])      u'date_-1_author_1'      >>> posts.find({"date": {"$lt": d}}).sort("author").explain()["cursor"]      u'BtreeCursor date_-1_author_1'      >>> posts.find({"date": {"$lt": d}}).sort("author").explain()["nscanned"]      2

这种情况，查询语句会使用BtreeCuosor（the index)，查询出了两条结果。更多，点击此处。

来自: Mongodb python驱动教程