Swift 中动手封装字节

chenxk168 8年前
   <p>今天,我想尝试封装 Float32 类型数据到 <a href="/misc/goto?guid=4959713678936511233" rel="nofollow,noindex">SQLite</a> <a href="/misc/goto?guid=4959713679047465447" rel="nofollow,noindex">二进制大对象⌈Binary Large Object (BLOB)⌋</a> 组中。当然,我可以使用 JSON,protobuf,或是其他一些编码方式。除此之外, NSNumber , NSArray , NSCoder 和 plist 文件也是不错的选择。</p>    <p>不过,我希望以更加 Swift 的方式来实现,有点类似 C 语言风格,实现迅速且不会引入任何相关性,解码器(decoder)也非常简单,可以在任何平台上实现。</p>    <h2>PointerEncoder</h2>    <p>我们将在 PointEncoder 结构体中实现最终的接口:</p>    <pre>  <code class="language-swift">struct PointEncoder {    // 解码过程中,如果我们得到一个相当大的数值,可以假定为服务器拒绝或是损坏的数据    static let MaxPoints = 1_310_719      // 容量大小    private static let _sizeOfCount = sizeof(Int64.self)      // 一个点由两个 Float32 类型数据组成,所占内存大小如下    private static let _sizeOfPair = 2 * sizeof(Float32.self)      static func encodePoints(points: [CGPoint]) -> NSData? {    static func decodePoints(data: NSData) -> [CGPoint]  }  </code></pre>    <p>点数组的最大容量 MaxPoints 被限制在大约 10 MB,这已经远远满足示例中的限定值。试想在移动蜂窝网络或是信号不佳环境下的 WiFi,传递如此数量的点给服务器,会迫使服务器断开连接。当然你可以视根据自身情况选择合适的大小。</p>    <p>接下来,我们需要获取以上类型所占内存大小。计算公式非常简单,一旦明确了不同类型所占内存的大小,就能集中在一个地方定义它们,而不是分散在各地调用 sizeof() 函数。</p>    <h2>编码(encoding)</h2>    <p>下面让我们看看 encodePoints 的实现</p>    <pre>  <code class="language-swift">guard !points.isEmpty && points.count < MaxPoints else { return nil }    // 缓存区的最大容量值  let bufferLength = _sizeOfCount + (points.count * _sizeOfPair)  precondition(bufferLength >= (_sizeOfCount + _sizeOfPair), "Empty buffer?")  precondition(bufferLength < megabytes(10), "Buffer would exceed 10MB")  </code></pre>    <p>第一步确保编码内容不为空,且不超过容量最大值。</p>    <p>第二步计算缓存区的大小,不宜过大或过小。注意第一步中的 isEmpty 理论上来说排除了缓存区为空的可能,不过倘若之后有人重构了代码,那就不一定了。紧接着我们会检查缓存区分配过多内存的可能。</p>    <p>以上是我喜欢进行的额外安全检查之一,主要考虑到一些二把刀程序员的尿性。试想之后有人了重构代码,并意外引入一个错误,但优秀的程序员不太可能会删除 precondition 断言语句。 precondition 语句之后紧跟着是分配内存,请时刻注意“这里可能发生危险,要格外小心!”。</p>    <pre>  <code class="language-swift">let rawMemory = UnsafeMutablePointer<Void>.alloc(bufferLength)    // Failed to allocate memory  guard rawMemory != nil else { return nil }  </code></pre>    <p>下一步开始真正创建缓存区,一旦创建失败就跳出。</p>    <p>控制程序应对内存不足的情况非常困难。如果是因为内存不足造成创建类实例失败,程序应该调用 abort() 方法,因为简单的日志输出或 print 语句依旧涉及一些内存分配操作,这就无法以日志的形式通知失败结果(会使得所有的构造方法失败)。</p>    <p>考虑另外一种情况,分配大的缓存区有会可能失败,但堆碎片(heap fragmentation)可能还存在额外可用的内存。因此,如何优雅地处理它是一门学问(尤其像在 iOS 这种受限的环境中)。</p>    <pre>  <code class="language-swift">UnsafeMutablePointer<Int64>(rawMemory).memory = Int64(points.count)    let buffer = UnsafeMutablePointer<Float32>(rawMemory + sizeOfCount)  </code></pre>    <p>这里有一点要注意。等式右边将 points.count 类型转换成了 64 位类型的整数,因此不随平台变化而发生改变(Swift 的 Int 类型在编译时会自适应平台,32 位平台下为 32 位整数,同理 64 位平台下为 64 位整数)。我们可不希望用户在升级设备后,引发崩溃或数据损坏问题。</p>    <p>等式左侧将 rawMemory 强转成 Int64 指针类型,然后将其指向的内存内容赋值为 Int64(points.count) 。64 位整数占 8 个字节,因此分配的前 8 个字节内存包含了点个数( sizeOfCount )信息。</p>    <p>最后,我们将指针偏移 8 个字节(正如前面所说的),指针指向缓存区首地址。</p>    <pre>  <code class="language-swift">for (index, point) in points.enumerate() {    let ptr = buffer + (index * 2)      // Store the point values.    ptr.memory = Float32(point.x)    ptr.advancedBy(1).memory = Float32(point.y)  }  </code></pre>    <p>接下来进行遍历 points 点数组操作。我们对 UnsafeMutablePointer 指针进行简单偏移量计算,得到缓冲区中的相关位置。值得注意的是,swift 中的不安全指针仅知道当前所使用的类型大小,所有指针偏移量都是以当前类型为单位,而非字节!(不过 Void 类型指针无法确定类型的大小,所以这种情况是以字节为单位的)。</p>    <p>因此,通过对基址进行 index * 2 偏移累加,得到下一对点成员(注:即x,y点坐标)的地址。然后我们为当前指针指向的内存区域作赋值操作。</p>    <p>接着我使用了 ptr.advancedBy() 方法,并未保留指针的引用,同时也没有设置 ptr 为可变指针。这仅仅是我个人喜好。你可以使用 + 或 advancedBy() ,这两者作用一致。</p>    <pre>  <code class="language-swift">return NSData(    bytesNoCopy: rawMemory,     length: bufferLength,     deallocator: { (ptr, length) in      ptr.destroy(length)      ptr.dealloc(length)  })  </code></pre>    <p>最后要注意的,我们将数据返回给调用者。此时已经分配了一个合适的缓存区,接着使用 bytesNoCopy 进行初始化操作,将适当的长度以及闭包作为参数传递给函数。</p>    <p>为什么要传递一个用作释放的闭包参数(deallocator)呢?从技术上讲,你或许可以使用 NSData(bytesNoCopy:length:freeWhenDone:) 侥幸实现,但无法保证没有意外发生。倘若 Swift runtime 没有使用系统默认的 malloc/free 方法,而是采用其他内存分配方式,那么你将得到一个报错。</p>    <p>如果我们的缓存区恰巧需要存储一些复杂的 Swift 类型,适时的释放操作是必须的:你必须调用 ptr.destroy(count) 来进行释放,需要借助引用类型,递归枚举用例等等,否则会造成内存泄露。在本例中,我们知道 Float32 和 Int64 类型所占位数,从技术正确角度来讲,调用 destroy 方法能够更好的保证这一点。</p>    <h2>解码(decoding)</h2>    <pre>  <code class="language-swift">guard    data.bytes != nil &&      data.length > (_sizeOfCount + _sizeOfPair)    else { return [] }  </code></pre>    <p>首先,我们确保 NSData 中的指针不为 nil ,并且足够容纳 Int64 数量的点数组。这为接下来的操作铺平了道路,不需要再进行一些额外的安全检查。</p>    <pre>  <code class="language-swift">let rawMemory = data.bytes  let buffer = rawMemory + _sizeOfCount    // 从内存中获取到 Int64 类型的点个数  let pointCount64 = UnsafePointer<Int64>(rawMemory).memory    precondition(    Int64(MaxPoints) < Int64(Int32.max),    "MaxPoints would overflow on 32-bit platforms")  precondition(    pointCount64 > 0 && pointCount64 < Int64(MaxPoints),    "Invalid pointCount = \(pointCount64)")    let pointCount = Int(pointCount64)  </code></pre>    <p>接下来设置我们的指针。再次将原始指针强制转换成 Int64 类型的指针,此时我们使用了非可变指针,这是出于只读操作的考虑。</p>    <p>注意到前面代码中我将点个数类型设置为 64 位,这样确保了 Int32.max 不会溢出或下溢;C 语言中经常使用 if(value + x > INT_MAX) 判断检查是否溢出,属于未定义行为之一。现在请放下手上工作思考一分钟:计算机是如何处理 value + x 超出整型最大值的情况呢?答案是:无法继续累加,转而变成一个负值。那么当我们使用一个超大的负值进行类似 malloc 或 is_admin() 操作时会发生什么情况呢?这是我留给读者的一个课后小作业。</p>    <p>末行代码将点个数转换成 Int 类型。 32 位平台上一旦值超过 Int32.max ,我们将会陷入“万劫不复”。Swift 相对于 C 语言要安全的多 —— 我们必须时刻警惕值溢出或下溢的情况发生。一旦此类情况发生,程序就会在运行时崩溃,值得庆幸的是,程序在挂掉之前会给出清晰的错误提示。</p>    <p>64 位平台上,绝对有可能超过 4GB 容量点数组的情况(数值超过大约42亿),代码需要进一步重构。不过对于我的需求来说无关紧要,所以这里采用了硬编码限制了容量。这也使得在 64 位系统上创建的值无法加载到 32 位系统当中(这只是理论上最大值的情况,实际我所使用的容量将会小得多)。</p>    <pre>  <code class="language-swift">var points: [CGPoint] = []  points.reserveCapacity(pointCount)    for ptr in (0..<pointCount).map({    UnsafePointer<Float32>(buffer) + (2 * $0)  }) {    points.append(      CGPoint(        x: CGFloat(ptr.memory),        y: CGFloat(ptr.advancedBy(1).memory))    )  }    return points  </code></pre>    <p>代码也很简单。我们设定数组的备用容量,以避免重新分配。这不会对性能造成太大影响,毕竟我们已经知道了最大限制容量,所以这么做没什么问题。</p>    <p>另外,指针类型为 Float32 ,Swift 知道该类型所占内存大小。我们只需要将索引值乘以2( 2 * $0 )得到下一对坐标点的指针,然后从指针指向的内存区域读取数值。</p>    <h2>关于测试</h2>    <p>毫无疑问,类似这种类型都应该使用 Address Sanitizer 内存检测用具来帮助捕获任何滥用内存的问题,并且在产品发布前应该进行大量的代码审查(或借助 AFL fuzzing 同样能够方便揭露一些问题)。</p>    <p>我从来不敢 100% 保证代码中任何有关线程或内存的部分不会出现纰漏。我甚至无法 100% 确定本文用例没有 bug。不过我使用 Addess Sanitizer 工具并没有发现任何问题,但我坚信一个好的程序员应该有敬畏之心。时刻警惕那些可能出现的错误或失误(如果你发现本文有任何纰漏,请留言告知我!)</p>    <p>包括你在内,没有人优秀到写代码可以完全避免缓冲区溢出。</p>    <h2>总结</h2>    <p>Swift 编译器始终重视安全问题,但它有时也令人心寒。如果你保证不做一些调皮的事情,它会完全信任你。如果你有必要做一些字节或 void 指针操作,请重新创建一个 .swift 文件然后在里面使用。</p>    <h2>最终实现</h2>    <p>我已经在最终实现的用例 gist 中嵌入了要点和详细注释。如果对你有帮助的话,请尽情使用它。</p>    <pre>  <code class="language-swift">// Written by Russ Bishop  // MIT licensed, use freely.  // No warranty, not suitable for any purpose. Use at your own risk!    struct PointEncoder {    // When parsing if we get a wildly large value we can    // assume denial of service or corrupt data.    static let MaxPoints = 1_310_719      // How big an Int64 is    private static let _sizeOfCount = sizeof(Int64.self)      // How big a point (two Float32s are)    private static let _sizeOfPair = 2 * sizeof(Float32.self)        static func encodePoints(points: [CGPoint]) -> NSData? {      guard !points.isEmpty && points.count < MaxPoints else { return nil }        // Total size of the buffer      let bufferLength = _sizeOfCount + (points.count * _sizeOfPair)      precondition(bufferLength >= (_sizeOfCount + _sizeOfPair), "Empty buffer?")      precondition(bufferLength < megabytes(10), "Buffer would exceed 10MB")            let rawMemory = UnsafeMutablePointer<Void>.alloc(bufferLength)        // Failed to allocate memory      guard rawMemory != nil else { return nil }        // Store the point count in the first portion of the buffer      UnsafeMutablePointer<Int64>(rawMemory).memory = Int64(points.count)        // The remaining bytes are for the Float32 pairs      let buffer = UnsafeMutablePointer<Float32>(rawMemory + _sizeOfCount)        // Store the points      for (index, point) in points.enumerate() {        // Since buffer is UnsafeMutablePointer<Float32>, addition counts        // the number of Float32s, *not* the number of bytes!        let ptr = buffer + (index * 2)          // Store the point values.        ptr.memory = Float32(point.x)        ptr.advancedBy(1).memory = Float32(point.y)      }        // We can tell NSData not to bother copying memory.      // For consistency and since we can't guarantee the memory allocated      // by UnsafeMutablePointer can just be freed, we provide a deallocator      // block.       return NSData(        bytesNoCopy: rawMemory,        length: bufferLength,        deallocator: { (ptr, length) in          // If ptr held more complex types, failing to call          // destroy will cause lots of leakage.          // No one wants leakage.          ptr.destroy(length)          ptr.dealloc(length)      })    }      static func decodePoints(data: NSData) -> [CGPoint] {      // If we don't have at least one point pair      // and a size byte, bail.      guard        data.bytes != nil &&          data.length > (_sizeOfCount + _sizeOfPair)        else { return [] }        let rawMemory = data.bytes      let buffer = rawMemory + _sizeOfCount        // Extract the point count as an Int64      let pointCount64 = UnsafePointer<Int64>(rawMemory).memory        // Swift is safer than C here; you can't      // accidentally overflow/underflow and not      // trigger a trap, but I am still checking      // to provide better error messages.      // In all cases, better to kill the process      // than corrupt memory.      precondition(        Int64(MaxPoints) < Int64(Int32.max),        "MaxPoints would overflow on 32-bit platforms")      precondition(        pointCount64 > 0 && pointCount64 < Int64(MaxPoints),        "Invalid pointCount = \(pointCount64)")        // On 32-bit systems this would trap if      // MaxPoints were too big and we didn't      // check above.      let pointCount = Int(pointCount64)      precondition(        _sizeOfPair + (_sizeOfCount * pointCount) <= data.length,        "Size lied or buffer truncated")        var points: [CGPoint] = []      // Small optimization since      // we know the array size      points.reserveCapacity(pointCount)        for ptr in (0..<pointCount).map({        // buffer points past the size header        // Again, since the pointer knows we are        // counting Float32 values we want the        // number of Float32s, *not* their size        // in bytes!        UnsafePointer<Float32>(buffer) + (2 * $0)      }) {        points.append(          CGPoint(            x: CGFloat(ptr.memory),            y: CGFloat(ptr.advancedBy(1).memory))        )      }        return points    }  }    func kilobytes(value: Int) -> Int {    return value * 1024  }    func megabytes(value: Int) -> Int {    return kilobytes(value * 1024)  }    func gigabytes(value: Int) -> Int {    return megabytes(value * 1024)  }  </code></pre>    <p>本文由 SwiftGG 翻译组翻译,已经获得作者翻译授权,最新文章请访问http://swift.gg。</p>    <p> </p>    <p>来自:http://swift.gg/2016/09/01/packing-bytes-in-swift/</p>    <p> </p>