-
阅读本文你将收获:
- iOS编译流程
- 明确 __text、__data 的含义
- iOS dSYM 的作用和生成方式
- 明白iOS crash堆栈符号化解析流程
source:
前言
像C++,Objective C都是编译语言。编译语言在执行的时候,必须先通过编译器生成机器码,机器码可以直接在CPU上执行,所以执行效率较高。
像JavaScript,Python都是直译式语言。直译式语言不需要经过编译的过程,而是在执行的时候通过一个中间的解释器将代码解释为CPU可以执行的代码。所以,较编译语言来说,直译式语言效率低一些,但是编写的更灵活,也就是为啥JS大法好。
iOS开发目前的常用语言是:Objective和Swift。二者都是编译语言,换句话说都是需要编译才能执行的。二者的编译都是依赖于Clang + LLVM. 篇幅限制,本文只关注Objective C,因为原理上大同小异。
可能会有同学想问,我不懂编译的过程,写代码也没问题啊?这点我是不否定的。但是,充分理解了编译的过程,会对你的开发大有帮助。本文的最后,会以以下几个例子,来讲解如何合理利用XCode和编译
__attribute__
- Clang警告处理
- 预处理
- 插入编译期脚本
- 提高项目编译速度
对于不想看我啰里八嗦讲一大堆原理的同学,可以直接跳到本文的最后一个章节。
一、iOS编译
Objective C采用Clang(swift采用swiftc)作为编译器前端,LLVM作为编译器后端。
简单的编译过程如图
(一)编译器前端
编译器前端的任务是进行:词法分析,语法分析,语义分析,生成中间代码(intermediate representation )。在这个过程中,会进行类型检查,如果发现错误或者警告会标注出来在哪一行。
(二)编译器后端
编译器后端会进行机器无关的代码优化,生成机器语言,并且进行机器相关的代码优化。iOS的编译过程,后端的处理如下
- LVVM优化器会进行BitCode的生成,链接期优化等等。
- LLVM机器码生成器会针对不同的架构,比如arm64等生成不同的机器码。
二、执行一次XCode build的流程
当你在XCode中,选择build的时候(快捷键command+B),会执行如下过程
- 编译信息写入辅助文件,创建编译后的文件架构(name.app)
- 处理文件打包信息,例如在debug环境下
1
2
3
4
5Entitlements:
{
"application-identifier" = "app的bundleid";
"aps-environment" = development;
} - 执行CocoaPod编译前脚本
- 例如对于使用CocoaPod的工程会执行
CheckPods Manifest.lock
- 例如对于使用CocoaPod的工程会执行
- 编译各个.m文件,使用
CompileC
和clang
命令。通过这个编译的命令,我们可以看到1
2
3
4CompileC ClassName.o ClassName.m normal x86_64 objective-c com.apple.compilers.llvm.clang.1_0.compiler
export LANG=en_US.US-ASCII
export PATH="..."
clang -x objective-c -arch x86_64 -fmessage-length=0 -fobjc-arc... -Wno-missing-field-initializers ... -DDEBUG=1 ... -isysroot iPhoneSimulator10.1.sdk -fasm-blocks ... -I 上文提到的文件 -F 所需要的Framework -iquote 所需要的Framework ... -c ClassName.c -o ClassName.o
1 | clang是实际的编译命令 |
- 链接需要的Framework,例如
Foundation.framework
,AFNetworking.framework
,ALiPay.fframework
- 编译xib文件
- 拷贝xib,图片等资源文件到结果目录
- 编译ImageAssets
- 处理info.plist
- 执行CocoaPod脚本
- 拷贝Swift标准库
- 创建.app文件和对其签名
三、IPA包的内容
例如,我们通过iTunes Store下载微信,然后获得ipa安装包,然后实际看看其安装包的内容。
- 右键ipa,重命名为
.zip
- 双击zip文件,解压缩后会得到一个文件夹。所以,ipa包就是一个普通的压缩包。
- 右键图中的
WeChat
,选择显示包内容,然后就能够看到实际的ipa包内容了。
四、二进制文件的内容
通过XCode的Link Map File,我们可以窥探二进制文件中布局。
在XCode -> Build Settings -> 搜索map -> 开启Write Link Map File
开启后,在编译,我们可以在对应的Debug/Release目录下看到对应的link map的text文件。
默认的目录在
1 | ~/Library/Developer/Xcode/DerivedData/<TARGET-NAME>-对应ID/Build/Intermediates/<TARGET-NAME>.build/Debug-iphoneos/<TARGET-NAME>.build/ |
例如,我的TargetName是EPlusPan4Phone
,目录如下
1 | /Users/huangwenchen/Library/Developer/Xcode/DerivedData/EPlusPan4Phone-eznmxzawtlhpmadnbyhafnpqpizo/Build/Intermediates/EPlusPan4Phone.build/Debug-iphonesimulator/EPlusPan4Phone.build |
Tips:
Derived Data是一个文件夹,它默认情况下位于: ~/Library/Developer/Xcode/DerivedData 。 它是Xcode存储各种中间构建结果、生成索引等的位置。
(一)iOS Link Map File 文件说明
1. Link Map File 是什么
Link Map File 直译为 链接映射文件,是 Xcode 生成可执行文件时一起生成的文本,用于记录链接相关信息。
- 可执行文件的路径
- CPU架构
- .o目标路径
- 方法符号
2. Link Map File 有什么用
- 查看代码加载顺序
- 理解内存分段分区
- Crash 时通过 Symbols 定位源码的机制
- 分析可执行文件中类或库体积,优化包体积
3. 生成 Link Map File
Xcode 在生成可执行文件的时候默认情况下不生成该文件。
在Xcode的配置中 Target -> Build Setting -> Linking
将Write Link Map File设置为YES来生成Link Map File,运行代码即可生成Link Map File
Linking下还可以看到生成文件的路径
通过这个路径可以访问到
~/Developer/Xcode/DerivedData/项目/Build/Intermediates.noindex/项目.build/Debug-iphonesimulator/项目.build/项目-LinkMap-normal-x86_64.txt
还有一个简便方法,在Products下找到.app文件,返回上层后根据路径找到Link Map
4. 查看 Link Map File
Link Map File主要分为3个部分
- 路径部分,展示生成的相关文件路径
- Section部分,展示相关地址段
- Symbols部分,方法符号段
(1)路径部分
- Path是.app文件路径
- Object files是.o文件路径
(2)计算机系统知识
a. text 段
这部分区域的大小在程序运行前就已经确定,并且内存区域通常属于只读(某些架构也允许代码段为可写,即允许修改程序)。
代码段(code segment/text segment)通常是指用来存放程序执行代码的一块内存区域。
在代码段中,也有可能包含一些只读的常数变量,例如字符串常量等。
b. data 段
数据段(data segment)通常是指用来存放程序中已初始化的全局变量的一块内存区域。
c. bss 段
bss段(bss segment)通常是指用来存放程序中未初始化的全局变量的一块内存区域。
bss是英文Block Started by Symbol的简称。
d. 堆(heap)
堆是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。
当进程调用malloc等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张);
当利用free等函数释放内存时,被释放的内存从堆中被剔除(堆被缩减)。
e. 栈(stack)
栈又称堆栈,是用户存放程序临时创建的局部变量,
也就是说我们函数括弧“{}”中定义的变量(但不包括static声明的变量,static意味着在数据段中存放变量)。
除此以外,在函数被调用时,其参数也会被压入发起调用的进程栈中,并且待到调用结束后,函数的返回值也会被存放回栈中。
由于栈的先进先出(FIFO)特点,所以栈特别方便用来保存/恢复调用现场。
从这个意义上讲,我们可以把堆栈看成一个寄存、交换临时数据的内存区。
(3)Section 部分
Mach-O 文件中的虚拟地址最终会映射到物理地址上。这些地址被分成不同的Segement: __TEXT段、__DATA段、__LINKEDIT段。
- __TEXT 包含 Mach header,被执行的代码和只读常量(如C 字符串),只读可执行(r-x)。
- __DATA 包含全局变量,静态变量等,可读写(rw-)。
- __LINKEDIT 包含了加载程序的元数据,比如函数的名称和地址,只读(r–)。
Segement 划分成了不同的 Section,不同的 Section 存储着不同的信息,下面是一些常用的 Section 的介绍。
a. __TEXT段中的 Section
b. __DATA段中的 Section
(4) Symbols 部分
- Address:方法代码的地址
- Size:方法占用的空间
- File:文件的编号
- Name:.o文件里面的方法符号
(5)二进制重排
二进制重排 就是要重新排列这些 方法符号的顺序 ,中心思想就是把启动用到的代码挪到前面的位置加载!
(二)解读 Link Map File 的内容
这个映射文件的主要包含以下部分:
1. Object files
这个部分包括的内容
.o 文文件,也就是上文提到的.m文件编译后的结果。
.a文件
需要link的framework
#! Arch: x86_64
#Object files:
[0] linker synthesized
[1] /EPlusPan4Phone.build/EPlusPan4Phone.app.xcent
[2]/EPlusPan4Phone.build/Objects-normal/x86_64/ULWBigResponseButton.o
…
[1175]/UMSocial_Sdk_4.4/libUMSocial_Sdk_4.4.a(UMSocialJob.o)
[1188]/iPhoneSimulator10.1.sdk/System/Library/Frameworks//Foundation.framework/Foundation
这个区域的存储内容比较简单:前面是文件的编号,后面是文件的路径。文件的编号在后续会用到
2. Sections
这个区域提供了各个段(Segment)和节(Section)在可执行文件中的位置和大小。这个区域完整的描述克可执行文件中的全部内容。
其中,段分为两种
__TEXT 代码段
__DATA 数据段
例如,之前写的一个App,Sections区域如下,可以看到,代码段的
__text节的地址是0x1000021B0,大小是0x0077EBC3,而二者相加的下一个位置正好是__stubs的位置0x100780D74。
1 | # Sections: |
3. Symbols
Section部分将二进制文件进行了一级划分。而,Symbols对Section中的各个段进行了二级划分,
例如,对于__TEXT __text
,表示代码段中的代码内容。
1 | 0x1000021B0 0x0077EBC3 __TEXT __text //代码 |
而对应的Symbols
,起始地址也是0x1000021B0
。其中,文件编号和上文的编号对应
1 | [2]/EPlusPan4Phone.build/Objects-normal/x86_64/ULWBigResponseButton.o |
具体内容如下
1 | # Symbols: |
到这里,我们知道OC的方法是如何存储的,我们再来看看ivar是如何存储的。
首先找到数据栈中__DATA __objc_ivar
1 | 0x100A4A248 0x0000A500 __DATA __objc_ivar |
然后,搜索这个地址0x100A4A248
,就能找到ivar的存储区域。
1 | 0x100A4A248 0x00000008 [ 3] _OBJC_IVAR_$_ULWCategoryController._liveAPI |
值得一提的是,对于String,会显式的存储到数据段中,例如,
1 | 0x1008065C2 0x00000029 [ 11] literal string: http://sns.whalecloud.com/sina2/callback |
所以,若果你的加密Key以明文的形式写在文件里,是一件很危险的事情。
Tips:为什么危险了?难道通过ipa文件也能获取到 __text、__data 这些数据?
五、dSYM 文件
全称:debug symbol
.dSYM文件是一个符号表文件, 这里面包含了一个16进制的保存函数地址映射信息的中转文件, 所有Debug的symbols都在这个文件中(包括文件名、函数名、行号等). 一般Xcode项目每次编译后, 都会产生一个新的.dSYM文件和.app文件, 这两者有一个共同的UUID.
我们在每次编译过后,都会生成一个dsym文件。dsym文件中,存储了16进制的函数地址映射。
在App实际执行的二进制文件中,是通过地址来调用方法的。在App crash的时候,第三方工具(Fabric,友盟等)会帮我们抓到崩溃的调用栈,调用栈里会包含crash地址的调用信息。然后,通过dSYM文件,我们就可以由地址映射到具体的函数位置。
XCode中,选择Window -> Organizer可以看到我们生成的archier文件
然后,
- 右键 -> 在finder中显示。
- 右键 -> 查看包内容。
关于如何用dsym文件来分析崩溃位置,可以查看我之前的一篇博客。
Tips:我明白客户端crash堆栈解析的流程了:
上传 app store 前会编archier文件,这个文件存储了函数地址映射关系
等上传完crash堆栈后,根据 archier 文件 就可以反解出符号表。
其实在 使用 Time Profile 定位可复现掉帧bug这个章节中我就已经接触到 dSYM 了,通过 dSYM 可以把卡顿的地方符号化处理。
六、那些你想到和想不到的应用场景
(一)iOS 如何调试第三方统计到的崩溃报告
前言:App上线四个月了,陆陆续续也在友盟上收到一些崩溃报告。这里就写一篇博客,简单介绍下如何debug。
有一点要记住,不要指望着复现bug靠断点调试,有些bug,例如多线程引起的,很难复现
1. 核心命令
dwarfdump --lookup 0x0007434d -arch arm7 uau1.3.0.app.dSYM
2. dSYM文件
XCode中
Window->Organizer->选择提交到App Store的Archies->右键,showin finder
右键->显示包内容,在dsym文件件里的就是符号表文件。这里包含着debug信息
或者window->Orgainzer,直接download dsym
3. 崩溃报告
以我收到的这个为例
1 | -[NSNull length]: unrecognized selector sent to instance 0x198705e70 |
第一部分,看看UUID
916F22F5-F3B1-3709-BB7E-5B11267B5D1F
使用命令查看dsym文件的uuid
1 | huangwenchendeMacBook-Pro:Dsym调试 huangwenchen$ dwarfdump --uuid uau1.3.0.app.dSYM/ |
对照可以看到,uuid是一致的,那么这个dsym文件可用
4. 对于 uuid 的理解
每个人手机的 uuid 都是不一样的吗? 每个 app 的 uuid 是相同的吗?
UUID是指在一台机器上生成的数字,它保证对在同一时空中的所有机器都是唯一的。
第3部分的背景是说每一个 app 的ipa包有一个唯一的 uuid,方便我们定位是哪个包。
5. 找到?????部分
之所以要找到这部分,是因为crash log中call tree没办法识别的部分,往往就是自己代码的部分。
我的Crash Log中,分别是这三行
1 | 8 ????????? 0x00000001000bf900 ????????? + 358656 |
然后,用命令定位到代码crash处
dwarfdump --lookup 0x000000010007528c -arch arm64 uau1.3.0.app.dSYM
看到Log
1 | Looking up address: 0x000000010007528c in .debug_info... found! |
其中,这两行
1 | AT_name( "-[UAUOneStampMarketInfo insitutionName]" ) |
基本上定定位到了UAUOneStampMarketInfo.m,中的insitutionName方法。
再结合
1 | [NSNull length]: |
(二) __attribute__
或多或少,你都会在第三方库或者iOS的头文件中,见到过__attribute__。
比如
1 | __attribute__ ((warn_unused_result)) //如果没有使用返回值,编译的时候给出警告 |
__attribtue__
是一个高级的的编译器指令,它允许开发者指定更更多的编译检查和一些高级的编译期优化。
分为三种:
- 函数属性 (Function Attribute)
- 类型属性 (Variable Attribute )
- 变量属性 (Type Attribute )
语法结构
__attribute__
语法格式为:__attribute__ ((attribute-list))
放在声明分号“;”前面。
比如,在三方库中最常见的,声明一个属性或者方法在当前版本弃用了
1 | @property (strong,nonatomic)CLASSNAME * property __deprecated; |
这样的好处是:给开发者一个过渡的版本,让开发者知道这个属性被弃用了,应当使用最新的API,但是被__deprecated的属性仍然可以正常使用。如果直接弃用,会导致开发者在更新Pod的时候,代码无法运行了。
__attribtue__
的使用场景很多,本文只列举iOS开发中常用的几个:
1 | //弃用API,用作API更新 |
(三)Clang警告处理
你一定还见过如下代码:
1 | #pragma clang diagnostic push |
这段代码的作用是
- 对当前编译环境进行压栈
- 忽略
-Wundeclared-selector
(未声明的)Selector警告 - 编译代码
- 对编译环境进行出栈
通过clang diagnostic push/pop,你可以灵活的控制代码块的编译选项。
我在之前的一篇文章里,详细的介绍了XCode的警告相关内容。本文篇幅限制,就不详细讲解了。
在这个链接,你可以找到所有的Clang warnings警告
(四)预处理
所谓预处理,就是在编译之前的处理。预处理能够让你定义编译器变量,实现条件编译。
比如,这样的代码很常见
1 | #ifdef DEBUG |
同样,我们同样也可以定义其他预处理变量,在XCode-选中Target-build settings中,搜索preprocess。然后点击图中蓝色的加号,可以分别为debug和release两种模式设置预处理宏。
比如我们加上:TestServer
,表示在这个宏中的代码运行在测试服务器
然后,配合多个Target(右键Target,选择Duplicate),单独一个Target负责测试服务器。这样我们就不用每次切换测试服务器都要修改代码了。
1 | #ifdef TESTMODE |
(五)插入脚本
通常,如果你使用CocoaPod来管理三方库,那么你的Build Phase是这样子的:
其中:[CP]开头的,就是CocoaPod插入的脚本。
- Check Pods Manifest.lock,用来检查cocoapod管理的三方库是否需要更新
- Embed Pods Framework,运行脚本来链接三方库的静态/动态库
- Copy Pods Resources,运行脚本来拷贝三方库的资源文件
而这些配置信息都存储在这个文件(.xcodeproj)里
到这里,CocoaPod的原理也就大致搞清楚了,通过修改xcodeproject,然后配置编译期脚本,来保证三方库能够正确的编译连接。
同样,我们也可以插入自己的脚本,来做一些额外的事情。比如,每次进行archive的时候,我们都必须手动调整target的build版本,如果一不小心,就会忘记。这个过程,我们可以通过插入脚本自动化。
1 | buildNumber=$(/usr/libexec/PlistBuddy -c "Print CFBundleVersion" "${PROJECT_DIR}/${INFOPLIST_FILE}") |
这段脚本其实很简单,读取当前pist的build版本号,然后对其加一,重新写入。
使用起来也很简单:
- Xcode - 选中Target - 选中build phase
- 选择添加Run Script Phase
然后把这段脚本拷贝进去,并且勾选Run Script Only When installing,保证只有我们在安装到设备上的时候,才会执行这段脚本。重命名脚本的名字为Auto Increase build number
然后,拖动这个脚本的到Link Binary With Libraries下面
(六)脚本编译打包
脚本化编译打包对于CI(持续集成)来说,十分有用。iOS开发中,编译打包必备的两个命令是:
1 | //编译成.app |
- 完整的脚本,使用的时候,需要拷贝到工程的根目录
(七)提高项目编译速度
通常,当项目很大,源代码和三方库引入很多的时候,我们会发现编译的速度很慢。在了解了XCode的编译过程后,我们可以从以下角度来优化编译速度:
1. 查看编译时间
我们需要一个途径,能够看到编译的时间,这样才能有个对比,知道我们的优化究竟有没有效果。
对于XCode 8,关闭XCode,终端输入以下指令
1 | $ defaults write com.apple.dt.Xcode ShowBuildOperationDuration YES |
然后,重启XCode,然后编译,你会在这里看到编译时间。
代码层面的优化
2. forward declaration
所谓forward declaration
,就是@class CLASSNAME
,而不是#import CLASSNAME.h
。这样,编译器能大大提高#import的替换速度。
3. 对常用的工具类进行打包(Framework/.a)
打包成Framework或者静态库,这样编译的时候这部分代码就不需要重新编译了。
4. 常用头文件放到预编译文件里
XCode的pch文件是预编译文件,这里的内容在执行XCode build之前就已经被预编译,并且引入到每一个.m文件里了。
编译器选项优化
5. Debug模式下,不生成dsym文件
上文提到了,dysm文件里存储了调试信息,在Debug模式下,我们可以借助XCode和LLDB进行调试。所以,不需要生成额外的dsym文件来降低编译速度。
6. Debug开启Build Active Architecture Only
在XCode -> Build Settings -> Build Active Architecture Only 改为YES。这样做,可以只编译当前的版本,比如arm7/arm64等等,记得只开启Debug模式。这个选项在高版本的XCode中自动开启了。
7. Debug模式下,关闭编译器优化
编译器优化